识别的集成算法研究-电动滚圆机滚弧机折弯机张家港电动液压滚圆
作者:lujianjun | 来源:泰宇机械 | 发布时间:2019-06-22 10:36 | 浏览次数:

目前大部分微博情绪分析研究集中在粗粒度情绪的划分,但细粒度微博情绪更能反映公众对舆论热点、政策的反应。因此提出了一种结合朴素贝叶斯和K最近邻的集成算法,着重对新浪微博展开了情绪识别与分析的研究。首先采用朴素贝叶斯分类算法将微博分为有无情绪两类。然后根据情绪本体库的分类规则,分别构建待预测微博和已标注微博的21维情绪向量。最后采用K最近邻算法,计算待预测情绪微博与已标注情绪微博的向量相似度,从而获取待预测微博的细粒度情绪。实验表明K最近邻算法的引入,在微博细粒度情绪识别的准确率上取得了较好的效果。 ?粗粒度情绪识别,一方面是有无情绪的识别,另一方面是正负情绪的识别。   本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name微博作为一种开放化的社交服务,无论在商业领域或是在管理领域都有着极高的应用价值。企业可以将其作为一个理想的营销平台,而政府则可凭此了解人们对社会公共事件和热点问题的看法观点。但由于其特有的语言风格和本身内容信息的多样、海量等特点,粗粒度的情绪划分在某些情况下已经不能满足当前发展变化的要求,因而对微博情绪的细粒度划分将会日益突显其核心且先进的研究价值。2情绪细粒度识别的总体方案图1识别的集成算法研究-电动滚圆机滚弧机折弯机张家港电动液压滚圆机滚弧机折弯机给出了情绪细粒度识别的总体流程图,从图中可以看到细粒度划分微博情绪的总体流程是先扩展本体库,在大连理工构建的情感本体词汇库的基础上扩展针对微博中网络用语的词汇,而后对测试集和训练集中的微博进行分词。分词结束后,将根据一定规则统计出词语中用于贝叶斯分类的特征项,再通过特征项进行微博有无情绪的识别。下一步,即对测试集和训练集中有情绪的微博文本进行向量化处理,采用K最近邻算法,   本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name计算待预测情绪微博与已标注情绪微博的向量相似度,从而获取待预测微博的细粒度情绪。图1细粒度微博情绪识别流程图Fig.1关键性技术3.1扩展本体库本文对微博的情绪分类识别沿用大连理工大学建立的情感词汇本体。该资源从不同的角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度连同极性等信息。该本体库的情感共分为7大类21小类,具体来说,7类为乐、好、怒、哀、惧、恶、惊;21类为快乐(PA)、安心(PE)、尊敬(PD)、赞扬(PH)、相信(PG)、喜爱(PB)、祝愿(PK)、愤怒(NA)、悲伤(NB)、失望(NJ)、疚(NH)、思(PF)、慌(NI)、恐惧(NC)、通过对大连理工构建的本体库进行针对于微博网络语言词库的扩展,以特征词为驱动,先由朴素贝叶斯分类的算法对微博进行有无情绪的二分类,而后针对有情绪的微博采用K最近邻算法对其进行细粒度情绪的划分。通过对两种分类算法的集成,充分发挥了每个分类算法各自性能上的优势,提高了对微博细粒度情绪的识别准确率。但是通过训练集数据的测试过程也看到了一定的不足,在整个算法中过度地依赖了情感本体库,而现实中的词语多是动态更新变化的,因而对于那些本身是有情绪的而不包含本体库中的词的微博,该算法效果并不明显。针对这些情况的后续处理,即是下一步要做的研究工作识别的集成算法研究-电动滚圆机滚弧机折弯机张家港电动液压滚圆机滚弧机折弯机   本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name