10.11896/j.issn.1002-137X.2018.01.006
基于Lasso算法的中文情感混合特征选择方法研究
中文情感分析中的一个重要问题就是情感倾向分类,情感特征选择是基于机器学习的情感倾向分类的前提和基础,其作用在于通过剔除无关或冗余的特征来降低特征集的维数.提出一种将Lasso算法与过滤式特征选择方法相结合的情感混合特征选择方法:先利用Lasso惩罚回归算法对原始特征集合进行筛选,得出冗余度较低的情感分类特征子集;再对特征子集引入CHI,MI,IG等过滤方法来评价候选特征词与文本类别的依赖性权重,并据此剔除候选特征词中相关性较低的特征词;最终,在使用高斯核函数的SVM分类器上对比所提方法与DF,MI,IG和CHI在不同特征词数量下的分类效果.在微博短文本语料库上进行了实验,结果表明所提算法具有有效性和高效性;并且在特征子集维数小于样本数量时,提出的混合方法相比DF,MI,IG和CHI的特征选择效果都有一定程度的改善;通过对比识别率和查全率可以发现,Lasso-MI方法相比MI以及其他过滤方法更为有效.
中文情感分析、特征选择、Lasso、情感分类、机器学习
45
TP391(计算技术、计算机技术)
国家自然科学基金项目61573259;上海市进一步加快中医药事业发展三年行动计划2014-2016年ZY3-CCCX-3-6002;中央高校基本科研专项资金0800219302,0800219315
2018-04-04(万方平台首次上网日期,不代表论文的发表时间)
共8页
39-46