遗传算法在改进文本特征提取方法中的应用

引用

摘要：

[目的]综合分析特征提取方法并对传统特征提取流程和方法进行改进.[方法]利用特征池进行特征词预选,引入遗传算法对候选特征词分组编码并提取最佳特征向量.[结果]改进的文本特征提取方法在使用KNN计算适应度值时效果最佳,而且在特征维数较少时效果更为明显.同时在针对不同特征维数和语料库时,分类准确率更加稳定.[局限]实验语料库质量有待提高;构造特征池时只使用CHI和IG两种特征提取方法;使用分组编码时没考虑词与词之间的语义关系;种群数量和迭代次数受限于计算的复杂性.[结论]加入特征池进行特征预提取能够提高文本分类准确率的稳定性,而加入遗传算法到文本特征提取中可以提高特征提取的效果,遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度.

关键词：文本分类、特征提取、遗传算法、特征池

分类号：G254;TP391(图书馆学、图书馆事业)

资助基金：国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”71373291;国家高技术研究发展计划863计划资助项目“农产品全供应链多源信息感知技术与产品开发”项目2012AA101701的研究成果之一

在线出版日期：2014-05-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：48-57

英文信息展示

期刊专题