期刊专题

遗传算法在改进文本特征提取方法中的应用

引用
[目的]综合分析特征提取方法并对传统特征提取流程和方法进行改进.[方法]利用特征池进行特征词预选,引入遗传算法对候选特征词分组编码并提取最佳特征向量.[结果]改进的文本特征提取方法在使用KNN计算适应度值时效果最佳,而且在特征维数较少时效果更为明显.同时在针对不同特征维数和语料库时,分类准确率更加稳定.[局限]实验语料库质量有待提高;构造特征池时只使用CHI和IG两种特征提取方法;使用分组编码时没考虑词与词之间的语义关系;种群数量和迭代次数受限于计算的复杂性.[结论]加入特征池进行特征预提取能够提高文本分类准确率的稳定性,而加入遗传算法到文本特征提取中可以提高特征提取的效果,遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度.

文本分类、特征提取、遗传算法、特征池

G254;TP391(图书馆学、图书馆事业)

国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”71373291;国家高技术研究发展计划863计划资助项目“农产品全供应链多源信息感知技术与产品开发”项目2012AA101701的研究成果之一

2014-05-22(万方平台首次上网日期,不代表论文的发表时间)

共10页

48-57

暂无封面信息
查看本期封面目录

现代图书情报技术

1003-3513

11-2856/G2

2014,(4)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn