期刊专题

10.3321/j.issn:0469-5097.2009.03.012

基于遗传算法的文档聚类算法的设计与仿真

引用
在各种聚类算法中,K-means是一种基于划分的经典算法.但是由于K-means方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法.通过关键字之间的部分相似度,设计出更加精确的文档相似度计算公式.在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;适应度甬数采用所有类内距离的均方差之和加1的倒数表示,当类内均方差之和越小,则个体的适应度越大,被选择进入下一代的概率也越大.通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优,最终找到最优的类中心点.通过实验仿真.K-means收敛速度快,聚类的平均目标函数大于genetic algorithm(GA)且正确率明显小于GA.本文提出的GA算法的分类IF确率能达到98%以上,与传统的K-means方法相比,聚类的准确性更高,说明本文提出的算法是一种行之有效的文档聚类方法.

文档聚类、遗传算法、相似度、类中心

45

TP18(自动化基础理论)

National Natural Science Foundation of China10771076

2009-07-03(万方平台首次上网日期,不代表论文的发表时间)

共7页

432-438

暂无封面信息
查看本期封面目录

南京大学学报(自然科学)

0469-5097

32-1169/N

45

2009,45(3)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn