10.11817/j.issn.1672-7207.2015.06.023
一种基于LDA模型的关键词抽取方法
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1040篇中文摘要及5408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。
信息抽取、关键词抽取、LDA 模型、主题相似性
TP391(计算技术、计算机技术)
2015-08-06(万方平台首次上网日期,不代表论文的发表时间)
共7页
2142-2148