DOI：10.11817/j.issn.1672-7207.2015.06.023

一种基于LDA模型的关键词抽取方法

引用

摘要：

为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性，提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重，利用共现信息排序和选择相邻词汇形成候选关键短语，再使用相似性排除隐含主题一致的冗余短语。此外，从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试，实验在1040篇中文摘要及5408个关键词构成的测试集上展开。结果表明，算法有效地提高文档关键词抽取的准确率与召回率。

关键词：信息抽取、关键词抽取、LDA 模型、主题相似性

分类号：TP391(计算技术、计算机技术)

在线出版日期：2015-08-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：2142-2148

英文信息展示

期刊专题