基于图挖掘的文本主题识别方法研究综述
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法.中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题.基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题.
文本主题识别、图挖掘、中心度、Clique子团
G252.8(图书馆学、图书馆事业)
国家自然科学基金项目“基于语言网络的文本主题中心度计算方法研究”61075047的研究成果之一
2015-12-14(万方平台首次上网日期,不代表论文的发表时间)
共12页
97-108