基于藏文新闻文本话题检测的聚类算法研究
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.
聚类算法、种子话题、藏文新闻文本、话题检测
48
TP391.43(计算技术、计算机技术)
甘肃省自然科学基金项目1107RJZA157
2014-03-21(万方平台首次上网日期,不代表论文的发表时间)
共5页
37-41