10.11925/infotech.2096-3467.2020.0361
基于均衡段落和分话题向量的新闻热点话题检测研究
[目的]通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力.[方法]在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提取标题高频词实现话题描述.[结果]WTF-IDF方法在关键词抽取数为3时与TF-IDF方法相比F1值提升5.4%;基于WTF-IDF与分话题向量的分层聚类与分层TF-IDF的K-means聚类相比准确提升3.1%.[局限]关键词抽取未考虑短语形式;分层聚类方法增加了算法时间复杂度.[结论]本文提出的关键词抽取和分层聚类方法可以改善新闻热点话题检测效果,话题描述得到的话题短语也达到一定的代表性与可读性.
均衡段落、分话题向量、热点话题检测、分层聚类
4
TP391;G250(计算技术、计算机技术)
本文系中国科学技术信息研究所重点工作项目“多语言科技信息服务关键技术研究与应用二期”项目编号:ZD2019-20;“俄汉跨语言知识发现与服务研究”
2021-02-25(万方平台首次上网日期,不代表论文的发表时间)
共10页
70-79