一种面向科技项目文本的相似度度量方法

引用

摘要：

现有的文本相似度度量方法主要采用TF-IDF方法,把文本建模为词频向量,但未考虑文本的结构特征.现将文本的结构特征和TF-IDF方法进行融合,提出了一种面向科技项目文本的相似度度量方法.该方法首先对文本进行预处理,其次根据文本的结构特征提取模块文本,然后使用TF-IDF方法提取每个模块文本的TOP-N关键词,作为模块文本的特征向量表示,最后使用余弦聚类计算文本的相似度.实验结果表明,在电力行业的科技项目文档数据集上,所提方法优于TF-IDF方法.

关键词：文本相似度、TF-IDF、文本聚类、自然语言处理

所属期刊栏目：46

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金项目61702442

在线出版日期：2020-06-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：31-34,39

英文信息展示

期刊专题