10.19998/j.cnki.2095-1795.2023.06.004
融合新词发现和改进TextRank算法的农业领域关键词提取算法
针对农业领域文本中专业术语类关键词提取困难的问题,提出了一种融合新词发现和改进TextRank算法的农业领域关键词提取方法.该算法利用信息熵对文本中的词进行成词概率计算,以此发现领域专有名词和新词,通过人工审核扩充分词字典;在分词字典基础上,改进TextRank算法在词图构建中节点值的计算方法,添加词语位置和词性权重,利用词语综合权重提取文本关键词.对比结果表明,该算法的F值比传统的TF-IDF算法平均提高 7.5%,比TextRank算法平均提高9.8%,具有一定的实用性.
关键词提取、新词发现、信息熵、TextRank算法、关键词的特征信息统计.因此、研究人员基于LDA模型进行了改进、如韦强申[8]将LDA与word2 vec模型相融合、将词汇向量化表示、并计算相似度、扩展关键词集、李湘东等[9]将词性、词语位置等权重扩展到LDA、增强了特征的表意性等.
13
S126(农业物理学)
2023-10-12(万方平台首次上网日期,不代表论文的发表时间)
共5页
21-25