10.3778/j.issn.1002-8331.2004-0097
裁判文书关键词提取的改进方法研究
在国家加强依法治国的方针指引下,自然语言处理(NLP)和信息检索(IR)等领域与法治社会的深入结合是必然趋势.为司法工作者提供正确、全面的智能化辅助以提高工作效率,对裁判文书的关键词提取方法进行了研究.针对传统关键词提取方法的劣势,结合词语的词性、长度、词跨度、位置以及文档所属类别等多重因素,并基于图模型的TextRank算法,提出了一种改进的TF-IDF算法(IAKEF),引入信息熵、离散度、融合特征的概念,主要解决了传统算法对于词语在语义上的忽略和类间、类内信息分布上的问题,使其能够更有效地从文本中选择特征.通过对比实验,对改进算法的效果进行分析和评价,实验结果表明改进的算法与传统的算法相比在准确率、召回率及F1-Measure上均有显著的提高.
改进TF-IDF、关键词抽取、信息熵、离散度、特征融合
56
TP391.1(计算技术、计算机技术)
中国工程院中长期咨询研究项目No.2017-ZCQ-10
2020-12-04(万方平台首次上网日期,不代表论文的发表时间)
共8页
153-160