10.11896/j.issn.1002-137X.2018.01.021
基于领域本体的文本分割方法研究
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用.在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法.该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割.实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法.
文本分割、领域本体、语义标注、语义段落
45
TP391.1(计算技术、计算机技术)
2018-04-04(万方平台首次上网日期,不代表论文的发表时间)
共6页
128-132,156