10.3778/j.issn.1002-8331.1806-0117
面向专业领域的中文分词方法
在专业领域分词任务中,基于统计的分词方法的性能受限于缺少专业领域的标注语料,而基于词典的分词方法在处理新词和歧义词方面还有待提高.针对专业领域分词的特殊性,提出统计与词典相结合的分词方法,完善领域词典构建流程,设计基于规则和字表的二次分词歧义消解方法.在工程法领域语料上进行分词实验.实验结果表明,在工程法领域的分词结果准确率为92.08%,召回率为94.26%,F值为93.16%.该方法还可与新词发现等方法结合,改善未登录词的处理效果.
中文分词、专业领域、歧义消解、领域词典、工程法
54
TP30(计算技术、计算机技术)
国家自然科学基金青年科学基金71601047;中国博士后科学基金2015M581706
2018-09-13(万方平台首次上网日期,不代表论文的发表时间)
共6页
30-34,109