面向专利文献的汉语分词技术研究
针对专利文献专业术语多、领域广的特点,采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题.利用NC-value算法抽取专业术语,使用条件随机场模型(CRF)提高专业术语识别率,提高分词精度.实验结果表明,提出的方法在开放测试下分词的准确率为95.56%,召回率为96.18%,F值为95.87%,大大提高了专利文献的分词精度.
汉语分词、条件随机场、专业术语提取
49
TP391(计算技术、计算机技术)
中央高校基本科研业务费专项资金2009JBM027,2010JBZ2007;北京市重点学科共建项目;中国科学院计算技术研究所智能信息处理重点实验室开放课题IIP2010-4;北京交通大学人才基金2011RC034
2017-01-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
159-164