10.3321/j.issn:1002-0470.2006.08.005
中文名实体识别:基于词触发对的条件随机域方法
首次把条件随机域(CRF)模型应用到了中文名实体识别中,且根据中文的特点,定义了多种特征模板.同时,为了解决长距离约束问题,将词语触发对融合到了CRF模型中.提出了基于词语方差(word variance)的选词方法,在词语相关性计算上,采用了平均互信息(AMI)方法和χ2统计量方法.通过在半年人民日报上的测试,结果表明在采用相同特征集合的条件下,条件随机域模型较其他概率模型有更好的性能表现;融合长距离触发对的条件随机域模型可以使系统的F量度提高约1.38%.
中文名实体识别、概率模型、条件随机域、词语触发对、信息抽取、自然语言处理
16
TN91
国家自然科学基金60435020;国家高技术研究发展计划863计划2002AA117010-09;哈尔滨工业大学校科研和教改项目HIT200271
2006-10-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
795-801