DOI：10.3772/j.issn.1002-0470.2014.06.009

面向中文电子病历的词法语料标注研究

引用

摘要：

针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导.通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础.

关键词：中文电子病历(CEMR)、词性标注、标注一致性、语料差异、错误分析

所属期刊栏目：24

分类号：TP3;H08

资助基金：国家自然科学基金60975077

在线出版日期：2014-09-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：609-615

英文信息展示

期刊专题