一种基于Bootstrapping构建训练语料的方法
提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与.
bootstrapping、命名实体识别、训练语料、类语言模型
44
TP391(计算技术、计算机技术)
国家自然科学基金60663004;高等学校博士学科点专项科研项目20050007023
2008-06-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
394-397