基于特征选择和最大熵模型的汉语词义消歧

引用

摘要：

词义消歧是自然语言处理中一类典型的分类问题.在分类中,特征的选择至关重要.通常情况下,特征是由人工选择的,这就要求特征选取者对于待分类的问题本身和分类模型的特点有深刻的认识.分析了汉语词义消岐中特征模板对消歧结果的影响,在此基础上提出一套基于最大熵分类模型的自动特征选择方法,包括针对所有歧义词的统一特征模板选择和针对单个歧义词的独立特征模板优化算法.实验结果表明,使用自动选择的特征,不仅简化了特征模板,而且提高了汉语词义消歧的性能.与SemEval 2007:task #5的最好成绩相比,该方法分别在微平均值MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了3.10%和2.96%.

关键词：最大熵模型、分类特征、自动特征选择、汉语词义消歧

所属期刊栏目：21

分类号：TP391(计算技术、计算机技术)

资助基金：the National Natural Science Foundation of China under Grant Nos.60675035,60973053,90920011;the Beijing Municipal Natural Science Foundation of China under Grant No.4072012

在线出版日期：2010-08-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：1287-1295

英文信息展示

期刊专题