10.3969/j.issn.1003-3513.2009.07.010
中文词义消歧上下文最优边界问题研究
为了选择最优的边界,采用交叉验证方法,将取得错误率最低的上下文边界确定为上下文最优边界,并应用此方法对SemEval-2007中文数据集进行处理,得出此数据集的上下文最优边界为[-2,+2].为了验证其结果的有效性,进一步采用SemEval-2007测试集进行消歧测试,结果表明采用交叉验证法确定的最优边界对词义消歧准确率有一定提升.同时对不同词性歧义词的最优边界也进行讨论.
词义消歧、上下文边界、特征选择、中文
TP391(计算技术、计算机技术)
国家自然科学基金项目"文本集特征提取方法及应用研究"项目70673070的研究成果之一
2010-01-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
49-53