多义词语义拓扑及有监督的词义消歧研究
多义词语义是汉语国际教育和HSK考试的重点和难点.词义消歧研究致力于确定多义词在给定上下文中的具体含义,在人机交互、机器翻译、作文自动评分等领域被广泛应用.然而,现有的词义消歧方法存在准确率较低、语料库匮乏、特征简单等弊端.针对汉语国际教育的相关语料库和评价系统,基于深度神经网络设计汉语多义词词义消歧的分类模型是当前的研究热点,同时也是实现HSK作文自动评分的重要技术保障.已有研究假定多个义项相互独立,缺乏对多义词义项演变关系的重视,对此文中首先对典型的汉语多义词进行语义研究,以区分基础义项和固定搭配义项来构建语义拓扑图,用于指导分类模型的训练.在建立多义词语义拓扑图的基础上,通过对汉语语料库的爬虫,获取典型多义词的语料样本,进而构建有监督的深度神经网络模型,包括RNN,LSTM和GRU.通过对爬虫所获样本的分析,选取了30字长和60字长,分别设计单向和双向6种神经网络,通过多次训练对模型参数进行优化,最终获得词义消歧分类模型.实验选取"意思"多义词作为代表,开展多义词在给定上下文的词义消歧实验.结果表明,基于RNN,LSTM网络和GRU的深度学习模型的平均准确率均超过75%,其中各模型的最大准确率均超过94%;各模型的ROC曲线下面积(Area Under Curve,AUC)均超过0.966,表明其对样本类不均衡性具有较好的处理效果;单向和双向RNN模型在不同字长条件下均取得最佳学习效果.
词义消歧、深度神经网络、语义拓扑、循环神经网络、长短期记忆网络
46
TP391(计算技术、计算机技术)
国家自然科学基金61762089;国家汉办汉考国际研究基金CTI2018B06;云南大学孔子学院建设与汉语国际推广专项课题2018-YNUCI-Y008;云南大学2019国家社科基金培育项目资助
2019-12-19(万方平台首次上网日期,不代表论文的发表时间)
共7页
13-18,22