10.3778/j.issn.1002-8331.2107-0102
BERT蒙古文词向量学习
以Word2Vec为代表的静态蒙古文词向量学习方法,将处于不同语境的多种语义词汇综合表示成一个词向量,这种上下文无关的文本表示方法对后续任务的提升非常有限.通过二次训练多语言BERT预训练模型与CRF相结合,并采用两种子词融合方式,提出一种新的蒙古文动态词向量学习方法.为验证方法的有效性,在内蒙古师范大学蒙古文硕博论文的教育领域、文学领域数据集上用不同的模型进行了同义词对比实验,并利用K-means聚类算法对蒙古文词语进行聚类分析,最后在嵌入式主题词挖掘任务中进行了验证.实验结果表明,B E RT学出的词向量质量高于Word2Vec,相近词的向量在向量空间中的距离非常近,不相近词的向量较远,在主题词挖掘任务中获取的主题词有密切的关联.
蒙古文、词向量、BERT、条件随机场
59
TP391(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金;内蒙古自然科学基金项目;内蒙古自治区科技计划项目;信息安全242课题
2023-02-09(万方平台首次上网日期,不代表论文的发表时间)
共6页
129-134