融合词性与声调特征的越南语语法错误检测

引用

摘要：

BERT(Bidirectional Encoder Representation from Transformers)预训练语言模型在对越南语分词时会去掉越南语音节的声调,导致语法错误检测模型在训练过程中会丢失部分语义信息.针对该问题,提出了一种融合越南语词性和声调特征的方法来补全输入音节的语义信息.由于越南语的标注语料稀缺,语法错误检测任务面临训练数据规模不足的问题.针对该问题,设计了一种由正确语料生成大量错误文本的数据增强算法.在越南语维基百科和新闻语料上的实验结果表明,所提方法在测试集上取得了最高的F0.5和F1分数,证明该方法可提高检测效果,并且随着生成数据规模的扩大,该方法与基线模型方法的效果都得到了逐步提升,从而证明了所提数据增强算法的有效性.

关键词：预训练语言模型、越南语语法错误检测、特征融合、数据增强

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;国家自然科学基金;云南省重大科技专项计划;云南省重大科技专项计划;云南省科技厅面上项目;云南省人培项目

在线出版日期：2022-11-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：221-227

英文信息展示

期刊专题