基于分层次多粒度语义融合的中文事件检测

引用

摘要：

事件检测是信息抽取领域中一个重要的研究方向,其主要研究如何从非结构化自然语言文本中提取出事件的触发词,并识别出事件的类型.现有的基于神经网络的方法通常将事件检测看作单词的分类问题,但是这会引起中文事件检测触发词与文本中词语不匹配的问题.此外,由于中文词语的一词多义性,在不同的语境下,相同的词语可能会存在歧义性问题.针对中文事件检测中的这两个问题,提出了一个分层次多粒度语义融合的中文事件检测模型.首先,该模型利用基于字符序列标注的方法解决了触发词不匹配的问题,同时设计了字符-词语融合门机制,以获取多种分词结果中词语的语义信息;然后,通过设计字符-句子融合门机制,考虑整个句子的语义信息,学习序列的字-词-句混合表示,消除词语的歧义性;最后,为了平衡"O"标签与其他标签之间的数量差异,采用了带有偏差的损失函数对模型进行训练.在广泛使用的ACE2005数据集上进行了大量实验,实验结果表明,所提模型在精确率(Precision,P)、召回率(Recall,R)和F1值这3个指标上比现有的中文事件检测模型至少高出3.9％,1.4％和2.9％,证明了所提方法的有效性.

关键词：信息抽取、中文事件检测、多粒度语义融合、预训练语言模型、卷积神经网络、双向长短期记忆模型

所属期刊栏目：48

分类号：TP182(自动化基础理论)

资助基金：国家重点基础研究发展计划（973计划）2019YFB1704402

在线出版日期：2021-06-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：202-208

英文信息展示

期刊专题