DOI：10.11925/infotech.2096-3467.2019.1032

面向多领域先秦典籍的分词词性一体化自动标注模型构建

引用

摘要：

[目的]探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型.[方法]采用涵盖“经史子集”的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型.最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析.[结果]在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98％,词性标注准确率达到88.97％.在《史记》上的应用进一步证明了模型的稳定性和实用性.[局限]通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决.[结论]将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍.

关键词：数字人文、先秦典籍、古籍智能处理技术、分词、词性标注、深度学习

所属期刊栏目：5

分类号：G353;TP393(情报学、情报工作)

资助基金：国家自然科学基金;国家社会科学基金

在线出版日期：2021-05-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：1-11

英文信息展示

期刊专题