10.3778/j.issn.1002-8331.2207-0471
高校学业文本命名实体识别及数据集构建研究
近年来,我国高校因学业问题无法顺利毕业的学生数量逐年上升,给高校教学管理工作带来极大压力.利用知识图谱技术快速自动解答学业困惑成为亟待解决的重要问题.实体精准识别可有效提取学业管理文本中的关键信息,但该领域尚未存在公开适用的标注数据集,因此开展面向具有普遍性和通识性的高校学业命名实体识别数据集变得极为迫切.依据学业管理专家的领域知识,对某高校13万余字学业文本制定了8类学业数据构建标准,并根据构建标准以及文本特性完成了标注工作.将BiLSTM-CRF等4种识别模型在公开数据集和构建数据集上进行实验测试,结果表明构建的数据集可以应用于高校学业领域的命名实体识别任务,构建方法具有普适性,而且分类标注后的数据集识别效果相较未分类数据集有明显提升,进一步验证了该分类标准的有效性.
高校学业、命名实体识别、数据集构建、实体标注、BiLSTM-CRF
59
TP391(计算技术、计算机技术)
国家自然科学基金;河北省高等教育教学改革研究与实践项目;河北省研究生创新资助项目
2023-11-27(万方平台首次上网日期,不代表论文的发表时间)
共7页
322-328