10.3772/j.issn.1002-0470.2023.08.006
SOM-NCSCM+:抽取式神经网络中文标题生成方法研究
标题生成作为文本摘要任务的一个分支,能够帮助人们高效获取信息.本文针对中文标题生成任务面临的大规模、高质量中文标注数据缺乏的问题,利用标题往往可由原文中的词语来构成的特点,从将无监督学习模型与有监督的序列标注模型结合的角度出发,提出了融合聚类模型和主题模型的抽取式深度神经网络中文标题生成方法和模型.在缺乏人工分类标注信息的中文新闻数据集上,该模型可利用聚类和主题模型自动挖掘数据内部潜在的特征信息,获得不同的数据簇及各簇内的主题词来辅助中文新闻标题生成,使模型在具有潜在主题类别特征的、标题质量参差的中文新闻数据集上都具有较好的适用性.本文提出的中文标题生成模型在互联网上公开的中文新闻标题数据集上的实验结果也表明其在微观F1、BLEU、ROUGE、压缩率等评价指标上都取得了较基准模型更好的效果.
中文标题生成、神经网络模型、主题模型、聚类模型、序列标注
33
TP391;TP181;G210.7
国家重点研发计划;国家242信息安全计划
2023-11-06(万方平台首次上网日期,不代表论文的发表时间)
共13页
836-848