DOI：10.3772/j.issn.2095-915x.2022.02.002

大规模多粒度中文复述语料库

引用

摘要：

[目的/意义]复述是相同语义的不同表达,集中反映了语言的多样性,一直是自然语言处理领域的核心问题.PPDB英文复述数据集在英文自然语言处理的多种任务中得到了应用,推动了英文自然语言处理领域的发展.缺少大规模多粒度中文复述数据集阻碍了复述技术在中文自然语言处理中的应用,是亟待解决的问题.[方法/过程]本文实现了一个针对多源数据的复述抽取系统,并抽取构建了一个大规模中文复述数据集,该数据集具有规模大、质量高的特点,且包含复述短语、复述模板和复述句三种粒度的复述文本.[结果/结论]自动评估和人工评估的结果表明,我们抽取的中文复述数据具有较高的文本多样性和语义一致性.

关键词：中文复述、复述识别、复述抽取

所属期刊栏目：8

分类号：G35;TP391(情报学、情报工作)

资助基金：国家自然科学基金;社科院创新工程青年学者资助计划项目

在线出版日期：2022-06-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：19-33

英文信息展示

期刊专题