期刊专题

10.3772/j.issn.2095-915x.2022.02.002

大规模多粒度中文复述语料库

引用
[目的/意义]复述是相同语义的不同表达,集中反映了语言的多样性,一直是自然语言处理领域的核心问题.PPDB英文复述数据集在英文自然语言处理的多种任务中得到了应用,推动了英文自然语言处理领域的发展.缺少大规模多粒度中文复述数据集阻碍了复述技术在中文自然语言处理中的应用,是亟待解决的问题.[方法/过程]本文实现了一个针对多源数据的复述抽取系统,并抽取构建了一个大规模中文复述数据集,该数据集具有规模大、质量高的特点,且包含复述短语、复述模板和复述句三种粒度的复述文本.[结果/结论]自动评估和人工评估的结果表明,我们抽取的中文复述数据具有较高的文本多样性和语义一致性.

中文复述、复述识别、复述抽取

8

G35;TP391(情报学、情报工作)

国家自然科学基金;社科院创新工程青年学者资助计划项目

2022-06-28(万方平台首次上网日期,不代表论文的发表时间)

共15页

19-33

暂无封面信息
查看本期封面目录

情报工程

2095-915X

10-1263/G3

8

2022,8(2)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn