期刊专题

基于逗号的汉语子句识别研究

引用
根据篇章分析的任务和实践,结合传统研究,提出汉语的基本篇章单位为子句,并从结构、功能、形式等方面给出其定义.分析了逗号与子句的关系,并在标注语料上进行了基于逗号的汉语子句识别研究.首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息,在标注结果中抽取句法、词汇、长度等特征进行实验,子句识别准确率为90%.然后利用信息增益选出贡献最大的9个特征,使用它们也可获得较高的子句识别准确率.最后仅使用词法信息,子句识别准确率可达84.5%.实验证明子句的定义合理,基于逗号的子句识别在理论上和实验上均可行.

逗号、汉语子句、子句识别

49

TP391(计算技术、计算机技术)

国家863计划2012AA011102;国家自然科学基金90920004

2017-01-18(万方平台首次上网日期,不代表论文的发表时间)

共8页

7-14

暂无封面信息
查看本期封面目录

北京大学学报(自然科学版)

0479-8023

11-2442/N

49

2013,49(1)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn