基于逗号的汉语子句识别研究
根据篇章分析的任务和实践,结合传统研究,提出汉语的基本篇章单位为子句,并从结构、功能、形式等方面给出其定义.分析了逗号与子句的关系,并在标注语料上进行了基于逗号的汉语子句识别研究.首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息,在标注结果中抽取句法、词汇、长度等特征进行实验,子句识别准确率为90%.然后利用信息增益选出贡献最大的9个特征,使用它们也可获得较高的子句识别准确率.最后仅使用词法信息,子句识别准确率可达84.5%.实验证明子句的定义合理,基于逗号的子句识别在理论上和实验上均可行.
逗号、汉语子句、子句识别
49
TP391(计算技术、计算机技术)
国家863计划2012AA011102;国家自然科学基金90920004
2017-01-18(万方平台首次上网日期,不代表论文的发表时间)
共8页
7-14