期刊专题

汉语文本可读性特征体系构建和效度验证

引用
本文研究如何利用汉语文本的语言特征对文本的可读性进行分析.首先从汉字、词汇、句法和篇章四个层面出发,构建了一个预测汉语文本可读性的多层面、多维度特征体系,该特征体系包含13个维度共104项指标.然后以12个年级的语文教材语料库为基础,通过建立机器学习模型考察不同层面、不同维度语言特征的预测能力.实验结果显示:汉字、词汇、句法和篇章四个层面中,基于词汇层面特征的模型准确率最高,基于篇章层面特征的模型准确率最低;13个维度中,预测准确率最高的前5个维度依次为汉字熟悉度、汉字多样性、词汇多样性、短语句法结构复杂度和词汇熟悉度.我们还发现,四个层面语言特征对低难度文本的预测能力均最强.

汉语文本可读性、语言特征、机器学习、效度验证

34

H319;U115;F272.92

国家社会科学基金;教育部人文社会科学研究项目;北京语言大学一流学科团队支持计划

2020-05-07(万方平台首次上网日期,不代表论文的发表时间)

共17页

81-97

相关文献
评论
暂无封面信息
查看本期封面目录

世界汉语教学

1002-5804

11-1473/H

34

2020,34(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn