10.3772/j.issn.2095-915x.2024.03.009
基于教材文本语料库的自适应主题词表构建
[目的/意义]构建一套面向汉语非母语学习者的专业词表对专业学习和国际中文教育学科建设及发展具有重要意义.[方法/过程]针对当前外向型专业词表较少及构建方法单一问题,本文首先从网站爬取小说、新闻和论坛留言构建参照语料库,根据教育部专业课程设置目录,选取专业教材构建专业教材语料库,运用TF-IDF-TF算法遴选专业主题词并构建词共现矩阵,利用凝聚聚类法实现专业主题词聚类.在此基础上,计算词簇内主题词的语义相关性,选取语义共现度最大的词作为词簇中心词,并根据语义相关性编排词表.最后,以经济学类专业为例构建面向留学生的专业主题词表.[结果/结论]结果表明,本文构建的经济类专业主题词表能够较好地提取专业词汇且有效地将语义关联度紧密的专业主题词聚类在同一词簇内,学习者能够快速有效获取相关词簇进行专业自适应学习,并为其他专业主题词表的构建提供了依据.
主题词表、凝聚聚类算法、语义共现度、词簇中心词
10
G35(情报学、情报工作)
国家社会科学基金;国家社会科学基金;江苏省高校哲学社会科学一般项目
2024-09-18(万方平台首次上网日期,不代表论文的发表时间)
共14页
114-127