10.3969/j.issn.2096-4110.2022.09.016
大湾区多语种政府新闻标注语料库建设研究
粤港澳大湾区是中国开放程度最高、经济活力最强的区域之一,在"一国两制"政策实施的背景下,广东、香港、澳门地区的语言文化(普通话、粤语、英语、葡萄牙语等)呈现出了多样性状态,使得语言规则变得复杂,目前尚未存在同时支持针对粤港澳地区多语种语料文本标注和分析的语料库.该文以大湾区政府新闻语料为主要研究对象,在粤港澳大湾区复杂的语言环境背景下,通过研究经验总结出多语种语料库建设的常见问题和解决手段,构建出数据规模大、符合多语种生态的高质量语料库,促进教育、文化、语言研究事业的发展.
粤港澳大湾区、多语种语料库、分词标注策略
6
G642(高等教育)
广东省科技创新战略专项攀登计划项目;国家语委科研项目;粤港澳大湾区国际教育示范区建设研究项目;广州市社科规划课题项目;广东省哲学社会科学规划项目
2022-06-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
62-66