少数民族语言文字网站的自动识别和采集

引用

摘要：

分析了少数民族语言文字网站的特殊性,综合采用基于特殊字符、网页标签属性和N-gram的方法对传统蒙古文、藏文、阿拉伯字母体系的维吾尔文、哈萨克文和柯尔克孜文以及彝文、新傣文、朝鲜文、俄文和壮文等10种少数民族语言文字网站进行了自动识别研究.所提方法对10种少数民族语言文字网站的平均正确识别率达到95％以上,效果令人满意.

关键词：少数民族语言文字、网站、网页、自动识别、采集

所属期刊栏目：42

分类号：TP391(计算技术、计算机技术)

资助基金：中央民族大学2014年校级自主科研项目2014MDLXYZY04

在线出版日期：2015-09-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：79-82

英文信息展示

期刊专题