少数民族语言文字网站的自动识别和采集
分析了少数民族语言文字网站的特殊性,综合采用基于特殊字符、网页标签属性和N-gram的方法对传统蒙古文、藏文、阿拉伯字母体系的维吾尔文、哈萨克文和柯尔克孜文以及彝文、新傣文、朝鲜文、俄文和壮文等10种少数民族语言文字网站进行了自动识别研究.所提方法对10种少数民族语言文字网站的平均正确识别率达到95%以上,效果令人满意.
少数民族语言文字、网站、网页、自动识别、采集
42
TP391(计算技术、计算机技术)
中央民族大学2014年校级自主科研项目2014MDLXYZY04
2015-09-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
79-82