面向多形式维文的敏感信息过滤算法研究

引用

摘要：

现有的维文敏感信息检测与过滤研究只限于传统维文,而现在互联网上的维文使用呈现传统维文和拉丁维文共存的"一语双文"特点,因此,研究多形式维文的敏感信息过滤算法对新疆的网络安全及社会稳定和长治久安总目标的实现有重要的实际意义.研究拉丁维文和传统维文的Unicode编码特征,提出它们间的编码转换算法ULTC (Uyghur Latin Traditional Conversion),通过该算法在已有的语料库中添加拉丁维文敏感信息语料,从而构建多形式维文敏感信息语料库ULSC(Uyghur Latin Sensitive Corpus);在语料库的基础上构建传统维文和拉丁维文一体化的多形式维文敏感信息决策树LUDT(Latin Uyghur Decision Tree),在决策树的基础上提出多形式维文敏感信息过滤算法USF(Uyghur Sensitive Information Filter).实验结果表明,USF算法具有较高的查全率.

关键词：传统维文、拉丁维文、敏感信息、决策树

所属期刊栏目：56

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金71561025;新疆社科基金重点项目14AXW015

在线出版日期：2020-05-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：127-133

英文信息展示

期刊专题