10.3778/j.issn.1002-8331.1704-0480
基于URL混淆技术识别的钓鱼网页检测方法
针对钓鱼URL常用的混淆技术,提出一种基于规则匹配和逻辑回归的钓鱼网页检测方法(RMLR).首先,使用针对违反URL命名标准及隐藏钓鱼目标词等混淆技术所构建的规则库对给定网页分类,若可判定其为钓鱼网址,则省略后续的特征提取及检测过程,以满足实时检测的需要.若未能直接判定为钓鱼网址,则提取该URL的相关特征,并使用逻辑回归分类器进行二次检测,以提升检测的适应性和准确率,并降低因规则库规模不足导致的误报率.同时,RMLR引入基于字符串相似度的Jaccard随机域名识别方法来辅助检测钓鱼URL.实验结果表明, RMLR准确率达到98.7%,具有良好的检测效果.
钓鱼网页、统一资源定位符(URL)混淆技术、规则匹配、机器学习
53
TP393.08(计算技术、计算机技术)
国家自然科学基金61303231,61433012,U1435215
2017-11-13(万方平台首次上网日期,不代表论文的发表时间)
共8页
75-82