采用URL特征的Hub网页识别方法研究
[目的]通过构建简单数据样本,解决传统网页类型识别方法效率低的难题.[方法]采用URL特征作为识别依据,抽取URL信息构建训练集与测试集,使用支持向量机(SVM)建立机器学习模型以提高识别效率.[结果]在同样的数据集上,该方法的准确率为91.2%,优于其他识别方法.在效率性能方面,该方法提升近60%.[局限]当遇到URL特征不明显甚至完全相背的网站时,识别准确率会大幅度降低.[结论]该方法在效率方面存在很大优势,应用到采集系统中可提高采集效率.
URL特征、Hub网页、支持向量机
TP391.1;G35(计算技术、计算机技术)
本文系国家自然科学基金项目“网页内容真实性评价研究”项目编号:61171159的研究成果之一.
2016-03-09(万方平台首次上网日期,不代表论文的发表时间)
24-31