人才网页自动识别系统研究
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。
LibSVM、人才网页、自动分类、分类特征提取
G250(图书馆学、图书馆事业)
2010年度中山大学重大项目培育和新兴交叉学科资助计划项目
2012-04-21(万方平台首次上网日期,不代表论文的发表时间)
20-26