人才网页自动识别系统研究-期刊-万方数据知识服务平台

搜索

人才网页自动识别系统研究

1.中山大学资讯管理学院,广州,5100062.深圳市迅雷网络技术有限公司,深圳,518057

引用

打印

摘要：提出人才网页自动识别系统设计，实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征，使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值，借助开源软件LibSVM实现基于多特征值的人才网页自动识别。

关键词：

LibSVM 人才网页自动分类分类特征提取

分类号：

G250(图书馆事业、信息事业)

资助基金：

中山大学重大项目新兴交叉学科资助计划项目

在线出版日期：

2012-04-21 （万方平台首次上网日期，不代表论文的发表时间）

英文信息

现代图书情报技术

北大核心 CSSCI CSTPCD

ISSN：1003-3513

年,卷(期)：2011(6)

所属栏目： DLIB