基于规则的网络文本资源标题快速自动识别方法-期刊-万方数据知识服务平台

搜索

基于规则的网络文本资源标题快速自动识别方法

刘建华 ¹

张智雄 ¹

谢靖 ¹

邹益民 ²

1.中国科学院国家科学图书馆,北京,1001902.中国科学院国家科学图书馆,北京100190 中国科学院研究生院,北京100049

引用

打印

摘要：选取网络文本资源的标题识别作为切入点，除考虑多数研究关注的文本的格式信息（如字体）、位置信息等特征外，加入对标题与网页正文内容的相关度的考虑，利用科技监测项目采集到的大量历史数据作为统计分析的基础，从候选标题的可能来源和特征方面，构建基于规则的网络文本资源标题快速识别方法，并给出该方法的时间效率和识别准确率测评结果。

关键词：

网络文本资源标题识别标题来源标题特征

分类号：

G203(信息与传播理论)

资助基金：

中国科学院项目（非规范项目）

在线出版日期：

2012-04-21 （万方平台首次上网日期，不代表论文的发表时间）

英文信息

现代图书情报技术

北大核心 CSSCI CSTPCD

ISSN：1003-3513

年,卷(期)：2011(6)

所属栏目： DLIB