基于机器学习的网页文本抽取技术

引用

摘要：

本文主要研究了从不同类型的html页面中根据需要抽取指定文本的技术.首先分析了目前主流的文本抽取技术的优点及缺点,并针对传统文本抽取技术的不足提出了基于机器学习的网页文本抽取技术;然后重点分析了此技术的实现原理,并在最后以案例方式介绍了使用java语言构建基于此技术的文本抽取系统.

关键词：文本抽取、文本密度、机器学习、神经网络、java

分类号：TP3;B84

在线出版日期：2008-07-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共2页

页码：21-22

期刊专题