一种断点续传的多线程新闻组抓取方法及存储结构
针对新闻组的海量性及相关编码特点设计新闻帖抓取流程,采用多线程方式加快新闻帖的抓取及解析速度,同时设计一种便于海量数据断点续传的数据存储结构,通过实验采集验证该方法能有效达到信息检测的数据采集要求,抓取及解析新闻帖的速度比普通单线程抓取解析方式有显著提高.
新闻组、多线程、海量数据、网络新闻传输协议
TP393(计算技术、计算机技术)
国家十一五科技支撑计划子课题2006BAH03B05
2011-06-10(万方平台首次上网日期,不代表论文的发表时间)
29-33