基于云计算面向网络舆情的Deep Web数据抽取关键技术研究
就当前舆情信息数据的海量性和数据源展现的不可预见性,对Html页面进行降噪、子树构建,通过相似度计算和舆情简易本题库的引入完成数据块识别和数据记录集抽取,最后以Hadoop平台为实验环境,对抽取出的算法进行实验,实验表明该算法在舆情数据挖掘中,对抽取规则的自动提取具有一定的参考价值.
数据抽取、Hadoop、舆情
12
TP311(计算技术、计算机技术)
2014南通市科技课题"基于云计算面向网络舆情的Deep Web数据抽取关键技术研究"课题编号:BK2014054的研究成果,南通市科技平台计划"南通市高性能计算重点实验室"项目编号CP2013001;国家自然科学基金"面向Web的大规模社会网络数据提取理论与方法研究"项目编号61171132
2016-07-14(万方平台首次上网日期,不代表论文的发表时间)
共3页
23-25