云计算环境下的一种改进的贝叶斯文本分类算法
基于云计算的思想运用MapReduce模型解决了传统贝叶斯分类算法不适应大规模数据的缺陷,很大程度地提高了分类速度.结合并行化的特点对算法进行了相应的改进,加入了同义词合并和词频过滤等方法,使得向量维数降低,减少了误判.然后对其中特殊的关键词进行加权,增强了分类准确性.最后在Hadoop云计算平台上进行了实验,证明了传统的文本分类算法并行化后在Hadoop上运行具有较好的加速比,并且改进后的算法能够提高分类精确度.
云计算、文本分类、并行化、Hadoop
41
TP391.1(计算技术、计算机技术)
省属高校自然科学基金13KJB520017;南京邮电大学科研基金NY213155
2014-08-26(万方平台首次上网日期,不代表论文的发表时间)
共4页
339-342