基于MapReduce的多级特征选择机制
特征选择是文本分类的关键步骤,分类结果的准确度主要取决于选择得到的特征词的优劣.文中提出一种基于MapReduce的多级特征选择机制,一方面利用改进的CHI特征选择算法进行初次筛选,再通过互信息方法对初选结果进行噪声词过滤、优质特征词前置等操作;另一方面将本机制载入MapReduce模型中,以减少多级特征选择作用于海量数据的时间消耗.实验结果表明,该机制能在较短的时间内处理大规模数据,同时也提升了文本分类的精度.
文本分类、特征选择、CHI、互信息、MapReduce
45
TP301(计算技术、计算机技术)
国家自然科学基金项目61379079
2018-12-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
468-473,479