10.3778/j.issn.1002-8331.2011.08.035
结合自助抽样的动态数据流贝叶斯分类算法
动态数据流具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点,挖掘动态数据流对计算能力与存储能力要求非常高.针对动态数据流的以上特点,设计了一种基于自助抽样的动态数据流贝叶斯分类算法,算法运用滑动窗口模型对动态数据流进行处理分析.该模型以每个窗口的数据为基本单位,对窗口内的数据进行处理分析;算法采用自助抽样技术对待分类数据中的属性进行裁剪和优化,解决了教据属性间的多重线性相关问题;算法结合贝叶斯算法的特点,采用动态增量存储树来解决动态样本数据流的存储问题,实现了无限动态数据流无信息失真的静态有限存储,解决了动态数据流挖掘最大的难题-教据存储;对优化的待分类数据使用a11-贝叶斯分类器和k-贝叶斯分类器进行分类,结合数据流的特性对两个分类器进行实时更新.该算法有效克服了贝叶斯分类属性独立性的约束和传统贝叶斯只对静态数据分类的缺点,克服了动态数据流最大的难题-数据存储问题.通过实验测试证明,基于自助抽样的贝叶斯分类具有很高的时效性和精确性.
数据流、自助抽样、贝叶斯分类、滑动窗口、增量存储树
47
TP311.13(计算技术、计算机技术)
国家自然科学基金the National Natural Science Foundation of China under Grant 70671094;浙江科技计划项目2008C14061;浙江省自然科学基金重点项目Z1091224;浙江省自然科学基金项目Y1090617
2011-07-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
118-121,142