10.3969/j.issn.1002-1965.2012.09.031
基于基序及其时序关系的多变量数据流分类研究
多变量数据流精确分类问题是当前数据挖掘与信息领域的热点和难点,引起国内外越来越多研究群体的关注,但以往的研究大多依赖手从单个流中提取特征并进行分类,没有考虑数据流内以及数据流间特征的相互依赖关系.基于此,借鉴生物信息学中基序查找的方法,提出了长期频率和逆文档频率的分类方法,该方法主要是将每个输入流都转化为符号序列来描述信号变化特征,并将符号分为长度不同的块,以便更有效地提取基序;通过计算基序的频率、长期频率与逆文档频率的权重,用以衡量不同输入多变量数据流的基序之间的时序关系,并利用了基序与时序关系实现了对多变量数据流的分类,从而确保了多变量数据流分类的准确性,仿真实验的结果也证明该方法的有效性.
基序、时序、多变量数据流、长期频率、逆文档频率
31
TP311(计算技术、计算机技术)
山东省自然基金项目“面向纵横流数据概念漂移的衍生金融工具风险预警动态建模研究”ZR2009HQ001;教育部人文社会科学项目“基于流数据概念漂移的衍生金融工具风险预警方法研究”10YJCZH218
2012-11-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
163-168