10.3969/j.issn.1002-137X.2014.03.053
基于QSA数组计算序列中所有NE重复模式的算法
序列中重复模式的识别与提取算法在数据挖掘、模式识别、数据压缩、生物信息学等领域中具有广泛的实际应用.提出一种全新的基于QSA数组计算所有带有约束条件的NE重复模式的算法RPT.算法设计中充分考虑了NE重复模式的特征,以建立特征和重复模式检测结果之间的统计联系;算法中的约束条件包括最小周期Pmin和最大间距gmax,其可用于筛选符合条件的NE重复模式,并可按照递增序输出所有NE重复模式的出现位置.与已有的基于后缀索引的算法相比,此算法的空间效率得到了提高.在分类属性数据样本集上进行的实验表明,算法RPT对生物序列尤其是DNA序列以及维吾尔语Web文本中NE重复模式的识别与提取都很有效.
重复模式、数据挖掘、统计特征、约束条件、生物计算、维吾尔语Web文本
41
TP391(计算技术、计算机技术)
国家自然科学基金61263044,61163045;新疆维吾尔自治区高校科研计划重点项目XJEDU2011140;新疆维吾尔自治区自然科学基金2012211A056;新疆师范大学计算机应用技术重点学科招标课题12XSXZ0602
2014-04-16(万方平台首次上网日期,不代表论文的发表时间)
共5页
249-252,262