10.3778/j.issn.1002-8331.1106-0045
基于数据划分和集成的方法预测信号肽
在信号肽预测问题中,由于信号肽序列长度不等且氨基酸组成具有多样性的特点,以往方法通常采用滑动窗口进行处理,从而导致了信息丢失以及数据不平衡等问题.为改善少数类预测效果,对训练数据进行了预处理,将多数类样本数据划分,生成的各组样本分别与少数类样本合并组成若干个数据子集,在两种蛋白质编码方案下采用概率神经网络建立多个分类器,采用加权投票将多分类器集成的方法预测信号肽.在目前广泛使用的Neilsen数据集上进行实验,表明该方法具有一定的有效性.
信号肽预测、不平衡数据集、聚类划分、概率神经网络、多分类器融合
48
TP39(计算技术、计算机技术)
国家自然科学基金61070062;福建高校产学合作科技重大项目2010H6007
2013-01-21(万方平台首次上网日期,不代表论文的发表时间)
共7页
238-244