基于最大相关最小冗余朴素贝叶斯分类器的应用
目的 将基于最大相关最小冗余(maximum relevance minimum redundancy,MRMR)的朴素贝叶斯分类器(na?ve bayesian classifier,NBC)应用于基因表达数据并与经典NBC、随机森林(random forests,RF)进行比较.方法 采用Matlab与R软件编程,应用结肠癌与肺癌基因表达数据集,分别采用上述三种方法进行比较研究,使用10-折交叉验证方法估计经典NBC与RF的分类准确率.结果 应用MRMR-NBC分析结肠癌基因表达数据集显示,采用信息熵(mutual information quotient,MIQ)法,当特征m=11时分类准确率达93.55%;而采用信息差(mutual information difference,MID) 法时,当m=15时分类准确率达到95.16%.应用MRMR-NBC分析肺癌基因表达数据集显示,采用MIQ法,当m=14时分类准确率最高达98.63%,而采用MID法时当m=12时分类准确率达到97.26%.而采用经典NBC分析结肠癌与肺癌基因表达数据时,分类准确率分别为66.67%、80.00%;RF在分析结肠癌与肺癌基因表达数据时,分类准确率分别为81.89%、77.62%.结论 MRMR-NBC能在仅有极少属性参与分类时,得到较高的分类准确率,优于经典NBC与RF.
最大相关最小冗余、朴素贝叶斯分类器、随机森林、特征选择
32
TN9;P46
国家自然科学基金81373103;重庆市科委基础与前沿研究计划项目cstc2013jcyjA10009
2016-07-22(万方平台首次上网日期,不代表论文的发表时间)
共3页
932-934