面向不均衡医学数据集的疾病预测模型研究

引用

摘要：

基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然而,在医疗领域往往存在着样本数据集不均衡的问题,导致模型的预测效果降低.欠采样技术是目前解决样本不均衡问题的常用手段.其主要采用一定的方法从多数类样本中抽取部分样本,与少数类样本组成平衡数据集后再构建模型.现有的欠采样方法往往可以显著提高模型对少数类样本的召回率,然而其通常也会造成模型准确率的降低,从而限制了预测模型的整体提升效果.为此,该文提出了一种新的基于迭代提升欠采样的集成分类方法(Under-Sampling with lteratively Boosting,USIB),该方法迭代地从多数类样本中进行欠抽样,构建多组弱分类器,并采用加权组合方式将这些弱分类器构成一个强分类器,从而提升样本不平衡条件下单种疾病预测效果.另外,医学病例样本数据集通常是多类别、多标签的,为此,该文将多个单种疾病的预测模型进行组合构成一个多标签疾病预测模型,以满足临床意义上的多病种以及并发症的诊断.为了进一步提升多标签预测模型的效果,该文设计了一种基于标签最大互信息生成树的标签选择方法(Labels Selection method based on Maximum Mutual InformationSpanning Tree,LS-MMIST),该方法根据原始数据集的分布构建标签之间的最大互信息生成树,在每一次的样本预测阶段,借助树中疾病标签之间的关系确定最终的预测标签集合.实验方面,该文首先选择三种公开的不均衡二分类数据集和我们私有的四种稀有疾病的数据集,对该文提出的迭代提升欠采样方法进行性能评估.其次,分别对比了该文提出的多标签预测模型与现有的多标签预测技术在中医和西医两种多标签数据集上的预测性能.实验结果显示,相对于目前主流的八种欠采样以及两种集成采样技术,该文提出的迭代提升欠采样方法在各个不均衡二分类数据集上的F1值平均提升22.58％;与现有的各种多标签预测技术相比,该文提出的多标签预测方法在西医和中医数据集上正确率分别提升6.30％和12.43％,召回率分别提升4.33％和5.86％,F1值分别提升5.48％和11.16％.

关键词：疾病预测、不均衡数据集、欠采样、二分类、多标签分类

所属期刊栏目：42

分类号：TP18(自动化基础理论)

资助基金：“面向云计算的网络化操作系统2016YFB1000505”、国家自然科学基金委员会NSFC-广东省人民政府联合基金超级计算科学应用研究专项计划第二期资助.感谢《基于天河二号的生物医学健康大数据应用支撑平台》U1611261项目与《智能化数据中心管理、编程规范与应用生态》2016YFB1000505课题对本工作的支持;感谢审稿专家们给出的宝贵修改意见,让我们对我们的工作认识更加深刻;同样感谢《计算机学报》编辑部老师们的辛勤工作

在线出版日期：2019-06-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：596-609

英文信息展示

期刊专题