10.19343/j.cnki.11-1302/c.2020.08.009
基于秩能量距离的超高维特征筛选研究
特征筛选是超高维数据分析中常用的快速降维方法.本文首先基于秩能量距离提出了一种新的适用于超高维判别分析的特征筛选方法(RED-SIS).该方法无需假定模型结构和有限矩条件,对厚尾协变量数据具有较好的稳健性.其次,本文研究了该方法的理论性质,并在几个较为宽松的正则条件下,证明了确定筛选性质和排序相合性.结果表明,RED-SIS能有效处理变量维数p和样本量n满足logp = 0(nα)的超高维判别分析特征筛选问题,且随着样本量的增加,筛选出的特征集合包含全部真实重要特征集合的概率趋近于1.最后,蒙特卡罗模拟研究该方法的有限样本性质,并和现有的超高维特征筛选方法进行比较.数值模拟结果表明,该方法在厚尾数据情况下具有明显的优越性,同时,实际数据分析的研究结果也说明RED-SIS方法的有效性.
超高维数据、特征筛选、秩能量距离、确定筛选性质
37
O212(概率论与数理统计)
国家自然科学基金项目"非参数独立性检验及其应用研究";国家自然科学基金"高维回归模型的大规模统计学习和推断";国家自然科学基金"不完全数据下半参数混合效应模型的研究";北京市自然科学基金"大规模因果推断模型的统计学习及其应用";中央高校基本科研业务费专项资金"高维半参数因果推断模型的统计学习研究";北京市自然科学基金资助项目"监督学习的降维理论与优化方法";教育部人文社会科学重点研究基地重大项目"基于大数据的精准医学生物统计分析方法及其应用研究"
2021-03-11(万方平台首次上网日期,不代表论文的发表时间)
共12页
117-128