随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例

引用

摘要：

通常来讲,生态学者对于解释生态关系、描述格局和过程、进行空间或时间预测比较感兴趣.这些工作可以通过模拟输出值(响应)与一些特征值(即解释变量)的关系来实现.然而,生态数据模拟遇到了挑战,这是因为响应变量和预测变量可能是连续变量或离散变量.需要解释的生态关系通常是非线性的,并且解释变量之间具有复杂的相互作用关系.响应变量和解释变量存在缺失值并不是不常有的现象,奇异值也经常出现在生态数据中.此外,生态学者通常希望生态模型即要易于建立又易要于解释.通常是利用多种统计方法来分析处理各种各样情景中出现的独特的生态问题,这些模型包括(多元)逻辑回归、线性模型、生存模型、方差分析等等.随机森林是一个可以处理所有这些问题的有效方法.随机森林可以用来做分类、聚类、回归和生存分析、评估变量的重要性、检测数据中的奇异值、对缺失数据进行插补等.鉴于随机森林本身在算法上的优势,将就随机森林在生态学中的应用进行总结,对建模过程进行概述,并以云南松分布模拟研究为例,对其主要功能特点进行案例展示.通过对随机森林的一般术语、概念和建模思想进行介绍,有利于读者掌握本方法的应用本质,可以预见随机森林在生态学研究中将得到更多的应用和发展.

关键词：随机森林、分类回归树、变量重要性、多维数据、物种分布模拟

所属期刊栏目：34

分类号：TP3;R73

资助基金：国家自然科学基金资助项目41301056,31290223;中央公益性院所基本科研业务专项资助项目RIF2012-04;林业公益性行业科研专项资助项目201104006,200804001;国家“十二五”科技支撑项目课题资助项目2011BAD38B04

在线出版日期：2015-10-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：650-659

英文信息展示

期刊专题