10.3964/j.issn.1000-0593(2019)10-3292-05
基于XGBOOST的恒星光谱分类特征数值化
恒星光谱分类是研究恒星的基础性工作之一,常用的光谱分类是基于20世纪70年代Morgan和Keenan建立起来的并逐步完善的M K分类系统.然而基于M K规则的交互式决策分类系统对处理海量天文光谱数据存在着一定的困难.目前光谱巡天一般采用的自动化分类则是模版匹配方法而忽略对谱线特征的测量.怎样自动、客观地提取海量光谱中的分类特征并应用这些特征进行分类可以对天体的物理化学性质的统计分析至关重要.针对此问题,通过机器学习和计算光谱的谱线指数结合的方法,提取光谱特征,并通过大数据分析定量地确定对光谱特征谱线的分类判据(数值化),确定每一类光谱具有物理意义的特征谱线的强度分布.首先对LAMOST DR4恒星光谱测量其谱线指数作为输入,光谱的分类标记采用官方发布的分类结果.使用XGBoost算法进行自动分类及特征排序,从而获得已知或未知的对于分类决策最为敏感的谱线.首先,选取高信噪比(S/N>30) 、被LAM OST标记为B ,A ,F和M的恒星光谱数据,总计约414万个.然后,对光谱数据计算谱线指数从而使其得到降维处理,过滤冗余信息.其次,将处理后的恒星光谱数据随机划分为训练集和测试集,通过适当调整算法参数,用训练集得到所需要的分类决策树模型,用测试集测试其稳定性和可用性,以防止出现过拟合,同时使用算法自带函数进行提取分类特征.最后,输出并整理实验中算法所得的决策树模型,并挑选其概率比较大的分支作为最终的决策树模型.通过实验,可以发现在固定参数下,XGBoost所得的模型有一定的自适应性,较少受数据集影响,总体准确率可达88.5%;同时其所输出的分类决策树与已知的特征较为吻合,而且可以获得基于大数据的、数值化的特征谱线对应分类的范围,为完善基于特征的分类提供定量的规则.
光谱分类、线指数、XGBoost、决策树、LAMOST
39
P152(恒星天文学、星系天文学、宇宙学)
国家自然科学基金项目11390371
2019-10-31(万方平台首次上网日期,不代表论文的发表时间)
共5页
3292-3296