大气污染物监测数据异常值判别方法研究
大气环境监测数据的质控,特别是异常数据的精准判别是准确分析大气污染成因的重要前提.目前对于异常值的判别主要基于人工经验,这对于快速有效地从海量环境数据中剔除异常值进而保证分析数据的准确性带来巨大挑战.结合大气污染物监测数据的时间序列波动特点,本文基于滑动窗口机制和统计学指标分别构建了滑动四分位、滑动四分位差距及滑动标准差等异常值快速判别方法,然后利用含有异常值的清洁天和污染天常规大气污染物(PM2.5、PMM10、SO2、NO2、CO和O3)时间序列数据对3种异常值判别方法的有效性进行测试评估,从而得到不同污染物异常值判别的最优方法及相关参数指标.结果表明:无论是清洁天还是污染天,滑动四分位法对PM2.5、PMm10、SO2、NO2、CO和O3浓度时间序列异常值的判别效果均最优.其中,清洁天最优滑动窗口长度范围分别为10~16、14~16、12~16、38~40、6~38和6~8,最优宽容度常数范围分别为 1.6~~1.7、1.6~2.6、1.7~2.0、2.3~2.5、1.6~4.5和3.7~3.8;而污染天最优滑动窗口长度范围分别为10~44、10~14、10~32、14~48、10~48和14~20,最优宽容度常数范围分别为2.7~4.5、1.4~2.8、2.8~4.5、2.7~4.5、1.5~4.5和2.5~3.8.清洁天和污染天中不同大气污染物时间序列波动特征不同,使得适用方法的最优参数存在显著差异.本文构建的异常值快速判别方法旨在为环境大数据异常值的快速识别及更准确地分析大气污染成因提供一定技术支撑.
大气污染物时间序列、异常值、判别、滑动窗口、统计学指标
42
X831(环境监测)
中国博士后科学基金;中国工程院院地合作项目;国家大气污染控制关键问题研究项目
2023-02-06(万方平台首次上网日期,不代表论文的发表时间)
共12页
341-352