时间序列数据逐步聚类降维法
为了达到对复杂的多维度时间序列数据进行简化和提取有效信息的目的,本文介绍了一种新的对多维度的时间序列数据进行聚类及降维的方法,处理数据科学及其相关领域的时间序列数据的分类、剔除多重共线性及降维问题.该方法首先通过借鉴K临近算法(K-Nearest Neighbor)和贪心算法(Greedy Algorithm)的思想,基于数据横截面有效性为启发式函数(Heuristic Function),按启发式函数大小为顺序逐步对时间序列数据进行聚类;得到已聚类分组的数据后,在每一组内同样通过数据有效性为顺序进行逐步普通最小二乘法(Ordinary Least Squares,OLS)回归分析,逐步回归得到的残差作为新数据,根据新数据回测的有效性进行加权平均,在每个组别内合称为一个新的数据,最终达到降维的效果.通过利用金融量化投资领域的多因子模型(Multi-Factor Model)和过去十年的A股数据进行回测及分析,证明采用逐步聚类降维法能够有效的处理高维度、高共线性时间序列因子数据,帮助后续应用模型更好的剔除时间序列数据间的多重共线性关系,同时最大程度上保留甚至提高时间序列数据的有效性.
有监督聚类、降维、时间序列分析、K临近算法、贪心算法
23
C37(数据处理)
2020-06-04(万方平台首次上网日期,不代表论文的发表时间)
共7页
2-8