一种基于Storm平台的ETL方案实现
随着互联网在各个领域的不断发展,数据开始呈现结构多样化与体积海量化.面对海量数据的冲击,如何提高ETL的效率至关重要.针对"信息孤岛"中数据来源及格式皆不统一、数据采集实时性差的问题,提出垂直切分ETL工作流和水平切分待处理数据集,建立一种基于Storm平台的流式ETL处理方案.同时,针对Storm在进行任务分配时对工作节点CPU负载不敏感的缺点,通过定时任务记录工作节点的CPU负载信息,对Storm调度器的slot分配方式进行优化,使得Storm集群的负载更加均衡.实验结果证明该方案可有效提高ETL的处理效率,同时针对slot分配优化可有效地提高系统稳定性与处理效率.
ETL、垂直切分、水平切分、Storm、负载优化
46
TP399(计算技术、计算机技术)
2019-12-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
208-211,240