流式数据处理的动态自适应缓存策略研究

引用

摘要：

在现代大数据处理应用场景中,流数据处理技术的应用十分广泛.消息中间件或消息队列常在流数据处理中起到数据缓冲的作用.Apache Kafka常被用作数据缓冲中间件,Kafka的工作性能在很大程度上决定着应用系统整体的性能.在实际应用中,Kafka的上游数据源所产生的数据流量通常是不稳定的,静态的缓存策略不能适应这种多变的生产环境.针对这一问题,如果存在一种策略能根据上游流量变化动态调整数据缓存,就能增强系统对环境的适应能力,实现流数据缓存处理的实时性和吞吐量性能的提升.动态缓存策略采用对上游数据流量监控的方法,通过使用ARIMA模型对未来流量进行预测,提前调整流数据存储转发设置.流数据缓存设置参数的最佳值来源于在各压力下对中间件系统性能进行实验得到的结果的多目标优化.对比实验结果证明,在流数据高峰到达期间,策略在保证一定最大延迟的前提下可以使Apache Kafka的数据缓冲吞吐量性能提高150％以上,从而提高了系统的整体性能.

关键词：Apache Kafka平台、时序预测、多目标优化、流数据处理、消息中间件

所属期刊栏目：47

分类号：TP311(计算技术、计算机技术)

在线出版日期：2020-11-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：122-127

英文信息展示

期刊专题