期刊专题

10.11896/j.issn.1002-137X.2017.05.031

分布式流数据加载和查询技术优化

引用
分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展.综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上.在SparkStreaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询.测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势.

大数据、流处理系统、分布式流查询、查询优化、Kafka快速加载

44

TP274(自动化技术及设备)

国家自然科学基金61271275,61202067

2017-06-13(万方平台首次上网日期,不代表论文的发表时间)

共6页

172-177

暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

44

2017,44(5)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn