期刊专题

10.13328/j.cnki.jos.005107

一种面向数据仓库周期性查询的增量优化方法

引用
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果、优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如MapReduce)周期性调度执行的物理查询任务.以Apache Hive为基础,实现了上述方法的原型HiveInc.实验结果表明:对于扩展了增量语法描述的TPC-H测试集,HiveInc相对于优化前可以获得平均2.93倍、最高5.78倍的加速;与经典的优化技术IncMR、DryadInc相比,分别可以获得1.69倍和1.61倍的加速.

数据仓库、周期性查询、增量优化、中间结果重用

28

TP311(计算技术、计算机技术)

国家高技术研究发展计划8632015AA011505;国家自然科学基金61303053,61402445,61402303,61521092 National High-Tech R&D Program of China 8632015AA011505;National Natural Science Foundation of China61303053,61402445,61402303,61521092

2017-09-13(万方平台首次上网日期,不代表论文的发表时间)

共22页

2126-2147

暂无封面信息
查看本期封面目录

软件学报

1000-9825

11-2560/TP

28

2017,28(8)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn