基于Kubernetes的分布式TensorFlow平台的设计与实现
文中介绍了基于Kubernetes的分布式TensorFlow平台的设计与实现,针对分布式TensorFlow存在的环境配置复杂、底层物理资源分布不均、训练效率过低、模型研发周期长等问题,提出了一种容器化TensorFlow的方法,并基于Kubernetes容器PaaS平台来统一调度管理TensorFlow容器.文中将Kubernetes和TensorFlow的优点相结合,由Kubernetes提供可靠、稳定的计算环境,以充分发挥TensorFlow异构的优势,极大地降低了大规模使用的难度,同时建立了一个敏捷的管理平台,实现了分布式TensorFlow资源的快速分配、一键部署、秒级启动、动态伸缩、高效训练等.
TensorFlow、Kubernetes、Docker、深度学习
45
TP311(计算技术、计算机技术)
中央高校基本科研业务费专项资金,国家科技支撑计划:公共文化科技服务能力建设与绩效评估技术研究与示范2015BAK26B00
2018-12-18(万方平台首次上网日期,不代表论文的发表时间)
共5页
527-531