期刊专题

基于Ring All-Reduce的高扩展性分布式机器学习架构

引用
如今,机器学习广泛应用于各个行业,然而随着当下各种应用场景的数据量的增大,分布式机器学习几乎成为唯一的选择.因此,各个设备之间的数据通讯的优化十分重要.在参数服务器架构中,参数同步通信量大,参数服务器节点的带宽会成为瓶颈;而在基于Ring All-Reduce的框架下,通信时间受限于环上最慢的连接,当环中GPU节点数变多的时候,会导致延迟变大.该文提出一种基于Ring All-Reduce的分层架构,将计算节点按算力大小分成多个小组,组内使用Ring All-Reduce算法进行同步并行,小组间使用参数服务器架构实现异步并行,保证模型收敛的条件下,兼顾各个节点的负载均衡.

分布式机器学习、联邦学习、分层Ring All-Reduce

18

TP18(自动化基础理论)

辽宁省大学生创新创业训练计划S202110145204

2022-04-18(万方平台首次上网日期,不代表论文的发表时间)

共4页

54-56,59

暂无封面信息
查看本期封面目录

电脑知识与技术

1009-3044

34-1205/TP

18

2022,18(6)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn