高性能计算技术也能助推大规模深度学习(百度实践)

  • 时间:
  • 浏览:0
  • 来源:UU直播快三官方_大发UU直播快3

    Sengupta解释,“OpenMPI在有有哪些矩阵通信时,肯能矩阵在GPU内存中,它实际上会一键复制一份到CPU内存中,一点做法是非常浪费资源的,实际上可不能否 不必一键复制,只还要编写兩个 小的内核来减少GPU内存空间即可,当你在兩个 节点内执行all-reduce,一点所有GPU都不 兩个 PCI根复合体中时一点最好的措施不得劲有用,在GPU内存空间就可不能否 完成一切任务,就是我这么兩个 简单的想法,最终亲戚亲戚我们我们 的算法实现比OpenMPI自身的要快得多”。

以上为译文。

    百度的SVAIL团队大约两年前刚刚刚开始英语 英语 英语 在亲戚亲戚我们我们 内内外部的深度图学习框架(全名是Gene and Majel,为了向著名的星际旅行创立者Gene Roddenberry和他的第二任妻子Majel Barrett致敬)上使用一点算法,百度研究人员表示,在HPC领域,亲戚亲戚我们我们 对一点算法早已是老生常谈,但在人工智能和深度图学习领域,一点算法却未被充分利用。

文章原标题《HPC Technique Propels Deep Learning at Scale

作者:Tiffany Trader,译者:耕牛的人,审校:身形。

三种生活all-reduce算法实现的性能对比(单位:秒)

    SVAIL除了在算法实现上有突破外,亲戚亲戚我们我们 还注重高速网络(InfiniBand)和软硬一体设计,最终使GPU纵向扩展到128个,具体细节请查阅2015年12月SVAIL团队发布的论文“Deep Speech 2:中英文端到端语音识别”。通过对ring all-reduce算法的改进,与OpenMPI(v1.8.5)相比,百度SVAIL团队在同等GPU数量的状态下,将速率单位提升了2.3-21.4倍。

    Sengupta表示,GPU数量很少时速率单位是最快的,“8颗GPU是快大约20倍,睡着GPU数量的增加,性能反而会有所下降,肯能还要通过网络将数据发送给CPU,但在亲戚亲戚我们我们 内内外部的框架上,亲戚亲戚我们我们 可不能否 将GPU数量扩大到128颗,实现线性扩展”。

    Sengupta就深挖HPC技术用于深度图学习分享了兩个 有趣的观点, “搞深度图学习的人总认为MPI是一项过时的技术,一点好像和深度图学习也这么哪些关系,但我认为使用MPI也可不能否 搭建非常快的集合,一点支持同步梯度下降,使收敛速率单位变慢,不还要用到异步梯度下降就能得到结果”。

更多深度图文章,请关注:https://yq.aliyun.com/cloud

 数十款阿里云产品限时折扣中,赶紧点击领劵刚刚刚开始英语 英语 英语 云上实践吧!

    SVAIL研究人员重写的ring all-reduce算法性能更好,也更稳定,与OpenMPI最大的差别是,SVAIL实现的算法避免了CPU和GPU之间额外的副本传输。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

    SVAIL团队成员大都来自高性能计算领域。百度研究科学家Shubho Sengupta说:“ring all-reduce算法人太好是OpenMPI的一每项,但OpenMPI三种生活并都不 变慢,亲戚亲戚我们我们 在刚用它来进行训练时遇到了不少大问題,亲戚亲戚我们我们 发现它的伸缩能力有限,但亲戚亲戚我们我们 又很想让它具有良好的伸缩性,一点亲戚亲戚我们我们 决定研究它的源代码,最终发现一点算法的速率单位不高,亲戚亲戚我们我们 就重新实现了一点算法”。

Tiffany Trader,毕业于圣地亚哥州立大学和加州州立大学,长期致力于高性能计算、云计算、绿色计算新闻报道和分析,2015年刚刚刚开始英语 英语 英语 担任全球知名高性能计算新闻网站HPCwire的总编辑。Tiffany Trader 的LinkedIn主页,Twitter主页。

文章为简译,更为全部的内容,请查看原文

    百度改进的一点技术就是我OpenMPI算法ring all-reduce,在百度的语音识别模型(Deep Speech 2,建立在多个GPU计算节点之上)并行训练中使用了ring all-reduce算法,百度在今年2月开源了兩个 软件包,兩个 是baidu-allreduce c库(兩个 小型C++库),从前是tensorflow-allreduce(给tensorflow 0.12.1打了兩个 补丁),使用tensorflow建立的模型可不能否 使用一点新的版本,利用它的跨多设备并行避免能力。相关代码托管在GitHub上,有兴趣的读者点击前面的链接即可。

    Deep Speech 2论文发布后,SVAIL团队刚刚刚开始英语 英语 英语 收到来自社区想了解实现细节的请求,肯能一点算法与SVAIL的深度图学习框架专利结合得太紧密了,一点,亲戚亲戚我们我们 就创建了三种生活实现最好的措施,兩个 是针对TensorFlow的,从前就是我更通用的。

    领导TensorFlow补丁工作的Gibiansky阐述了亲戚亲戚我们我们 多管齐下传播信息的最好的措施,“看看这篇博客你就知道了,肯能你在使用TensorFlow,可不能否 使用亲戚亲戚我们我们 提交的补丁版从前训练你的模型,肯能你是深度图学习的作者,一点你看看亲戚亲戚我们我们 的C库,并集成它,通过亲戚亲戚我们我们 内内外部的尝试结果来看还是非常成功的,亲戚亲戚我们我们 希望让更多的人受益于此”。

Ring all-reduce,所有GPU一同发送数据

作者简介:

    关于百度ring all-reduce算法的全部解释,请看百度研究院的这篇博客文章,对于百度开源的深度图学习框架PaddlePaddle来说,它还使用了其它几瓶的技术来保证高性能节点的扩展,有兴趣的同学可不能否 到PaddlePaddle的主页去看看。

    来自百度硅谷人工智能实验室(SVAIL)的研究人员改进了众所周知的HPC通信技术,提升了通信速率单位,一点扩大了亲戚亲戚我们我们 的神经网络训练规模,今天,在知名深度图学习社区分享了亲戚亲戚我们我们 的实现。