当前位置: 首页 > news >正文

赣州网站制作培训2023年新闻热点事件摘抄

赣州网站制作培训,2023年新闻热点事件摘抄,巴中哪里做网站,wordpress css自定义壁纸第8章 分布式训练 8.1 为什么分布式训练越来越流行 近年来,模型规模越来越大,对硬件(算力、内存)的发展提出要求。因为内存墙的存在,单一设持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。 为了…

第8章 分布式训练

8.1 为什么分布式训练越来越流行

近年来,模型规模越来越大,对硬件(算力、内存)的发展提出要求。因为内存墙的存在,单一设持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。

为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力。

8.2 常见的并行策略

分为“数据并行”和“模型并行”。

8.2.1 数据并行

数据并行,需要对各个设备上的梯度进行AllReduce,以确保各个设备上的模型始终保持一致。 当数据集较大,模型较小时,由于反向过程中为同步梯度产生的通信代价较小,此时选择数据并行一般比较有优势,传统的模型,如 ResNet50,比较适合采用数据并行。

8.2.2 模型并行

当神经网络非常巨大,数据并行同步梯度的代价就会很大,甚至网络可能巨大到无法存放到单一计算设备中,这时候,可以采用模型并行策略解决问题。 所谓的模型并行,就是每个设备上的数据是完整的、一致的,而模型被切分到了各个设备上,每个设备只拥有模型的一部分,所有计算设备上的模型拼在一起,才是完整的模型。

模型并行的好处是,省去了多个设备之间的梯度 AllReduce;但是,由于每个设备都需要完整的数据输入,因此,数据会在多个设备之间进行广播,产生通信代价(这里指数据不会复制多份而是通过广播来传递输入数据)。参数量较大的语言模型,如 BERT,常采用模型并行。

8.2.3 流水并行

当神经网络过于巨大,无法在一个设备上存放时,除了上述的模型并行的策略外,还可以选择流水并行。 流水并行指将网络切为多个阶段,并分发到不同的计算设备上,各个计算设备之间以“接力”的方式完成训练。

8.2.4 混合并行

网络的训练中,也可以将多种并行策略混用,以 GPT-3 为例,以下是它训练时的设备并行方案: 它首先被分为 64 个阶段,进行流水并行。每个阶段都运行在 6 台 DGX-A100 主机上。在6台主机之间,进行的是数据并行训练;每台主机有 8 张 GPU 显卡,同一台机器上的8张 GPU 显卡之间是进行模型并行训练。

并行策略的选择影响着训练效率,框架对并行训练的接口支持程度,决定了算法工程师的开发效率。

觉得有用的话,给个一键三连哦,欢迎关注无神一起学AI!

http://www.wooajung.com/news/27463.html

相关文章:

  • 做网站营业范围宁波网站推广方案
  • 如何编辑网站网站运营公司
  • 网站怎么做可以再上面输入文字推广
  • 自助网站企业网络营销推广方案
  • 瑞安这边有没有做网站的网络推广课程培训
  • 中国建设会计网站城关网站seo
  • 网站 专题建设服务seo网站优化多少钱
  • 毕业设计做APP好还是网站软文是指什么
  • 创意空间设计seo优化推广
  • 做文员的网站知乎网站如何进行优化
  • wordpress 新闻类网站长尾关键词是什么意思
  • 怎么申请自媒体平台账号廊坊seo外包
  • 基于.net音乐网站开发小程序搭建教程
  • 自己做购物网站好吗游戏代理平台哪个好
  • 网站后台模板如何使用百度知道合伙人
  • 义乌市做网站东莞网站建设平台
  • 辽宁建设工程信息网作用搜索引擎优化策略不包括
  • 企业门户网站管理要求凤凰网台湾资讯
  • 网站建设发展历程关键词搜索技巧
  • 做soho建立网站app投放渠道有哪些
  • 合肥php网站开发百度地图排名怎么优化
  • 西宁做网站制作的公司国内新闻今日头条
  • 做网站报价公司2023年6月份疫情严重吗
  • ibm用来做测试的网站百度搜索引擎投放
  • 网上营销网站武汉seo建站
  • app和网站开发区别合肥网络营销公司
  • 代做土木工程专业毕业设计网站白帽seo是什么
  • 厦门seo服务商荥阳seo推广
  • 商业活动的网站建设热门关键词
  • wordpress 栏目链接地址品牌企业seo咨询