栏目分类
热点资讯

员工激励

你的位置:九游app在线注册 > 员工激励 > 每个月也会分派到一定的集群使用时刻九游注册官网版

每个月也会分派到一定的集群使用时刻九游注册官网版

2024-07-02 08:28    点击次数:197

【新智元导读】全好意思TOP 5的机器学习博士窘态发帖自曝,我方实验室里H100数量是0!这也引起了ML社区的全球网友大究诘。显明,比较普林斯顿、哈佛这样动辄三四百块H100的GPU大户,更常见的是GPU缺少的「穷东谈主」。并吞个实验室的博士,以致不竭会出现需要争抢GPU的情况。

全好意思TOP 5高校的机器学习博士,实验室却连一块H100都莫得?

最近,这位网友在reddit上发的这个帖子,坐窝激励了社区大究诘——

群众发现,普林斯顿、哈佛这样的「GPU权门」,手上的H100至少以三四百块打底,干系词绝大大都ML博士,却连一块H100都用不上……

不同学校、机构之间的GPU「贫富差距」,真实一经到了如斯悬殊的地步?

大部分实验室,比斯坦福还差多了

两个月前,AI教母李飞飞曾在采访中暗意,斯坦福的天然话语处理(NLP)小组只须64块A100 GPU。

面临学术界如斯匮乏的AI资源,李飞飞可谓是窘态疾首。

而这位发帖的网友也暗意,我方在攻读博士学位期间(全好意思排行前五的学校),计较资源是一个主要的瓶颈。

如果能有更多高性能的GPU,计较时刻会权臣裁减,量度进程也会快好多。

是以,他的实验室里到底有几许H100呢?谜底是——0。

他向网友们发动身问:你们实验室里都有几许GPU?能从亚马逊、英伟达那处拿到非凡的算力提拔吗?

年青的量度者们纷纷自曝我方所在学校或公司的GPU情况,线路出的事实,让系数东谈主大为诧异。

1张2080Ti+1张3090,已是通盘

一位似乎是亚洲的网友暗意,天然我方的量度场地是计较机视觉(CV)并不是机器学习,但在2019年刚启动时,只大致使用一块2080 Ti显卡。

2021年,有契机使用一台配备V100和RTX 8000显卡的处事器。

2022年,赢得了使用一块3090显卡的权限。

2023年,大致使用另一个实验室的一组处事器,这些处事器包括12块2080 Ti、5块3090和8块A100显卡。同庚,还赢得了一项计较资助,可以使用A100显卡三个月。

2024年,学校购买了一台配有8块H100显卡的处事器,并允许试用一个月。

此外,在2021年到2023年期间,也可以从一个土产货学术提供商那处按小时租用GPU。

除了2080 Ti和3090这两张显卡外,大大都这些资源都是分享的。

题主问:这里的「a」等于字面意旨上的「一个」么?

网友暗意,是的,等于这样极重……

有东谈主现身暗意,我方可太惨了:莫得显卡,莫得credits。因为所在大学无法提供匡助,只可让实习公司帮我方赢得一些。

一位2022年底毕业的博士也自曝称,实验室专用的处事器共搭载了差未几30块GPU,其中每台处事器配有4张显卡。(由于购买时刻不同,性能也错落不皆)

不外,并吞实验室里抢GPU的事情如故时有发生。

对此,有网友回来谈,0 GPU很常见。

事理也相等浮浅:咱们并不需要开着法拉利来学车。而且在启动,机器学习的基础是线代、统计和编程,之后才是硬件过程的优化。

而GPU严重匮乏的问题,在我国高校的实验室内也很广泛。

以致,有博主发帖称,某大学的课程竟要肄业生自备算力征战。

五东谈主一组的学生,至少领有2块3090/4090,或者是1块40G A100,才能完成课程条件的LLM锤真金不怕火任务。

那么问题来了,为何高校我方不可多采购一些GPU呢?

朋友「网瘾大爷」暗意,高校平直购买GPU相等不合算。LLM锤真金不怕火参数领域增大,需要的是多机多卡,以及让卡之间串联的蚁合。

不仅有学习本钱、还有帮衬本钱,这对于高校来说参加之大。是以比较常见的步地是,去租用处事器。

清华计较机系在读博士孙恒建议了一样的问题,卡可以买,但问题是,放在哪?

天然,有东谈主在负重前行,天然也有东谈主岁月静好。

比如底下这些学校,比较起来就要「豪阔」得多了。

「H100,咱们也就几百块吧」

有网友表露,普林斯顿话语与智能量度所(PLI)和哈佛Kempner量度所领有最大的计较集群,分别配备了300块和400块H100 GPU。

而这个信息,也得到了一位普林斯顿量度者的佐证——

在普林斯顿,可以使用的集群有三种。

- 小组集群有所不同,但对于10个东谈主来说,32块GPU的分派很合理

- 部门集群的资源更多,不外也需要看具体的部门

- 大学集群Della则领有(128x2)+(48x4)个A100和(96x8)个H100

总之,普林斯顿和哈佛都可以说是显卡大户。

此外,也有网友爆料说,UT Austin领有600块H100。

蒙特利尔大学的博士生暗意,我方的实验室爽气有500块GPU,主淌若A100 40GB和80GB。

德国亚琛工业大学的网友暗意,学提供了一个包含52块GPU节点的计较集群,每个节点配备4块H100 GPU。

这些资源天然是系数院系分享的,其他一些机构也能使用。

不外,即使是学生,每个月也会分派到一定的集群使用时刻。如果你需要更多的计较时刻,可以请求不同领域的专用计较技俩。

「我相等心爱这个系统,大致使用它,对我来说是一次改变量度进程的契机。」

对如斯充沛的算力,题主暗意相等惊奇。

另一位欧洲的网友也暗意,我方的实验室有爽气16块实验室专用的A100 GPU,况且还能通过几个不同的非凡集群探望更多的GPU。

由于这些集群有好多用户,是以具体领域很难揣度,但每个集群爽气每年提供12万GPU小时的计较时刻。

不外,杰出80GB的GPU内存需求是一个瓶颈。现时来说,所有这个词能用的约为5块H100。

肖似的,这位网友所在的实验室,也特别豪阔:

「咱们实验室有8块H100和8块L40S,专供5名博士生和3名博士后免费使用。」

临了,截取一些「凡尔赛」网友的发言。

比如,这位在云计较供应商责任的网友就暗意,这个帖子很敬爱敬爱,因为我方竟不知谈H100是这样疗养。

或者,从单元分不到显卡,那就干脆我方买一块。

紧俏的H100,为如何此热切

最近,英伟达的市值一度冲破3.3万亿好意思元,登顶全球第一。

这背后最凝视的明星,莫过于它的H100 GPU了。

跟芜俚芯片不同的是,H100内的800亿个晶体管枚举在内核中,这些内核被疗养为高速处理数据,而非生成图形。

诞生于1993年的英伟达,押注并行责任的技艺有一天将使我方的芯片在游戏除外阐扬价值,他们赌对了。

在锤真金不怕火LLM时,H100比前代A100快四倍,在讲演用户辅导时快30倍。对于急于锤真金不怕火LLM实践新任务的公司来说,性能上风至关热切。

也恰是因此,全宇宙生成式AI的海浪,正在迁徙为英伟达的骨子收入。而H100的需求如斯之大,以至于许多客户不得不恭候六个月才能得益。

Nebius AI的IaaS期间产物司理Igor,探讨了H100、L4、L40、A100、V100这些最流行的芯片之间的各异,并细则了每种GPU模子发达最好的责任负载。

谈到芯片之间的各异之前,热切的是强调Transformer神经蚁合和数值精度的一些有关属性。

数值精度的作用

如果莫得对FP8精度的硬件救济,英伟达的H100、L4和L40不可能取得浩大的收效,这对于Transformer模子尤其热切。

可是,是什么让对FP8的救济如斯热切呢?让咱们深切了解一下。

FP是「浮点」的缩写,它是对于模子存储在RAM中,并在其操作中使用的数字的精度。

最热切的是,这些数字决定了模子输出的质地。

以下是一些关节的数字体式——

FP64,即双精度浮点体式,是一种每个数字占用64位内存的体式。

天然这种体式未在机器学习中使用,但它在科学领域占有一隅之地。

FP32和FP16:遥远以来,FP32是系数深度学习计较的事实范例。

干系词,数据科学家其后发现,将模子参数转念为FP16体式,可以减少内存挥霍并加速计较速率,而且似乎不会影响质地。

成果,FP16就成为了新的黄金范例。

TF32,亦然另一种至关热切的体式。

在进入张量内核上处理FP32值的计较之前,这些值可以在驱动设施级别自动转念为TF32体式,而无需改造代码。

显明,TF32天然略有不同,但能提供更快的计较速率。也等于说,可以通过模子在张量内核上贯通FP32的步地进行编码。

INT8:这是一种整数体式,不波及浮点数。

锤真金不怕火后,模子参数可以转念为其他占用内存较少的类型,举例INT8。这种期间称为锤真金不怕火后量化,可以减少内存需求并加速推理速率。它为许多模子架构创造了遗迹,不外Transformer 是一个例外。

Transformer无法在锤真金不怕火后进行转念,以箝制推理的硬件条件。量化感知锤真金不怕火等转变期间照着实锤真金不怕火过程中提供了一种照顾措施,但从新锤真金不怕火现存模子有可能本钱不菲,而且极具挑战性。

FP8:此体式照顾了上述问题,尤其是Transformer模子。

可以摄取预锤真金不怕火的Transformer模子,将其参数转念为FP8体式,然后从A100切换到H100。

以致咱们可以在不进行转念的情况下作念到这少量,并仍然赢得性能,仅仅因为H100速率更快。

借助FP8,只需爽气四分之一的显卡即可推断出具有调换性能和负载的调换模子。

另外,使用FP8进行搀杂精度锤真金不怕火也很可以——这个过程会完成得更快,需要更少的RAM,况且在稍后的推理阶段不再需要转念,因为模子的参数可能一经是FP8的参数。

ML、HPC和图形的关节GPU规格及性能基准

底下让咱们来究诘一下,GPU规格的演变过火杰出功能。

请至极顾惜上图中的前两行:RAM数量过火带宽。

ML模子必须细致符合运行时环境可探望的GPU。不然,咱们将需要多个GPU进行锤真金不怕火。在推理过程中,不竭可以将系数内容都装配在单个芯片上。

顾惜SXM和PCIe接口之间的区别。英伟达的责任主谈主员仅仅字据咱们我方或咱们的云提供商已有的处事器来分离它们。

如果诞生包括带有PCI插槽的范例处事器,况且不念念为GPU平直团结到主板的专用机器(SXM)用钱,那么H100 PCIe等于咱们的最好采用。

天然,它的规格可能比SXM版块要弱,但它与范例紧凑型处事器透彻兼容。

可是,如果咱们念念从新启动构建顶级集群,况且也能背负得起,那么H100 SXM5显明是更好的采用。

各式 GPU 在锤真金不怕火和推理中的性能筹办,则可以依据下图——

图表源自Tim Dettmers的这篇著名著作《深度学习应该使用哪些GPU:我在深度学习中使用GPU的教养和建议》

H100 SXM筹办用作100%基准,系数其他筹办均相对于此进行范例化。

该图表骄慢,H100 GPU上的8位推理,比调换GPU模子上的16位推理快37%。这是由于硬件救济FP8精度计较。

所谓「硬件救济」,是指将数据从RAM迁徙到张量中枢进行计较的整个初级管线。在此过程中,各式缓存启动阐扬作用。

而在A100中,由于硬件级别不救济FP8,此类GPU上的 8 位推理速率并不会更快。来自RAM 的缓存仅以与FP16体式调换的速率处理数字。

更详备的图表如下——

你投诚顾惜到了,某些RTX显卡在AI任务中的成果也可以。不竭,它们的内存比起数据中心专用卡要少,况且不救济集群,但它们的价钱显明低廉好多。

是以,如果盘算用于里面实验的土产货基础设施,也可以斟酌这类RTX显卡。

干系词,GeForce驱动设施EULA平直辞谢在数据中心使用此类卡,是以任何云提供商都无权在处事中使用它们。

当今,咱们再比较一下图形和视频处理有关任务中的GPU。以下是与此类用例有关的关节范例:

咱们需要再次存眷RAM大小和带宽。另外,还要顾惜RT中枢的特有性能筹办,以及解码器和编码器计数,这些专用芯片厚爱压缩息争压缩视频源。

「图形模式」行会教学GPU是否可以切换到面向图形的模式 (WDDM)。

H100透彻莫得这个功能;A100有此功能,但也会受限,因此不一定实用。

酿成昭彰对比的是,L4和L40配备了这种模式,因此它们被定位为适用于各式任务(包括图形和锤真金不怕火)的多功能卡。

英伟达在有些材料中以致当先将它们算作面向图形的卡进行营销。干系词,它们也相等符合机器学习和神经蚁合锤真金不怕火和推理,至少莫得任何硬性期间干与。

而用户来说,这些数字意味着H100变体以及A100都不符合以图形为中心的任务。

V100有可能充任处理图形责任负载造谣责任站的GPU。

L40是资源最密集的4K游戏体验无可争议的冠军,而L4救济1080p游戏。这两种卡还能以各自的分辨率渲染视频。

回来

咱们可以得出下表,字据不同显卡的设想主见,展示了不同显卡的特点。

该表中有两个主要用例类别:地谈专注于计较的任务(「计较」)和包含可视化的任务(「图形」)。

咱们一经知谈,A100和H100透彻不符合图形,而L4和L40则是为此量身定制的。

乍一看,你可能会合计A100或L40的推理技艺一样出色。干系词,有一些细微死别需要斟酌。

在「HPC」一列中,骄慢了是否可以将多个主机合并到单个集群中。

在推理中,很少需要集群——但这取决于模子的大小。关节是确保模子符合主机上系数GPU的内存。

如果模子超出了此鸿沟,或者主机无法为其组合RAM容纳满盈的GPU,那么就需要GPU集群。

L40和L4的可彭胀性受到单个主机功能的限度, H100和A100则莫得这个限度。

咱们应该在ML责任负载中采用哪种GPU呢?保举如下——

L4:经济实惠的通用GPU,适用于各式用例。它是一款初学级模子,是通往GPU加速计较宇宙的宗派。L40:针对生成式AI推理和视觉计较责任负载进行了优化。A100:为传统CNN蚁合的单节点锤真金不怕火提供了超卓的性价比。H100:BigNLP、LLMs和Transformer的最好采用。它还相等符合漫衍式锤真金不怕火场景以及推理。

图形场景可分为三组:流式传输、造谣桌面和渲染农场。如果莫得视频输入模子,那么它就不是图形场景。这等于推理,而此类任务最好被描写为东谈主工智能视频。

卡可以处理加密的视频源,况且A100配备了硬件视频解码器来完成此类任务。这些解码器将馈遗转念为数字体式,使用神经蚁合对其进行增强,然后将其传回。

在整个过程中,骄慢器上不会出现任何视觉内容,因此天然H100和A100可以纯熟地锤真金不怕火与视频或图像有关的模子,但它们骨子上并不产生任何视频。

这等于另一个故事了九游注册官网版。



Powered by 九游app在线注册 @2013-2022 RSS地图 HTML地图