NVIDIA再放“大招”,拓宽高性能计算边界

2019-11-22

11月19日,在丹佛2019全球超级核算大会(SC19)上,NVIDIA创始人兼首席履行官黄仁勋进行了主题讲演,并宣告了NVIDIA在高功能核算范畴的最新动态与效果。这些效果标明,NVIDIA正在将本身才干赋能给更多生态同伴,推动高功能核算范畴的全面开展,一起协助人工智能专家、数据科学家更高效地开展作业。

在数字经济时代,核算力已成为支撑各范畴开展与转型的重要柱石,在许多科研运用以及商业场景中已不可或缺。“高功能核算范畴正在一起朝各个方向扩展。实际上,高功能核算已无处不在,比方超级核算中心、云和边际等。”黄仁勋在讲演中表明:“一切这一切都在发生巨变。”

1601150

高功能核算的飞速开展与运用遍及,为更多范畴带来了巨大的动能。关于NVIDIA来说,其环绕GPU而打开的一系列软硬件立异以及生态协作,让咱们看到了NVIDIA深耕在高功能核算范畴的实力与决计。

新的参阅规划渠道:为Arm服务器供给GPU加快

在SC19上,NVIDIA发布了一款参阅规划渠道,使企业能够快速构建GPU加快的Arm服务器,以满意日益多样化的科学和工业运用需求。该渠道由硬件和软件根底模块组成,能够满意高功能核算(HPC)社区关于类型愈加多样化的CPU架构日益增加的需求。经过该渠道,超级核算中心、超大型云运营商和企业能够将NVIDIA加快核算渠道的优势与最新的Arm服务器渠道相结合。

为了构建这一参阅渠道,NVIDIA与Arm及其生态协作同伴(包含Ampere、富士通和Marvell)联手,以保证NVIDIA GPU与Arm处理器之间的无缝协作。该参阅渠道还得益于与HPE旗下公司Cray和HPE这两家前期选用Arm服务器的供货商之间的严密协作。此外,许多高功能核算软件公司已运用NVIDIA CUDA-X库来构建可在Arm服务器上运转、并可经过GPU完结的办理和监控东西。

黄仁勋表明:“高功能核算正在兴起。机器学习和AI范畴的打破正在从头界说科学研究办法,并且或许带来激动人心的新架构。从超大规模云到百万兆级超级核算,NVIDIA GPU与ARM的组合让立异者们能够为不断添加的新运用创立体系。”

发布云上GPU超算:让每位科学家都能具有一台超级核算机

会上,NVIDIA还发布了在Microsoft Azure云上的一种新式GPU加快超级核算机。此次发布的全新NDv2实例是Azure上规模最大的一次布置,该产品专为处理要求严苛的AI和高功能核算运用而规划,是全球速度最快的超级核算机之一。它能在一个Mellanox InfiniBand后端网络上供给多达800个互联的NVIDIA V100 Tensor Core GPU。

这是初次用户能够依据需求,在自己的桌面上租借整台AI超级核算机,并且其功能与那些需求数个月时刻才干完结布置的大型本地超级核算机相匹配。

这款新产品非常适用于杂乱的AI、机器学习和高功能核算作业负载。比较根据CPU的传统核算,它具有明显的功能和本钱优势。关于需求快速处理方案的AI研究人员来说,它能够快速发动多个NDv2实例,并在短短几小时内完结杂乱的会话式AI模型的练习。

此前,微柔和NVIDIA的工程师已在该集群的预览版别上运用64个NDv2实例进行了试验。他们用了约三小时完结了BERT会话式AI模型的练习。能够完结这一速度的原因之一是运用了NCCL(一款NVIDIA CUDA X库)供给的多GPU优化以及高速Mellanox 互联处理方案。

另一个长处是客户能够运用多个NDv2实例运转杂乱的高功能核算作业负载,比方LAMMPS,这是一种盛行的分子动力学运用程序,用于在药物开发和探究等范畴中模仿原子级物质。比较于一个专用于特定运用程序(如深度学习)的、未运用GPU的 HPC核算节点,单个NDv2实例就能完结高达一个数量级的速度提高。假如需求进行大规模的模仿,还能够将这一功能线性扩展至一百个实例。

一切NDv2实例都能够获益于NVIDIA NGC容器注册表和Azure Marketplace中所供给的TensorFlow、PyTorch和MXNet等GPU优化高功能核算运用、机器学习软件及深度学习结构。该注册表还供给Helm图表,让用户在Kubernetes集群上能够轻松地布置AI软件。

全新软件套件,将数据移动时刻从数小时缩短至几分钟

别的一项重磅发布是NVIDIA Magnum IO软件套件。该产品让数据科学家及AI和高功能核算研究者能够在数分钟内处理好以往需求数小时才干处理完毕的海量数据。

Magnum IO专为处理存储和输入/输出(I/O)遇到瓶颈这一问题进行了优化。优化之后,履行财政剖析、气候建模等杂乱的、需求处理很多数据集的高功能核算作业负载时,多服务器、多GPU核算节点的数据处理速度比之前提高了20倍。

Magnum IO是NVIDIA与很多网络和存储职业领导企业(包含DataDirect Networks、Excelero、IBM、Mellanox和WekaIO)密切协作的效果。

Magnum IO的中心是GPUDirect Storage。它供给了一条连通GPU内存和存储的直接数据途径,使数据能够绕过CPU,在由GPU、存储和网络设备供给的“开放式高速公路”上快速传输,快速拜访用于模仿、剖析或可视化的数据文件。GPUDirect Storage由点对点和RDMA组件组成,兼容多种通讯互联产品与API,包含NVIDIA NVLink和NCCL以及OpenMPI和UCX。

NVIDIA Magnum IO软件现已上市,但GPUDirect Storage仅为部分用户供给了前期拜访权限。NVIDIA计划在2020年上半年向一切客户供给GPUDirect Storage。

NVIDIA与高功能核算

跟着数据的增加,以及对数据价值的不断发掘,高功能核算具有宽广的开展与运用远景。自从开端布局高功能核算范畴今后,咱们能够看到,NVIDIA就继续扮演着职业赋能者与驱动者的人物,经过集合生态的力气,不断为整个高功能核算范畴的良性开展供给助力,为更多高功能核算的用户带来便当。此次NVIDIA在SC19上的发布,再次印证了这一点。

【凡本网注明来历非的著作,均转载自其它媒体,意图在于传递更多信息,并不代表本网附和其观念和对其真实性担任。】

延伸阅览:

  • 云核算下半场,从金融业革新看云原生的机会与应战
  • “VMware立异网络”携手生态各方,全方位助力数字化转型
  • Veeam 2020年技能猜测