NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒_业界资讯

时间：2024-03-19

阅读：

当地时间3月18日，人工智能（AI）芯片龙头厂商NVIDIA在美国加州圣何塞召开了GTC2024大会，正式发布了面向下一代数据中心和人工智能应用的“核弹”——基于Blackwell架构的B200 GPU，将在计算能力上实现巨大的代际飞跃，预计将在今年晚些时候正式出货。

同时，NVIDIA还带来了Grace Blackwell GB200超级芯片等。

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

NVIDIA创始人兼CEO黄仁勋，NVIDIA目前按照每隔2年的更新频率，升级一次GPU构架，进一步大幅提升AI芯片的性能。

两年前推出的Hopper构架GPU虽然已经非常出色了，但我们需要更强大的GPU。

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

B200：2080亿个晶体管，FP4算力高达 40 PFlops

NVIDIA于2022年发布了采用Hopper构架的H100 GPU之后，开始引领了全球AI市场的风潮。

此次推出的采用Blackwell构架的B200性能将更加强大，更擅长处理AI相关的任务。Blackwell构架则是以数学家David Harold Blackwell的名字命名。

据介绍，B200 GPU基于台积电的N4P制程工艺（这是上一代Hopper H100和Ada Lovelace架构GPU使用的N4工艺的改进版本），晶体管数量达到了2080亿个，是H100/H200的800亿个晶体管两倍多。这也使得B200的人工智能性能达到了20 PFlops。

黄仁勋表示，Blackwell构架B200 GPU的AI运算性能在FP8及新的FP6上都可达20 PFlops，是前一代Hopper构架的H100运算性能8 PFlops的2.5倍。

在新的FP4格式上更可达到40 PFlops，是前一代Hopper构架GPU运算性能8 PFlops的5倍。

具体取决于各种Blackwell构架GPU设备的內存容量和频宽配置，工作运算执行力的实际性能可能会更高。

黄仁勋强调，而有了这些额外的处理能力，将使人工智能企业能够训练更大、更复杂的模型。

需要指出的是，B200并不是传统意义上的单一GPU。相反，它由两个紧密耦合的GPU芯片组成，不过根据NVIDIA的说法，它们确实可以作为一个统一的CUDA GPU。

这两个芯片通过10 TB/s的NV-HBI（NVIDIA高带宽接口）连接连接，以确保它们能够作为一个完全一致的芯片正常工作。

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

同时，对于人工智能计算来说，HBM容量也是极为关键。

AMD MI300X之所以被广泛关注，除了其性能大幅提升之外，其所配备的容量高达192GB HBM（高带宽内存）也是非常关键，相比NVIDIAH100 SXM芯片的80GB高了一倍多。

为了弥补HBM容量的不足，虽然NVIDIA也推出了配备141GB HBM的H200，但是仍大幅落后于AMD MI300X。

此次NVIDIA推出的B200则配备了同样的192GB HBM3e内存，可提供8 TB/s的带宽，弥补了这一薄弱环节。

虽然NVIDIA尚未提供关于B200确切的芯片尺寸，从曝光的照片来看，B200将使用两个全掩模尺寸的芯片，每个管芯周围有四个HMB3e堆栈，每个堆栈为24GB，每个堆栈在1024 bit接口上具有1TB/s的带宽。

需要指出的是，H100采用的是6个HBM3堆栈，每个堆栈16GB（H200将其增加到6个24GB），这意味着H100管芯中有相当一部分专门用于六个HBM内存控制器。

B200通过将每个芯片内部的HBM内存控制器接口减少到四个，并将两个芯片连接在一起，这样可以相应地减少HBM内存控制器接口所需的管芯面积，可以将更多的晶体管用于计算。

支持全新FP4/FP6格式

基于Blackwell架构的B200通过一种新的FP4数字格式达到了这个数字，其吞吐量是Hopper H100的FP8格式的两倍。

因此，如果我们将B200与H100坚持使用FP8算力来比较，B200仅提供了比H100多2.5倍的理论FP8计算（具有稀疏性），其中很大一部分原因来自于B200拥有两个计算芯片。

对于H100和B200都支持的大多数的数字格式，B200最终在理论上每芯片算力提升了1.25倍。

再次回到4NP工艺节点在密度方面缺乏大规模改进的问题上。

移除两个HBM3接口，并制作一个稍大的芯片可能意味着B200在芯片级的计算密度上甚至不会显著更高。当然，两个芯片之间的NV-HBI接口也会占用一些管芯面积。

NVIDIA还提供了B200的其他数字格式的原始计算值，并应用了通常的缩放因子。

因此，FP8的吞吐量是FP4吞吐量的一半（10 PFlops级），FP16/BF16的吞吐量是5 PFlops级的一半，TF32的支持是FP16的一半（2.5 PFlops级）——所有这些都具有稀疏性，因此密集操作的速率是这些速率的一半。

同样，在所有情况下，算力可以达到单个H100的2.5倍。

那么FP64的算力又如何呢？

H100被评定为每GPU可提供60万亿次的密集FP64计算。如果B200具有与其他格式类似的缩放比例，则每个双芯片GPU将具有150万亿次浮点运算。

但是，实际上，B200的FP64性能有所下降，每个GPU约为45万亿次浮点运算。这也需要一些澄清，因为GB200超级芯片将是关键的构建块之一。

它有两个B200 GPU，可以进行90万亿次的密集FP64计算，与H100相比，其他因素可能会提高经典模拟的原始吞吐量。

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

另外，就使用FP4而言，NVIDIA有一个新的第二代Transformer Engine，它将帮助用户自动将模型转换为适当的格式，以达到最大性能。

除了支持FP4，Blackwell还将支持一种新的FP6格式，这是一种介于FP4缺乏必要精度但也不需要FP8的情况下的解决方案。

无论结果的精度如何，NVIDIA都将此类用例归类为“专家混合”（MoE）模型。

最强AI芯片GB200

NVIDIA还推出了GB200超级芯片，它基于两个B200 GPU，外加一个Grace CPU，也就是说，GB200超级芯片的理论算力将会达到40 PFlops，整个超级芯片的可配置TDP高达2700W。

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

黄仁勋也进一步指出，包含了两个Blackwell GPU和一个采用Arm构架的Grace CPU的B200，其推理模型性能比H100提升30倍，成本和能耗降至了原来的1/25。

除了GB200超级芯片之外，NVIDIA还带来了面向服务器的解决方案HGX B200，它基于在单个服务器节点中使用八个B200 GPU和一个x86 CPU（可能是两个CPU）。

这些TDP配置为每个B200 GPU 1000W，GPU可提供高达18 PFlops的FP4吞吐量，因此从纸面上看，它比GB200中的GPU慢10%。

此外，还有HGX B100，它与HGX B200的基本架构相同，有一个x86 CPU和八个B100 GPU，只是它被设计为与现有的HGX H100基础设施兼容，并允许最快速地部署Blackwell GPU。

因此，每个GPU的TDP被限制为700W，与H100相同，吞吐量降至每个GPU 14 PFlops的FP4。

值得注意的是，在这三款芯片当中，HBM3e的每个GPU的带宽似乎都是8 TB/s。因此，只有功率，以及GPU核心时钟，也许还有核心数上会有不同。

但是，NVIDIA尚未透露任何Blackwell GPU中有多少CUDA内核或流式多处理器的细节。

第五代NVLink和NVLink Switch 7.2T

人工智能和HPC工作负载的一大限制因素是不同节点之间通信的多节点互连带宽。

随着GPU数量的增加，通信成为一个严重的瓶颈，可能占所用资源和时间的60%。

在推出B200的同时，NVIDIA还推出其第五代NVLink和NVLink Switch 7.2T。

新的NVLink芯片具有1.8 TB/s的全对全双向带宽，支持576 GPU NVLink域。它也是基于台积电N4P节点上制造的，拥有500亿个晶体管。

该芯片还支持芯片上网络计算中的3.6万亿次Sharp v4，这有助于高效处理更大的模型。

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

上一代NVSwitch支持高达100 GB/s的HDR InfiniBand带宽，是一个巨大飞跃。

与H100多节点互连相比，全新的NVSwitch提供了18X的加速。这将大大提高万亿参数模型人工智能网络的可扩展性。

与此相关的是，每个Blackwell GPU都配备了18个第五代NVLink连接。这是H100链接数量的18倍。

每条链路提供50 GB/s的双向带宽，或每条链路提供100 GB/s的带宽。

GB200 NVL72服务器

NVIDIA还针对有大型需求的企业提供服务器成品，提供完整的服务器解决方案。

例如GB200 NVL72服务器，提供了36个CPU和72个Blackwell构架GPU，并完善提供一体水冷散热方案，可实现总计720 PFlops的AI训练性能或1,440 PFlops的推理性能。

它内部使用电缆长度累计接近2英里，共有5,000条独立电缆。

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

具体来说，GB200 NVL72 基本上是一个完整的机架式解决方案，有18个1U服务器，每个服务器都有两个GB200超级芯片。

然而，在GB200超级芯片的组成方面，与上一代相比存在一些差异。

曝光图片和规格表明，两个B200 GPU与一个Grace CPU匹配，而GH100使用了一个较小的解决方案，将一个GraceCPU与一个H100 GPU放在一起。

最终结果是，GB200超级芯片计算托盘将具有两个Grace CPU和四个B200 GPU，具有80 PFlops的FP4 AI推理和40 PB的FP8 AI训练性能。

这些是液冷1U服务器，它们占据了机架中典型的42个单元空间的很大一部分。

除了GB200超级芯片计算托盘，GB200 NVL72还将配备NVLink交换机托盘。

这些也是1U液冷托盘，每个托盘有两个NVLink交换机，每个机架有九个这样的托盘。每个托盘提供14.4 TB/s的总带宽，加上前面提到的Sharp v4计算。

GB200 NVL72总共有36个Grace CPU和72个Blackwell GPU，FP8运算量为720 PB，FP4运算量为1440 PB。有130 TB/s的多节点带宽，NVIDIA表示NVL72可以处理多达27万亿个AI LLM参数模型。

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

目前，亚马逊的AWS已计划采购由2万片GB200芯片组建的服务器集群，可以部署27万亿个参数的模型。

除了亚马逊的AWS之外，DELL、Alphabet、Meta、微软、OpenAI、Oracle和TESLA成为Blackwell系列的采用者之一。

网易近日上线了一款名为“网易小蜜蜂”的App，这是一款针对年轻人的内容社区产品，旨在分享和交流日常生活。目前仅支持手机号登录，用户在注册时需选择就业状态，可以选

2024-11-27 20:27:27

2024年第三季度，全球TWS真无线耳机市场持续增长，根据Canalys科纳仕咨询报告显示，全球出货量达到9230万台，同比增长15%。苹果凭借AirPods 4及ANC版本，以21%的市场份额继续领跑市场

2024-11-27 20:27:07

近日，贴吧上一位用户发帖讨论《黑神话：悟空》是否会登上2024年春晚的舞台，这一话题迅速引发了广大玩家的热议。相关话题甚至登上了贴吧的热议榜单。作为首个国产3A大作，“

2024-11-27 20:26:44

今日，索尼在PlayStation 30周年纪念官网首次公开了PS2的销量数据。自2000年发布以来，PS2全球销量已突破1.6亿台，超越任天堂旗下NDS（1.54亿）和Switch（1.46亿），成为有史以来最畅销的游

2024-11-27 11:59:55

苹果即将在明年推出其超薄设计的新机型——iPhone 17 Air，这款新手机将是苹果史上最薄机型，厚度在5mm到6mm之间。然而为了轻薄，不可避免的就是在某些规格上的妥协，最

2024-11-27 11:57:36

据媒体报道，任天堂社长在最近的股东大会上明确表示，公司将采取措施打击黄牛行为，确保玩家能够顺利购买到下一代Switch主机。报道称，任天堂为了应对可能的黄牛问题，计划在新主机发

2024-11-27 11:57:17

据媒体报道，Windows 11 24H2版本最近又出现了新的问题，受影响的主要是华硕和戴尔两个品牌的笔记本，但也可能影响其他品牌用户。戴尔在文档中确认，当用户在安装了戴尔加密应用（Del

2024-11-27 11:56:54

今天为大家带来的是韩国小姐姐“kxbatx”的COS，黑丝白丝固然好看、光腿也别具风情啊~首位就是游戏《崩坏：星穹铁道》中的花火，游戏为了突出花火的热情和自由奔放，她的

2024-11-25 23:40:55

在多人射击游戏《星河战队：灭绝》正式版发售一个月后，索尼公布了VR游戏《星河战队：连续体》。电影里饰演主角强尼·瑞哥的卡斯派·范·戴恩，继续在这款游戏中

2024-11-25 23:38:46

《王者荣耀》宣布S38新版本迎来大变化。结算部分，在现有金牌和银牌的基础上，如果结算评分到达16.0，就会升级获得一个顶级分路评价，一次获胜可以加三颗星。此外，新版本还将对结算

2024-11-25 21:14:35

微信鸿蒙原生版今日发布了全新内测，版本号为1.0.2.16。新版加入了文件发送（安全访问）、聊天引用、小程序搜索、视频号、群聊折叠、拍一拍、朋友圈标签、新好友分类等功能，使用体

2024-11-25 21:14:12

微信110提醒，近期有诈骗分子假冒Apple官方通过短信向用户发送虚假信息，声称“Apple账户出现异常”等理由，诱导用户点击附带的陌生链接。这些链接打开的页面会提示用

2024-11-25 21:13:49

Intel Battlemage二代锐炫独立显卡即将发布，官方网站上已经多次明确提及，表明官方针对新产品的相关工作正在紧锣密鼓地推进。比如oneAPI Match Kernel，比如Intel PMT平台监控技

2024-11-25 21:13:28

今天，网易云音乐公开喊话QQ音乐，称其自定义播放器背景等功能为抄袭，要求QQ音乐少一点跟随式“更新”，多一点真正的创新。之后，网易云音乐小秘书在评论区再次发声，称目前

2024-11-25 21:13:10

盲目相信导航并不可取，走错路事小，丢掉性命就真的悲剧了。据印度当地媒体报道，当地时间11月23日，印度三名男子驱车前往婚礼现场途中从立交桥上坠落，三人均不幸身亡。报道称，当时三

2024-11-25 21:10:28

今日@网易云音乐发布公告，直接喊话QQ音乐：要求其立即停止剽窃式“创新”、借鉴式“创意”、以及跟随式“更新”的行为。网易云音乐在声明中称

2024-11-25 21:09:56

经历Ampere、Ada两代GPU规模精简之后，RTX 5090再一次“膨胀”——不仅核心面积暴增了22%，功耗也一路飙升到600W。据MEGAsizeGPU最新爆料，RTX 5090的Blackw

2024-11-25 21:09:34

据媒体报道，近日新加坡国立大学团队，在20多个场景下对Claude的电脑操控能力进行了全面测试。结果显示，AI不仅能自动完成手游日常任务，还能执行复杂的办公任务。研究中选用了米哈

2024-11-25 21:09:08

苹果Mac产品行销副总裁Tom Boger和平台架构副总裁Tim Millet在接受采访时，分享了其自研芯片Apple Silicon成功的秘诀。Millet指出，竞争对手的芯片制造商“无法直接采用第

2024-11-18 10:05:47

据报道，英伟达新款Blackwell AI芯片已经面临延迟，并且伴随着配套服务器出现的过热难题，这一连串的挑战引发了用户对于新数据中心能否如期启动并顺利运行的深切忧虑。据内部消息

2024-11-18 10:05:25

Mark Gurman爆料，苹果将在明年推出AirTag 2，爆料称全新的AirTag 2将升级芯片，并改进了位置跟踪功能，能在更远的距离内响应。Mark Gurman还透露，这款设备的代号是B589，它内置的扬声

2024-11-18 10:05:02

NVIDIA Blackwell架构的新一代服务器正在批量出货，而在OCP Summit 2024峰会上，官方进行了公开展示，而且是直接将芯片裸露在外，随便看。这台服务器一共配备了八颗B200芯片，4NP工艺

2024-11-17 23:04:05

Intel锐炫独立显卡会在下个月有一场好戏，但细节不详，现在又有了更进一步的消息。有曝料者贴出了一张预告海报，上边写着Intel锐炫、Battlemage SoC、2024年12月等字样，再次证实In

2024-11-17 21:23:54

技嘉发布了一款新的专业显卡Radeon PRO W7800 AI TOP 48G，一如其名拥有多达48GB显存，比之前的32GB版本增加了一半，可以更好地用于AI大模型训练。AMD去年4月发布了首批两款基于R

2024-11-17 21:23:28

据媒体报道，近日全球范围内的苹果用户报告称，他们收到了多年前参与以旧换新计划的iPhone所购买的AppleCare+服务费退款。这些退款涵盖了从iPhone 11 Pro到iPhone 14 Pro的多种

2024-11-17 21:23:09

随着iPhone、Mac等产品逐渐成熟，苹果也在积极尝试不同领域，据媒体报道，苹果正探索三个主要方向来推出新产品。方向一：AirPods转型分析师郭明錤预测，未来的AirPods Pro 3可能会加

2024-11-17 16:03:46

据媒体报道，谷歌的AI聊天机器人Gemini近日又引起了争议。一名密歇根州的研究生在使用该机器人辅助作业时，突然向用户发送了“请去死”的恶意信息。Gemini回复道：&ldq

2024-11-17 16:03:26

在近日的一次采访中，Intel技术传播经理Florian Maislinger证实，Intel正在开发具有大缓存产品。但这些产品将主要针对数据中心市场，而非主流的消费级市场，因为与服务器市场相比，游

2024-11-17 16:03:09

为庆祝经典游戏《半条命2》正式发行20周年，V社宣布在北京时间11月19日凌晨2点之前，用户可以在Steam平台上免费获取这款游戏。这款游戏在国区原价为42元，整体评价为好评如潮。而

2024-11-17 16:02:34

显示专家Ross Young在社交平台上表示，最新的M4 MacBook Pro使用量子点（QD）薄膜，而不是红色KSF荧光粉薄膜。过去苹果通常采用KSF解决方案，因为它的成本低，而且不含镉，但最新的无镉QD

2024-11-17 10:30:19

2018-09-24

2019-02-01

2019-09-12

2019-04-09

2020-03-30

2019-06-25

2019-04-24

2019-09-23

2019-09-21

2020-03-25

NVIDIA造了个2080亿晶体管的怪物：FP4性能高达4亿亿次每秒

网易版小红书！“网易小蜜蜂”App悄然上线：发力种草生意

苹果霸榜！Canalys公布2024年Q3全球TWS市场份额：小米华为紧追不舍

火爆全球的《黑神话：悟空》能否上春晚你有何看法

超越NDS！索尼PS2全球销量突破1.6亿台：史上最畅销游戏主机

有得必有舍！想入手超薄款iPhone 17 Air：得接受这5处规格缩水

黄牛末日！任天堂新一代Switch首批备货近700万台

华硕、戴尔用户注意！Win11 24H2新问题确认：无法正常关机休眠

韩国小姐姐COS赏：《崩坏：星穹铁道》花火神还原

《星河战队》男主希望索尼重启电影！IP被游戏盘活了

《王者荣耀》16.0评分将获顶级分路一次可加三颗星

微信鸿蒙原生版发布1.0.2.16内测：终于支持文件转发、小程序搜索

苹果手机Apple ID出现异常将被锁定当心有诈

Intel锐炫显卡二代B系列风雨欲来！大方现身官网

平台混战网易云音乐再发声：已下线大量广告位、正持续扩充版权库

谷歌地图错误导航致印度仨男子坠桥身亡

网易云音乐炮轰QQ音乐满屏抄袭！最新回应来了

NVIDIA史上最强核弹来了！RTX 5090大曝光：核心面积暴增22%、功耗狂飙600W

AI电脑操控完整测评：全自动搞定崩铁日常、还能创建炉石卡组

苹果揭秘自研芯片成功原因：竞争对手没法用最新尖端技术

英伟达Blackwell新款芯片过热：面临延迟交付问题

万能防丢神器！曝苹果AirTag 2明年亮相

NVIDIA Blackwell B200新照：八卡并行总功耗8000W

Intel不放弃独立显卡！第三代真的会有

AMD显卡史上最大显存：Radeon PRO W7800 48GB低调发布

毫无原因苹果突然退款！用户收到AppleCare+服务费

不再只靠iPhone和Mac！苹果3大方向打造全新产品线

谷歌Gemini AI惊人回复用户请求帮助：竟收到“请去死吧”！

Intel确认会出3D V-Cache大缓存CPU！遗憾的是：你可能用不上…

正式发行20年！经典游戏《半条命2》免费领取：还有海量更新修复

苹果官方没宣传：M4 MacBook Pro首发量子点显示技术

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道