当前位置：首页 > 资讯攻略 > 新闻动态

英特尔详细介绍Ponte Vecchio 性能可达英伟达A100平台的2.5倍

时间：2022-08-23

在 Hot Chips 34 大会期间，英特尔再次详细介绍了 Sapphire Rapids HBM 处理器 + Ponte Vecchio（2-Stack）GPU 平台的潜力，称该服务器平台的性能可达英伟达 A100 竞品的 2.5 倍。英特尔首席 GPU 计算架构师 Hong Jiang 在演讲中指出，Ponte Vecchio 具有三种配置。

从单一 OAM、到配备 Xe Links 的 x4 子系统，Ponte Vecchio GPU 不仅能够单独运行、也可部署于 Sapphire Rapids 双路服务器平台之上。

其中 OAM 支持 4 GPU 和 8 GPU 平台的 all-to-all 拓扑，辅以英特尔 oneAPI 软件堆栈。

作为一个零级（Level Zero）API，其为跨架构编程支持提供了低层级的硬件接口。

oneAPI 主要特性如下：

● 提供面向其它工具和加速器设备的接口；

● 支持精细的增益控制、以及低延迟的加速器特性；

● 具有多线程设计；

● 将 GPU 作为驱动程序的一部分而提供。

性能指标方面，2-Stack Ponte Vecchio GPU 配置（如单一 OAM 上的配置），可提供高达 52 TFLOP 的 FP64 / FP32 算力。

另有 419 TFLOP 的 TF32（XMX Float 32）、839 TFLOP 的 BF16 / FP16，以及 1678 TFLOPs 的 INT8 算力。

英特尔还详细说明了 Ponte Vecchio 的缓存大小 / 峰值带宽 —— 比如 GPU 上的寄存器为 64 MB，提供 419 TB/s 的带宽。

L1 缓存也为 64 MB，带宽 105 TB/s（4:1）。L2 缓存为 408 MB，带宽 13 TB/s（8:1）。HBM 内存池高达 128 GB，辅以 4.2 TB/s（4:1）的带宽。

以下是英特尔为 Ponte Vecchio 配备的系列计算效率（compute efficiency）技术。

Register File（寄存器文件）：

● Register Caching（寄存器缓存）

● Accumulators（累加器）

L1 / L2 Cache：

● Write Through（直写）

● Write Back（回写）

● Write Streaming（流式写入）

● Uncached（不缓存）

Prefetch（预取）：

● 支持 L1 和（或）L2 缓存的软件（指令）预取；

● 支持到 L2 获取指令和数据的 Command Streamer 预取。

英特尔解释称，更大的 L2 缓存，可为 2D-FFT 和 DNN 等工作负载带来巨大的效益，并且分享了完整 Ponte Vecchio GPU 和 80 / 32 MB 模块之间的一些性能比较。

此外英特尔搬出了运行 CUDA 和 SYCL 的英伟达 Ampere A100，与使用 SYCL 的 Ponte Vecchio GPU 平台展开了性能横比。

在 miniBUDE（一种可预测配体与目标结合能的计算工作负载）中，Ponte Vecchio GPU 模拟测试结果的速度，更是 Ampere A100 的 2 倍。

另外在 ExaSMR 核反应堆设计仿真设计中，英特尔 Ponte Vecchio GPU 也以 1.5 倍领先于英伟达竞品方案。

不过需要指出的是，英伟达早已向市场投放了性能更加强悍的 Hopper H100，所以英特尔这里拿 Ampere A100 进行比较还是相当投机取巧的。

言归正传，英特尔概述了 Ponte Vecchio 旗舰数据中心 GPU 的一些关键特性，例如 128 个 Xe 内核、128 个光追（RT）单元、HBM2e 显存、以及连接到一起的 8 个 Xe-HPC GPU 。

该芯片在两个独立的堆栈中提供了高达 408 MB 的 L2 缓存、之间通过 EMIB 互连，且各部分芯片混用了 Intel 7 和台积电 N7 / N5 等多个工艺节点。

由两块（2 Tiles）组成的每个堆栈有 16 裸片，最大的 active die 尺寸为 41 m㎡、Compute Tile 则是 650 m㎡。

以下是 Ponte Vecchio GPU 的完整小芯片 / 工艺节点描述：

● 英特尔 7nm

● 台积电 7nm

● Foveros 3D 封装

● EMIB 互连

● 10nm 增强型 Super Fin

● Rambo Cache

● HBM2 高带宽显存

以下是英特尔 Ponte Vecchio 芯片的 47 块（Tiles）组成：

● 16 个 Xe HPC（内/外部）

● 8 个 Rambo Cache（内部）

● 2 个 Xe Base（内部）

● 11 个 EMIB（内部）

● 2 个 Xe Link（外部）

● 8 个 HBM（外部）

Ponte Vecchio GPU 使用了 8 个 HBM 8-Hi 堆栈，总共包含 11 个 EMIB 互连，完整封装尺寸为 4843.75 m㎡。

设计中还提到了高密度 3D Forveos 封装的 Meteor Lake CPU，可知其 bump pitch 的间距为 36u 。

【总结】Ponte Vecchio GPU 不是一个单独的芯片，而是由 47 个不同工艺制程的小芯片“组合”得来。

遗憾的是，受英特尔多次跳票的影响，使用 Ponte Vecchio GPU 和 Sapphire Rapids CPU 的 Aurora 超级计算机项目也被迫推迟。

即便如此，英特尔还是透露了下一代 Rialto Bridge GPU 。可知作为 Ponte Vecchio GPU 的继任者，其有望于 2023 年开始提供样品。

相关阅读

更多

猜你喜欢

就聊app官网最新版

类型：角色扮演

就聊app下载就聊app官网最新版
芳华一对一聊天软件app官方

类型：[db:筛选栏目]

芳华一对一app下载芳华一对一聊天软件app官方下载
潮人特色国际版app 0.0.3

类型：[db:筛选栏目]

潮人特色国际版下载潮人特色国际版app
窑池2022最新版本app安装 1.0

类型：[db:筛选栏目]

窑池最新版本下载窑池2022最新版本app安装
找女王app交友最新版 1.0

类型：[db:筛选栏目]

找女王app下载找女王app交友最新版
与你app资源群2022最新版本社交软件

类型：[db:筛选栏目]

与你app群聊资源下载与你app资源群2022最新版本社交软件下载

相关应用
热门推荐

夜空视频直播免费版

安卓应用 110.74MB

立即下载
玫瑰视频最新版2022

安卓应用 39.1MB

立即下载
下饭小视频安卓版

安卓应用 21.6MB

立即下载
呱呱视频免费版

安卓应用 17.96MB

立即下载
桃花视频最新版

安卓应用 109.52MB

立即下载
吃瓜视频最新版

安卓应用 7.18MB

立即下载

文章资讯

热门资讯

应用推荐

换一换

下载排行

更多

1 抖音911视频软件轻量版app最新2022
聊天交友

1

抖音911视频软件轻量版app最新2022

应用类型：安卓应用

下载
2 ONE99app致敬韩寒最新版2022 1.0
聊天交友

2

ONE99app致敬韩寒最新版2022 1.0

应用类型：安卓应用

下载
3 新欢公园软件安装
聊天交友

3

新欢公园软件安装

应用类型：安卓应用

下载
4 大美书网2021
聊天交友

4

大美书网2021

应用类型：安卓应用

下载
5 菊花软件免费版可直接安装app 1.0
聊天交友

5

菊花软件免费版可直接安装app 1.0

应用类型：安卓应用

下载
6 cilicili短视频轻量版3.5.1.1最新版本安装包
聊天交友

6

cilicili短视频轻量版3.5.1.1最新版本安装包

应用类型：安卓应用

下载
7 jh888app菊花V1.0.5交友软件最新版
聊天交友

7

jh888app菊花V1.0.5交友软件最新版

应用类型：安卓应用

下载
8 套路taolufun
聊天交友

8

套路taolufun

应用类型：安卓应用

下载
9 2022非好友偷看qq空间神器手机版
聊天交友

9

2022非好友偷看qq空间神器手机版

应用类型：安卓应用

下载
10 QQ8.5.5
聊天交友

10

QQ8.5.5

应用类型：安卓应用

下载

顶部