[未完成的草稿] 这是数据流,愚蠢的。 Groq 比 Mellanox 更大。
图 1
(该图未检测到可翻译文字)
非理性分析在半导体行业投入巨资。职位会随着时间的推移而变化,并定期更新。
非理性分析在半导体行业投入巨资。
职位会随着时间的推移而变化,并定期更新。
意见为作者个人观点,不代表过去、现在和/或未来的雇主。
本新闻稿中发布的所有内容均基于自 2011 年以来的公开信息和独立研究。
本时事通讯并非财务建议,读者在投资任何证券之前应始终进行自己的研究。
请随时通过电子邮件与我联系:[email protected]
大约两个月前,Nvidia 收购了 Groq,通过“非独家”许可协议获得了所有有价值的知识产权,并且(更重要的是)雇佣了所有人才。
我长期以来一直讨厌 Groq。
这是 2024 年 2 月的一篇旧帖子,专门写在 Groq 上。
我的第一反应是这笔交易是为了获得特朗普政府批准 H200 出口而进行的贿赂。许多其他人公开表达了这一观点,也私下给我留言。
图 2
(该图未检测到可翻译文字)
图 3
(该图未检测到可翻译文字)
甚至许多英伟达自己的员工也认为这是贿赂。
图 4
Emphyrio@EmphyrioLives·2025年12月28日
为什么这很有趣?他们的设计太脆弱了,没有这样的设计就无法工作
时钟。
第784章
非理性分析@insane_analyst·2025年12月28日
是的,它太脆弱了,但英伟达很感兴趣。这就是香蕉
共和国贿赂/腐败或世界上最脆弱的国家具有真正的价值。
1
8
第857章
口
Emphyrio@EmphyrioLives·2025年12月31日
阅读 nvidia 员工的言论。这会支持前者
而不是后者。
梅尔文@MelvinGay88974·2025年12月25日
$NVDA以下是 NVDA 员工自己对盲人的看法
关于收购 Groq.LMFAO。
这从字面上看毫无意义。Groq Ipus 是带有 sram 的 vliw 核心。这是一个糟糕的架构
万亿参数模型想象除了 v 之外还必须连接数百万芯片来托管模型
GPU 还可以执行低延迟操作,您只是没有有效地使用所有计算。我怀疑
这笔交易只是为了买断特朗普的走狗,比如查马斯、阳光明媚的马德拉,当然还有
小唐。groq 架构实际上是 thrashand 这些家伙需要救助。看起来像
与 Jensen 进行交换中国访问。 Asan 员工 Ifeel the 20Bcouldhave
用于现有员工以及招聘和培训人员
31
回复
元·Ufyx62 -昨天
+1-有一些我们都不知道的游戏正在发生
5
注意:Blind 是一个(尤其是恶性的)社交媒体平台,要求您使用工作电子邮件进行注册。但他们不会检查您是否仍在您签约的公司工作。
但经过几个月的思考,并考虑到人工智能经济学的最新发展,我已经完全投降了。
图 5
(该图未检测到可翻译文字)
图 6
(该图未检测到可翻译文字)
它始于一个简单的(非工程)前提。
图 7
小唐·特朗普
合伙人
小唐纳德·特朗普 (Donald Trump, Jr.) 是 1789 年的合作伙伴,专注于新的投资发起、融资和战略。
网络
指导特朗普组织在全球范围内的新项目收购和开发。特朗普先生积极参与
建筑、营销、销售和租赁
作为 PublicSquare Holdings Inc.(纽约证券交易所代码:PSQH)的董事。
宾夕法尼亚大学
图 8
Groq 融资 7.5 亿美元作为推断
需求激增
此次投资增强了 Groq 在 American AlStack 中的地位,交付快速、价格实惠
计算全球。
加利福尼亚州山景城 - 2025 年 9 月 17 日 — 今天,人工智能推理先驱 Groq
宣布获得 7.5 亿美元新融资,投后估值为 69 亿美元。回合
由 Disruptive 牵头,并获得 Blackrock、Neuberger Berman、DTCP 的巨额投资
以及一家位于美国西海岸的大型共同基金经理。此次加薪还包括继续
来自三星、思科、D1、Altimeter、1789 Capital 和 Infinitum 的支持。
Groq 为超过 200 万开发人员和财富 500 强公司提供快速、
负担得起的计算,并在全球范围内扩大其影响力,以现有的数据中心为基础
北美、欧洲和中东。
“推理正在定义这个人工智能时代,我们正在重建美国的基础设施
以高速、低成本交付。”—— Jonathan Ross,Groq 创始人兼首席执行官
人工智能技术栈,强调美国原产人工智能技术的全球部署。Groq是
发挥着核心作用,他们美国建造的推理基础设施已经为
世界各地的开发商和企业。
Disruptive 是一家总部位于达拉斯的成长型投资公司,它支持了一些最具影响力的公司
过去十年中转型和成功的公司,包括在
Palantir、Airbnb、Spotify、Shield Al、Hims、Databricks、Stripe、Slack 和许多其他人工智能领导者
和Al相邻的企业。 Disruptive 已向 Groq 投资近 3.5 亿美元。
在与 NVIDIA 达成交易之前不到三个月,Groq 就以 70 亿美元的估值筹集了资金。 Don Jr 风险投资公司(1789 Capital)参与了本轮融资。
$14B 的收购将使 Don Jr. 在不到三个月的时间内获得 100% 的投资回报。感觉像是理论上贿赂的适当规模。
但 20B 美元的交易实际上使贿赂理论无效。太高了。
20B 美元是那种说“他妈的闭嘴,停止谈判,下周之前滚进 Nvidia 办公室”的钱。
这就是发生的事情。
图 9
乔纳森·罗斯
在
·第二名
+关注
世界人工智能计算量翻倍;首席软件架构师...
访问我的网站
1米0·
我很高兴与大家分享,我即将开始担任首席软件架构师的新职位
在英伟达!
开始新职位
从这笔交易被公开泄露/宣布之日起,仅用了四个工作日就让 Groq 人才进入并开始工作。显然,英伟达存在紧迫性,并且在这方面还有更多证据......
图 10
一月 14,2026全球事务
OpenAl 与 Cerebras 合作
OpenAl 与 Cerebras 合作,向我们的平台添加 75 多台超低延迟阿尔计算。
开放铝
塞雷布拉斯
我的感觉是 OpenAI 正在竞购 Groq,而 Jensen 击败了他们。
我猜 Groq 的员工对真实的金钱比理论的金钱更感兴趣。这些年来,在纸面上富有,但在现实生活中贫穷,一定不会是一种很好的感觉,像小丑一样招摇过市。
图 11
ae 86+ Sai ¥ U E = — -
L 隆, | | | 。
{ a oon 是 j | cs x‘
鲍尔 | 。我们滑雪“a
wis”2 皮特,| 4 fs 如果 ,
- 支付2 ee |一个
= — J aol — a ae |发| Th'f] 7
f MET |
; SS 泰亚
我\是\。
'\ = <S
=。 :’\
元
;磷酸钠
“我我;Si。
。 。尿 yj) 回复
继续这个介绍,让我提出一篇旧文章,一半是关于 Tenstorrent,一半是关于为什么我认为(当时)绝大多数人工智能硬件初创公司都会死掉。
图 12
[5] 更广泛的人工智能硬件初创公司
框架
Al Hardware 初创公司遇到了问题。客户问题。
谁会购买初创公司横向供应的铝芯片?
有很多选择:
1.英伟达
a.购买最新一代。
b.从 Azure、AwS 或 GCP 租用最新一代
c. 以极其便宜的价格从 neocloud 租用老一代 GPU
即将破产。
2.AMD(他们不断降价)
3. 构建您自己的半定制芯片。
a.AmazonTrainium、Google TPU、Microsoft Maia、Meta???
b.使用Broadcom、Marvell、Alchip、MediaTek或GUC作为设计合作伙伴。
4.从GCP或AWS租用半定制芯片(TPU、Trainium)。
这些人工智能硬件初创公司将卖给谁?
大型企业正在与五家设计公司合作制造自己的芯片
半定制解决方案。
AMD 制造了一款meh 产品,但价格便宜且具有大量HBM。
小公司可以轻松地从各种垃圾公司租用旧的 Nvidia 设备(抱歉
“Neoclouds”)以最低价格。 H1o0小时租金价格已经
崩溃了,布莱克威尔还没有爬坡!
小时
图 13
横向提供的培训硬件市场已经死了。Nvidia 和半定制
超大规模芯片将其他人淘汰。
坦率地说,我相信每个硬件初创公司都应该放弃培训并专门
专注于推理。没有希望。现在旋转,也许可以。继续训练
肯定会死。
至于推论,有希望,但前提是成本非常低或者性能非常低
来自某些奇异策略的疯狂高。如果您的芯片使用 HBM 并且基于 TSMC
N3,它可能不会便宜,应该与所有那些贬值的 H100 竞争
和大量补贴的培训班。
在这次深入研究中,我有四个主要目标:
解释之前对所有人工智能硬件初创公司的负面看法的完全逆转。
解释一下之前对 Groq 架构的仇恨的完全逆转。
涵盖所有有趣的人工智能硬件初创公司。 (Groq、Cerebras、D-matrix、SambaNova、Etched、Positron、MatX、Tenstorrent、Taalas)
解释一下为什么这一切都与 SRAM 无关。
https://en.wikipedia.org/wiki/It%27s_the_economy,_stupid
这是数据流,愚蠢的。
<一切都更好的缩略图>
图 14
正电子
桑巴诺瓦
大脑
S
中号
S
d-矩阵
烈酒
英伟达
下
最后的帖子
建筑业
塔阿拉斯
蚀刻垫
国际法院
张量
这是未完成的草案 我目前正在与 MatX、Etched、Taalas 和 Positron 进行谈判,以获得技术信息以及发布与其部分相关的内容的许可。
其他人工智能硬件初创公司有足够的公开信息来涵盖。
鉴于 Groq 交易对公开市场的重要性,我决定发布一份早期(非常不完整)的草案,其中仅包含 Groq,不包括所有初创公司。
图 15
非理性分析
@insane_analyst·Feb21
推广
大型项目涵盖Groq、Taalas、Positron、Etched、D-Matrix、
Tenstorrent、Sambanova 和 Cerebras 可能需要 3-4 周才能
完成。
可能更长。仍在谈判中。
(公司可以辩论事实并否决机密信息,但没有意见)
分体投影仪不行吗?
第1部分:Groqin1周
68.5%
没有分裂。等等。
31.5%
596票·最终结果
14
2
44
病8.4K
口
讽刺的是,我认为 Groq 的交易比 Mellanox 的规模更大。
这里完全逆转/投降。多年来我一直在攻击 Groq。先前的观点和新的观点都是有原因的……希望在[5+6]节中能够得到一些连贯的解释。
<> 中有各种注释(给我自己),因为我计划复制这篇文章并稍后填写缺失的部分。对这种工作质量不满意,但不得不做出妥协。
人工智能硬件初创公司可以查看其各个部分的私人草稿,辩论事实并否决他们希望保密的信息。但没有意见改变。将会有一些来回的过程,可能需要几个月的时间。确实希望包括所有四家正在谈判的初创公司的适当技术报道。
<todo:重写本节作为最终帖子>
<todo:为最终帖子更新披露内容>
在撰写本文时,我的交易账户处于以下状态。
图 16
账户净值
详细>
$1,664,476.67 美元
当日损益-42,615.99 -2.50%
打开损益表
市场价值
+915,567.94+45.45%
2,493,210.00
日间交易BP>
隔夜血压
现金余额
1,274,124.68
313,852.78
-828,733.33
选项 BP
剩余当日交易
风险等级
156,926.39
无限
安全
图 17
我的职位(13)
贸易
最后/平均
股票及期权
市场价值/数量OpenP&L
价格
精简版
682.13K
+451.88K
682.13
Lumentum控股公司
1,000
+196.26%
230.25 美元
国际贸易中心
386.67K
+145.15K
45.49
英特尔公司
8,500
+60.10%
28.41 美元
扫描电镜
308.93K
+185.88K
123.57
塔尔半导体有限公司
2,500 人
+151.06%
49.22 美元
LRCX
176.75K
+33,155.25
235.67
泛林研究公司
750
+23.09%
$191.46
CIEN
172.48K
+31,775.00
344.96
西耶纳公司
500
+22.58%
281.41 美元
计算机辅助制造技术
167.47K
+23,050.00
167.47
卡姆泰克
1,000
+15.96%
144.42 美元
NVDA$200
159.75K
-36,100.00
10.65
26年6月18日致电100
150
-18.43%
$13.06
图 18
TER
158.14K
+31,880.00
316.28
泰瑞达
500
+25.25%
252.52 美元
贝
153.43K
+10,445.00
153.43
布鲁姆能源公司
1,000
+7.30%
142.99 美元
SITM
137.97K
+15,187.00
394.20
新泰公司
350
+12.37%
350.81 美元
SMTC
133.77K
+15,111.66
89.18
塞姆泰克
1,500 人
+12.74%
79.11 美元
SMH $400
68,250.00
+2,250.00
6.825
06Mar26(W)Put100
100
+3.41%
6.60 美元
高通
-213.18K
+5,246.00
142.12
高通公司
-1,500
+2.40%
145.62 美元
图 19
损益概览
年初至今
范围:2026年1月2日-2026年2月27日
损益表>
损益%i
SMH
+$629,706.72
+58.06%
+12.50%
YTD趋势分析
损益%
SMH
51.93%
-1.87%
01/01
01/30
年初至今已实现损益
年初至今股息
+$232,143.52
+$910.00
这是带有一些综合统计数据的长期唯一账户。
图 20
仅做多账户
排除微牛/交易
股票行情
重量
平均价格_美元
NVDA.O
34.25
13.91
GEVN
20.03
188.12
TSM.N
11.38
173.15
SITM.O
7.49
153.4
贝西公司
6.78
126.68
5803.T
5.16
98.78088
凯森
4.87
182.51
AVGO.0
3.83
119.67
7220.T
1.93
230.12
ABBV.N
1.76
186.34
反导系统
1.28
第692章
艾莎宜必思
0.49
22.66
域名解析系统
0.59
289.28
美元_现金
0.2
查克
100.04
irrationalanalysis.substack.com
位置准确日期为 2026 年 2 月 27 日。
图 21
非理性分析
综合统计数据 ($K)
资产
交易账户价值
2487.7
仅 Lonq 帐户
654.2
预计2025年退税
60
资产总计
3201.9
负债
交易账户MarqinDebt @4.4%
-828.7
其他债务
0
2026 年第一季度预缴税款预估(4 月 15 日到期)
-116
负债_总计
-944.7
管理不善的净资产
2257.2
你可以认为我有偏见,因为我拥有大量的 Nvidia 股票和看涨期权。但事实上,我有这些立场是出于正交的原因。
图 22
损益概览
铝
范围:自成立以来-2026年2月27日
损益表>
损益%i
·SMH
+$2,142,614.37
+1,863.66%
+204.60%
所有趋势分析C
损益%
SMH
1,26735%
-83.49%
02/07
12/22
全部已实现盈亏
所有股息
+$1,239,921.40
+$2,837.01
你知道我的偏见,你自己拿主意吧。
也许我比你更了解半导体?
内容: 如何描述任何计算机。存储器层次结构 存储器访问/路由计算结构 芯片间通信结构
如何描述任何计算机。
内存层次结构
内存访问/路由
计算结构
芯片到芯片的通信结构
普通架构 CPU (AMD Genoa-X) CPU (Intel Saphire Rapids) GPU (Nvidia GB300 // Blackwell Ultra) TPU (Ironwood // V7) Tenstorrent <todo> Positron <todo>
普通架构
CPU(AMD Genoa-X)
CPU(英特尔蓝宝石急流)
GPU(Nvidia GB300 // Blackwell Ultra)
TPU(铁木 // V7)
Tentorrent <todo>
正电子<全部>
异常架构 <全部> D-Matrix <全部> Cerebras <全部> SambaNova <全部> 蚀刻 <全部> MatX <全部>
异常架构<全部>
D 矩阵 <todo>
大脑<全部>
SambaNova <待办事项>
蚀刻<全部>
MatX <全部>
塔拉斯:非常异常<todo>
Groq:Batshit 疯狂和精神错乱
Nvidia 令人难以置信的 IP 与 Groq 风格架构时钟转发 SerDes 混合接合领先的热团队理论光学全局时钟的协同作用
Nvidia 令人难以置信的 IP 与 Groq 风格架构的协同作用
时钟转发 SerDes
混合键合
领先的热团队
理论光学全局时钟
可能的 Nvidia/Groq 产品的模型
任何白痴都可以建造一座桥梁 // 疯狂计算机的黄金时代
[1] 如何描述任何计算机。 今天的材料会很复杂,所以我们需要一个通用的框架。
例如,Cerebras 喜欢对 Nvidia 提出废话,忽略了每个核心非常小的细微差别,因此编译器需要在运行前将神经网络图完美地映射到一个巨大的网格上。
图 23
CS-3vS.GPU
数量级的性能优势
大脑CS-3
英伟达 H100
Cerebras优势
芯片尺寸
46,225mm2
814平方毫米
57x
核心
90万
16,896FP32+528Tens0r
52x
片上存储器
44GB
0.05GB
880x
内存带宽
21PB/秒
0.003PB/秒
7,000X
结构带宽
214 比特/秒
0.0576拍比特/秒
3,715X
实现大规模培训
FinetuneLLaMA70Bon1Btokensinaday
在单个芯片上
0 2024 岑
图 24
WSE-3核心
持续分布式人工智能架构的领导地位
改进了 Alcompute 的性能
WSE-3核心
·新的更高性能的张量运算
面料
·新的16b数据8路SIMD(FP/BF16)
内存
·新的16路SIMD for 8bdata(固定/INT8)
静态随机存储器
缓存
·新的更快的非线性函数
48kB
512B
·2x更高计算性能核心
寄存器
高带宽内存和高速缓存
16 通用
48数据结构
·每核48kB内存
8路16b SIMD
·新增每核512B本地缓存
·全带宽实现完整的 SIMD 性能
16路8b SIMD
0 2024 Cerebras Systems Inc. 保留所有权利
这是“内存访问/路由”如何成为计算机的关键属性的一个很好的例子。
我相信任何计算机都可以通过以下方式合理地描述:仅使用四个属性就可以对截然不同的体系结构进行高级比较。
图 25
属性
简单
高级
名称
描述
描述
不同的记忆层。
L1/L2/L3缓存vsscratch
有多少层和多大的 SRAM、HBM 与 DDR 对比
#1 内存层次结构
每一层。
LPDDR
哪些核心可以访问
哪一块内存。
#2内存访问/路由
延迟结构。
NoC(片上网络)
SIMD 与 VLIW,收缩压
数组、数据格式、
#3计算结构
芯片如何进行数学计算。
稀疏性、ISA 刚性
纵向扩展、横向扩展、
RDMA,
#4Chipto 芯片
多个芯片如何通信
延迟/带宽/FEC
通讯结构
彼此。
权衡
我之前有一本关于计算机体系结构的指南,但想为这篇文章重写它。非常奇怪的架构需要以新的方式进行覆盖。
[1.a] 内存层次结构 描述这个概念的经典方法是使用金字塔。
图 26
1个周期
在CPU上
寄存器
小学
〜10个周期
存储
缓存
更快的访问,
成本较高
〜100 个周期
主内存
访问速度较慢,
约 100 万个周期
降低成本
闪存盘
中学
〜10 M 周期
存储
传统盘
远程辅助存储(例如互联网)
内存层次结构
存储容量
沿着金字塔往上走会带来指数级更好的性能和更高(更差)的成本。
在过去,大多数计算机(基本上是各种 CPU)都有 3 级缓存。
图 27
AMD锐龙77800X3D游戏
处理器
建筑
禅4
#ofCPUCores
最大升压时钟
高达5GHz
AMD
中科院
基本时钟
4.2GHz
锐龙
一级缓存
512KB
二级缓存
8MB
AMDZ
锐龙
AMD
三级缓存
96MB
默认TDP
120W
图 28
L1、L2 和 L3 缓存?
中央处理器
中央处理器
L1
L2
L2
L1
核心
核心
中央处理器
中央处理器
L1
L2
L2
L1
核心
核心
三级缓存
(共享)
中央处理器
中央处理器
L1
L2
2
L
核心
核心
中央处理器
中央处理器
核心
L2
核心
杂项/o
内存控制器
杂项1/o
高速缓存(几乎总是)由 SRAM 制成,但与 SRAM 不同。
在运行时,计算核心需要决定哪些内存应该放在哪里。例如,一个特定的变量是否应该存储在 L1 中以实现超快速访问,或者踢到 L3 以实现快速访问,或者因为它不重要而一直踢到 DRAM?
如果由硬件做出这些决定,则 SRAM(片上存储器)就是一个高速缓存。
如果软件做出这些决定,SRAM(仍然是片上存储器)就是一个“暂存器”,而不是缓存。
图 29
暂存器与缓存
确定性访问
连贯、无污染内存
低负载使用延迟
捕获局部性,实现重用
高效内存利用
可编程性
语无伦次,私人地址空间
H/W地址翻译能量和
软件管理
延迟
程序员/编译器负担重
隐式数据移动、惰性写回
不确定性行为(命中/未命中)
便签本
缓存
图 30
简介
oScratchpadvs.Cache:
Ascratchpad 不包含存储的数据副本
在主存储器中。
暂存器内存直接操作
应用程序。
高速缓存内存系统中程序元素的映射
是在运行时完成的,位于暂存器内存系统中
由用户或编译器使用a完成
合适的算法
o暂存器记忆中的先前研究未解决
撞击区
这是一个非常重要的细微差别,但大多数公共言论完全搞砸了。坦白说令人气愤。彻底改变了系统的基本方面,从内存地址映射到计算硬件复杂性再到编程模型。
图 31
简介
oScratchpadvs.Cache:
Ascratchpad 不包含存储的数据副本
在主存储器中。
暂存器内存直接操作
应用程序。
高速缓存内存系统中程序元素的映射
是在运行时完成的,位于暂存器内存系统中
由用户或编译器使用a完成
合适的算法
o暂存器记忆中的先前研究未解决
撞击区
图 32
便签本内存
2010年4月9日
内存阵列
解码和列
记忆细胞
电路逻辑
2010 年春季,EEL6935,嵌入式系统
内存对象已映射
最后到暂存器
内存阵列
编译器阶段
它占据了一个遥远的部分
内存地址
空间.无需检查
数据/指令可用性
暂存器
减少比较器和
信号丢失/命中
6晶体管静态RAM
确认电路
8
图:ScratchMemoryArray
使用原理#1(内存层次结构)评估计算机体系结构时应该问的关键问题:
系统是否使用缓存或暂存器。
缓存未命中的惩罚是什么?
是否有多层缓存或暂存器?
高速缓存/暂存器与 DRAM 或其他内存层的比率是多少?
图 33
哇这个芯片
是什么样的
斯拉姆你是白痴吗?
HASLOTSOFSRAM...
缓存暂存器?
[1.b] 内存访问/路由 现在让我们在堆栈中上一层。
给定任意一块内存,任意计算块如何访问所述内存?
是的,数据通常从 HBM 堆栈移动到逻辑芯片。金星给你。但是数据如何在逻辑芯片内移动呢?
关键概念是NoC,即片上网络。 Ian Cutress 博士对此有一个很棒的视频。互联网上最好的。
两种主要架构用于连接芯片上的元件。
第一个是一个戒指或一组戒指。
图 34
戒指,4 片
双向环,4 片
图 35
戒指,10 片
英特尔Rocket Lake
第二种主要类型称为网格。
图 36
网格
英特尔Skylake
以及网格的衍生物。
图 37
TwistedHypercube,8 个元素:Intel8 插槽,带 3UPI
还有很多更有趣的组合,为了节省时间,我将跳过这些组合。其中许多都是专有的,我可能不应该在这里写它们。
您可以拥有多个环总线,其中某些元素仅位于特定环上。
还可以有一个交叉开关,将一组元件分组,然后通过环或网连接到更宽的芯片。
并非芯片上的所有元件都需要有到每个其他元件的路径。
图 38
哇这个芯片
核心如何
访问RAM?ISITIN
哈斯洛特 FSRAM..
巨型块?环。
CHTP 上的网状网络还是其他网络?
请记住,内存(SRAM 块、HBM 堆栈)只是 NoC 上的一个节点。
片上网络的设置方式非常重要。
[1.c] 计算结构 该资源是一颗隐藏的宝石。
https://www.lighterra.com/papers/modernmicroprocessors/
为了节省时间,我会走得很快,并且经常挥手。无论如何,从后面几节的示例中学习可能会更容易。
计算机以称为指令的基本单位执行数学运算。
示例说明:
将一个字节从内存加载到寄存器
添加
逻辑与/或/异或
……
现在的关键问题是:
你的电脑有多“漂亮”?
计算机一次使用多少个数据操作数?
支持哪些数据格式?
[1] 高级计算核心使用很酷的策略,例如分支预测、推测执行和乱序执行。这些策略都以某种方式“破坏”了原来编译的代码。硬件本身会实时找出汇编代码中的快捷方式。高级计算机(基本上是 CPU)以面积/功耗和并行性/可扩展性为代价提供了巨大的性能提升。这是 CPU 不适合 AI 的主要原因。
[2] GPU 和 CPU 之间的根本区别在于扭曲/波浪的概念。
图 39
战争实施
前沃尔特
节目
柜台(电脑)
和堆栈(S)
32线经线
沃尔特
收敛性
优化器
32线程独立调度
英伟达
图 40
新作品发布的好处
G指令执行变更
单线程性能改进
工作负载示例:64 个工作项目LUINTENSIVE 代码
GCN
重组DNA
SIMDO
SIMD1SIMD2SIMD3
SIMDO
S
单指令多数据传输1
1Wave64→SIMD16
2Wave32→2SIMD32
指令问题→4点
指令问题→1clock
CALU25%已使用
CUALU→100%利用率
有效吞吐量
ILPUNLOCK 执行速度提高 4 倍
RDNA更有效地利用机器
通过将工作均匀分配给所有 ALU 来更快地参与机器
提取程序 ILP 和调度以从数据局部性中受益
利用wave的多线程来隐藏吞吐量的剩余延迟
MUD NTXT HORIZOA CAMSNC TEDHDAT
AMD
单指令、多数据 (SIMD) 是 GPU 工作的架构原理。 Nvidia 在数据中心使用 32 元素“扭曲”,而 AMD 使用 64 元素“波浪”。所有 AMD 架构都是 Wave64,但几年前他们将游戏架构迁移到 Wave32。
图 41
常规
单指令多数据流
多元素执行
一次执行
Po }+Le }-好啦!
佩勒]
磅 js 8 |机顶盒
[埃尔特]
德 Ls } sles]
佩 Ls |
WS
a |e 神灵]
| 4 果冻 |
多年来,CPU 添加了 SIMD 指令。很多 SIMD 指令...
https://en.wikipedia.org/wiki/List_of_x86_SIMD_instructions
https://en.wikipedia.org/wiki/AArch64#Scalable_Vector_Extension_(SVE)
GPU 在人工智能工作负载中占据主导地位,因为它们(这过于简单化了……)大多是纯 SIMD 机器,而 CPU 则装有 SIMD。
本文要介绍的许多奇特架构都是 SIMD 机器,但灵活性远不如 GPU。
我们来谈谈数据格式和稀疏性。
在过去,只有单精度(32 位)和双精度(64 位)浮点数才重要。
对于 AI,浮点数和整数低至 4 位很重要。
例如,Cerebras 愚蠢地不支持 8 位浮点数。但他们仍然不支持这个基本功能。 Nvidia 已经有了 4 位浮点数,AMD 很快就会支持 FP4。
图 42
WSE-3核心
持续分布式人工智能架构领导力
改进了 Alcompute 的性能
WSE-3核心
·新的更高性能的张量运算
面料
·全新8路SIMD 16b数据(FP/BF16)
内存
·新增16路SIMD for 8bdata(固定/INT8)
静态随机存储器
缓存
·新的更快的非线性函数
48kB
512B
2 倍更高计算性能核心
寄存器
高带宽内存和高速缓存
16通用
48数据结构
·每核48kB内存
8路16b SIMD
·新增每核512B本地缓存
全带宽实现完整的 SimD 性能
16路8b SIMD
他们还对非结构化稀疏性提出了大胆的主张。多年来我一直向机器学习人员询问这个问题,直到今天他们都没有发现这个功能的用途。
图 43
稀疏加速受内存限制
为稀疏性而构建的内存带宽
·为密集而构建的传统硬件
内存带宽(字节/FLOP)
·高数据复用→缓存→低内存
必填
可用
专为稀疏而打造的晶圆级存储器
·低数据重用→每个→高内存带宽
密集矩阵相乘
·实现数量级moremem
H100
体重
X
~0.001
0.003
CS-3 加速所有形式的稀疏性
稀疏MatMul
·静态和动态稀疏性
WSE-3
·结构化和非结构化稀疏性
2
加速各种形式的稀疏训练
培训机会稀疏的示例
稀疏性减少 FLOP
动态激活稀疏性
·例如Google:LLMs1 中 95% 的稀疏 ReLU FFN
结构权重稀疏性
·例如米斯特拉尔:75% 稀疏 FFN MoE 8x7B2
1.7倍
2.0倍
2.8倍
非结构化权重稀疏性
·例如 Cerebras:75%sparseSPDFGPT3
解决不可持续的培训规模
·只有HW才能加速各种形式的稀疏性
·Evenfuture稀疏技术
教育部
SPDF
等人,懒惰神经元 Phen
使用精度较低的数据格式,您会损失一些准确性,但会获得更多的吞吐量。
图 44
GPT-MoE1.8T
每GPU吞吐量
推理(seqlen=32k/1k,FTL=5s)
多维度优化:
每秒代币数
张量并行
管道并行
160
专家并行
数据并行
140
TP2.EP8.DP4
120
TP2.EP16.PP2
GB200FP4
B200FP8
100
H200FP8
TP4.EP16
80
TP4.EP2.PP2.DP4
60
布莱克韦尔30x料斗
40
TP8.PP4.DP2
TP8.PP2.DP4
20
TP64
TP64
10
20
30
40
50
每用户令牌每秒交互性
对于某些工作,准确性的损失可以忽略不计。
最后,让我们简单介绍一下超长指令字(VLIW)。
在这里深入探讨:
简短的回答(过于简单化)是……
VLIW = SIMD,但指令可以完全不同,但有许多限制。
指令“捆绑”(例如……1 个加载、5 个乘法、2 个加法、1 个存储、2 个分支)在块中进行操作。编译器必须调度每个包/块。
非常简化的硬件设计,恶魔般的噩梦编译器负担。
图 45
哇这个芯片
SIMD?VLIW?
哈斯洛特 FSRAM..
支持FP8/4吗?
[1.d] 芯片到芯片的通信结构 最简单的芯片到芯片(c2c)通信结构是全对全(all-to-all)。
图 46
NVLink 通过快速创新步伐扩大成熟度
72 个 GPU
全部到全部
2016年
2020年
2024年
2027年
NVLink1
NVLink3
NVLink5
NVLink7
160GB/秒
600GB/秒
1,800GB/秒
10,800GB/秒
混合网格
安培
布莱克威尔 NVL72
鲁宾UItraNVL576
2018年
2022年
2026年
2028年
NVLink2
NVLink4
NVLink6
NVLink8
300GB/秒
900GB/秒
3,600GB/秒
NVSwitch8-GPU
料斗
鲁宾
图 47
NVLink 交换机和 NVLink 域
对于多 GPU 推理至关重要
司
2016年
2022年
2024年
混合立方体 MeshNVLink 技术
3GenNVLink 交换机
GenNVLink 交换芯片
8 个 GPU 的 NVLink 域之间的全连接
72个GPU的NVLink域之间的全对全连接
Nvidia 使用完全的全无源铜,这在性能和灵活性方面是最好的,但在成本和可靠性方面是最差的。询问有关传说中的有线背板的信息。 :)
每个 GPU 都可以通过单跳以全带宽与 NVL72 域中的任何其他 GPU 进行通信。
谷歌在他们的 Ironwood TPU 中使用了 3D-Torus。
图 48
Superpod 中的机架套件
64x
16x
铁木TPU架
铁木SoC
铁木PCBA
144x
铁木超级荚舱
OCS机架
OCS(光交换机箱)
光学
ICI 扩大网络
互连
CDURack(冷却剂分配单元)
水冷
图 49
机架是构建块
Z-in
X-输出
Y-in
Y 输出
-输出
适合单个 GoogleTPU 的 4x4x4 积木式 ICl
机架(比典型机架宽)
立方体上有 6 个面,每个面有 16 个链接
ICl 连接:96 根光纤、80 根铜缆和 64 根 PCB 走线
谷歌
每块 4x4x4 (64) TPU 芯片都在机架内进行电气连接。跨机架连接是通过基于MEMS的OCS进行光学连接的。
图 50
机架通过光路开关(OCS)连接
不同等级的OcS连接不同的维度和指标
Y+[0][3]
Y+[3][3]
x16
x16
033
133
233
333——X+[3][3]
青奥会
零碳控制系统
032
132
第231章
第332章
Y+[0][0]031
323
131
第231章
第331章
第322章
030
130
230
330
313
×16
×16
321
x16
x16
第312章
[E]O]+X-Eo8
x16
020
120
220
320
z-[0][3]
311
第302章
4×4×4
x16
XOCS
010
110
210
310
立方体
301
000
100
200
300
[o][o]+X-
x16
谷歌
-[ollo]-z
Z-[3][0] ——
这比 Nvidia 的策略更加可靠且更具成本效益,但使编译器的灵活性大大降低。程序员需要考虑网络的不均匀性,包括延迟和带宽不对称。
最后,未来 TPU 将使用蜻蜓拓扑。 Broadcom 制造的真正 TPU。
图 51
90
90
90
0
2920
90
https://research.google.com/pubs/archive/34926.pdf
图 52
阿布茨先生还会多次出现。
图 53
哇这个芯片
以太网DAC/ACC/AEC?
高速FSRAM
PCIE?光学?全能
放大?环面?蜻蜓?
[2] 普通架构 这里是给懒人的总结表。
图 54
#4芯片到芯片通信
#3计算结构
结构
3.b 数据
3.c 数据
4.b 规模-
#1内存层次结构
#2 内存访问/路由 3.a:“花哨”
操作数
格式
4.扩大规模
+50
L1/L2/L3 缓存、DRAM
最广泛的品种
下面什么都没有
通过额外的双插座
*大型共享L3,可选
但弱于
BF16以外
PCIe 稍作修改
客户
CPU(AMD Genoa-X)
L3 的混合键合延伸
嵌套环
非常高
向量/矩阵。
INT8。
车道重新命名为 GMI。
决定。
最广泛的品种
下面什么都没有
通过额外最多 8 个插座
L1/L2/L3 缓存、DRAM
但弱于
BF16以外
PCIe 稍作修改
客户
CPU(英特尔蓝宝石急流)
*私人L3
网格
非常高
向量/矩阵。
INT8。
车道重新命名为 UPI。
决定。
客户
决定。
通常
与 2-3
专注于低
层
扭曲32
精度低至72路无源铜全
开关和
L1/L2 缓存、HBM、LPDDR 开启
张量核心
4 位浮点数。
全部 200G/通道
光学
GPU(Nvidia GB200)
格雷斯CPU
网状+横杆
中高
*参见 SA 帖子
*参见 SA 帖子
SerDes 类。
收发器。
降至 FP8。
4x4x4 无源铜
专用
立方体来制作架子。否
稀疏引擎
交换机网络
用于特定用途-
数字逻辑和路由
OC5 至
案例,执行
集成到主
创建 3D-
大型 SRAM 暂存器
收缩压大
在互连中
ASIC.100G/通道级
环面由
TPU(铁木 // V7)
收缩阵列,HBM
横杆
中等
数组。(256x256)
路径。
串行解串器
连接架
坦斯托伦特
正电子
<全部更新表>
[2.a] CPU(AMD Genoa-X)
图 55
同行啊啊啊啊啊
同行Eeeeeee
是的,是的,是的
|
是是是是是
|
是的,是的,是的
是的,是的,是的
GO
GO
同行啊啊啊啊啊
同行Eeeeeee
图 56
AMDEPYC9004:12CCD配置
禅4
禅宗
莉娜
禅4
图阿兹
禅4
12M8
禅宗
12M5
BNCE
禅4
禅4
32M8
禅4
L3
乙
L3
泽内
L3
禅4
禅4
禅4
禅4
禅4
禅4
岑4
低分子指数
通用电气工程师协会
我
GMI3
GMI3
GMI3
GMI3
CMI7
CMI11
GMIO
GMI4
CMI8
1/0死亡
GMI1
GMI5
GM19
GMI2
GMI6
GMI10
烯
中号
32M8
恩泽
2ME
32ME
时间
12MB
禅4
烯A
图 57
2.11.1
型号91xx-96xx(“热那亚”)
型号为 91xx-96xx 的第四代 AMD EPYC9004 处理器具有多达 12 个 CCD,每个 CCD 包含一个 CCX,如
如下所示。
CCD8
泽纳
CCD0
禅4
CCD4
禅4
CCD7
禅4
CCD3
禅4
CCD11
禅4
禅A
禅4
禅4
禅4
禅4
禅4
禅4
泽纳
禅4
禅A
禅4
禅4
禅4
泽斯4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
前列腺癌Gn5
PCle Gen5
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅A
禅4
禅4
禅4
禅4
老虎机
老虎机
禅4
禅A
禅4
禅4
禅4
禅4
GMI链接
GME链接
GMI链接
(/奥胡波
/O 集线器2
GME链接
GMI链接
GMI链接
内存模块
内存模块
UMCO
联电6
内存模块
内存模块
内存模块
内存模块
联电1
牛
内存模块
内存模块
内存模块
内存模块
联电2
1/欧迪
UMCB
内存模块
内存模块
内存模块
DINM
联电3
净推荐值=4
联电9
内存模块
内存模块
内存模块
DINM
联电4
联电10
内存模块
内存模块
内存模块
UMCS
联电11
内存模块
内存模块
内存模块
GMI链接
GMI链接
GMI链接
(/0 集线器3
遥控集线器1
GME链接
GMI链接
GMI链接
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
老虎机
禅4
禅4
禅4
禅4
泽斯4
禅4
禅4
禅4
泽斯4
禅4
禅4
禅4
禅4
禅4
泽纳
禅4
泽纳
禅4
禅4
禅4
禅A
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅4
禅A
禅4
禅4
2032
CCD1
CCD9
禅4
CCD10
图 2-7:AMDEPYC 9004SoC 由多达 12 个 CCD 和中央 1OD(适用于 91xx-96xx 型号)组成,包括“X”0PN
AMD 在其 NoC 中采用嵌套环架构。每个 CCD(CPU 核心芯片)都是一个连接到 I/O 芯片的环。所有内存接口也连接到 I/O 芯片。
特殊 SKU(-X 系列)将额外的 SRAM 芯片混合粘合到 CCD 芯片上。
图 58
AMD 3D V 高速缓存
泰·古鲁姆
aMB3Caehg
CPU卡O
图 59
设计 3D CHIPLET 架构
结构硅
64MBL3 缓存芯片
直接铜对铜键合
硅通孔 (TsV) 用于
硅对硅通信
高达8核“Zen 3”CCD
先进封装
AMD
15
该策略会导致 L3 的大量高速缓存 SRAM 耗尽。由于物理位置的原因,L3 延迟受到一定程度的影响。
图 60
(该图未检测到可翻译文字)
图 61
我们在 7950x3D 上看到这种行为非常清楚,但是在 Genoa-X 上
行为与我们的预期完全不同。
VCache 延迟差异(简单寻址,2 MB 页面)
第512章
256
9000
128
54
62.25
55.39
32
16
4.01
128
256
第512章
10242048
4096
819216384 32768 65536 131072 262144 524288 1048576
测试大小 (KB)
Genoa-X 开始将延迟增加到 32MB 左右,这首先意味着
也许我们没有看到 V-Cache,但是当我们到达带宽时
部分你会看到我们确实与 V-Cache 一起工作。所以还不太好
知道为什么我们会看到这种行为。
转会至热那亚-X对阵米兰-X和蓝宝石急流(SPR)
有趣的比较。
缓存和内存延迟、实际时间
35.30
MU
4.62
256
第512章
1024
2048
4096
8192
1638432768655361310722621445242881048576
测试大小 (KB)
AMD 霄龙 9V33X
AMD EPYC 7V73X(纳秒)
图 62
缓存和内存延迟、周期
第512章
256
134.16
128
效率(周期)
32
51.14
6.11
1024
2048
8192
16384
65536131072262144524288
测试大小 (KB)
将 Genoa-X 与 Milan-X 进行比较,奇怪的 L3 延迟再次增加。
运行已发布的数字,延迟应该与实际没有什么不同
我们在桌面上看到这将意味着 Genoa-X 上的 L3 增加 4 个周期
从Milan-X的50个周期L3来看,我们可以看到热那亚-X正在运行它的分数
与 Milan-X 的 3.5GHz 相比,时钟速度略高,约为 3.7GHz
这是小但显着的增长。不过,米兰-X确实有更好的表现
内存延迟与 Genoa-X 相比。现在转向 Genoa-X 与 SPR 和
我们可以看到,即使存在奇怪的延迟行为,SPR 的网格也远非低
然而,一个大亮点SPR是每个核心2MBL2,并且
Genoa-X 和 SPRI 之间的内存延迟与 Milan-X 几乎相同
在这里获胜。
我想确保没有人错过的关键点如下:
AMD -X SKU 扩展了高速缓存 SRAM。特别是L3缓存。
尽管 AMD 公开声称没有延迟影响,但 Chips 和 Cheese 的独立测试显示了一些轻微/奇怪的性能损失。
在计算之上堆叠 SRAM 非常困难。 AMD 选择仅将 SRAM 芯片堆叠在现有 SRAM 之上来避免此问题。请注意 CPU 内核本身上方的两个“结构”(垫片)芯片。
AMD 做出的设计选择对于理解 Groq 和 D-Matrix 路线图具有指导意义。
图 63
AMD 3D V-CacheTM 组件:L3D
AMD 3D V 高速缓存™
扩展L3模具(L3D)
台积电7nmFinFET
技术
13层铜+1层铝
金属叠层
64MBL3缓存
扩展
41平方毫米
2022IEEE
国际固态电路会议
26.4:3DV 缓存:7nmx86-64CPU 的混合绑定 64MB 堆叠式缓存的实现
11 共 36 个
图 64
L3缓存区域和功率
提高了 L3 缓存区域效率
-0.68x有效面积缩放
-高密度SRAM位单元→更好的标签面积效率
-信号TsVarea成本降低50%
·减少接口电路开销
L2hitra 增加,L3 动态功率降低达 10%
《禅3》
《禅4》
TsV柱
信号硅通孔
标签
标签
2023IEEE国际固态电路会议
2.1:“Zen 4”-AMD5nm5.7GHzx86-64微处理器核心
19 共 31
[2.b] CPU(英特尔 Saphire Rapids)
图 65
1x24
1x24
16GT
1x16Gen5
1x16Gen5
16GT
1x16Gen5
统一工业指数
PCle/CXL1.1
PCle/CXL1.1
UPIU1
PCle/CXL1.1
X24UPI
x16PCle/CXL
x16PCle/CXL
x24UPI
x16PCle/CXL
AC(2xQAT,2XDLB,DSA,AA)
黛泰
控制
面料
0
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
DDR5
内存
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
内存
控制器
控制器
DDR5
内存
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
内存
控制器
控制器
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
DDR5
内存
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
CHA/SF/有限责任公司
内存
控制器
控制器
DDR5
内存
GLC核心
GLC核心
GLC核心
GLC核心
GLC核心
内存
控制器
控制器
HA/SF/ALC
查/SF/LL
CHA/SF/有限责任公司
X24UPI
x8DMI/PCle
x16PCle/CXL
GLC核心
x16PCle/CXL
GLC核心
GLC核心
1x24
年年年
1x8Gen3DMI
1x16Gen5
1x16Gen5
16GT
1x8PCleGen4on
PCle/CXL1.1
PCle/CXL1.1
统一工业指数
非传统套接字
Intel Saphire Rapids 有一个更传统的网状 NoC。请记住,DRAM 数据需要多次跳跃才能到达中间的核心。另请注意,某些片上加速器(小型 ASIC)(例如 QAT 和 DSA)位于其自己的块中,并具有专用的网格节点。
高速缓存 (SRAM) 通过紫色块展开。
图 66
新性能核心
计算微架构的重大进展
第三代英特尔至强第四代英特尔至强
专为 15% IPC 改进而设计
(每核)
(每核)
改进的微架构(更广泛和更深的机器)
乱序窗口
第352章
第512章
更深的调度器、更多的物理寄存器、更深的重新排序
缓冲区、加载缓冲区和存储缓冲区
飞行中装载+存储
128.72
240+112
更大的 L2 和 L3 缓存
调度程序条目
160
248
·新的ISA工作负载加速器
注册文件-
280-224
288+220(512b)
AMx:Al/DeepLeaming推理和训练加速
整数+FP
320(256b)
AiA:高效/本地调度、信令和同步
分配队列
70/线程,
72/线程:
来自用户空间
皮恩普/奥特
144/I线程
AVXforvRAN:5GvRAN加速
LID缓存(KB)
48
48
目标工作负载的关键功能和加速
L2统一TLB(STLB)
2K
2K
主要安全特性(CET,GX,TDX)
STLB-IG页面支持
1024(共享/2/4M),
1024(共享/2/4M)。
数据中心可靠性功能安全的阶梯功能
1024共享1G
1024共享1G
L2/中级缓存(MB)
125
2
L3/末级缓存(MB)
1.5
1.875
英特尔
xeON 使用至强加速
请注意,AMD 的每个 8 核 Genoa CCD 拥有 32 MB 的大型共享 L3 缓存,而 Intel 选择以 1.875 MB/核心块的形式将 L3 缓存设为每个核心专用。
要点:
高速缓存/SRAM 设计需要进行许多权衡。
更大的共享缓存意味着更多的延迟,但所有计算核心都可以使用相同的内存。
SRAM 块越大并不总是越好。
很多细微差别取决于核心微架构和 NoC 设计。
[2.c] GPU(Nvidia GB300 // Blackwell Ultra)
图 67
NVIDIABlackwellUltraGPU
x16PCleGen6
高带宽接口
160SMsperGPU:640TensorCores*
256GB/sCPU主机接口
10TB/s 芯片间传输
15PetaFLOPSDenseNVFP4
使用
PCIE
人体模型控制
人体模型控制
人体模型控制
人体模型控制
根
6
图形
图形
图形
图形
处理器
处理器
处理器
处理器
集群
亚基
集群
集群
缓存
集群
凝胶渗透色谱)
(凝胶渗透色谱)
(凝胶渗透色谱)
(凝胶渗透色谱)
NVLinkv5
NVLink-C2C
1,800 GB/秒至
900GB/秒相干
NVLink开关
CPU-GPU接口
带 MIGCONTROL 的千兆线程引擎
内华达州
内华达州
十二月
带 MIGCONTROL 的千兆线程引擎
十二月
图形
图形
图形
图形
处理器
处理器
处理器
处理器
集群
缓存
集群
集群
缓存
集群
(凝胶渗透色谱)
(凝胶渗透色谱)
(凝胶渗透色谱)
(凝胶渗透色谱)
HBM控制
HBM控制
人体模型控制
人体模型控制
机密计算
288GBHBM3E内存*
TEE-I/O 能力
(12-HiStack,高达 8TB/s)
请注意两个 GPU 集群之间的大型共享 L2 缓存。 D2D 是时钟转发的。
图 68
流式多处理器 (SM)
L1指令缓存
Lo指令缓存
Lo指令缓存
WarpScheduler(32线程/时钟)
WarpScheduler(32线程/时钟)
调度单元(32线程/时钟)
调度单元(32线程/clk)
寄存器文件(16,384x32 位)
寄存器文件(16,384x32位)
64KB张量内存(TMEM)
64KB 张量内存 (TMEM)
张量
张量
CUDA
CUDA
核心
核心
核心
核心
(第五代)
(第五代)
LD/ST
LD/ST
LD/STLD/ST
LD/ST
LD/ST
LD/STLD/ST
旧金山联邦大学
LD/ST
LD/ST
LD/STLD/ST
LD/ST LD/ST
LD/STLD/ST
旧金山联邦大学
Lo指令缓存
LO指令缓存
WarpScheduler(32线程/时钟)
WarpScheduler(32线程/时钟)
调度单元(32线程/时钟)
调度单元(32线程/时钟)
寄存器文件(16,384x32 位)
寄存器文件(16,384x32 位)
64KB 张量内存 (TMEM)
64KB 张量内存 (TMEM)
张量
张量
CUDA
CUDA
核心
核心
核心
核心
(第五代)
(第五代)
LD/ST
LD/ST
LD/ST
LD/ST
LD/ST
LD/ST
LD/ST
LD/ST
旧金山联邦大学
LD/ST
LD/ST
LD/ST
LD/ST
LD/ST
LD/ST
LD/ST
LD/ST
旧金山联邦大学
张量内存加速器 (TMA)
256 KB L1 数据缓存/共享内存
特克斯
特克斯
特克斯
特克斯
Warp 调度程序每个时钟 32 个线程。这是 GPU 的历史 (SIMD) 主干。张量核心可以通过多种方式进行交互。 SA 的报道范围很广,所以请阅读一下。
图 69
(该图未检测到可翻译文字)
Nvidia 在 GPC 中使用网状 NoC,而千兆线程引擎则是交叉开关。换句话说,网格连接到横杆上。
[2.d] TPU(铁木 // V7)
图 70
铁木建筑
主持人
张量核心
张量核心
计算
TCS
TCS
内存和DMA
骨髓基质细胞
互连
XLU
XLU
XLU
XLU
主机接口
视觉处理单元
视觉处理单元
管理
+
+
内存
内存
聚氯乙烯
聚氯乙烯
逻辑芯片
第五代
第二代
MXU
MXU
MXU
MXU
x16
串行解串芯片
x1
钥匙
芯片封装
内存和DMA互连
内存和DMA互连
芯片
ICR
6x
6x112G
稀疏
稀疏
HBM3
HBM3
HBM3
HBM3
稀疏
稀疏
HBM3
HBM3
HBM3
HBM3
路由器
链接
串行解串器
经理
核心
核心
控制键
控制键
控制键
核心
核心
控制键
控制键
控制键
堆栈
八进制+
个人计算机系统
8-喜
HBM3E
HBM3E
HBM3E
HBM3E
HBM3E
HBM3E
HBM3E
HBM3E
堆栈
堆栈
堆栈
堆栈
堆栈
堆栈
堆栈
堆栈
谷歌
15
图 71
铁木建筑
主机&管理平面:
iROT、PM 等
主持人
计算
张量核心
张量核心
TCS
TCS
内存和DMA
骨髓基质细胞
高性能
XLU
XLU
XLU
XLU
向量/矩阵
视觉处理单元
视觉处理单元
计算
+
+
内存
内存
逻辑小芯片
聚氯乙烯
聚氯乙烯
第五代
第二代
MXU
MXU
MXU
MXU
X16
串行解串芯片
X1
钥匙
芯片封装
快速、放大 (9216
稀疏计算引擎
C
内存
芯片)互连
芯片
ICR
6x
6x112G
稀疏
稀疏
HBM3
HBM3
HBM3
HBM3
稀疏
稀疏
HBM3
HBM3
HBM3
HBM3
路由器
链接
串行解串器
经理
核心
核心
控制键
控制键
控制键
核心
核心
控制键
控制键
控制键
控制键
堆栈
八进制+
个人计算机系统
最新一代
HBM
8-喜
HBM3E
HBM3E
HBM3E
HBM3E
HBM3E
HBM3E
HBM3E
HBM3E
堆栈
堆栈
堆栈
堆栈
堆栈
堆栈
堆栈
堆栈
谷歌
20
Google 使用 Crossbar NoC,并在片上集成了路由(黄色框)。这意味着没有相当于用于扩展的 NVLink 开关的开关。
计算围绕 256x256 脉动阵列构建,作为矩阵乘法的主要计算引擎。控制由 8 宽 VLIW 内核处理。您可以将 8 宽 VLIW 视为控制器。
编译器必须提前生成指令包。
图 72
TPU 核心:标量单元
标量
TPU核心
322bVLIW捆绑
单位
2 个标量槽
矩阵
乘法
4个向量槽(2个用于加载/存储)
单位
2 个矩阵插槽(推入、弹出)
矢量
单位
转置/
1 个杂项插槽
排列单位
6 个立即数
标量单元执行:
完整的 VLiWbundle 获取和解码
标量槽执行
理解 TPU 上的 SRAM 不是缓存非常重要。
它是一个暂存器,用于为脉动阵列提供数据。
https://en.wikipedia.org/wiki/Systolic_array
脉动数组是数据流计算结构。
图 73
脉动中 2x2 矩阵乘法的示例
数组
细胞周期0
细胞周期2
周期
循环 6 结束
脉动数组算法在内部累积输出值
DPU。
乙
乙
D
初始矩阵乘法
周期0
周期1
循环2
B-3
乙
乙
D-4+
C-2
周期3
周期4
循环5结束
脉动数组算法预加载并保留一个
计算时,操作数在 DPU 内固定。在
例如,绿色矩阵已预先加载到数组中,并且
可以重复用于后续的乘法。
图 74
WEIGHT队列(矩阵A)
控制
细胞
埃尔
数据队列(mati
细胞
细胞
大多数人工智能硬件初创公司都使用不同大小和配置的脉动阵列。谷歌自己已经改变了各代 TPU 脉动阵列的大小。确定加速器设计的脉动阵列的尺寸和形状非常复杂。
[2.e] Tentorrent <全部>
[2.f] 正电子 <全部>
[3] 异常架构<全部> <全部>
[3.a] D 矩阵 <todo> <全部>
[3.b] 大脑<全部> <全部>
[3.c] SambaNova <todo> <全部>
[3.d] 蚀刻<todo> <全部>
[3.e]MatX <todo> <全部>
[4]塔拉斯:非常异常<todo> <全部>
[5] Groq:疯狂和精神错乱 由于几个关键原因,Groq 在行业内的两极分化非常严重。
任何对计算机体系结构有基本了解的人都会立即理解他们所创造的可憎事物。
宣扬了 144 宽 VLIW 的所有神奇优势,但没有解决任何缺点。
使用基于垃圾 GloFo 14 纳米工艺的 6 年老旧芯片建立了落后的“云业务”。
在胡说八道的云业务中生成的每个代币都在损失金钱。
人们尝试过的最大 VLIW 包大小是 8。这些退化的宽度为 144。
一位特别令人讨厌的投资者。
图 75
(该图未检测到可翻译文字)
图 76
“
不能再这样下去了!
哦|
我
巴
我与一位时尚的 Groq 员工进行了多次口头争论,他反复声称该架构不是 144 宽 VLIW。
“我们创造了一些不同的东西。”
废话
图 77
2025 年 12 月 24 日星期三 下午 6:59
写道:
嘿,关于收购的好帖子,这也是我的第一直觉。一定有
他们的IP,他们的架构师,他们的编译器工程师。 Rubin CPX 带有一个小
每个芯片的 DRAM 数量以及板上配置的常规 NVLink 流
在这一点上,数据流和驻留在 SRAM 中的所有权重将轻松超越 Groq
低延迟解码的用例,批量大小 1(假设有人愿意支付
为此额外支付$/tok)。也许 NVIDIA 想要一个更加激进的分类
预填充解码芯片解决方案,但这对我来说似乎不太可能。
所以对于一些背景。我过去一直在使用 Groq LPU
几个月。我可以证明LPU确实是144宽VLIW架构。这完全是
跨多个机架的时钟。它也是一台 320 宽 SIMD 机器,其中每个 VLiW 通道
20 个“超级车道”,每个在 16 条车道上运行 (20 x 16 = 320))。
正如人们所预料的那样,编程模型是痛苦的。我想他们已经得到了
不过已经习惯了;指定在给定周期内发生的内存片读取
以及结果应该落在哪个“流寄存器”以及任何附加指令
安装脉动数组权重或执行向量运算可能取决于该内存
read 及其发出周期将由编译器计算。他们的核心工程师
已经编写了足够多的定制内核,可以使机器正常运行
不支持内核内的任意计算。我不知道他们是怎么处理的
每个用户在 LPU 和主机 DRAM 之间来回交换 KV 缓存。
使用过 Groq Cloud 的工程师都知道该芯片是 144 宽的 VLIW,需要编译器进行周期粒度的静态调度。
图 78
为软件提供支持的 ISA
编译器有权执行
周期精确的指令调度
功能单元同步执行
莫
沃
SO
莫
每个调度路径每个周期发出一个指令
可以视为全流水线 144 宽
VLIW指令
M1
V1
S1
毫升
管理所需的硬件控制很少
指令执行
M2
V2
S2
平方米
指令调度逻辑的面积开销<3%
M3
V3
S3
立方米
.boJ6
@ 2022 Groq, Inc. I HotChips34 - 2022
公共23
Groq 在 Hot Chips 2022 上的公开演讲明确承认该架构可以被视为 144 宽 VLIW。
图 79
经验
杰出研究科学家
英伟达
英伟达
2022年10月至今·3年5个月
ASIC、计算机架构+3项技能
NVIDIA 研究-DennisAbts
首席架构师
格罗克
2017年5月-2022年9月·5年5个月
威斯康星州
负责软硬件协同设计的高级领导
最先进的机器学习(ML)加速器..seemore
网络、云计算和+11技能
高级硬件架构师
谷歌公司·全职
2007年9月-2016年1月·8年5个月
大规模集群的数据中心网络。
能量比例网络.交换芯片和网络...查看更多
网络、云计算和+5技能
高级总工程师
克雷公司
1997年4月-2007年9月·10年6个月
作为硬件架构师,我与团队合作
系统架构师并与逻辑设计密切合作.. 查看更多
Dennis Abts,Groq 的 CHEIF 架构师,在 Hot Chips 上亮相,承认使用 144 宽 VLIW,一个月后正式加入 Nvidia。
图 80
GroaChipM 构建模块
用于在 uni 之间传递数据的高带宽“流寄存器”
[使用说明
视场角
指令调度路径
Groq 是一种数据流架构,但以最疯狂、最令人反感、最疯狂的方式出现。
图 81
为软件提供支持的 ISA
软件控制内存
通过低级抽象启用
建筑暴露
无动态硬件缓存
编译器知道所有数据位置
MXM
SXM
SXM
MXM
任何给定时间点
MEM
MEM
[88 个 SRAM 组]
[88 个 SRAM 组]
扁平内存层次结构(无 L1、L2、L3 等)
暴露给软件的内存
一组实体银行
直接寻址
大片上存储器容量(220 MB)
高带宽 (55TBps) 减少
[欧彭布
[6] 彭布
四边形[8]
[Z] 彭布
四边形[6]
[s]penb
[>]彭布
四边形[3]
四边形[2]
四边形[]
[o] 彭布
需要溢出非确定性DRAM
MEM42
MEM41
■提供足够的“便签本”
内存隐藏外部内存
计算背后的访问
日本央行6
@ 2022 Groq, Inc. I HotChips34 - 2022
公共
22
暂存器 SRAM。编译器必须提前循环准确地安排一切。
图 82
功能说明
描述
指令集
ICUNOPN
不操作,可重复N次延时N个周期
获取
从流或本地内存中获取指令
同步
停在指令调度队列的前面等待障碍通知
通知
释放待处理的屏障操作,导致指令流恢复
配置
配置低功耗模式
重复 n,d
重复前面的指令n次,迭代之间有d个循环
显式的低级控制
MEM 读取 a,s
将地址向量加载到流上
硬件
写一个,s
将流寄存器内容存储到主内存地址a
收集、地图
通过映射放到流上间接读取指向的地址
散点图,地图
将流间接存储到地图流中的地址
320 元素向量/矩阵运算
倒计时
设置循环之间的周期延迟
斯特帕
迭代次数
设置地址生成的循环边界
显式资源选择
VX辅助手术
z=op 对 1 个操作数 x 进行逐点运算,产生 1 个结果, z (例如掩码,求反)
二元运算
z=xopy逐点运算,有2个操作数x并且产生1个结果,(例如add,mul,sub)
类型转换
将定点转换为浮点,反之亦然
ReLU
修正线性单元激活函数max(0,x)
正切值
双曲正切激活函数
经验值
求幂 e”
Rqrt
倒数平方根
MXM
长波
从流到权重缓冲区的负载权重(LW)
内华达
将流或 LW 缓冲区中的权重 (IW) 安装到 320x320 阵列中
ABC
激活缓冲区控制 (ABC) 用于启动和协调到达的激活
ACC
从 MXM 累加 (ACC)INT32 或 FP32 结果
SXM 上移/下移 N
通道移位流向上/向下 N 个通道
置换映射
双射排列320输入smp输出
分发地图
在超级通道(16 通道)内重新排列或复制数据
旋转流
旋转xn个输入数据以生成具有所有可能旋转的n²输出流(n=3或n=4)
转置 sg16
转置 16x16 元素,生成 16 个行和列互换的输出流
C2C
相差校正
管理跨准同步链接的偏差
发送
发送 320 字节向量
接收
接收一个320字节向量,将其放入主内存中
烈酒
2022 格罗克公司| HotChips34 - 2022
公共
25
他们必须尽可能地同步所有芯片。每个机架上每个服务器中的每个芯片。
一旦出现最轻微的同步问题,这个编译器就会起火。
图 83
TSP 功能单元概述
具有专用指令集的领域特定加速器
每个功能单元都有一个指令子集,但支持多个指令
所有功能单元通用
IFETCH:从主存取指令到ICU开始执行
无操作(NoP):等待1个或更多周期
SYNc:停放 ICU 并等待 NOTiFY 唤醒并恢复执行
NoTiFY:允许 144ICU 子芯片中的任何一个“唤醒”其他芯片
providealock-stepexecutionand allowthecompilertoreasonabouttimeofexecution
每个功能单元只执行与其操作相关的指令
(即向量处理器仅执行逐点元素操作,而不执行加载/存储)
格罗克
2022Groq, Inc.1HotChips34-2022
公共27
如果同步不好,他们就必须停止所有计算。
图 84
蜻蜓拓扑
32端口虚拟路由器连接到其他节点
进一步提高拓扑的可扩展性
使用的节点集合
创建一个“组”ora
TSPO
TSP1
TSP2
TSP3
TSP4
TSP5
TSP6
TSP7
虚拟高基路由器
一个组被用作
横向扩展的构建块
多TSP系统使用a
32端口“组”作为建筑物
块—扩展到 33 组
在单个全局跃点中
中央处理器
中央处理器
虚拟高基路由器
日本央行6
2022Groq, Inc.|HotChips34-2022
公共37
还记得阿布茨先生再次出现的情景吗?是的,他在谷歌发明了 Dragonfly。
图 85
Groq 横向扩展
蜻蜓
拓扑结构
格罗克芯片
格罗克
4xQSFPperGroqCard
7个本地端口
节点内
格罗克诺德尔
诺德奥
单个 GroqRackTM
节点1
米
9e
节点2
格罗克
TSPO
TSP1
TSP2
TSP3
TSP4
TSP5
TSP6
TSP7
总磷
任何节点都可以成为“备用”节点
节点3
节点4
仅节点间连接
4全球港口
节点
为简单起见显示节点
节点间
节点6
节点7
节点8
中央处理器
中央处理器
总节点
图 86
维持决定论
跨多个 TSP 扩展确定性 TSP 架构
虽然单个 TSP 是确定性的,但 TSP 之间的 C2C
支持:
TsP 可能会引入非决定论
软件
链接延迟变化 > 需要准确
添加到 ISA 的指令
链路延迟的估计。
初始对齐/运行时间
没有全局同步时钟
需要重新同步
TSP → 需要一个“全球”时钟
硬件
时钟漂移 > 补偿时钟漂移
硬件对齐
计数器(HAC)
软件对齐
确保多个 TsP 之间的同步通信
计数器(SAC)
我已经阅读了他们关于同步工作原理的专利。有很多更好的方法可以做到这一点。下一节将详细介绍这一点。
图 87
指令集支持
软件定义网络的 ISA 支持
芯片范围(同步/通知)和
名称
描述
全系统同步
HAC
硬件对齐计数器
(DESKEw / 运行时偏移校正)
国家标准委员会
软件对齐计数器
链接已同步,并且
保持锁步执行
同步
芯片范围同步以对齐所有
整个系统
片上指令队列 (ICU)
链接是“有节奏的”
通知
芯片范围内的通知可唤醒任何
停放(SYNC'd)指令队列
使用软件来避免
上溢/下溢
相差校正
暂停指令直到 HAC 溢出
FEC(前向错误
传输
指示发送通知消息至
修正)修正最多
孩子跨过C2Clinks
传输错误
t + dt 的运行时相差校正 tDelay TSP
确定性地
如果偏差随着时间的推移而变化(确实如此!),执行就会按设计停止。
图 88
每个TSP维护一个自由运行的硬件对齐计数器(HAC)
TSPO
2
3
500
501
502
柜台
计数器可能反映
最初是
由于不同而产生漂移
独立的
参考时钟
TSP1
6
8
506
507
508
时间
格罗克
@ 2022 Groq, Inc. 1 HotChips34 - 2022
公共
42
图 89
假设保证推理和生产者消费者界面
假设保证
功能单元具有来自(流寄存器文件)SRF 的明确定义的输入
位于功能单元之间的站
串流
串流
表达假设(约束)和保证(属性)
注册文件
注册文件
可以检查每个功能单元的安全属性
(SRF)位置i
(SRF)位置j
功能单元被设计为无状态且无副作用
软件中的假设被表述为所持有的保证
硬件,反之亦然
秉承“确定性”设计理念确保
硬件数据路径中没有反应性组件
31
功能性
31
内存或网络事务不重新排序
单位
固定延迟功能单元使指令可预测
暴露必要的架构可见的机器状态
对于编译器关于程序正确性的原因
整个芯片或系统没有“活性”属性
没有合作的 FsM 作为硬件一致性机制的一部分
无仲裁器或链路层重放等。
日本央行6
@2022Groq,Inc.|HotChips34-2022
公共55
这是真实的。 Groq 架构给编译器带来了如此巨大的负担,一个由 10 名有能力的数字设计师组成的团队可以在 6 个月内复制设计。
该芯片的设计非常简单。复杂性负担并没有消失!复杂性转向计算机历史上最地狱般的编译器。
以下是 Groq 专利的一些片段。
图 90
US012373107B2
(12) 美国专利
(10)专利号:
US12.373.107B2
程等人。
(45)专利日期:
2025年7月29日
(54)
管理周期性DRAM的方法
(58)
分类搜索领域
刷新维护
CPC..G06F3/0611;G06F3/0659;G06F3/0673
可预测的DRAM调度
请参阅应用程序文件以获取完整的搜索历史记录。
数据存取
(56)
引用的参考文献
(71)申请人:Groq,Inc.,Mountain View,CA(美国)
美国专利文件
(72)
发明人:Albert Cheng.Bellevue,WA(美国);
迈克尔·拜,威斯康星州奇珀瓦瀑布
2020/0026562A1*
1/2020
巴拉姆沙赫里...
H04L41/5009
(美国);Rahul Shah,加利福尼亚州米尔皮塔斯(美国)
2020/0243154A1*
7/2020
西提
G06F11/1068
2022/0122215A1*
4/2022
雷
G06F7/575
(73)受让人:Groq,Inc.,Mountain View,CA(美国)
2023/0102089A1*
3/2023贝鲁比
G06F11/0757
714/55
(*)
注意事项:
受任何免责声明的约束,本条款
*由审查员引用
专利延长或调整35以下
美国加州大学154(b) 41 天。
初级考官—TimTVo
(21)
申请号:18/538,448
助理考官—Janice M.Girouard
(74)律师、代理人或公司——Dority & Manning,P.A.
(22)
提交:
2023年12月13日
(57)
摘要
(65)
先前发表数据
读写 DRAM 时(动态随机存取
US2024/0192855A1
2024年6月13日
内存),延迟和带宽通常是不可预测的
有很大的变化。一个原因是因为所有的 DRAM
相关美国申请数据
内存条需要定期刷新和维护
(60)
临时申请号 63/432,322,于 12 月提交
中断这些访问的周期。DRAM 刷新和
13,2022。
维护周期与读/写同步
以互斥的方式访问,因此,防止
(51)
Int.Cl。
访问不受刷新或
G06F3/06
(2006.01)
维护周期导致可预测的延迟和带宽
(52)
美国CI。
读/写操作期间的宽度性能。
中国共产党...
G06F3/0611(2013.01);G06F3/0659
(2013.01);G06F3/0673(2013.01)
22 份索赔,8 张图纸
100
用户设备
102
应用程序编程接口
展示台用户
104
接口
126
编译器
112
可视化服务器
122
编译器/汇编器
服务器
已编译
展示台
节目
节目
110
114
124
汇编器
116
动态随机存取存储器
总磷
128
120
图 91
美国专利
2025年7月29日
第 4 页,共 8 页
US12,373,107B2
DRAM内存区域0
银行x
DRAM内存区域1
银行x
DRAM内存区域N
银行x
动态随机存取存储器
128
银行银行1
银行1
银行银行1
数据存取
维护保养
数据存取
维护保养
数据存取
刷新
维护保养
刷新
通道0
刷新
频道1
频道
3
内存控制器0
DRAM控制器N
图。
DRAM控制器1
回应
回应
回应
要求
要求
要求
总磷
120
图 92
Thismutuallyexclusiveschedulingcanbedoneinseveral
形式:1)计算机系统控制DRAM
访问和刷新/维护计划。计算机
系统指示 DRAM 控制器发出刷新/主命令
适当的时候进行维护周期。2) DRAM
控制器使用固定的、已知的刷新/维护计划
计算机系统知道,那么计算机
系统相应地安排其访问以避免任何
3) 计算机系统使用固定的、已知的访问权限
DRAM 控制器知道的时间表,以及
DRAM 控制器将安排其刷新/维护
财务周期相应地避免任何冲突。4)
DRAM 控制器和计算机系统采用预定的
一种综合方法2
举个例子,特定的模型可能
有高带宽要求所以
计算机系统可以请求DRAM控制器启动
在选定的时间(例如
早于当时的时间表要求),以便
访问特定内存库可供访问
在选定的时间访问计算机系统。
无论使用哪种方法,只要
系统和 DRAM 控制器异步工作
(或合作)方式避免 DRAM 之间的冲突
来自计算机系统的访问请求并刷新/
从 DRAM 控制到 DRAM 的维护周期
勒,这些请求的完成将是可预测的
更好的延迟和带宽性能。
Abts 先生于 3 年前离开并加入 Nvidia。 Groq 的芯片均不使用任何类型的 DRAM。显然,这项使用调度数据包技巧使 DRAM 具有确定性的专利不起作用。否则,Groq 现在就已经添加了 DRAM。
这是他们实际使用的一项专利。
图 93
美国专利
2022年10月18日
第 4 页,共 6 页
US11,474,557B2
601
同步硬件计数器
602
接收粗调触发
603
重置粗调计数器并开始计数
604
接收延迟计数和偏移
605
设置软件计数器延迟偏移
606
将软件计数器设置为硬件计数器
图6
图 94
在一个实施例中,每个系统100和101可以
包括硬件对齐计数器108和109。硬件
对齐的计数器108和109可用于建立时间
每个系统中电子电路的基础,例如时钟,
例如。此外,每个系统可能包括软
warealignedcounters106和107.Soffwarealignedcoun-
106 和 107 可能通过程序同步 104 和
105,分别如下文更详细描述。硬-
固件对齐计数器 108 和 109 以及软件对齐
计数器106和107可以被实现为数字计数器
例如,每个集成电路上的电路。
例如,硬件对齐计数器 108 和 109 可能
Chip1 上的自由运行数字计数器(例如 8 位计数器)
和芯片 2 定期同步,如所述
类似地,软件对齐计数器106和107可能
是同步的数字计数器(例如8位计数器)
基于程序104和105触发的定时标记,
分别称为硬件对齐计数器
本文称为“硬件计数器”和软件对齐计数器
在此被称为“软件计数器”。
与硬件和软件计数器是不同的国家
随着时间的推移,不同的系统可能会逐渐疏远。
例如,即使使用相同的外部晶体来驱动
两者都是硬件计数器,不同的内部条件可能
导致硬件计数器随着时间的推移不同步。
随着时间的推移。
同步也可能会受到影响
通过系统延迟和抖动进行数据通信
例如,这可能跨越多个周期。因此
保持系统硬件和软件计数器同步
可以海滩挑战。
你说得对,SerDes 抖动和 PPM 时钟漂移会搞砸这个基于计数器的同步方案!
Groq 是有史以来最疯狂、最非正统、最不平衡的计算机。我和许多其他人一直在这令人厌恶的岁月里拉屎是有原因的!
但是......经过 6 年多的编译器工作并运行烧钱的推理云来学习如何使编译器变得更好......他们似乎已经找到了一些东西。
抛开你的偏见,假设编译器是功能性的,或者至少能够发挥作用。
想象一下,您是 Nvidia,拥有使 Groq 真正发挥其理论全部潜力所需的所有 IP。
$20B 很便宜。这是一次变革性的收购。比 Mellanox 大得多!
图 95
黄仁勋:我对他们的现金流增长充满信心。原因很简单。我们现在有
看到了代理人工智能的变化以及世界各地和各地企业的代理的有用性。
因此,您会看到令人难以置信的计算需求。在人工智能的新世界里,计算就是收入。
计算,就没有办法生成代币。没有代币,就没有办法增加收入。所以在这个新的
在人工智能的世界里,计算等于收入。我确信,在这一点上,所有这些都有一个适度的
计算机数量,你知道,称之为 300,00,00,000 美元或 400,000,000,000 美元价值现金。太棒了。谢谢
你。
还有一些战略投资和潜在的 OpenAl。以此模型为核心,但也与
数十个 Al 本地人都建立在 Alecosystem 之上。对于语言,或者物理人工智能,或者人工智能物理。阿洛夫
Al 模型或深度。正如我之前提到的,扩展。扩展。GPU、节点和每个节点。
我们做到了。这个架子真的非常令人难以置信。当然,我们也喜欢低强度的锻炼。还有一些人
希望以非常擅长的方式将扩展以太网与人工智能相集成。我们的光谱X
不必要的电源。我们对紫罗兰不过敏。我们已经使用紫罗兰了。但我们尝试这样做。所以当
你看看 Grace Blackwell 架构和 Rubin 架构,使用两次激进有限关系
底部,这减少了竞争对手的架构数量。
如果你看看我们的软件优势,但软件的起点和架构的起点和终点是这样的
很难说。就是——我们的软件之所以有效,是因为我们的架构太好了。 CUDA架构也是如此
毫无疑问是更有效、更高效,我的意思是,每FLoP每瓦特。几代架构
GPU 都会受益。因此我们将继续这样做,它使我们能够延长使用寿命,使我们能够
具有创新、灵活性和速度,这可以转化为客户的绩效,这一点非常重要。
那么我们将如何处理
烈酒
是-你会来看,来看GTC-但是我们会做的是我们会
使用 Groq asanaccel 扩展我们的架构,使用 Mellanox 扩展 NviDlA 公司的架构。
让我向您展示 Nvidia 如何让 Groq 充分发挥其潜力。
[6] Nvidia 与 Groq 风格架构令人难以置信的 IP 协同作用 台湾谣言工厂已经开始对 PCB 规格的泄露进行自慰,但这并没有抓住重点。供应链堕落者不知道 Groq 的真正价值是什么。
坦白说,我根本不在乎 Nvidia/Groq 在短期内使用 Groq V3 芯片拼凑出什么东西。 SF4X工艺节点比TSMC N6差,在某些情况下还比N7差哈哈。
Groq 架构和 Nvidia IP 具有令人难以置信的协同作用。他们将在 18 个月内让某些事情变得更好。
[6.a] 时钟转发 SerDes
图 96
A 32Gb/s/入 256Gb/s/光纤半速率
带通滤波时钟转发
3D 堆叠 7nm 中的 DWDM 光链路
EIC/65nm PLC技术
宋三泉'、Nandish Mehta1、Nikola Nedovic1、Angad Rekhi1、Georgios
Kalogerakis1、李旭1、Brian Zimmer1、Stephen G. Tell2、Yoshi Nishi1、Xi Chen、
Ward Lopes1、Benjamin G. Lee3、Thomas H. Greer ll12、C. Thomas Gray2
1Nvidia,加利福尼亚州圣克拉拉,2Nvidia,北卡罗来纳州达勒姆,3Nvidia,康涅狄格州里奇菲尔德
ISSCC 2026
英伟达。
2026IEEE
23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/A 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路
国际固态电路会议
32 中的 1
Nvidia 刚刚在 ISSCC 上展示了他们的光学时钟转发芯片到芯片链路。
我在这里有更详细的报道。
对于这篇文章,我将仅重新介绍时钟转发部分。
图 97
DWDM 链路的抖动建模 — 带滤波的 FC
相位CDRBW
相关抖动:TXPLL抖动、PSIJ
不相关的噪声
噪声PSD1
相关噪声
等,与lanetolane相同
→
不相关的噪声
PS杜
不相关抖动:TlA 引起
CDR
相关噪声
PN
抖动,与lanetolane不同
PSD
相关噪声
不相关的
噪声+CDR噪声
EC:有限的CDR带宽暴露
嵌入式时钟(EC)
最抖动的链接
不相关噪声-
PN
FC:跟踪相关抖动;
数据
PSD
相关噪声
不相关的抖动累积
不相关的噪声
时钟
V2PSDu
FC 带过滤:大多数
不相关噪声-
时钟转发(FC)
相关抖动跟踪,大多数
不相关噪声-
BPF传输率低
不相关的抖动被过滤掉[15]
频道
PNFilterTBW抖动过滤
数据
PSD
不相关的噪声
对于能源、面积和
相关噪声
时钟
V2PSDu
PS杜
频道
海岸线高效DWDM链路
不相关噪声
带 BPF 的转发时钟
2026IEEE
23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/A 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路
国际固态电路会议
32 之 9
为转发时钟设计这个带通滤波器非常具有挑战性。 PVT 敏感性很高。
图 98
RX 设计 - TLA 接收
正向时钟
Xtfb
前向时钟信号TIA
国际劳工组织
正向时钟
延迟时间
TT
赫赫
GM
HT
数模转换器
有效注入比约为 1:1 w/标称输入,滤除超过 ~ 1GHz 的抖动,
足以消除大部分不相关抖动并跟踪大部分相关抖动
所有通道均可接收和分发 FWDCLK
2026IEEE
23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/A 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路
国际固态电路会议
16 共 32 个
所有通道都支持接收转发时钟以优化良率。这会燃烧相当大的面积。他们这样做一定是有性能原因。
也许各个芯片的电串扰严重程度有所不同?
图 99
RX 设计 - DLY 阶段
数据延迟时间
直肠癌
Onif输出
数据
数据
其余车道
是FWDCLK
TIA
DES
那条线注射
部分延迟
直肠癌
锁定或关闭以供进一步使用
之间的匹配
抖动过滤
数据和FWDCLK
RXCLK ILO:
喷射比调整
缓冲阶段
正向时钟延迟时间
PSIJ 追踪
能力
前轮驱动
前轮驱动
时钟脉冲
时钟脉冲
FWDCLK-接收通道
DES
TIA
(欧菲)
驱动两者之一
UCLKB
克拉克A
RXCLK 分配线
2026IEEE
23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/入 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路
国际固态电路会议
17 共 32 个
延迟匹配电路相当复杂。时钟正向通道和数据通道都有多个可调延迟元件。随时间的变化(VT 引起的)是一个大问题。注入锁定是一个关键策略。
https://en.wikipedia.org/wiki/Injection_locking
图 100
范围
拉入
25
G。
简而言之,注入锁定使用反馈路径来强化主要目标音调并衰减/消除谐波和其他正弦抖动源。
图 101
RX 灵敏度测量 - ILO 的优势
Log10(误码率)
90
8
B000
8608
-15
15
15
6
9
问
8
の
FWDCLK OMA <dBm>
の
-16
16
16
多氧酶
6
17 号
8988088
17 号
17 号
8
5
-6
18
86:8@
18
18
7
6
8888
8
-8
8
8
19
-19
-19
-9
8
-10
-20
-20
09
-20
-11
-20
-19
-18
-17
-16
-15
-20
-19
-18
-17
-16
-15
-20
-19
-18
-17
-16
-15
数据OMA<dBm>
蒂艾洛
开
关闭
开
RXCLKILO
关闭
开
开
前向时钟存储器
-16.6分贝
-16dBm
优于 -20 dBm
2026IEEE
23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/A 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路
国际固态电路会议
28/32
注入锁定带来巨大的增益,但电路很难调整。
图 102
浴缸曲线
32Gbps
乐+00
TX输出&
RX桨
接收输入
乐-02
错误率
TX桨
1E-04
至TX输入
1E-06
弗洛姆激光
输出
北
乐-08
乙
插座
带芯片
le-10
0.47Ul@1e-12
le-12
0.0
0.2
0.4
0.6
0.8
1.0
Fwdclk阶段(UI)
PRBS31,全九车道ON,TTON
0.47ul 聚合开眼
1E-12BER
正向时钟相位变化约为 0.5 UI(单位间隔)或约 16 皮秒。
我向您保证,低于 16 皮秒的时钟精度比 Groq 通过其蹩脚的基于计数器的方案所达到的精度要好得多。
想象一下,GROQ 风格的硬件架构在通过光学器件进行真实时钟转发时可以表现出多么好的性能!!!!!!!!!!!!!!!!!!!!!!!!!!!
[6.b] 混合键合 改进 Groq 式架构的一种明显方法是使用混合键合来扩展 SRAM 暂存器。使用 TSMC 或 Intel Foundry 的混合绑定产品,您可以以最小的延迟损失获得大约 2 倍的容量。 Groq 没有资源来实现这一点。英伟达可以处理这个!
无论如何,延迟损失并不重要,因为编译器需要具有确定性,并且会提前取消延迟。
[6.c] 领先的散热团队 Groq 式架构的问题之一是热密度。虽然芯片的绝对功率不高,但部分执行逻辑变得非常非常热。
Nvidia 拥有世界上最好的液体冷却和热设计团队之一。热点将不再是问题。我怀疑由于热点问题,Groq 必须相对于他们的目标降低时钟频率。修复很容易,但性能却悬而未决。
[6.d] 理论光学全局时钟
图 103
电路架构
锁相环寄存器
锁相环寄存器
链接结构
蒂阿雷格
-9 个 TX 和 RX8 数据@32
接收寄存器
Gbps,1forFWDCLK@16GHz)
塞内尔
DES
-256Gbps/光纤吞吐量
DRV
TIA
S2D
时钟和抖动管理
TT
TXO
RXO
- 基于 TX-Pl 的环对环去偏斜
波导路径长度不匹配
塞内尔
DES
色散引起的延迟
DRV
TIA
S2D
TIA 和 RX 时钟中的 ILO 结构
L
分布抖动过滤
TX8
RX8
沃斯克
供应领域
锁相环
锁相环
- 板载 VDDA/VDDH/VDDM
时钟脉冲网络
时钟脉冲网络
电压:0.8-0.96
电源电压:1.0
- VDDPLL/VDDTIA/VDDRX 由 - 生成
电源电压:1.6-1.92
VDDPLL:~0.92调节
芯片LDO
VDDTIA:~0.8调节,PT跟踪
VDDRX:=VDDTIA
2026IEEE
23.1:A32Gb/s/A256Gb/s/光纤半速率带通滤波时钟转发 DWDMOpticalLinkina3D-Stacked7nmEIC/65nmPIC 技术
国际固态电路会议
11 共 32 个
Nvidia 的光学时钟转发 IP 对色散很敏感。
这令人惊讶。
https://www.rp-photonics.com/chromatic_分散.html
图 104
色散
半音阶
色散
色散是一种在频域中展宽信号的光学现象。 DSP 解决这个问题的方法是简单地进行过采样。
图 105
色散(ps/nm·km)
4030201001020
材料分散
色散
-30
40
波导色散
12001300
140015001600
1700
波长(nm)
色散是长距离 C 波段链路的典型问题。 O-band通常不关心这个。
这就是为什么我如此惊讶。 Nvidia 使用 O 频段,直观上这不是问题。显然,他们的系统极其敏感!
这表明Nvidia的光学时钟转发IP的覆盖范围有限。假设仅在机架内。
如果能够在整个数据中心内的各个机架上分配全局光学时钟……这对于 Groq 风格的架构来说真是太棒了。
图 106
可以分发茶
跨越 100 多米的全球时钟
光学原子钟在实验室和研究应用方面有着丰富的历史。
https://en.wikipedia.org/wiki/Optical_clock
最近,这项技术重新引起了数据中心的兴趣。
这确实是可能的。 Nvidia 光学集团是 Galaxy-Brain。他们可以做到这一点!
这些年来,Groq 编译器工程师一直在使用蹩脚的技巧和软件计数器来实现平庸的符号化。 Nvidia 拥有实现乔纳森·罗斯 (Jhonathan Ross) 最疯狂的梦想所需的独特知识产权,并真正释放世界上最不平衡计算机的疯狂潜力。
[7] 可能的 Nvidia/Groq 产品模型
图 107
刀片服务器
机架
本地 Groq 芯片集群
DragonFly虚拟路由器
刀片服务器
全部与CPO时钟连接-
转发 DWDM 链接!
刀片服务器
每个芯片都有混合键合
SRAM/暂存器扩展!
蜻蜓拓扑
进一步提高拓扑的可扩展性
使用节点集合
创建一个“组”或
虚拟高基路由器
PDFA(光放大器)
全局(跨节点)光时钟
恢复。
刀片服务器
全球光原子钟
*输入位于每个中间的 PDFA
架。
[8] 任何白痴都可以建造一座桥梁 // 疯狂计算机的黄金时代 <全部>
订阅以在准备好后获得最终(完整)的帖子。
现代 Altera FPGA 概述
SN仁慈杀戮
等等,不,我想活下去
解释单位间隔
再次使用 nvidia ISSCC 纸张
精神错乱的谱系
脆性结构谱
groq 无法集成。一定是在岛上吗?
假设存在一些可以在岛上运行的人工智能工作负载
供应链角度
任何白痴都可以建造一座桥梁类比
为大家高兴
甚至大脑
恭喜 gif
WSE 桥梁
侮辱硬件差距