中文优先阅读版(流式排版)。悬停段落可看英文原文。图片下为图中文字中文翻译。
原文:https://irrationalanalysis.substack.com/p/unfinished-draft-its-the-dataflow?utm_campaign=post&utm_medium=web

[未完成的草稿] 这是数据流,愚蠢的。

Groq 比 Mellanox 更大。

figure 1
图 1
(该图未检测到可翻译文字)

非理性分析在半导体行业投入巨资。职位会随着时间的推移而变化,并定期更新。

非理性分析在半导体行业投入巨资。

职位会随着时间的推移而变化,并定期更新。

意见为作者个人观点,不代表过去、现在和/或未来的雇主。

本新闻稿中发布的所有内容均基于自 2011 年以来的公开信息和独立研究。

本时事通讯并非财务建议,读者在投资任何证券之前应始终进行自己的研究。

请随时通过电子邮件与我联系:[email protected]

大约两个月前,Nvidia 收购了 Groq,通过“非独家”许可协议获得了所有有价值的知识产权,并且(更重要的是)雇佣了所有人才。

我长期以来一直讨厌 Groq。

这是 2024 年 2 月的一篇旧帖子,专门写在 Groq 上。

我的第一反应是这笔交易是为了获得特朗普政府批准 H200 出口而进行的贿赂。许多其他人公开表达了这一观点,也私下给我留言。

figure 2
图 2
(该图未检测到可翻译文字)
figure 3
图 3
(该图未检测到可翻译文字)

甚至许多英伟达自己的员工也认为这是贿赂。

figure 4
图 4
Emphyrio@EmphyrioLives·2025年12月28日 为什么这很有趣?他们的设计太脆弱了,没有这样的设计就无法工作 时钟。 第784章 非理性分析@insane_analyst·2025年12月28日 是的,它太脆弱了,但英伟达很感兴趣。这就是香蕉 共和国贿赂/腐败或世界上最脆弱的国家具有真正的价值。 1 8 第857章 口 Emphyrio@EmphyrioLives·2025年12月31日 阅读 nvidia 员工的言论。这会支持前者 而不是后者。 梅尔文@MelvinGay88974·2025年12月25日 $NVDA以下是 NVDA 员工自己对盲人的看法 关于收购 Groq.LMFAO。 这从字面上看毫无意义。Groq Ipus 是带有 sram 的 vliw 核心。这是一个糟糕的架构 万亿参数模型想象除了 v 之外还必须连接数百万芯片来托管模型 GPU 还可以执行低延迟操作,您只是没有有效地使用所有计算。我怀疑 这笔交易只是为了买断特朗普的走狗,比如查马斯、阳光明媚的马德拉,当然还有 小唐。groq 架构实际上是 thrashand 这些家伙需要救助。看起来像 与 Jensen 进行交换中国访问。 Asan 员工 Ifeel the 20Bcouldhave 用于现有员工以及招聘和培训人员 31 回复 元·Ufyx62 -昨天 +1-有一些我们都不知道的游戏正在发生 5

注意:Blind 是一个(尤其是恶性的)社交媒体平台,要求您使用工作电子邮件进行注册。但他们不会检查您是否仍在您签约的公司工作。

但经过几个月的思考,并考虑到人工智能经济学的最新发展,我已经完全投降了。

figure 5
图 5
(该图未检测到可翻译文字)
figure 6
图 6
(该图未检测到可翻译文字)

它始于一个简单的(非工程)前提。

figure 7
图 7
小唐·特朗普 合伙人 小唐纳德·特朗普 (Donald Trump, Jr.) 是 1789 年的合作伙伴,专注于新的投资发起、融资和战略。 网络 指导特朗普组织在全球范围内的新项目收购和开发。特朗普先生积极参与 建筑、营销、销售和租赁 作为 PublicSquare Holdings Inc.(纽约证券交易所代码:PSQH)的董事。 宾夕法尼亚大学
figure 8
图 8
Groq 融资 7.5 亿美元作为推断 需求激增 此次投资增强了 Groq 在 American AlStack 中的地位,交付快速、价格实惠 计算全球。 加利福尼亚州山景城 - 2025 年 9 月 17 日 — 今天,人工智能推理先驱 Groq 宣布获得 7.5 亿美元新融资,投后估值为 69 亿美元。回合 由 Disruptive 牵头,并获得 Blackrock、Neuberger Berman、DTCP 的巨额投资 以及一家位于美国西海岸的大型共同基金经理。此次加薪还包括继续 来自三星、思科、D1、Altimeter、1789 Capital 和 Infinitum 的支持。 Groq 为超过 200 万开发人员和财富 500 强公司提供快速、 负担得起的计算,并在全球范围内扩大其影响力,以现有的数据中心为基础 北美、欧洲和中东。 “推理正在定义这个人工智能时代,我们正在重建美国的基础设施 以高速、低成本交付。”—— Jonathan Ross,Groq 创始人兼首席执行官 人工智能技术栈,强调美国原产人工智能技术的全球部署。Groq是 发挥着核心作用,他们美国建造的推理基础设施已经为 世界各地的开发商和企业。 Disruptive 是一家总部位于达拉斯的成长型投资公司,它支持了一些最具影响力的公司 过去十年中转型和成功的公司,包括在 Palantir、Airbnb、Spotify、Shield Al、Hims、Databricks、Stripe、Slack 和许多其他人工智能领导者 和Al相邻的企业。 Disruptive 已向 Groq 投资近 3.5 亿美元。

在与 NVIDIA 达成交易之前不到三个月,Groq 就以 70 亿美元的估值筹集了资金。 Don Jr 风险投资公司(1789 Capital)参与了本轮融资。

$14B 的收购将使 Don Jr. 在不到三个月的时间内获得 100% 的投资回报。感觉像是理论上贿赂的适当规模。

但 20B 美元的交易实际上使贿赂理论无效。太高了。

20B 美元是那种说“他妈的闭嘴,停止谈判,下周之前滚进 Nvidia 办公室”的钱。

这就是发生的事情。

figure 9
图 9
乔纳森·罗斯 在 ·第二名 +关注 世界人工智能计算量翻倍;首席软件架构师... 访问我的网站 1米0· 我很高兴与大家分享,我即将开始担任首席软件架构师的新职位 在英伟达! 开始新职位

从这笔交易被公开泄露/宣布之日起,仅用了四个工作日就让 Groq 人才进入并开始工作。显然,英伟达存在紧迫性,并且在这方面还有更多证据......

figure 10
图 10
一月 14,2026全球事务 OpenAl 与 Cerebras 合作 OpenAl 与 Cerebras 合作,向我们的平台添加 75 多台超低延迟阿尔计算。 开放铝 塞雷布拉斯

我的感觉是 OpenAI 正在竞购 Groq,而 Jensen 击败了他们。

我猜 Groq 的员工对真实的金钱比理论的金钱更感兴趣。这些年来,在纸面上富有,但在现实生活中贫穷,一定不会是一种很好的感觉,像小丑一样招摇过市。

figure 11
图 11
ae 86+ Sai ¥ U E = — - L 隆, | | | 。 { a oon 是 j | cs x‘ 鲍尔 | 。我们滑雪“a wis”2 皮特,| 4 fs 如果 , - 支付2 ee |一个 = — J aol — a ae |发| Th'f] 7 f MET | ; SS 泰亚 我\是\。 '\ = <S =。 :’\ 元 ;磷酸钠 “我我;Si。 。 。尿 yj) 回复

继续这个介绍,让我提出一篇旧文章,一半是关于 Tenstorrent,一半是关于为什么我认为(当时)绝大多数人工智能硬件初创公司都会死掉。

figure 12
图 12
[5] 更广泛的人工智能硬件初创公司 框架 Al Hardware 初创公司遇到了问题。客户问题。 谁会购买初创公司横向供应的铝芯片? 有很多选择: 1.英伟达 a.购买最新一代。 b.从 Azure、AwS 或 GCP 租用最新一代 c. 以极其便宜的价格从 neocloud 租用老一代 GPU 即将破产。 2.AMD(他们不断降价) 3. 构建您自己的半定制芯片。 a.AmazonTrainium、Google TPU、Microsoft Maia、Meta??? b.使用Broadcom、Marvell、Alchip、MediaTek或GUC作为设计合作伙伴。 4.从GCP或AWS租用半定制芯片(TPU、Trainium)。 这些人工智能硬件初创公司将卖给谁? 大型企业正在与五家设计公司合作制造自己的芯片 半定制解决方案。 AMD 制造了一款meh 产品,但价格便宜且具有大量HBM。 小公司可以轻松地从各种垃圾公司租用旧的 Nvidia 设备(抱歉 “Neoclouds”)以最低价格。 H1o0小时租金价格已经 崩溃了,布莱克威尔还没有爬坡! 小时
figure 13
图 13
横向提供的培训硬件市场已经死了。Nvidia 和半定制 超大规模芯片将其他人淘汰。 坦率地说,我相信每个硬件初创公司都应该放弃培训并专门 专注于推理。没有希望。现在旋转,也许可以。继续训练 肯定会死。 至于推论,有希望,但前提是成本非常低或者性能非常低 来自某些奇异策略的疯狂高。如果您的芯片使用 HBM 并且基于 TSMC N3,它可能不会便宜,应该与所有那些贬值的 H100 竞争 和大量补贴的培训班。

在这次深入研究中,我有四个主要目标:

解释之前对所有人工智能硬件初创公司的负面看法的完全逆转。

解释一下之前对 Groq 架构的仇恨的完全逆转。

涵盖所有有趣的人工智能硬件初创公司。 (Groq、Cerebras、D-matrix、SambaNova、Etched、Positron、MatX、Tenstorrent、Taalas)

解释一下为什么这一切都与 SRAM 无关。

https://en.wikipedia.org/wiki/It%27s_the_economy,_stupid

这是数据流,愚蠢的。

<一切都更好的缩略图>

figure 14
图 14
正电子 桑巴诺瓦 大脑 S 中号 S d-矩阵 烈酒 英伟达 下 最后的帖子 建筑业 塔阿拉斯 蚀刻垫 国际法院 张量

这是未完成的草案

我目前正在与 MatX、Etched、Taalas 和 Positron 进行谈判,以获得技术信息以及发布与其部分相关的内容的许可。

其他人工智能硬件初创公司有足够的公开信息来涵盖。

鉴于 Groq 交易对公开市场的重要性,我决定发布一份早期(非常不完整)的草案,其中仅包含 Groq,不包括所有初创公司。

figure 15
图 15
非理性分析 @insane_analyst·Feb21 推广 大型项目涵盖Groq、Taalas、Positron、Etched、D-Matrix、 Tenstorrent、Sambanova 和 Cerebras 可能需要 3-4 周才能 完成。 可能更长。仍在谈判中。 (公司可以辩论事实并否决机密信息,但没有意见) 分体投影仪不行吗? 第1部分:Groqin1周 68.5% 没有分裂。等等。 31.5% 596票·最终结果 14 2 44 病8.4K 口

讽刺的是,我认为 Groq 的交易比 Mellanox 的规模更大。

这里完全逆转/投降。多年来我一直在攻击 Groq。先前的观点和新的观点都是有原因的……希望在[5+6]节中能够得到一些连贯的解释。

<> 中有各种注释(给我自己),因为我计划复制这篇文章并稍后填写缺失的部分。对这种工作质量不满意,但不得不做出妥协。

人工智能硬件初创公司可以查看其各个部分的私人草稿,辩论事实并否决他们希望保密的信息。但没有意见改变。将会有一些来回的过程,可能需要几个月的时间。确实希望包括所有四家正在谈判的初创公司的适当技术报道。

<todo:重写本节作为最终帖子>

<todo:为最终帖子更新披露内容>

在撰写本文时,我的交易账户处于以下状态。

figure 16
图 16
账户净值 详细> $1,664,476.67 美元 当日损益-42,615.99 -2.50% 打开损益表 市场价值 +915,567.94+45.45% 2,493,210.00 日间交易BP> 隔夜血压 现金余额 1,274,124.68 313,852.78 -828,733.33 选项 BP 剩余当日交易 风险等级 156,926.39 无限 安全
figure 17
图 17
我的职位(13) 贸易 最后/平均 股票及期权 市场价值/数量OpenP&L 价格 精简版 682.13K +451.88K 682.13 Lumentum控股公司 1,000 +196.26% 230.25 美元 国际贸易中心 386.67K +145.15K 45.49 英特尔公司 8,500 +60.10% 28.41 美元 扫描电镜 308.93K +185.88K 123.57 塔尔半导体有限公司 2,500 人 +151.06% 49.22 美元 LRCX 176.75K +33,155.25 235.67 泛林研究公司 750 +23.09% $191.46 CIEN 172.48K +31,775.00 344.96 西耶纳公司 500 +22.58% 281.41 美元 计算机辅助制造技术 167.47K +23,050.00 167.47 卡姆泰克 1,000 +15.96% 144.42 美元 NVDA$200 159.75K -36,100.00 10.65 26年6月18日致电100 150 -18.43% $13.06
figure 18
图 18
TER 158.14K +31,880.00 316.28 泰瑞达 500 +25.25% 252.52 美元 贝 153.43K +10,445.00 153.43 布鲁姆能源公司 1,000 +7.30% 142.99 美元 SITM 137.97K +15,187.00 394.20 新泰公司 350 +12.37% 350.81 美元 SMTC 133.77K +15,111.66 89.18 塞姆泰克 1,500 人 +12.74% 79.11 美元 SMH $400 68,250.00 +2,250.00 6.825 06Mar26(W)Put100 100 +3.41% 6.60 美元 高通 -213.18K +5,246.00 142.12 高通公司 -1,500 +2.40% 145.62 美元
figure 19
图 19
损益概览 年初至今 范围:2026年1月2日-2026年2月27日 损益表> 损益%i SMH +$629,706.72 +58.06% +12.50% YTD趋势分析 损益% SMH 51.93% -1.87% 01/01 01/30 年初至今已实现损益 年初至今股息 +$232,143.52 +$910.00

这是带有一些综合统计数据的长期唯一账户。

figure 20
图 20
仅做多账户 排除微牛/交易 股票行情 重量 平均价格_美元 NVDA.O 34.25 13.91 GEVN 20.03 188.12 TSM.N 11.38 173.15 SITM.O 7.49 153.4 贝西公司 6.78 126.68 5803.T 5.16 98.78088 凯森 4.87 182.51 AVGO.0 3.83 119.67 7220.T 1.93 230.12 ABBV.N 1.76 186.34 反导系统 1.28 第692章 艾莎宜必思 0.49 22.66 域名解析系统 0.59 289.28 美元_现金 0.2 查克 100.04 irrationalanalysis.substack.com 位置准确日期为 2026 年 2 月 27 日。
figure 21
图 21
非理性分析 综合统计数据 ($K) 资产 交易账户价值 2487.7 仅 Lonq 帐户 654.2 预计2025年退税 60 资产总计 3201.9 负债 交易账户MarqinDebt @4.4% -828.7 其他债务 0 2026 年第一季度预缴税款预估(4 月 15 日到期) -116 负债_总计 -944.7 管理不善的净资产 2257.2

你可以认为我有偏见,因为我拥有大量的 Nvidia 股票和看涨期权。但事实上,我有这些立场是出于正交的原因。

figure 22
图 22
损益概览 铝 范围:自成立以来-2026年2月27日 损益表> 损益%i ·SMH +$2,142,614.37 +1,863.66% +204.60% 所有趋势分析C 损益% SMH 1,26735% -83.49% 02/07 12/22 全部已实现盈亏 所有股息 +$1,239,921.40 +$2,837.01

你知道我的偏见,你自己拿主意吧。

也许我比你更了解半导体?

内容:

如何描述任何计算机。存储器层次结构 存储器访问/路由计算结构 芯片间通信结构

如何描述任何计算机。

内存层次结构

内存访问/路由

计算结构

芯片到芯片的通信结构

普通架构 CPU (AMD Genoa-X) CPU (Intel Saphire Rapids) GPU (Nvidia GB300 // Blackwell Ultra) TPU (Ironwood // V7) Tenstorrent <todo> Positron <todo>

普通架构

CPU(AMD Genoa-X)

CPU(英特尔蓝宝石急流)

GPU(Nvidia GB300 // Blackwell Ultra)

TPU(铁木 // V7)

Tentorrent <todo>

正电子<全部>

异常架构 <全部> D-Matrix <全部> Cerebras <全部> SambaNova <全部> 蚀刻 <全部> MatX <全部>

异常架构<全部>

D 矩阵 <todo>

大脑<全部>

SambaNova <待办事项>

蚀刻<全部>

MatX <全部>

塔拉斯:非常异常<todo>

Groq:Batshit 疯狂和精神错乱

Nvidia 令人难以置信的 IP 与 Groq 风格架构时钟转发 SerDes 混合接合领先的热团队理论光学全局时钟的协同作用

Nvidia 令人难以置信的 IP 与 Groq 风格架构的协同作用

时钟转发 SerDes

混合键合

领先的热团队

理论光学全局时钟

可能的 Nvidia/Groq 产品的模型

任何白痴都可以建造一座桥梁 // 疯狂计算机的黄金时代

[1] 如何描述任何计算机。

今天的材料会很复杂,所以我们需要一个通用的框架。

例如,Cerebras 喜欢对 Nvidia 提出废话,忽略了每个核心非常小的细微差别,因此编译器需要在运行前将神经网络图完美地映射到一个巨大的网格上。

figure 23
图 23
CS-3vS.GPU 数量级的性能优势 大脑CS-3 英伟达 H100 Cerebras优势 芯片尺寸 46,225mm2 814平方毫米 57x 核心 90万 16,896FP32+528Tens0r 52x 片上存储器 44GB 0.05GB 880x 内存带宽 21PB/秒 0.003PB/秒 7,000X 结构带宽 214 比特/秒 0.0576拍比特/秒 3,715X 实现大规模培训 FinetuneLLaMA70Bon1Btokensinaday 在单个芯片上 0 2024 岑
figure 24
图 24
WSE-3核心 持续分布式人工智能架构的领导地位 改进了 Alcompute 的性能 WSE-3核心 ·新的更高性能的张量运算 面料 ·新的16b数据8路SIMD(FP/BF16) 内存 ·新的16路SIMD for 8bdata(固定/INT8) 静态随机存储器 缓存 ·新的更快的非线性函数 48kB 512B ·2x更高计算性能核心 寄存器 高带宽内存和高速缓存 16 通用 48数据结构 ·每核48kB内存 8路16b SIMD ·新增每核512B本地缓存 ·全带宽实现完整的 SIMD 性能 16路8b SIMD 0 2024 Cerebras Systems Inc. 保留所有权利

这是“内存访问/路由”如何成为计算机的关键属性的一个很好的例子。

我相信任何计算机都可以通过以下方式合理地描述:仅使用四个属性就可以对截然不同的体系结构进行高级比较。

figure 25
图 25
属性 简单 高级 名称 描述 描述 不同的记忆层。 L1/L2/L3缓存vsscratch 有多少层和多大的 SRAM、HBM 与 DDR 对比 #1 内存层次结构 每一层。 LPDDR 哪些核心可以访问 哪一块内存。 #2内存访问/路由 延迟结构。 NoC(片上网络) SIMD 与 VLIW,收缩压 数组、数据格式、 #3计算结构 芯片如何进行数学计算。 稀疏性、ISA 刚性 纵向扩展、横向扩展、 RDMA, #4Chipto 芯片 多个芯片如何通信 延迟/带宽/FEC 通讯结构 彼此。 权衡

我之前有一本关于计算机体系结构的指南,但想为这篇文章重写它。非常奇怪的架构需要以新的方式进行覆盖。

[1.a] 内存层次结构

描述这个概念的经典方法是使用金字塔。

figure 26
图 26
1个周期 在CPU上 寄存器 小学 〜10个周期 存储 缓存 更快的访问, 成本较高 〜100 个周期 主内存 访问速度较慢, 约 100 万个周期 降低成本 闪存盘 中学 〜10 M 周期 存储 传统盘 远程辅助存储(例如互联网) 内存层次结构 存储容量

沿着金字塔往上走会带来指数级更好的性能和更高(更差)的成本。

在过去,大多数计算机(基本上是各种 CPU)都有 3 级缓存。

figure 27
图 27
AMD锐龙77800X3D游戏 处理器 建筑 禅4 #ofCPUCores 最大升压时钟 高达5GHz AMD 中科院 基本时钟 4.2GHz 锐龙 一级缓存 512KB 二级缓存 8MB AMDZ 锐龙 AMD 三级缓存 96MB 默认TDP 120W
figure 28
图 28
L1、L2 和 L3 缓存? 中央处理器 中央处理器 L1 L2 L2 L1 核心 核心 中央处理器 中央处理器 L1 L2 L2 L1 核心 核心 三级缓存 (共享) 中央处理器 中央处理器 L1 L2 2 L 核心 核心 中央处理器 中央处理器 核心 L2 核心 杂项/o 内存控制器 杂项1/o

高速缓存(几乎总是)由 SRAM 制成,但与 SRAM 不同。

在运行时,计算核心需要决定哪些内存应该放在哪里。例如,一个特定的变量是否应该存储在 L1 中以实现超快速访问,或者踢到 L3 以实现快速访问,或者因为它不重要而一直踢到 DRAM?

如果由硬件做出这些决定,则 SRAM(片上存储器)就是一个高速缓存。

如果软件做出这些决定,SRAM(仍然是片上存储器)就是一个“暂存器”,而不是缓存。

figure 29
图 29
暂存器与缓存 确定性访问 连贯、无污染内存 低负载使用延迟 捕获局部性,实现重用 高效内存利用 可编程性 语无伦次,私人地址空间 H/W地址翻译能量和 软件管理 延迟 程序员/编译器负担重 隐式数据移动、惰性写回 不确定性行为(命中/未命中) 便签本 缓存
figure 30
图 30
简介 oScratchpadvs.Cache: Ascratchpad 不包含存储的数据副本 在主存储器中。 暂存器内存直接操作 应用程序。 高速缓存内存系统中程序元素的映射 是在运行时完成的,位于暂存器内存系统中 由用户或编译器使用a完成 合适的算法 o暂存器记忆中的先前研究未解决 撞击区

这是一个非常重要的细微差别,但大多数公共言论完全搞砸了。坦白说令人气愤。彻底改变了系统的基本方面,从内存地址映射到计算硬件复杂性再到编程模型。

figure 31
图 31
简介 oScratchpadvs.Cache: Ascratchpad 不包含存储的数据副本 在主存储器中。 暂存器内存直接操作 应用程序。 高速缓存内存系统中程序元素的映射 是在运行时完成的,位于暂存器内存系统中 由用户或编译器使用a完成 合适的算法 o暂存器记忆中的先前研究未解决 撞击区
figure 32
图 32
便签本内存 2010年4月9日 内存阵列 解码和列 记忆细胞 电路逻辑 2010 年春季,EEL6935,嵌入式系统 内存对象已映射 最后到暂存器 内存阵列 编译器阶段 它占据了一个遥远的部分 内存地址 空间.无需检查 数据/指令可用性 暂存器 减少比较器和 信号丢失/命中 6晶体管静态RAM 确认电路 8 图:ScratchMemoryArray

使用原理#1(内存层次结构)评估计算机体系结构时应该问的关键问题:

系统是否使用缓存或暂存器。

缓存未命中的惩罚是什么?

是否有多层缓存或暂存器?

高速缓存/暂存器与 DRAM 或其他内存层的比率是多少?

figure 33
图 33
哇这个芯片 是什么样的 斯拉姆你是白痴吗? HASLOTSOFSRAM... 缓存暂存器?

[1.b] 内存访问/路由

现在让我们在堆栈中上一层。

给定任意一块内存,任意计算块如何访问所述内存?

是的,数据通常从 HBM 堆栈移动到逻辑芯片。金星给你。但是数据如何在逻辑芯片内移动呢?

关键概念是NoC,即片上网络。 Ian Cutress 博士对此有一个很棒的视频。互联网上最好的。

两种主要架构用于连接芯片上的元件。

第一个是一个戒指或一组戒指。

figure 34
图 34
戒指,4 片 双向环,4 片
figure 35
图 35
戒指,10 片 英特尔Rocket Lake

第二种主要类型称为网格。

figure 36
图 36
网格 英特尔Skylake

以及网格的衍生物。

figure 37
图 37
TwistedHypercube,8 个元素:Intel8 插槽,带 3UPI

还有很多更有趣的组合,为了节省时间,我将跳过这些组合。其中许多都是专有的,我可能不应该在这里写它们。

您可以拥有多个环总线,其中某些元素仅位于特定环上。

还可以有一个交叉开关,将一组元件分组,然后通过环或网连接到更宽的芯片。

并非芯片上的所有元件都需要有到每个其他元件的路径。

figure 38
图 38
哇这个芯片 核心如何 访问RAM?ISITIN 哈斯洛特 FSRAM.. 巨型块?环。 CHTP 上的网状网络还是其他网络?

请记住,内存(SRAM 块、HBM 堆栈)只是 NoC 上的一个节点。

片上网络的设置方式非常重要。

[1.c] 计算结构

该资源是一颗隐藏的宝石。

https://www.lighterra.com/papers/modernmicroprocessors/

为了节省时间,我会走得很快,并且经常挥手。无论如何,从后面几节的示例中学习可能会更容易。

计算机以称为指令的基本单位执行数学运算。

示例说明:

将一个字节从内存加载到寄存器

添加

逻辑与/或/异或

……

现在的关键问题是:

你的电脑有多“漂亮”?

计算机一次使用多少个数据操作数?

支持哪些数据格式?

[1] 高级计算核心使用很酷的策略,例如分支预测、推测执行和乱序执行。这些策略都以某种方式“破坏”了原来编译的代码。硬件本身会实时找出汇编代码中的快捷方式。高级计算机(基本上是 CPU)以面积/功耗和并行性/可扩展性为代价提供了巨大的性能提升。这是 CPU 不适合 AI 的主要原因。

[2] GPU 和 CPU 之间的根本区别在于扭曲/波浪的概念。

figure 39
图 39
战争实施 前沃尔特 节目 柜台(电脑) 和堆栈(S) 32线经线 沃尔特 收敛性 优化器 32线程独立调度 英伟达
figure 40
图 40
新作品发布的好处 G指令执行变更 单线程性能改进 工作负载示例:64 个工作项目LUINTENSIVE 代码 GCN 重组DNA SIMDO SIMD1SIMD2SIMD3 SIMDO S 单指令多数据传输1 1Wave64→SIMD16 2Wave32→2SIMD32 指令问题→4点 指令问题→1clock CALU25%已使用 CUALU→100%利用率 有效吞吐量 ILPUNLOCK 执行速度提高 4 倍 RDNA更有效地利用机器 通过将工作均匀分配给所有 ALU 来更快地参与机器 提取程序 ILP 和调度以从数据局部性中受益 利用wave的多线程来隐藏吞吐量的剩余延迟 MUD NTXT HORIZOA CAMSNC TEDHDAT AMD

单指令、多数据 (SIMD) 是 GPU 工作的架构原理。 Nvidia 在数据中心使用 32 元素“扭曲”,而 AMD 使用 64 元素“波浪”。所有 AMD 架构都是 Wave64,但几年前他们将游戏架构迁移到 Wave32。

figure 41
图 41
常规 单指令多数据流 多元素执行 一次执行 Po }+Le }-好啦! 佩勒] 磅 js 8 |机顶盒 [埃尔特] 德 Ls } sles] 佩 Ls | WS a |e 神灵] | 4 果冻 |

多年来,CPU 添加了 SIMD 指令。很多 SIMD 指令...

https://en.wikipedia.org/wiki/List_of_x86_SIMD_instructions

https://en.wikipedia.org/wiki/AArch64#Scalable_Vector_Extension_(SVE)

GPU 在人工智能工作负载中占据主导地位,因为它们(这过于简单化了……)大多是纯 SIMD 机器,而 CPU 则装有 SIMD。

本文要介绍的许多奇特架构都是 SIMD 机器,但灵活性远不如 GPU。

我们来谈谈数据格式和稀疏性。

在过去,只有单精度(32 位)和双精度(64 位)浮点数才重要。

对于 AI,浮点数和整数低至 4 位很重要。

例如,Cerebras 愚蠢地不支持 8 位浮点数。但他们仍然不支持这个基本功能。 Nvidia 已经有了 4 位浮点数,AMD 很快就会支持 FP4。

figure 42
图 42
WSE-3核心 持续分布式人工智能架构领导力 改进了 Alcompute 的性能 WSE-3核心 ·新的更高性能的张量运算 面料 ·全新8路SIMD 16b数据(FP/BF16) 内存 ·新增16路SIMD for 8bdata(固定/INT8) 静态随机存储器 缓存 ·新的更快的非线性函数 48kB 512B 2 倍更高计算性能核心 寄存器 高带宽内存和高速缓存 16通用 48数据结构 ·每核48kB内存 8路16b SIMD ·新增每核512B本地缓存 全带宽实现完整的 SimD 性能 16路8b SIMD

他们还对非结构化稀疏性提出了大胆的主张。多年来我一直向机器学习人员询问这个问题,直到今天他们都没有发现这个功能的用途。

figure 43
图 43
稀疏加速受内存限制 为稀疏性而构建的内存带宽 ·为密集而构建的传统硬件 内存带宽(字节/FLOP) ·高数据复用→缓存→低内存 必填 可用 专为稀疏而打造的晶圆级存储器 ·低数据重用→每个→高内存带宽 密集矩阵相乘 ·实现数量级moremem H100 体重 X ~0.001 0.003 CS-3 加速所有形式的稀疏性 稀疏MatMul ·静态和动态稀疏性 WSE-3 ·结构化和非结构化稀疏性 2 加速各种形式的稀疏训练 培训机会稀疏的示例 稀疏性减少 FLOP 动态激活稀疏性 ·例如Google:LLMs1 中 95% 的稀疏 ReLU FFN 结构权重稀疏性 ·例如米斯特拉尔:75% 稀疏 FFN MoE 8x7B2 1.7倍 2.0倍 2.8倍 非结构化权重稀疏性 ·例如 Cerebras:75%sparseSPDFGPT3 解决不可持续的培训规模 ·只有HW才能加速各种形式的稀疏性 ·Evenfuture稀疏技术 教育部 SPDF 等人,懒惰神经元 Phen

使用精度较低的数据格式,您会损失一些准确性,但会获得更多的吞吐量。

figure 44
图 44
GPT-MoE1.8T 每GPU吞吐量 推理(seqlen=32k/1k,FTL=5s) 多维度优化: 每秒代币数 张量并行 管道并行 160 专家并行 数据并行 140 TP2.EP8.DP4 120 TP2.EP16.PP2 GB200FP4 B200FP8 100 H200FP8 TP4.EP16 80 TP4.EP2.PP2.DP4 60 布莱克韦尔30x料斗 40 TP8.PP4.DP2 TP8.PP2.DP4 20 TP64 TP64 10 20 30 40 50 每用户令牌每秒交互性

对于某些工作,准确性的损失可以忽略不计。

最后,让我们简单介绍一下超长指令字(VLIW)。

在这里深入探讨:

简短的回答(过于简单化)是……

VLIW = SIMD,但指令可以完全不同,但有许多限制。

指令“捆绑”(例如……1 个加载、5 个乘法、2 个加法、1 个存储、2 个分支)在块中进行操作。编译器必须调度每个包/块。

非常简化的硬件设计,恶魔般的噩梦编译器负担。

figure 45
图 45
哇这个芯片 SIMD?VLIW? 哈斯洛特 FSRAM.. 支持FP8/4吗?

[1.d] 芯片到芯片的通信结构

最简单的芯片到芯片(c2c)通信结构是全对全(all-to-all)。

figure 46
图 46
NVLink 通过快速创新步伐扩大成熟度 72 个 GPU 全部到全部 2016年 2020年 2024年 2027年 NVLink1 NVLink3 NVLink5 NVLink7 160GB/秒 600GB/秒 1,800GB/秒 10,800GB/秒 混合网格 安培 布莱克威尔 NVL72 鲁宾UItraNVL576 2018年 2022年 2026年 2028年 NVLink2 NVLink4 NVLink6 NVLink8 300GB/秒 900GB/秒 3,600GB/秒 NVSwitch8-GPU 料斗 鲁宾
figure 47
图 47
NVLink 交换机和 NVLink 域 对于多 GPU 推理至关重要 司 2016年 2022年 2024年 混合立方体 MeshNVLink 技术 3GenNVLink 交换机 GenNVLink 交换芯片 8 个 GPU 的 NVLink 域之间的全连接 72个GPU的NVLink域之间的全对全连接

Nvidia 使用完全的全无源铜,这在性能和灵活性方面是最好的,但在成本和可靠性方面是最差的。询问有关传说中的有线背板的信息。 :)

每个 GPU 都可以通过单跳以全带宽与 NVL72 域中的任何其他 GPU 进行通信。

谷歌在他们的 Ironwood TPU 中使用了 3D-Torus。

figure 48
图 48
Superpod 中的机架套件 64x 16x 铁木TPU架 铁木SoC 铁木PCBA 144x 铁木超级荚舱 OCS机架 OCS(光交换机箱) 光学 ICI 扩大网络 互连 CDURack(冷却剂分配单元) 水冷
figure 49
图 49
机架是构建块 Z-in X-输出 Y-in Y 输出 -输出 适合单个 GoogleTPU 的 4x4x4 积木式 ICl 机架(比典型机架宽) 立方体上有 6 个面,每个面有 16 个链接 ICl 连接:96 根光纤、80 根铜缆和 64 根 PCB 走线 谷歌

每块 4x4x4 (64) TPU 芯片都在机架内进行电气连接。跨机架连接是通过基于MEMS的OCS进行光学连接的。

figure 50
图 50
机架通过光路开关(OCS)连接 不同等级的OcS连接不同的维度和指标 Y+[0][3] Y+[3][3] x16 x16 033 133 233 333——X+[3][3] 青奥会 零碳控制系统 032 132 第231章 第332章 Y+[0][0]031 323 131 第231章 第331章 第322章 030 130 230 330 313 ×16 ×16 321 x16 x16 第312章 [E]O]+X-Eo8 x16 020 120 220 320 z-[0][3] 311 第302章 4×4×4 x16 XOCS 010 110 210 310 立方体 301 000 100 200 300 [o][o]+X- x16 谷歌 -[ollo]-z Z-[3][0] ——

这比 Nvidia 的策略更加可靠且更具成本效益,但使编译器的灵活性大大降低。程序员需要考虑网络的不均匀性,包括延迟和带宽不对称。

最后,未来 TPU 将使用蜻蜓拓扑。 Broadcom 制造的真正 TPU。

figure 51
图 51
90 90 90 0 2920 90

https://research.google.com/pubs/archive/34926.pdf

figure 52
图 52
丹尼斯·阿布茨 谷歌公司 [email protected]

阿布茨先生还会多次出现。

figure 53
图 53
哇这个芯片 以太网DAC/ACC/AEC? 高速FSRAM PCIE?光学?全能 放大?环面?蜻蜓?

[2] 普通架构

这里是给懒人的总结表。

figure 54
图 54
#4芯片到芯片通信 #3计算结构 结构 3.b 数据 3.c 数据 4.b 规模- #1内存层次结构 #2 内存访问/路由 3.a:“花哨” 操作数 格式 4.扩大规模 +50 L1/L2/L3 缓存、DRAM 最广泛的品种 下面什么都没有 通过额外的双插座 *大型共享L3,可选 但弱于 BF16以外 PCIe 稍作修改 客户 CPU(AMD Genoa-X) L3 的混合键合延伸 嵌套环 非常高 向量/矩阵。 INT8。 车道重新命名为 GMI。 决定。 最广泛的品种 下面什么都没有 通过额外最多 8 个插座 L1/L2/L3 缓存、DRAM 但弱于 BF16以外 PCIe 稍作修改 客户 CPU(英特尔蓝宝石急流) *私人L3 网格 非常高 向量/矩阵。 INT8。 车道重新命名为 UPI。 决定。 客户 决定。 通常 与 2-3 专注于低 层 扭曲32 精度低至72路无源铜全 开关和 L1/L2 缓存、HBM、LPDDR 开启 张量核心 4 位浮点数。 全部 200G/通道 光学 GPU(Nvidia GB200) 格雷斯CPU 网状+横杆 中高 *参见 SA 帖子 *参见 SA 帖子 SerDes 类。 收发器。 降至 FP8。 4x4x4 无源铜 专用 立方体来制作架子。否 稀疏引擎 交换机网络 用于特定用途- 数字逻辑和路由 OC5 至 案例,执行 集成到主 创建 3D- 大型 SRAM 暂存器 收缩压大 在互连中 ASIC.100G/通道级 环面由 TPU(铁木 // V7) 收缩阵列,HBM 横杆 中等 数组。(256x256) 路径。 串行解串器 连接架 坦斯托伦特 正电子

<全部更新表>

[2.a] CPU(AMD Genoa-X)

figure 55
图 55
同行啊啊啊啊啊 同行Eeeeeee 是的,是的,是的 | 是是是是是 | 是的,是的,是的 是的,是的,是的 GO GO 同行啊啊啊啊啊 同行Eeeeeee
figure 56
图 56
AMDEPYC9004:12CCD配置 禅4 禅宗 莉娜 禅4 图阿兹 禅4 12M8 禅宗 12M5 BNCE 禅4 禅4 32M8 禅4 L3 乙 L3 泽内 L3 禅4 禅4 禅4 禅4 禅4 禅4 岑4 低分子指数 通用电气工程师协会 我 GMI3 GMI3 GMI3 GMI3 CMI7 CMI11 GMIO GMI4 CMI8 1/0死亡 GMI1 GMI5 GM19 GMI2 GMI6 GMI10 烯 中号 32M8 恩泽 2ME 32ME 时间 12MB 禅4 烯A
figure 57
图 57
2.11.1 型号91xx-96xx(“热那亚”) 型号为 91xx-96xx 的第四代 AMD EPYC9004 处理器具有多达 12 个 CCD,每个 CCD 包含一个 CCX,如 如下所示。 CCD8 泽纳 CCD0 禅4 CCD4 禅4 CCD7 禅4 CCD3 禅4 CCD11 禅4 禅A 禅4 禅4 禅4 禅4 禅4 禅4 泽纳 禅4 禅A 禅4 禅4 禅4 泽斯4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 前列腺癌Gn5 PCle Gen5 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅A 禅4 禅4 禅4 禅4 老虎机 老虎机 禅4 禅A 禅4 禅4 禅4 禅4 GMI链接 GME链接 GMI链接 (/奥胡波 /O 集线器2 GME链接 GMI链接 GMI链接 内存模块 内存模块 UMCO 联电6 内存模块 内存模块 内存模块 内存模块 联电1 牛 内存模块 内存模块 内存模块 内存模块 联电2 1/欧迪 UMCB 内存模块 内存模块 内存模块 DINM 联电3 净推荐值=4 联电9 内存模块 内存模块 内存模块 DINM 联电4 联电10 内存模块 内存模块 内存模块 UMCS 联电11 内存模块 内存模块 内存模块 GMI链接 GMI链接 GMI链接 (/0 集线器3 遥控集线器1 GME链接 GMI链接 GMI链接 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 老虎机 禅4 禅4 禅4 禅4 泽斯4 禅4 禅4 禅4 泽斯4 禅4 禅4 禅4 禅4 禅4 泽纳 禅4 泽纳 禅4 禅4 禅4 禅A 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅4 禅A 禅4 禅4 2032 CCD1 CCD9 禅4 CCD10 图 2-7:AMDEPYC 9004SoC 由多达 12 个 CCD 和中央 1OD(适用于 91xx-96xx 型号)组成,包括“X”0PN

AMD 在其 NoC 中采用嵌套环架构。每个 CCD(CPU 核心芯片)都是一个连接到 I/O 芯片的环。所有内存接口也连接到 I/O 芯片。

特殊 SKU(-X 系列)将额外的 SRAM 芯片混合粘合到 CCD 芯片上。

figure 58
图 58
AMD 3D V 高速缓存 泰·古鲁姆 aMB3Caehg CPU卡O
figure 59
图 59
设计 3D CHIPLET 架构 结构硅 64MBL3 缓存芯片 直接铜对铜键合 硅通孔 (TsV) 用于 硅对硅通信 高达8核“Zen 3”CCD 先进封装 AMD 15

该策略会导致 L3 的大量高速缓存 SRAM 耗尽。由于物理位置的原因,L3 延迟受到一定程度的影响。

figure 60
图 60
(该图未检测到可翻译文字)
figure 61
图 61
我们在 7950x3D 上看到这种行为非常清楚,但是在 Genoa-X 上 行为与我们的预期完全不同。 VCache 延迟差异(简单寻址,2 MB 页面) 第512章 256 9000 128 54 62.25 55.39 32 16 4.01 128 256 第512章 10242048 4096 819216384 32768 65536 131072 262144 524288 1048576 测试大小 (KB) Genoa-X 开始将延迟增加到 32MB 左右,这首先意味着 也许我们没有看到 V-Cache,但是当我们到达带宽时 部分你会看到我们确实与 V-Cache 一起工作。所以还不太好 知道为什么我们会看到这种行为。 转会至热那亚-X对阵米兰-X和蓝宝石急流(SPR) 有趣的比较。 缓存和内存延迟、实际时间 35.30 MU 4.62 256 第512章 1024 2048 4096 8192 1638432768655361310722621445242881048576 测试大小 (KB) AMD 霄龙 9V33X AMD EPYC 7V73X(纳秒)
figure 62
图 62
缓存和内存延迟、周期 第512章 256 134.16 128 效率(周期) 32 51.14 6.11 1024 2048 8192 16384 65536131072262144524288 测试大小 (KB) 将 Genoa-X 与 Milan-X 进行比较,奇怪的 L3 延迟再次增加。 运行已发布的数字,延迟应该与实际没有什么不同 我们在桌面上看到这将意味着 Genoa-X 上的 L3 增加 4 个周期 从Milan-X的50个周期L3来看,我们可以看到热那亚-X正在运行它的分数 与 Milan-X 的 3.5GHz 相比,时钟速度略高,约为 3.7GHz 这是小但显着的增长。不过,米兰-X确实有更好的表现 内存延迟与 Genoa-X 相比。现在转向 Genoa-X 与 SPR 和 我们可以看到,即使存在奇怪的延迟行为,SPR 的网格也远非低 然而,一个大亮点SPR是每个核心2MBL2,并且 Genoa-X 和 SPRI 之间的内存延迟与 Milan-X 几乎相同 在这里获胜。

我想确保没有人错过的关键点如下:

AMD -X SKU 扩展了高速缓存 SRAM。特别是L3缓存。

尽管 AMD 公开声称没有延迟影响,但 Chips 和 Cheese 的独立测试显示了一些轻微/奇怪的性能损失。

在计算之上堆叠 SRAM 非常困难。 AMD 选择仅将 SRAM 芯片堆叠在现有 SRAM 之上来避免此问题。请注意 CPU 内核本身上方的两个“结构”(垫片)芯片。

AMD 做出的设计选择对于理解 Groq 和 D-Matrix 路线图具有指导意义。

figure 63
图 63
AMD 3D V-CacheTM 组件:L3D AMD 3D V 高速缓存™ 扩展L3模具(L3D) 台积电7nmFinFET 技术 13层铜+1层铝 金属叠层 64MBL3缓存 扩展 41平方毫米 2022IEEE 国际固态电路会议 26.4:3DV 缓存:7nmx86-64CPU 的混合绑定 64MB 堆叠式缓存的实现 11 共 36 个
figure 64
图 64
L3缓存区域和功率 提高了 L3 缓存区域效率 -0.68x有效面积缩放 -高密度SRAM位单元→更好的标签面积效率 -信号TsVarea成本降低50% ·减少接口电路开销 L2hitra 增加,L3 动态功率降低达 10% 《禅3》 《禅4》 TsV柱 信号硅通孔 标签 标签 2023IEEE国际固态电路会议 2.1:“Zen 4”-AMD5nm5.7GHzx86-64微处理器核心 19 共 31

[2.b] CPU(英特尔 Saphire Rapids)

figure 65
图 65
1x24 1x24 16GT 1x16Gen5 1x16Gen5 16GT 1x16Gen5 统一工业指数 PCle/CXL1.1 PCle/CXL1.1 UPIU1 PCle/CXL1.1 X24UPI x16PCle/CXL x16PCle/CXL x24UPI x16PCle/CXL AC(2xQAT,2XDLB,DSA,AA) 黛泰 控制 面料 0 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 DDR5 内存 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 内存 控制器 控制器 DDR5 内存 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 内存 控制器 控制器 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 DDR5 内存 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 CHA/SF/有限责任公司 内存 控制器 控制器 DDR5 内存 GLC核心 GLC核心 GLC核心 GLC核心 GLC核心 内存 控制器 控制器 HA/SF/ALC 查/SF/LL CHA/SF/有限责任公司 X24UPI x8DMI/PCle x16PCle/CXL GLC核心 x16PCle/CXL GLC核心 GLC核心 1x24 年年年 1x8Gen3DMI 1x16Gen5 1x16Gen5 16GT 1x8PCleGen4on PCle/CXL1.1 PCle/CXL1.1 统一工业指数 非传统套接字

Intel Saphire Rapids 有一个更传统的网状 NoC。请记住,DRAM 数据需要多次跳跃才能到达中间的核心。另请注意,某些片上加速器(小型 ASIC)(例如 QAT 和 DSA)位于其自己的块中,并具有专用的网格节点。

高速缓存 (SRAM) 通过紫色块展开。

figure 66
图 66
新性能核心 计算微架构的重大进展 第三代英特尔至强第四代英特尔至强 专为 15% IPC 改进而设计 (每核) (每核) 改进的微架构(更广泛和更深的机器) 乱序窗口 第352章 第512章 更深的调度器、更多的物理寄存器、更深的重新排序 缓冲区、加载缓冲区和存储缓冲区 飞行中装载+存储 128.72 240+112 更大的 L2 和 L3 缓存 调度程序条目 160 248 ·新的ISA工作负载加速器 注册文件- 280-224 288+220(512b) AMx:Al/DeepLeaming推理和训练加速 整数+FP 320(256b) AiA:高效/本地调度、信令和同步 分配队列 70/线程, 72/线程: 来自用户空间 皮恩普/奥特 144/I线程 AVXforvRAN:5GvRAN加速 LID缓存(KB) 48 48 目标工作负载的关键功能和加速 L2统一TLB(STLB) 2K 2K 主要安全特性(CET,GX,TDX) STLB-IG页面支持 1024(共享/2/4M), 1024(共享/2/4M)。 数据中心可靠性功能安全的阶梯功能 1024共享1G 1024共享1G L2/中级缓存(MB) 125 2 L3/末级缓存(MB) 1.5 1.875 英特尔 xeON 使用至强加速

请注意,AMD 的每个 8 核 Genoa CCD 拥有 32 MB 的大型共享 L3 缓存,而 Intel 选择以 1.875 MB/核心块的形式将 L3 缓存设为每个核心专用。

要点:

高速缓存/SRAM 设计需要进行许多权衡。

更大的共享缓存意味着更多的延迟,但所有计算核心都可以使用相同的内存。

SRAM 块越大并不总是越好。

很多细微差别取决于核心微架构和 NoC 设计。

[2.c] GPU(Nvidia GB300 // Blackwell Ultra)

figure 67
图 67
NVIDIABlackwellUltraGPU x16PCleGen6 高带宽接口 160SMsperGPU:640TensorCores* 256GB/sCPU主机接口 10TB/s 芯片间传输 15PetaFLOPSDenseNVFP4 使用 PCIE 人体模型控制 人体模型控制 人体模型控制 人体模型控制 根 6 图形 图形 图形 图形 处理器 处理器 处理器 处理器 集群 亚基 集群 集群 缓存 集群 凝胶渗透色谱) (凝胶渗透色谱) (凝胶渗透色谱) (凝胶渗透色谱) NVLinkv5 NVLink-C2C 1,800 GB/秒至 900GB/秒相干 NVLink开关 CPU-GPU接口 带 MIGCONTROL 的千兆线程引擎 内华达州 内华达州 十二月 带 MIGCONTROL 的千兆线程引擎 十二月 图形 图形 图形 图形 处理器 处理器 处理器 处理器 集群 缓存 集群 集群 缓存 集群 (凝胶渗透色谱) (凝胶渗透色谱) (凝胶渗透色谱) (凝胶渗透色谱) HBM控制 HBM控制 人体模型控制 人体模型控制 机密计算 288GBHBM3E内存* TEE-I/O 能力 (12-HiStack,高达 8TB/s)

请注意两个 GPU 集群之间的大型共享 L2 缓存。 D2D 是时钟转发的。

figure 68
图 68
流式多处理器 (SM) L1指令缓存 Lo指令缓存 Lo指令缓存 WarpScheduler(32线程/时钟) WarpScheduler(32线程/时钟) 调度单元(32线程/时钟) 调度单元(32线程/clk) 寄存器文件(16,384x32 位) 寄存器文件(16,384x32位) 64KB张量内存(TMEM) 64KB 张量内存 (TMEM) 张量 张量 CUDA CUDA 核心 核心 核心 核心 (第五代) (第五代) LD/ST LD/ST LD/STLD/ST LD/ST LD/ST LD/STLD/ST 旧金山联邦大学 LD/ST LD/ST LD/STLD/ST LD/ST LD/ST LD/STLD/ST 旧金山联邦大学 Lo指令缓存 LO指令缓存 WarpScheduler(32线程/时钟) WarpScheduler(32线程/时钟) 调度单元(32线程/时钟) 调度单元(32线程/时钟) 寄存器文件(16,384x32 位) 寄存器文件(16,384x32 位) 64KB 张量内存 (TMEM) 64KB 张量内存 (TMEM) 张量 张量 CUDA CUDA 核心 核心 核心 核心 (第五代) (第五代) LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST 旧金山联邦大学 LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST LD/ST 旧金山联邦大学 张量内存加速器 (TMA) 256 KB L1 数据缓存/共享内存 特克斯 特克斯 特克斯 特克斯

Warp 调度程序每个时钟 32 个线程。这是 GPU 的历史 (SIMD) 主干。张量核心可以通过多种方式进行交互。 SA 的报道范围很广,所以请阅读一下。

figure 69
图 69
(该图未检测到可翻译文字)

Nvidia 在 GPC 中使用网状 NoC,而千兆线程引擎则是交叉开关。换句话说,网格连接到横杆上。

[2.d] TPU(铁木 // V7)

figure 70
图 70
铁木建筑 主持人 张量核心 张量核心 计算 TCS TCS 内存和DMA 骨髓基质细胞 互连 XLU XLU XLU XLU 主机接口 视觉处理单元 视觉处理单元 管理 + + 内存 内存 聚氯乙烯 聚氯乙烯 逻辑芯片 第五代 第二代 MXU MXU MXU MXU x16 串行解串芯片 x1 钥匙 芯片封装 内存和DMA互连 内存和DMA互连 芯片 ICR 6x 6x112G 稀疏 稀疏 HBM3 HBM3 HBM3 HBM3 稀疏 稀疏 HBM3 HBM3 HBM3 HBM3 路由器 链接 串行解串器 经理 核心 核心 控制键 控制键 控制键 核心 核心 控制键 控制键 控制键 堆栈 八进制+ 个人计算机系统 8-喜 HBM3E HBM3E HBM3E HBM3E HBM3E HBM3E HBM3E HBM3E 堆栈 堆栈 堆栈 堆栈 堆栈 堆栈 堆栈 堆栈 谷歌 15
figure 71
图 71
铁木建筑 主机&管理平面: iROT、PM 等 主持人 计算 张量核心 张量核心 TCS TCS 内存和DMA 骨髓基质细胞 高性能 XLU XLU XLU XLU 向量/矩阵 视觉处理单元 视觉处理单元 计算 + + 内存 内存 逻辑小芯片 聚氯乙烯 聚氯乙烯 第五代 第二代 MXU MXU MXU MXU X16 串行解串芯片 X1 钥匙 芯片封装 快速、放大 (9216 稀疏计算引擎 C 内存 芯片)互连 芯片 ICR 6x 6x112G 稀疏 稀疏 HBM3 HBM3 HBM3 HBM3 稀疏 稀疏 HBM3 HBM3 HBM3 HBM3 路由器 链接 串行解串器 经理 核心 核心 控制键 控制键 控制键 核心 核心 控制键 控制键 控制键 控制键 堆栈 八进制+ 个人计算机系统 最新一代 HBM 8-喜 HBM3E HBM3E HBM3E HBM3E HBM3E HBM3E HBM3E HBM3E 堆栈 堆栈 堆栈 堆栈 堆栈 堆栈 堆栈 堆栈 谷歌 20

Google 使用 Crossbar NoC,并在片上集成了路由(黄色框)。这意味着没有相当于用于扩展的 NVLink 开关的开关。

计算围绕 256x256 脉动阵列构建,作为矩阵乘法的主要计算引擎。控制由 8 宽 VLIW 内核处理。您可以将 8 宽 VLIW 视为控制器。

编译器必须提前生成指令包。

figure 72
图 72
TPU 核心:标量单元 标量 TPU核心 322bVLIW捆绑 单位 2 个标量槽 矩阵 乘法 4个向量槽(2个用于加载/存储) 单位 2 个矩阵插槽(推入、弹出) 矢量 单位 转置/ 1 个杂项插槽 排列单位 6 个立即数 标量单元执行: 完整的 VLiWbundle 获取和解码 标量槽执行

理解 TPU 上的 SRAM 不是缓存非常重要。

它是一个暂存器,用于为脉动阵列提供数据。

https://en.wikipedia.org/wiki/Systolic_array

脉动数组是数据流计算结构。

figure 73
图 73
脉动中 2x2 矩阵乘法的示例 数组 细胞周期0 细胞周期2 周期 循环 6 结束 脉动数组算法在内部累积输出值 DPU。 乙 乙 D 初始矩阵乘法 周期0 周期1 循环2 B-3 乙 乙 D-4+ C-2 周期3 周期4 循环5结束 脉动数组算法预加载并保留一个 计算时,操作数在 DPU 内固定。在 例如,绿色矩阵已预先加载到数组中,并且 可以重复用于后续的乘法。
figure 74
图 74
WEIGHT队列(矩阵A) 控制 细胞 埃尔 数据队列(mati 细胞 细胞

大多数人工智能硬件初创公司都使用不同大小和配置的脉动阵列。谷歌自己已经改变了各代 TPU 脉动阵列的大小。确定加速器设计的脉动阵列的尺寸和形状非常复杂。

[2.e] Tentorrent

<全部>

[2.f] 正电子

<全部>

[3] 异常架构<全部>

<全部>

[3.a] D 矩阵 <todo>

<全部>

[3.b] 大脑<全部>

<全部>

[3.c] SambaNova <todo>

<全部>

[3.d] ​​蚀刻<todo>

<全部>

[3.e]MatX <todo>

<全部>

[4]塔拉斯:非常异常<todo>

<全部>

[5] Groq:疯狂和精神错乱

由于几个关键原因,Groq 在行业内的两极分化非常严重。

任何对计算机体系结构有基本了解的人都会立即理解他们所创造的可憎事物。

宣扬了 144 宽 VLIW 的所有神奇优势,但没有解决任何缺点。

使用基于垃圾 GloFo 14 纳米工艺的 6 年老旧芯片建立了落后的“云业务”。

在胡说八道的云业务中生成的每个代币都在损失金钱。

人们尝试过的最大 VLIW 包大小是 8。这些退化的宽度为 144。

一位特别令人讨厌的投资者。

figure 75
图 75
(该图未检测到可翻译文字)
figure 76
图 76
“ 不能再这样下去了! 哦| 我 巴

我与一位时尚的 Groq 员工进行了多次口头争论,他反复声称该架构不是 144 宽 VLIW。

“我们创造了一些不同的东西。”

废话

figure 77
图 77
2025 年 12 月 24 日星期三 下午 6:59 写道: 嘿,关于收购的好帖子,这也是我的第一直觉。一定有 他们的IP,他们的架构师,他们的编译器工程师。 Rubin CPX 带有一个小 每个芯片的 DRAM 数量以及板上配置的常规 NVLink 流 在这一点上,数据流和驻留在 SRAM 中的所有权重将轻松超越 Groq 低延迟解码的用例,批量大小 1(假设有人愿意支付 为此额外支付$/tok)。也许 NVIDIA 想要一个更加激进的分类 预填充解码芯片解决方案,但这对我来说似乎不太可能。 所以对于一些背景。我过去一直在使用 Groq LPU 几个月。我可以证明LPU确实是144宽VLIW架构。这完全是 跨多个机架的时钟。它也是一台 320 宽 SIMD 机器,其中每个 VLiW 通道 20 个“超级车道”,每个在 16 条车道上运行 (20 x 16 = 320))。 正如人们所预料的那样,编程模型是痛苦的。我想他们已经得到了 不过已经习惯了;指定在给定周期内发生的内存片读取 以及结果应该落在哪个“流寄存器”以及任何附加指令 安装脉动数组权重或执行向量运算可能取决于该内存 read 及其发出周期将由编译器计算。他们的核心工程师 已经编写了足够多的定制内核,可以使机器正常运行 不支持内核内的任意计算。我不知道他们是怎么处理的 每个用户在 LPU 和主机 DRAM 之间来回交换 KV 缓存。

使用过 Groq Cloud 的工程师都知道该芯片是 144 宽的 VLIW,需要编译器进行周期粒度的静态调度。

figure 78
图 78
为软件提供支持的 ISA 编译器有权执行 周期精确的指令调度 功能单元同步执行 莫 沃 SO 莫 每个调度路径每个周期发出一个指令 可以视为全流水线 144 宽 VLIW指令 M1 V1 S1 毫升 管理所需的硬件控制很少 指令执行 M2 V2 S2 平方米 指令调度逻辑的面积开销<3% M3 V3 S3 立方米 .boJ6 @ 2022 Groq, Inc. I HotChips34 - 2022 公共23

Groq 在 Hot Chips 2022 上的公开演讲明确承认该架构可以被视为 144 宽 VLIW。

figure 79
图 79
经验 杰出研究科学家 英伟达 英伟达 2022年10月至今·3年5个月 ASIC、计算机架构+3项技能 NVIDIA 研究-DennisAbts 首席架构师 格罗克 2017年5月-2022年9月·5年5个月 威斯康星州 负责软硬件协同设计的高级领导 最先进的机器学习(ML)加速器..seemore 网络、云计算和+11技能 高级硬件架构师 谷歌公司·全职 2007年9月-2016年1月·8年5个月 大规模集群的数据中心网络。 能量比例网络.交换芯片和网络...查看更多 网络、云计算和+5技能 高级总工程师 克雷公司 1997年4月-2007年9月·10年6个月 作为硬件架构师,我与团队合作 系统架构师并与逻辑设计密切合作.. 查看更多

Dennis Abts,Groq 的 CHEIF 架构师,在 Hot Chips 上亮相,承认使用 144 宽 VLIW,一个月后正式加入 Nvidia。

figure 80
图 80
GroaChipM 构建模块 用于在 uni 之间传递数据的高带宽“流寄存器” [使用说明 视场角 指令调度路径

Groq 是一种数据流架构,但以最疯狂、最令人反感、最疯狂的方式出现。

figure 81
图 81
为软件提供支持的 ISA 软件控制内存 通过低级抽象启用 建筑暴露 无动态硬件缓存 编译器知道所有数据位置 MXM SXM SXM MXM 任何给定时间点 MEM MEM [88 个 SRAM 组] [88 个 SRAM 组] 扁平内存层次结构(无 L1、L2、L3 等) 暴露给软件的内存 一组实体银行 直接寻址 大片上存储器容量(220 MB) 高带宽 (55TBps) 减少 [欧彭布 [6] 彭布 四边形[8] [Z] 彭布 四边形[6] [s]penb [>]彭布 四边形[3] 四边形[2] 四边形[] [o] 彭布 需要溢出非确定性DRAM MEM42 MEM41 ■提供足够的“便签本” 内存隐藏外部内存 计算背后的访问 日本央行6 @ 2022 Groq, Inc. I HotChips34 - 2022 公共 22

暂存器 SRAM。编译器必须提前循环准确地安排一切。

figure 82
图 82
功能说明 描述 指令集 ICUNOPN 不操作,可重复N次延时N个周期 获取 从流或本地内存中获取指令 同步 停在指令调度队列的前面等待障碍通知 通知 释放待处理的屏障操作,导致指令流恢复 配置 配置低功耗模式 重复 n,d 重复前面的指令n次,迭代之间有d个循环 显式的低级控制 MEM 读取 a,s 将地址向量加载到流上 硬件 写一个,s 将流寄存器内容存储到主内存地址a 收集、地图 通过映射放到流上间接读取指向的地址 散点图,地图 将流间接存储到地图流中的地址 320 元素向量/矩阵运算 倒计时 设置循环之间的周期延迟 斯特帕 迭代次数 设置地址生成的循环边界 显式资源选择 VX辅助手术 z=op 对 1 个操作数 x 进行逐点运算,产生 1 个结果, z (例如掩码,求反) 二元运算 z=xopy逐点运算,有2个操作数x并且产生1个结果,(例如add,mul,sub) 类型转换 将定点转换为浮点,反之亦然 ReLU 修正线性单元激活函数max(0,x) 正切值 双曲正切激活函数 经验值 求幂 e” Rqrt 倒数平方根 MXM 长波 从流到权重缓冲区的负载权重(LW) 内华达 将流或 LW 缓冲区中的权重 (IW) 安装到 320x320 阵列中 ABC 激活缓冲区控制 (ABC) 用于启动和协调到达的激活 ACC 从 MXM 累加 (ACC)INT32 或 FP32 结果 SXM 上移/下移 N 通道移位流向上/向下 N 个通道 置换映射 双射排列320输入smp输出 分发地图 在超级通道(16 通道)内重新排列或复制数据 旋转流 旋转xn个输入数据以生成具有所有可能旋转的n²输出流(n=3或n=4) 转置 sg16 转置 16x16 元素,生成 16 个行和列互换的输出流 C2C 相差校正 管理跨准同步链接的偏差 发送 发送 320 字节向量 接收 接收一个320字节向量,将其放入主内存中 烈酒 2022 格罗克公司| HotChips34 - 2022 公共 25

他们必须尽可能地同步所有芯片。每个机架上每个服务器中的每个芯片。

一旦出现最轻微的同步问题,这个编译器就会起火。

figure 83
图 83
TSP 功能单元概述 具有专用指令集的领域特定加速器 每个功能单元都有一个指令子集,但支持多个指令 所有功能单元通用 IFETCH:从主存取指令到ICU开始执行 无操作(NoP):等待1个或更多周期 SYNc:停放 ICU 并等待 NOTiFY 唤醒并恢复执行 NoTiFY:允许 144ICU 子芯片中的任何一个“唤醒”其他芯片 providealock-stepexecutionand allowthecompilertoreasonabouttimeofexecution 每个功能单元只执行与其操作相关的指令 (即向量处理器仅执行逐点元素操作,而不执行加载/存储) 格罗克 2022Groq, Inc.1HotChips34-2022 公共27

如果同步不好,他们就必须停止所有计算。

figure 84
图 84
蜻蜓拓扑 32端口虚拟路由器连接到其他节点 进一步提高拓扑的可扩展性 使用的节点集合 创建一个“组”ora TSPO TSP1 TSP2 TSP3 TSP4 TSP5 TSP6 TSP7 虚拟高基路由器 一个组被用作 横向扩展的构建块 多TSP系统使用a 32端口“组”作为建筑物 块—扩展到 33 组 在单个全局跃点中 中央处理器 中央处理器 虚拟高基路由器 日本央行6 2022Groq, Inc.|HotChips34-2022 公共37

还记得阿布茨先生再次出现的情景吗?是的,他在谷歌发明了 Dragonfly。

figure 85
图 85
Groq 横向扩展 蜻蜓 拓扑结构 格罗克芯片 格罗克 4xQSFPperGroqCard 7个本地端口 节点内 格罗克诺德尔 诺德奥 单个 GroqRackTM 节点1 米 9e 节点2 格罗克 TSPO TSP1 TSP2 TSP3 TSP4 TSP5 TSP6 TSP7 总磷 任何节点都可以成为“备用”节点 节点3 节点4 仅节点间连接 4全球港口 节点 为简单起见显示节点 节点间 节点6 节点7 节点8 中央处理器 中央处理器 总节点
figure 86
图 86
维持决定论 跨多个 TSP 扩展确定性 TSP 架构 虽然单个 TSP 是确定性的,但 TSP 之间的 C2C 支持: TsP 可能会引入非决定论 软件 链接延迟变化 > 需要准确 添加到 ISA 的指令 链路延迟的估计。 初始对齐/运行时间 没有全局同步时钟 需要重新同步 TSP → 需要一个“全球”时钟 硬件 时钟漂移 > 补偿时钟漂移 硬件对齐 计数器(HAC) 软件对齐 确保多个 TsP 之间的同步通信 计数器(SAC)

我已经阅读了他们关于同步工作原理的专利。有很多更好的方法可以做到这一点。下一节将详细介绍这一点。

figure 87
图 87
指令集支持 软件定义网络的 ISA 支持 芯片范围(同步/通知)和 名称 描述 全系统同步 HAC 硬件对齐计数器 (DESKEw / 运行时偏移校正) 国家标准委员会 软件对齐计数器 链接已同步,并且 保持锁步执行 同步 芯片范围同步以对齐所有 整个系统 片上指令队列 (ICU) 链接是“有节奏的” 通知 芯片范围内的通知可唤醒任何 停放(SYNC'd)指令队列 使用软件来避免 上溢/下溢 相差校正 暂停指令直到 HAC 溢出 FEC(前向错误 传输 指示发送通知消息至 修正)修正最多 孩子跨过C2Clinks 传输错误 t + dt 的运行时相差校正 tDelay TSP 确定性地

如果偏差随着时间的推移而变化(确实如此!),执行就会按设计停止。

figure 88
图 88
每个TSP维护一个自由运行的硬件对齐计数器(HAC) TSPO 2 3 500 501 502 柜台 计数器可能反映 最初是 由于不同而产生漂移 独立的 参考时钟 TSP1 6 8 506 507 508 时间 格罗克 @ 2022 Groq, Inc. 1 HotChips34 - 2022 公共 42
figure 89
图 89
假设保证推理和生产者消费者界面 假设保证 功能单元具有来自(流寄存器文件)SRF 的明确定义的输入 位于功能单元之间的站 串流 串流 表达假设(约束)和保证(属性) 注册文件 注册文件 可以检查每个功能单元的安全属性 (SRF)位置i (SRF)位置j 功能单元被设计为无状态且无副作用 软件中的假设被表述为所持有的保证 硬件,反之亦然 秉承“确定性”设计理念确保 硬件数据路径中没有反应性组件 31 功能性 31 内存或网络事务不重新排序 单位 固定延迟功能单元使指令可预测 暴露必要的架构可见的机器状态 对于编译器关于程序正确性的原因 整个芯片或系统没有“活性”属性 没有合作的 FsM 作为硬件一致性机制的一部分 无仲裁器或链路层重放等。 日本央行6 @2022Groq,Inc.|HotChips34-2022 公共55

这是真实的。 Groq 架构给编译器带来了如此巨大的负担,一个由 10 名有能力的数字设计师组成的团队可以在 6 个月内复制设计。

该芯片的设计非常简单。复杂性负担并没有消失!复杂性转向计算机历史上最地狱般的编译器。

以下是 Groq 专利的一些片段。

figure 90
图 90
US012373107B2 (12) 美国专利 (10)专利号: US12.373.107B2 程等人。 (45)专利日期: 2025年7月29日 (54) 管理周期性DRAM的方法 (58) 分类搜索领域 刷新维护 CPC..G06F3/0611;G06F3/0659;G06F3/0673 可预测的DRAM调度 请参阅应用程序文件以获取完整的搜索历史记录。 数据存取 (56) 引用的参考文献 (71)申请人:Groq,Inc.,Mountain View,CA(美国) 美国专利文件 (72) 发明人:Albert Cheng.Bellevue,WA(美国); 迈克尔·拜,威斯康星州奇珀瓦瀑布 2020/0026562A1* 1/2020 巴拉姆沙赫里... H04L41/5009 (美国);Rahul Shah,加利福尼亚州米尔皮塔斯(美国) 2020/0243154A1* 7/2020 西提 G06F11/1068 2022/0122215A1* 4/2022 雷 G06F7/575 (73)受让人:Groq,Inc.,Mountain View,CA(美国) 2023/0102089A1* 3/2023贝鲁比 G06F11/0757 714/55 (*) 注意事项: 受任何免责声明的约束,本条款 *由审查员引用 专利延长或调整35以下 美国加州大学154(b) 41 天。 初级考官—TimTVo (21) 申请号:18/538,448 助理考官—Janice M.Girouard (74)律师、代理人或公司——Dority & Manning,P.A. (22) 提交: 2023年12月13日 (57) 摘要 (65) 先前发表数据 读写 DRAM 时(动态随机存取 US2024/0192855A1 2024年6月13日 内存),延迟和带宽通常是不可预测的 有很大的变化。一个原因是因为所有的 DRAM 相关美国申请数据 内存条需要定期刷新和维护 (60) 临时申请号 63/432,322,于 12 月提交 中断这些访问的周期。DRAM 刷新和 13,2022。 维护周期与读/写同步 以互斥的方式访问,因此,防止 (51) Int.Cl。 访问不受刷新或 G06F3/06 (2006.01) 维护周期导致可预测的延迟和带宽 (52) 美国CI。 读/写操作期间的宽度性能。 中国共产党... G06F3/0611(2013.01);G06F3/0659 (2013.01);G06F3/0673(2013.01) 22 份索赔,8 张图纸 100 用户设备 102 应用程序编程接口 展示台用户 104 接口 126 编译器 112 可视化服务器 122 编译器/汇编器 服务器 已编译 展示台 节目 节目 110 114 124 汇编器 116 动态随机存取存储器 总磷 128 120
figure 91
图 91
美国专利 2025年7月29日 第 4 页,共 8 页 US12,373,107B2 DRAM内存区域0 银行x DRAM内存区域1 银行x DRAM内存区域N 银行x 动态随机存取存储器 128 银行银行1 银行1 银行银行1 数据存取 维护保养 数据存取 维护保养 数据存取 刷新 维护保养 刷新 通道0 刷新 频道1 频道 3 内存控制器0 DRAM控制器N 图。 DRAM控制器1 回应 回应 回应 要求 要求 要求 总磷 120
figure 92
图 92
Thismutuallyexclusiveschedulingcanbedoneinseveral 形式:1)计算机系统控制DRAM 访问和刷新/维护计划。计算机 系统指示 DRAM 控制器发出刷新/主命令 适当的时候进行维护周期。2) DRAM 控制器使用固定的、已知的刷新/维护计划 计算机系统知道,那么计算机 系统相应地安排其访问以避免任何 3) 计算机系统使用固定的、已知的访问权限 DRAM 控制器知道的时间表,以及 DRAM 控制器将安排其刷新/维护 财务周期相应地避免任何冲突。4) DRAM 控制器和计算机系统采用预定的 一种综合方法2 举个例子,特定的模型可能 有高带宽要求所以 计算机系统可以请求DRAM控制器启动 在选定的时间(例如 早于当时的时间表要求),以便 访问特定内存库可供访问 在选定的时间访问计算机系统。 无论使用哪种方法,只要 系统和 DRAM 控制器异步工作 (或合作)方式避免 DRAM 之间的冲突 来自计算机系统的访问请求并刷新/ 从 DRAM 控制到 DRAM 的维护周期 勒,这些请求的完成将是可预测的 更好的延迟和带宽性能。

Abts 先生于 3 年前离开并加入 Nvidia。 Groq 的芯片均不使用任何类型的 DRAM。显然,这项使用调度数据包技巧使 DRAM 具有确定性的专利不起作用。否则,Groq 现在就已经添加了 DRAM。

这是他们实际使用的一项专利。

figure 93
图 93
美国专利 2022年10月18日 第 4 页,共 6 页 US11,474,557B2 601 同步硬件计数器 602 接收粗调触发 603 重置粗调计数器并开始计数 604 接收延迟计数和偏移 605 设置软件计数器延迟偏移 606 将软件计数器设置为硬件计数器 图6
figure 94
图 94
在一个实施例中,每个系统100和101可以 包括硬件对齐计数器108和109。硬件 对齐的计数器108和109可用于建立时间 每个系统中电子电路的基础,例如时钟, 例如。此外,每个系统可能包括软 warealignedcounters106和107.Soffwarealignedcoun- 106 和 107 可能通过程序同步 104 和 105,分别如下文更详细描述。硬- 固件对齐计数器 108 和 109 以及软件对齐 计数器106和107可以被实现为数字计数器 例如,每个集成电路上的电路。 例如,硬件对齐计数器 108 和 109 可能 Chip1 上的自由运行数字计数器(例如 8 位计数器) 和芯片 2 定期同步,如所述 类似地,软件对齐计数器106和107可能 是同步的数字计数器(例如8位计数器) 基于程序104和105触发的定时标记, 分别称为硬件对齐计数器 本文称为“硬件计数器”和软件对齐计数器 在此被称为“软件计数器”。 与硬件和软件计数器是不同的国家 随着时间的推移,不同的系统可能会逐渐疏远。 例如,即使使用相同的外部晶体来驱动 两者都是硬件计数器,不同的内部条件可能 导致硬件计数器随着时间的推移不同步。 随着时间的推移。 同步也可能会受到影响 通过系统延迟和抖动进行数据通信 例如,这可能跨越多个周期。因此 保持系统硬件和软件计数器同步 可以海滩挑战。

你说得对,SerDes 抖动和 PPM 时钟漂移会搞砸这个基于计数器的同步方案!

Groq 是有史以来最疯狂、最非正统、最不平衡的计算机。我和许多其他人一直在这令人厌恶的岁月里拉屎是有原因的!

但是......经过 6 年多的编译器工作并运行烧钱的推理云来学习如何使编译器变得更好......他们似乎已经找到了一些东西。

抛开你的偏见,假设编译器是功能性的,或者至少能够发挥作用。

想象一下,您是 Nvidia,拥有使 Groq 真正发挥其理论全部潜力所需的所有 IP。

$20B 很便宜。这是一次变革性的收购。比 Mellanox 大得多!

figure 95
图 95
黄仁勋:我对他们的现金流增长充满信心。原因很简单。我们现在有 看到了代理人工智能的变化以及世界各地和各地企业的代理的有用性。 因此,您会看到令人难以置信的计算需求。在人工智能的新世界里,计算就是收入。 计算,就没有办法生成代币。没有代币,就没有办法增加收入。所以在这个新的 在人工智能的世界里,计算等于收入。我确信,在这一点上,所有这些都有一个适度的 计算机数量,你知道,称之为 300,00,00,000 美元或 400,000,000,000 美元价值现金。太棒了。谢谢 你。 还有一些战略投资和潜在的 OpenAl。以此模型为核心,但也与 数十个 Al 本地人都建立在 Alecosystem 之上。对于语言,或者物理人工智能,或者人工智能物理。阿洛夫 Al 模型或深度。正如我之前提到的,扩展。扩展。GPU、节点和每个节点。 我们做到了。这个架子真的非常令人难以置信。当然,我们也喜欢低强度的锻炼。还有一些人 希望以非常擅长的方式将扩展以太网与人工智能相集成。我们的光谱X 不必要的电源。我们对紫罗兰不过敏。我们已经使用紫罗兰了。但我们尝试这样做。所以当 你看看 Grace Blackwell 架构和 Rubin 架构,使用两次激进有限关系 底部,这减少了竞争对手的架构数量。 如果你看看我们的软件优势,但软件的起点和架构的起点和终点是这样的 很难说。就是——我们的软件之所以有效,是因为我们的架构太好了。 CUDA架构也是如此 毫无疑问是更有效、更高效,我的意思是,每FLoP每瓦特。几代架构 GPU 都会受益。因此我们将继续这样做,它使我们能够延长使用寿命,使我们能够 具有创新、灵活性和速度,这可以转化为客户的绩效,这一点非常重要。 那么我们将如何处理 烈酒 是-你会来看,来看GTC-但是我们会做的是我们会 使用 Groq asanaccel 扩展我们的架构,使用 Mellanox 扩展 NviDlA 公司的架构。

让我向您展示 Nvidia 如何让 Groq 充分发挥其潜力。

[6] Nvidia 与 Groq 风格架构令人难以置信的 IP 协同作用

台湾谣言工厂已经开始对 PCB 规格的泄露进行自慰,但这并没有抓住重点。供应链堕落者不知道 Groq 的真正价值是什么。

坦白说,我根本不在乎 Nvidia/Groq 在短期内使用 Groq V3 芯片拼凑出什么东西。 SF4X工艺节点比TSMC N6差,在某些情况下还比N7差哈哈。

Groq 架构和 Nvidia IP 具有令人难以置信的协同作用。他们将在 18 个月内让某些事情变得更好。

[6.a] 时钟转发 SerDes

figure 96
图 96
A 32Gb/s/入 256Gb/s/光纤半速率 带通滤波时钟转发 3D 堆叠 7nm 中的 DWDM 光链路 EIC/65nm PLC技术 宋三泉'、Nandish Mehta1、Nikola Nedovic1、Angad Rekhi1、Georgios Kalogerakis1、李旭1、Brian Zimmer1、Stephen G. Tell2、Yoshi Nishi1、Xi Chen、 Ward Lopes1、Benjamin G. Lee3、Thomas H. Greer ll12、C. Thomas Gray2 1Nvidia,加利福尼亚州圣克拉拉,2Nvidia,北卡罗来纳州达勒姆,3Nvidia,康涅狄格州里奇菲尔德 ISSCC 2026 英伟达。 2026IEEE 23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/A 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路 国际固态电路会议 32 中的 1

Nvidia 刚刚在 ISSCC 上展示了他们的光学时钟转发芯片到芯片链路。

我在这里有更详细的报道。

对于这篇文章,我将仅重新介绍时钟转发部分。

figure 97
图 97
DWDM 链路的抖动建模 — 带滤波的 FC 相位CDRBW 相关抖动:TXPLL抖动、PSIJ 不相关的噪声 噪声PSD1 相关噪声 等,与lanetolane相同 → 不相关的噪声 PS杜 不相关抖动:TlA 引起 CDR 相关噪声 PN 抖动,与lanetolane不同 PSD 相关噪声 不相关的 噪声+CDR噪声 EC:有限的CDR带宽暴露 嵌入式时钟(EC) 最抖动的链接 不相关噪声- PN FC:跟踪相关抖动; 数据 PSD 相关噪声 不相关的抖动累积 不相关的噪声 时钟 V2PSDu FC 带过滤:大多数 不相关噪声- 时钟转发(FC) 相关抖动跟踪,大多数 不相关噪声- BPF传输率低 不相关的抖动被过滤掉[15] 频道 PNFilterTBW抖动过滤 数据 PSD 不相关的噪声 对于能源、面积和 相关噪声 时钟 V2PSDu PS杜 频道 海岸线高效DWDM链路 不相关噪声 带 BPF 的转发时钟 2026IEEE 23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/A 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路 国际固态电路会议 32 之 9

为转发时钟设计这个带通滤波器非常具有挑战性。 PVT 敏感性很高。

figure 98
图 98
RX 设计 - TLA 接收 正向时钟 Xtfb 前向时钟信号TIA 国际劳工组织 正向时钟 延迟时间 TT 赫赫 GM HT 数模转换器 有效注入比约为 1:1 w/标称输入,滤除超过 ~ 1GHz 的抖动, 足以消除大部分不相关抖动并跟踪大部分相关抖动 所有通道均可接收和分发 FWDCLK 2026IEEE 23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/A 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路 国际固态电路会议 16 共 32 个

所有通道都支持接收转发时钟以优化良率。这会燃烧相当大的面积。他们这样做一定是有性能原因。

也许各个芯片的电串扰严重程度有所不同?

figure 99
图 99
RX 设计 - DLY 阶段 数据延迟时间 直肠癌 Onif输出 数据 数据 其余车道 是FWDCLK TIA DES 那条线注射 部分延迟 直肠癌 锁定或关闭以供进一步使用 之间的匹配 抖动过滤 数据和FWDCLK RXCLK ILO: 喷射比调整 缓冲阶段 正向时钟延迟时间 PSIJ 追踪 能力 前轮驱动 前轮驱动 时钟脉冲 时钟脉冲 FWDCLK-接收通道 DES TIA (欧菲) 驱动两者之一 UCLKB 克拉克A RXCLK 分配线 2026IEEE 23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/入 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路 国际固态电路会议 17 共 32 个

延迟匹配电路相当复杂。时钟正向通道和数据通道都有多个可调延迟元件。随时间的变化(VT 引起的)是一个大问题。注入锁定是一个关键策略。

https://en.wikipedia.org/wiki/Injection_locking

figure 100
图 100
范围 拉入 25 G。

简而言之,注入锁定使用反馈路径来强化主要目标音调并衰减/消除谐波和其他正弦抖动源。

figure 101
图 101
RX 灵敏度测量 - ILO 的优势 Log10(误码率) 90 8 B000 8608 -15 15 15 6 9 问 8 の FWDCLK OMA <dBm> の -16 16 16 多氧酶 6 17 号 8988088 17 号 17 号 8 5 -6 18 86:8@ 18 18 7 6 8888 8 -8 8 8 19 -19 -19 -9 8 -10 -20 -20 09 -20 -11 -20 -19 -18 -17 -16 -15 -20 -19 -18 -17 -16 -15 -20 -19 -18 -17 -16 -15 数据OMA<dBm> 蒂艾洛 开 关闭 开 RXCLKILO 关闭 开 开 前向时钟存储器 -16.6分贝 -16dBm 优于 -20 dBm 2026IEEE 23.1:采用 3D 堆叠 7nm EIC/65nm PIC 技术的 32Gb/s/A 256Gb/s/光纤半速率带通滤波时钟转发 DWDM 光链路 国际固态电路会议 28/32

注入锁定带来巨大的增益,但电路很难调整。

figure 102
图 102
浴缸曲线 32Gbps 乐+00 TX输出& RX桨 接收输入 乐-02 错误率 TX桨 1E-04 至TX输入 1E-06 弗洛姆激光 输出 北 乐-08 乙 插座 带芯片 le-10 0.47Ul@1e-12 le-12 0.0 0.2 0.4 0.6 0.8 1.0 Fwdclk阶段(UI) PRBS31,全九车道ON,TTON 0.47ul 聚合开眼 1E-12BER

正向时钟相位变化约为 0.5 UI(单位间隔)或约 16 皮秒。

我向您保证,低于 16 皮秒的时钟精度比 Groq 通过其蹩脚的基于计数器的方案所达到的精度要好得多。

想象一下,GROQ 风格的硬件架构在通过光学器件进行真实时钟转发时可以表现出多么好的性能!!!!!!!!!!!!!!!!!!!!!!!!!!!

[6.b] 混合键合

改进 Groq 式架构的一种明显方法是使用混合键合来扩展 SRAM 暂存器。使用 TSMC 或 Intel Foundry 的混合绑定产品,您可以以最小的延迟损失获得大约 2 倍的容量。 Groq 没有资源来实现这一点。英伟达可以处理这个!

无论如何,延迟损失并不重要,因为编译器需要具有确定性,并且会提前取消延迟。

[6.c] 领先的散热团队

Groq 式架构的问题之一是热密度。虽然芯片的绝对功率不高,但部分执行逻辑变得非常非常热。

Nvidia 拥有世界上最好的液体冷却和热设计团队之一。热点将不再是问题。我怀疑由于热点问题,Groq 必须相对于他们的目标降低时钟频率。修复很容易,但性能却悬而未决。

[6.d] 理论光学全局时钟

figure 103
图 103
电路架构 锁相环寄存器 锁相环寄存器 链接结构 蒂阿雷格 -9 个 TX 和 RX8 数据@32 接收寄存器 Gbps,1forFWDCLK@16GHz) 塞内尔 DES -256Gbps/光纤吞吐量 DRV TIA S2D 时钟和抖动管理 TT TXO RXO - 基于 TX-Pl 的环对环去偏斜 波导路径长度不匹配 塞内尔 DES 色散引起的延迟 DRV TIA S2D TIA 和 RX 时钟中的 ILO 结构 L 分布抖动过滤 TX8 RX8 沃斯克 供应领域 锁相环 锁相环 - 板载 VDDA/VDDH/VDDM 时钟脉冲网络 时钟脉冲网络 电压:0.8-0.96 电源电压:1.0 - VDDPLL/VDDTIA/VDDRX 由 - 生成 电源电压:1.6-1.92 VDDPLL:~0.92调节 芯片LDO VDDTIA:~0.8调节,PT跟踪 VDDRX:=VDDTIA 2026IEEE 23.1:A32Gb/s/A256Gb/s/光纤半速率带通滤波时钟转发 DWDMOpticalLinkina3D-Stacked7nmEIC/65nmPIC 技术 国际固态电路会议 11 共 32 个

Nvidia 的光学时钟转发 IP 对色散很敏感。

这令人惊讶。

https://www.rp-photonics.com/chromatic_分散.html

figure 104
图 104
色散 半音阶 色散

色散是一种在频域中展宽信号的光学现象。 DSP 解决这个问题的方法是简单地进行过采样。

figure 105
图 105
色散(ps/nm·km) 4030201001020 材料分散 色散 -30 40 波导色散 12001300 140015001600 1700 波长(nm)

色散是长距离 C 波段链路的典型问题。 O-band通常不关心这个。

这就是为什么我如此惊讶。 Nvidia 使用 O 频段,直观上这不是问题。显然,他们的系统极其敏感!

这表明Nvidia的光学时钟转发IP的覆盖范围有限。假设仅在机架内。

如果能够在整个数据中心内的各个机架上分配全局光学时钟……这对于 Groq 风格的架构来说真是太棒了。

figure 106
图 106
可以分发茶 跨越 100 多米的全球时钟

光学原子钟在实验室和研究应用方面有着丰富的历史。

https://en.wikipedia.org/wiki/Optical_clock

最近,这项技术重新引起了数据中心的兴趣。

这确实是可能的。 Nvidia 光学集团是 Galaxy-Brain。他们可以做到这一点!

这些年来,Groq 编译器工程师一直在使用蹩脚的技巧和软件计数器来实现平庸的符号化。 Nvidia 拥有实现乔纳森·罗斯 (Jhonathan Ross) 最疯狂的梦想所需的独特知识产权,并真正释放世界上最不平衡计算机的疯狂潜力。

[7] 可能的 Nvidia/Groq 产品模型

figure 107
图 107
刀片服务器 机架 本地 Groq 芯片集群 DragonFly虚拟路由器 刀片服务器 全部与CPO时钟连接- 转发 DWDM 链接! 刀片服务器 每个芯片都有混合键合 SRAM/暂存器扩展! 蜻蜓拓扑 进一步提高拓扑的可扩展性 使用节点集合 创建一个“组”或 虚拟高基路由器 PDFA(光放大器) 全局(跨节点)光时钟 恢复。 刀片服务器 全球光原子钟 *输入位于每个中间的 PDFA 架。

[8] 任何白痴都可以建造一座桥梁 // 疯狂计算机的黄金时代

<全部>

订阅以在准备好后获得最终(完整)的帖子。

现代 Altera FPGA 概述

SN仁慈杀戮

等等,不,我想活下去

解释单位间隔

再次使用 nvidia ISSCC 纸张

精神错乱的谱系

脆性结构谱

groq 无法集成。一定是在岛上吗?

假设存在一些可以在岛上运行的人工智能工作负载

供应链角度

任何白痴都可以建造一座桥梁类比

为大家高兴

甚至大脑

恭喜 gif

WSE 桥梁

侮辱硬件差距