行业新闻

台积电董事长刘德音预测：未来 15 年每瓦 GPU 性能提升 1000 倍，GPU 晶体管数破万亿

时间：2024-03-31 来源：

（图片来源：brookings.edu）

通用人工智能（AGI）领域又出一系列重磅消息。

3月29日上午，IEEE的头版刊登台积电董事长刘德音联合撰写题为《我们如何实现1万亿个晶体管GPU》的文章。

刘德音在文中预测，半导体技术的突破给AI技术带来重要贡献。在未来10年，GPU集成的晶体管数将达到1万亿。而且，GPU能效性能每2年提高3倍，未来15年（到2040年）内，每瓦GPU性能将提高1000倍。

同时，有消息称，华人团队创立的 AI 龙头Scale AI正在进行新一轮融资，估值高达130亿美元，比2021 年的73亿美元估值提高近 80%。报道指，2023年，Scale AI产生超过 6.75 亿美元的收入，同比增长约 150%。

此外，马斯克还发布了Grok 1.5，不仅支持长文本，而且性能“遥遥领先”。

台积电董事长：未来15年，每瓦GPU性能将提高1000倍

在IEEE文章中，台积电董事长刘德音及台积电首席科学家H.-S Philip Wong讲述了台积电是如何达成1万亿晶体管芯片的目标。

文章指出，从1997年击败国际象棋人类冠军的IBM深蓝超级计算机，到2023年爆火的ChatGPT，再过15年，人工智能（AI）将发展到可以“合成知识”（synthesize knowledge）的地步，可以创作诗歌、编写总结报告和计算机代码，甚至可以设计集成电路。

GTC 2024大会上，黄仁勋祭出世界最强GPU——Blackwell B200 ，整整封装了超2080亿个晶体管。比起上一代H100（800亿），B200晶体管数是其2倍多，AI推理性能直接飙升5倍，运行速度提升30倍。

所有这些奇妙的人工智能应用都归功于三个因素：高效机器学习算法的创新、训练神经网络的大量数据的可用性，以及通过半导体技术的进步实现节能计算的进步。

文章内容称，如果AI要以目前的速度发展下去，它将需要半导体产业做出更多贡献。10年内，它将需要1个1万亿晶体管的GPU，也就是说，GPU的设备数量是当今典型设备数量的10倍。

文章称，CoWoS是台积电的硅晶圆上芯片先进封装技术，目前已在产品中得到应用。示例包括英伟达Ampere和Hopper GPU。Ampere有540亿个晶体管，Hopper有800亿个。从7 nm技术到更密集的4nm技术的转变使得在基本相同的面积上封装的晶体管数量增加了50%。Ampere和Hopper是当今大型语言模型 ( LLM ) 训练的主力，训练ChatGPT需要数万个这样的处理器。

HBM是对AI日益重要的另一项关键半导体技术的一个例子，通过将芯片堆叠在一起来整合系统的能力，台积电称之为SoIC（system-on-integrated-chips）。

文章预测，10年内，多芯片GPU将拥有超过1万亿个晶体管。

那么，所有这些创新的硬件技术如何提高系统的性能呢？

刘德音在文章中表示，GPU芯片需要节能性能的指标的稳步改进，比如 EEP 芯片是系统能源效率和速度的综合衡量标准。过去 15 年来，半导体行业的能效性能，每两年就提高了三倍左右。

“我们相信这一趋势将以历史速度持续下去。它将受到多方面创新的推动，包括新材料、器件和集成技术、极紫外（EUV）光刻、电路设计、系统架构设计以及所有这些技术元素的共同优化等。特别是，EEP 的增加将通过我们在此讨论的先进封装技术来实现。此外，系统技术协同优化 (STCO)等概念将变得越来越重要，其中 GPU 的不同功能部分被分离到各自的小芯片上，并使用性能最佳和最经济的技术来构建每个部分。”

文章配图中指出，2025年-2040年之间，每瓦GPU性能将从0.019（Energy-efficient 0.019892 performance，1/femtojoulespicoseconds），提升到126.337，未来15年每瓦GPU效能将提高1000倍。

文章结论认为，在智能时代，半导体技术是人工智能新能力和应用的关键推动者。新的GPU不再受过去的标准尺寸和外形尺寸的限制。新的半导体技术不再局限于在二维平面上缩小下一代晶体管。整合人工智能系统可以由尽可能多的节能晶体管、用于专门计算工作负载的高效系统架构以及软件和硬件之间的最佳化关系组成。

“过去 50 年来，半导体技术的发展就像走在隧道里一样。前面的路很清晰，因为有一条明确的道路。每个人都知道需要做什么：缩小晶体管。现在，我们已经到达隧道的尽头。从这里开始，半导体技术将变得更加难以发展。然而，在隧道之外，还有更多的可能性。我们不再受过去的束缚。”刘德音表示。

Scale AI：估值高达130亿美金，去年收入超 6.75 亿美元

3月29日，据The information报道，总部位于旧金山的美国 AI 初创企业Scale AI 正在进行新一轮数亿美元的融资，风险投资公司 Accel有望领投，投资估值达到约 130 亿美元，比2021 年的73亿美元估值提高近 80%。

报道还称，Scale AI公司2023年的营收超过6.75亿美元，比2022年增长约150%。

报道称，本轮融资尚未最终敲定，条款可能会有变化。Accel 的发言人拒绝发表评论，Scale AI 的代表没有回复置评请求。

Scale AI 首席执行官 Alexandr Wang（图片来源：ZeeBiz WebDesk）

公开资料显示，Scale AI成立于2016年，主要为 AI 训练提供数据服务，创始人为华裔青年Alexandr Wang。据报道，Alexandr Wang的父母均为物理学家。他从小就表现出了杰出的数理天赋与才能，曾被麻省理工大学录取，但在出色地完成第一年学业后便选择了辍学创业，与Lucy Guo共同创办了Scale AI。

值得注意的是，Scale AI创业初期就得到了创业孵化公司Y Combinator的支持。彼时，Y Combinator的总裁为山姆·奥特曼，也即OpenAI的联合创始人及现任首席执行官。

Scale AI主要从事的AI训练数据标注，通俗理解，就是通过分类、画框、标注、注释等对图片、语音、文本、视频等原始的数据进行处理，标记对象的特征，以作为机器学习基础素材。比如，如果要训练AI识别出图片中的狗，则需要采集大量有关于狗的图片，将其中的关键信息标注出来，供AI识别，在多次识别的过程中让AI形成识别各式各样的狗的能力。

Scale AI从创立至今，融资过程可谓顺风顺水，而且融资金额节节攀升。创办伊始，Y Combinator向其提供了12万美元的投资；2017年，获得了450万美元的A轮融资；2018年，成功完成1800万美元的B轮融资；2019年，再获1亿美元C轮融资；2021年1月，完成1.5亿美元D轮融资；同年4月，顺利完成3.25亿美元E轮融资。至此，Scale AI用5年的时间将估值水平提升至73亿美元的水平，成为AI数据标注领域的独角兽。

Scale AI 通过向 OpenAI 和其他对话式人工智能初创公司销售服务而获得了发展。报道称，本轮融资将为公司未来几年可能的IPO做准备。目前尚不清楚还有哪些投资者参与了本轮投资。

不过，目前，Scale AI公司估值依然低于OpenAI。本周二，Accel 的合伙人 Rich Wong 表示，该公司对 Scale AI 这样的 "锄头和铲子 "企业更感兴趣。

“它是数据引擎，是许多基础企业以及试图为其垂直应用进行调整的企业的模型背后的数据引。我们认为，将成为重要客户的将远不止五大模式。”Rich Wong表示。

马斯克发布Grok 1.5

在Grok 1开源十天后，马斯克创立的xAI宣布推出其大模型最新版本 Grok 1.5。

事实上，为了寻求替代微软支持的 OpenAI 和 Google 大模型的解决方案，马斯克去年创立了 AI 公司 xAI，以创建他所说的“最大程度寻求真相的人工智能” 。2023年 12 月，xAI 为 X 的 Premium+ 订阅者推出了 Grok。

如今，马斯克更新到Grok 1.5模型。新一代模型实现了长上下文理解和高级推理能力，计划将在未来几天内向早期测试人员和 X 平台（前 Twitter）上的现有 Grok 用户提供。

具体来说，首先，Grok-1.5 最明显的改进之一是其在代码和数学相关任务中的性能。在 xAI 的测试中，Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩，在 GSM8K 基准上取得了 90% 的成绩，这两个数学基准涵盖了广泛的小学到高中的竞赛问题。同时，它在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%。

其次，Grok-1.5 中的另一个重要升级是在其上下文窗口内可以处理多达 128K token 的长上下文。这使得 Grok 的容量增加到之前上下文长度的 16 倍，从而能够利用更长文档中的信息。

再次，该模型还可以处理更长、更复杂的提示（prompt），同时在上下文窗口扩展时仍然能保持其指令跟踪能力。在大海捞针（NIAH）评估中，Grok-1.5 展示了强大的检索能力，可以在长度高达 128K token 的上下文中嵌入文本，实现完美的检索结果。

最后，xAI 介绍了用于训练模型的算力设施。Grok-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。该训练堆栈允许开发团队能够以最小的精力构建想法原型并大规模训练新架构。而在大型计算集群上训练 LLM 的主要挑战是最大限度提高训练作业的可靠性和正常运行时间。xAI 提出的自定义训练协调器可确保自动检测到有问题的节点，并将其从训练作业中剔除。工程师还优化了检查点、数据加载和训练作业重新启动等问题，以最大限度地减少发生故障时的停机时间。

xAI 表示，Grok-1.5 很快就会向早期测试者开放，其团队将继续改进 Grok。随着新版本推向公众，在未来几天 X 上的大模型将陆续推出一些新功能。