少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。
OpenAI现时发展的最大障碍是AI运算资源不足,而英伟达(NVIDIA)的AI芯片供应量又十分紧张,故此执行长奥尔特曼念兹在兹,就是拥有自家AI半导体供应链。近日有消息传出,OpenAI正跟博通(Broadcom)与台积电合作,共同设计与制造首款自研AI芯片,预计在2026年投产。究竟此举是否可以帮助OpenAI摆脱对NVIDIA的依赖?这样对全球AI半导体供应链布局又会带来什么影响?
OpenAI自主研发和设计芯片
现时市场上大部分AI工具都是使用英伟达的图像处理器(GPU)来执行运算。全球各大科技企业、以至国家政府均积极抢购NVIDIA GPU,用作建构自家大型语言模型,以致芯片供不应求,价格不断攀升。自2022年起,OpenAI已高度关注AI芯片供货不足与成本偏高的问题。
OpenAI执行长萨姆·奥尔特曼(Sam Altman)经常抱怨,GPU供应紧张,让OpenAI难以全力研发“通用人工智能”(Artificial General Intelligence,AGI)。曾有消息传出,奥尔特曼试图募集5兆至7兆美元(约39兆至54.6兆港元)的资金,兴建数十座芯片厂,建立自家的AI半导体供应链。
尽管奥尔特曼希望组建最强的AI芯片研发团队,但对从NVIDIA挖角却抱持着谨慎态度,因为他仍想跟NVIDIA保持良好关系,所以目前团队成员主要是来自Google。(图片来源:OpenAI官方YouTube影片)
后来考虑到建厂所需的成本过高,实行难度也太大,所以奥尔特曼打消了这个念头,改为仿效Google、微软(Microsoft)、亚马逊(Amazon)等云端巨头的做法,自主研发和设计AI芯片,再委托晶圆厂代工生产。
看中博通助Google设计TPU
有消息指,OpenAI过去几个月已找来博通(Broadcom)合作设计自研AI芯片。这款设计中的芯片是专攻逻辑推理,可应用于预测和决策运算。当今大型语言模型的运算目的,主要分为AI模型训练、以及逻辑推理。现时市场对模型训练芯片的需求较大,但未来随着AI应用逐渐普及,各式AI工具被广泛部署后,推理芯片的需求将会超越训练芯片。由此可见,OpenAI埋首于设计推理芯片,其实是针对后市发展提早布局。
OpenAI内部已成立一支约20人的芯片研发团队,找来诺利(Thomas Norrie)与Richard Ho等曾替Google开发张量处理器(TPU)的资深工程师领导研发。OpenAI选择跟Broadcom合作,也是看中博通曾协助Google设计TPU。
Google Gemini由TPU推动
Google是全球首家研制自家AI芯片的云端供货商,其TPU中的“T”代表着“Tensor”(张量),意指高阶AI应用运作背后所需的大型矩阵乘法运算。这是针对Google内部运算需求而设计的自研芯片,自2015年起已应用于自家数据中心,后来更广泛引进到Google Cloud平台;目前Google旗下大型语言模型Gemini与AI聊天机械人,也依靠TPU进行运算。
2018年,Google发表第二代TPU,专精于AI推理扩展与训练,并开始透过Google Cloud平台提供给外部公司使用,能够替代NVIDIA GPU执行AI运算,客户包括:苹果(Apple)、OpenAI、Airbnb、以及Recursion Pharmaceuticals等。
TPU适合处理大规模深度学习
iPhone 16系列所用的AI模型Apple Intelligence,正是使用Google TPU训练而成。Apple之所以选择TPU而不是NVIDIA GPU,主要原因是TPU非常适合处理大规模的深度学习(Deep Learning)项目,正好符合Apple Intelligence的训练要求。当然,TPU服务收费比采购NVIDIA GPU便宜得多,也是另一重要因素。
有消息传出,OpenAI可能采用台积电的1.6纳米制程来生产其自研AI芯片。(图片来源:台积电官网)
美国金融顾问研究机构Bernstein Research资深半导体研究员史黛西·拉斯冈(Stacy Rasgon)指出,虽然NVIDIA GPU在AI领域的兼容性很高,适用于各式各样的AI运算,而且运算效能非常卓越,但其供应量却一直追不上市场需求,而TPU却没有这方面的问题。
可是,要制造出足以匹敌NVIDIA GPU的TPU却非易事。有鉴于研发过程太过复杂,就算是Google也要找外援帮忙,于是Broadcom从初代TPU起已参与芯片设计:Google负责TPU的核心设计,博通则负责设计TPU的周边细节,确保芯片能够串连外部设备,保持正常运作。完成设计图后,Google与Broadcom共同将之送交给台积电,进行代工生产。
OpenAI力求芯片供应多元化
据悉,OpenAI已透过博通,成功预订台积电产能,可望于2026年量产其自研芯片。然而,远水却不能救近火,故此OpenAI亦打算使用超威(AMD)的AI芯片,将会透过微软Azure云端平台,取用AMD MI300X的运算力,以分散芯片供货来源,降低对NVIDIA的依赖程度。
TPU具有高效能、低功耗的特点,现已在Google Cloud平台上广泛使用,可供AI开发者租用,研发大规模机器学习项目。(图片来源:Google Cloud官网)
NVIDIA GPU始终是市场上运算效能最强的AI芯片,OpenAI不可以完全放弃使用。因此长远而言,OpenAI将会采取兼收并蓄的策略,同时使用自研芯片、AMD芯片、以及NVIDIA GPU。事实上,微软、亚马逊都有研制自家AI芯片,惟每当英伟达有新一代效能更强的GPU上市,他们仍是会大手抢购。因此,未来OpenAI推出自研芯片,顶多是补足自身的运算力缺口,根本不足以动摇NVIDIA的AI芯片龙头地位。
《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。
暂无读者评论!