少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。
OpenAI以“开放”之名创立,但最终却走上“封闭”之路。ChatGPT爆红以来,其背后的AI模型全属闭源平台,没有公开程序代码。但Facebook母公司Meta却反其道而行,从一开始就以开源姿态跨入生成式AI领域,刚于7月释出的“Llama 3.1”,更号称是当今最强的开源模型,性能直逼GPT-4o!Meta执行长扎克伯格豪言,这是划时代的开源AI模型,并强调开源才是AI的未来。到底Meta能否以开源策略颠覆整个AI产业的格局呢?
Llama 3.1拥有4,050亿项参数
2024年7月23日,Meta宣布推出当今最大规模的开源(Open Source)模型Llama 3.1系列,透过16,000颗NVIDIA H100 GPU训练而成,其中405B版本拥有4,050亿项参数,使其性能可跟OpenAI GPT-4o等最先进的闭源(Closed Source)模型相提并论。
Meta执行长马克·扎克伯格(Mark Zuckerberg)在新模型释出后发布长文《Open Source AI Is the Path Forward》,强调Llama 3.1 405B是首个达到顶级水平的开源AI模型。Meta官方表示:“直至目前为止,开源模型在功能和性能上大多落后于闭源模型。现在,我们正迎来一个由开源引领的新时代。”
扎克伯格在《Open Source AI Is the Path Forward》文末表示:“我相信Llama 3.1将会是业界的一个转折点,让大多数开发者开始转用开源技术,而且我预期这趋势将会持续成长。”(图片来源:扎克伯格FB账户)
扎克伯格进一步表示,开源模型不但成本效益比闭源模型为高,开源特性更使它成为微调和提炼作小型模型的最佳选择,并扬言Llama 3.1将会“超越坐拥逾一亿用户的ChatGPT”,跃居为2024年底最多人使用的AI工具。
根据Meta发表的测试图表,Llama 3.1 405B的性能与GPT-4相若,但跟GPT-4o和Claude 3.5 Sonnet相比却互有胜负。(图片来源:Meta官方网志)
开源AI帮助Meta减轻开发成本
Llama 3.1的诞生,除展现Meta本身在AI领域的野心外,更试图引领AI产业走向另一个可能的发展方向。其实,Meta一直是开源的拥护者,譬如开源的机器学习链接库PyTorch正是由Meta AI团队开发,所以开源本来就是其拿手好戏。但问题是,Meta始终是一家商业机构,为何要提供免收费的开源AI模型?
首先,开源有助减轻公司的开发成本。扎克伯格以Meta的“开放运算计划”(Open Compute Project)为例,向外发布其服务器、网络和数据中心的设计数据,并让供应链企业帮助改进设计,因而替公司减省了数十亿美元的成本。
扎克伯格认为,在开源模式下,可以汇集全球开发者的力量,致力于改善AI模型的设计,令AI研发成本得以大幅降低。根据Meta数据,Llama模型下载量已逾1亿次,可见其开源策略确实吸引了一大群开发者加入开源AI社群。
开发者现已可在llama.meta.com下载Llama 3.1模型;一般用户也可以透过Meta.ai使用聊天机械人,惟暂时仅开放给美国用户体验。(图片来源:翻摄Meta.AI聊天界面)
开源可创造公平开放AI生态圈
再者,开源可以创造一个公平与开放的AI生态圈,避免AI技术被一小撮大企业所把持。目前大部分AI模型都是闭源平台,让人无法完全了解其技术细节,所以外界很难对这些模型展开有意义的研究。如要自建AI模型,更需要庞大的运算资源和高深的机器学习专业知识,开发门槛极高,让中小企难以入手。
以Facebook受到App Store限制为例,扎克伯格指出,Apple向开发商征收“苹果税”,并任意定下多项严格规则,窒碍Meta与其他公司的创新能力。他相信,必需透过开源手段,创造公平开放的竞争环境,让大中小企享有均等的发展机会,方可让包括Meta在内的公司取得技术进步,而不会被少数科技巨头的闭源生态圈所限制。
近年,AI领域涌现了不少受Llama启发的开源模型,例如:斯坦福大学以LLaMA作基础,花上不到600美元,开发出Alpaca模型。其后,斯坦福大学再跟加州大学伯克利分校、以及圣地亚哥分校合作,基于Llama研制出Vicuna模型,产出内容可达ChatGPT的9成质素,但训练成本却仅需300美元。Meta表示,开源AI社群已在Hugging Face平台上推出逾7,000个Llama衍生作品。
信息安全或成开源AI最大隐忧
然而,开源背后的最大隐忧是信息安全。开源模式虽然可以吸引很多人参与开发,但当中难免良莠不齐;倘若任何一段开源程序代码有漏洞,就有可能令整个软件供应链陷入资安危机。电子设计自动化公司新思科技(Synopsys)于2023年分析1,703个程序代码库后,发现76%是开源的,惟这些开源程序代码中84%存有保安漏洞,较2022年上升4%,可见开源漏洞持续增加中。
此外,有论者认为,开源AI等同把核弹按键发送给每个人,令任何人都有机会自制AI模型做出不负责任、具破坏性的行为。Meta官方强调,为免开源模型被滥用,开发者必需详细交待如何使用Llama,始能获得下载许可。Meta首席AI科学家杨立昆(Yann LeCun)曾点名批评OpenAI、DeepMind、Anthropic执行长,认为他们散播开源恐惧,意图阻挠开源AI发展。
如今开源AI与闭源AI之争,就像是当年《Linux》与《Windows》操作系统的角力。回顾历史,最终由闭源的《Windows》成为大赢家,开源的《Linux》败走PC平台,但其衍生作品《Android》却在手机平台发扬光大。究竟未来AI平台是否仍会由闭源独霸市场,抑或由开源逆转取胜,还是双方可以共存共荣?这场AI竞赛绝对值得我们持续关注。
《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。
暂无读者评论!