Sora构建“心神自运”，谷歌脸书黄雀在后

2024-02-19 14:39

0A+A-

“眼见为实”不再，未来世界也许只是人类用文本构建的“心神自运”。人工智能翘楚OpenAI于刚刚过去的周末发布新系统Sora，能根据文字提示，迅速生成好莱坞大片即视感的高质影片。此一被称为“量子级”的AI技术飞跃，一问世即惊艳，但“螳螂捕蝉，黄雀在后”，竞争对手Google、Meta同时发布最新大模型Gemini 1.5及V-JEPA。

人人都是黑泽明？

不久的将来，人人都是黑泽明或史蒂文·斯皮尔伯格？当OpenAI周六发布一段17秒短片，白雪皑皑的东京，熙熙攘攘的街道，樱花伴雪飞舞……一镜到底的动态逼真场景记录，原来不是出自专业摄影师，而是AI这个“梦世界模拟器”。

Sora生成视频中的镜头、光线、场景运用乃至人物表情，都已达至影视级。

如果说语言的诞生使人类得以驰骋想象，那么“文本-视像”的突破，将令人类获得真正超越现实的能力，眼见未必是真，花花世界背后全是文本代码。OpenAI就指，Sora是能够理解和模拟现实世界的模型的基础，相信这项功能将成为实现AGI（通用人工智能）的重要里程碑。

相比原本宇宙老大Runway旗下的AI视频生成工具Gen-2，效果仍停留于幻灯片动图，Sora生成视频中的镜头、光线、场景运用乃至人物表情、动物动态，都已达至影视级。加上语音AI研究公司ElevenLabs同样通过将文字转化成AI音效，为原本无声的Sora视讯加添背景音效,难怪有电视大台老大警告，要“高度重视，紧咬紧放，绝不能一夜之间完败。”

Gemini 1.5功能劲

Sora打开新世界的大门，Google同时发布的大模型Gemini 1.5暂时锋芒被掩，但却可能是大语言模型（LLM）竞争新的分水岭。去年12月初才后知后觉揭盅Gemini 1.0的谷歌，短短两个多月就推出1.5版本，不单能够运行高达100万个Token（文本最小单位），远超ChatGPT4.5 Turbo的12.8万个，意味其可以一次性处理长达1小时的视讯、11小时的音频、3万行程序代码、逾70万字的文章。

Gemini 1.5分析Sora生成影片指，猫的毛发太过完美，因此可能并非真实影片。

例如，Gemini 1.5能快速分析“阿波罗11号登月”任务的402页记录，并梳理其中的事件和细节；能理解两部电影的剧本，比较剧情、角色差异；能分析NBA扣篮影片，最高得分扣篮的细节。Gemini 1.5亦能就Sora视讯是否是人工智能生成提出自己的见解，例如猫的毛发太过完美，因此可能并非真实影片。

Meta主攻机器智慧

更具野心的还有Meta，其首席人工智能科学家Yann Lecun就指，根据文本提示而产生的影片，看起来真实，但并不表示系统理解物理世界；例如，一段苹果落地的影片，并不意味发现万有引力。他甚至指，Sora是非常棒的创造性的辅助工具，但却不足以成为帮助人类采取行动的模型。

对Yann Lecun而言，重要的是构建“世界模型”，而非“像素”。为此，Meta最新发布非生成式大模型V-JEPA，旨在通过观察影片，预测被隐藏或缺失部分，从而对世界有更深刻了解，最终打造出能够像人类一样学习的先进机器智慧（AMI）。

无论是Sora还是Gemini 1.5还是V-JEPA，最大的震撼是，人工智能迭代演进速度之快超乎想象。上月底中央政治局会议提出“加快发展新质生产力”、“加强原创性、颠覆性科技创新”，挑战与机会同在。