首页香港脉搏理财/管理
港股强化版MQ
方展策

方展策

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

OpenAI新模型拥超能力,可替孩子补习、为视障者带路!

2024-05-20 10:02
1A+A-

   人类可否与计算机谈心、甚至谈恋爱呢?2013年上映的科幻电影《触不到的她》(Her)正是讲述男主角与AI语音助理的恋爱故事。随着OpenAI最新AI模型“GPT-4o”的面世,上述电影情节或有机会在现实世界发生!此模型拥有强大的语音处理能力,可以用亲切、富有感情的声音交谈,而且有着接近人类的对话响应时间,能够提供更自然、更逼近真人的沟通体验。AI技术发展至此,将对我们的世界带来什么改变呢?


文字、声音、视像全面推理能力


   2024年5月13日,OpenAI技术长米拉·穆拉蒂(Mira Murati)率领ChatGPT开发团队在YouTube进行直播,发表最新AI模型GPT-4o;当中的“o”意指“omni”,含有“全方位、全能”的意思,代表着新模型拥有文字、声音、以及视像推理的全面能力,不但可以接受文本、语音、图像及其组合的提示输入,还可以输出同样媒介形式的响应。


   尽管GPT-4已具备文字语音转换、图像辨识功能,惟这些功能却要交由3个模型各自执行:第一个模型把语音转录成文字,跟着GPT-4针对文字提问生成文本响应,最后由第三个模型把文本转换为声音输出。这样不但令响应时间被拖长,平均需时约5.4秒,而且在转换过程中会流失大量信息,使GPT-4无法感测用户声调、背景声音,更无法输出笑声或表达情感。


OpenAI技术长穆拉蒂表示,GPT-4o的速度比GPT-4 Turbo快上两倍,但成本却是后者的一半。(图片来源:翻摄OpenAI官方YouTube影片)


GPT-4o对话反应时间接近人类


   GPT-4o把这些功能汇集在单一模型“omnimodel”里,让语音延迟大幅缩短,可以在最快232毫秒(0.232秒)、平均320毫秒(0.32秒)的时间内响应语音提问,接近人类对话的反应时间。


   再者,GPT-4o因只有单一模型,所有输出、输入均在同一神经网络系统内完成处理,有效减少信息流失,故此它能够理解用户的语气,知道什么时候应做出什么响应,又可以在不同的语气间快速切换,从一本正经的语调,变换为活泼佻皮的语气。


   OpenAI释出多段短片展示GPT-4o逼近真人的沟通能力:GPT-4o可跟OpenAI开发人员流畅对谈,说话语气抑扬顿挫,又会在适当时候发出笑声,甚至懂得开玩笑;当人类插嘴打断其说话时,它会自动停下来,倾听人类说什么,然后根据新提问作出响应。


两个AI模型互相对话、交流信息


   更教人吃惊的是,两个AI模型竟然可以互相对话和交流信息。OpenAI开发人员在两部手机开启GPT-4o,要求启动了镜头的AI,向没有镜头的AI陈述所看到的事物,结果它清楚地说出眼前的开发人员身穿黑色皮褛和浅色上衣。后来,这两个AI更互相聊起来,甚至一起唱歌。


   论及实际应用,GPT-4o懂得50种不同语言,能够变身为实时翻译员。在示范影片中,GPT-4o能够在意大利文与英文、西班牙文与英文之间快速切换语言,让不同国籍人士进行跨语言沟通变得易如反掌,日后出国旅行或公干就不用再担心语言不通。


   GPT-4o又可以化身为私人补习老师。在展示影片中,一名父亲要求GPT-4o教导其儿子解答三角函数问题,但规定AI不可以先给答案,于是它藉由语音提示,一步步指导该名儿子自己算出答案,并称赞他做得好,以示鼓励。


GPT-4o透过iPad画面与语音提示,教导孩子如何破解三角函数问题。(图片来源:翻摄OpenAI官方YouTube影片)


GPT-4o可以充当视障人士眼睛


   对视障人士而言,GPT-4o更可以充当他们的眼睛,帮助他们探索现实环境。在示范片中,GPT-4o可以告诉站在伦敦街头的视障人士哪里是白金汉宫,可以走到哪里可以乘搭的士,甚至应该在什么时候举手叫车。


GPT-4o透过手机实现语音提示,告诉视障者可以在什么位置、什么时候举手叫车。(图片来源:翻摄OpenAI官方YouTube影片)


   直播结束后,OpenAI执行长萨姆·奥尔特曼(Sam Altman)社交平台X上发布了一个英文单字:“Her”,既是向电影《触不到的她》致敬,也暗示人类与AI谈恋爱似乎不再是遥不可及之事。OpenAI现已开始把GPT-4o的文字与图像输入、以及文字输出功能,逐步开放给所有ChatGPT服务,包括免费版本,惟付费版ChatGPT Plus的信息输入上限为免费版的5倍。


OpenAI现正逐步开放GPT-4o给ChatGPT用户使用。如用户进入ChatGPT后,看到“Introducing GPT-4o”信息,即代表获授权使用新模型了。(图片来源:翻摄OpenAI官网)


GPT-4o或会进驻于iPhone 16


   不少网友认为,GPT-4o的表现完全碾压iPhone语音助理Siri,对苹果(Apple)构成极大威胁。苹果当然心知自家AI技术远远落后于OpenAI,既然无法战胜,不如拉拢对方成为盟友。Wedbush分析师丹尼尔·艾夫斯(Daniel Ives)指出,Apple将于2024年6月举行的WWDC开发者大会上宣布,与OpenAI达成合作协议,将在下一代iPhone整合ChatGPT技术,并推出基于苹果AI模型的聊天机械人。


   事实上,OpenAI发表在计算机上运行的ChatGPT软件,竟然是先推出MacOS版本,稍后才会有Windows版本登场,足证双方现今关系非浅。因此,GPT-4o很有可能会现身于iPhone 16之上。艾夫斯认为,此举将吸引AI开发者涌入Apple生态圈,为iPhone开辟新的增长途径,甚至足以改写AI市场的游戏规则。人人手执iPhone跟AI谈天说地的光景,可能不远矣!


   《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

上一篇半导体迈向埃米世代!台积电A16芯片究竟有多先进?
下一篇有图未必有真相?AI生成假图触发不实信息传播危机
评论
我来说两句1