首页香港脉搏理财/管理
港股强化版MQ
方展策

方展策

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

OpenAI惹官非!AI公司被控侵权,“合理使用”引争议

2023-03-06 15:06
1A+A-

   无论是文章、画作、抑或是影视作品,版权当然是归属于创作人。但随着ChatGPT爆红后,AI生成内容的数量不断增加,相应的版权法律问题也开始浮现——抓取网上数据来训练AI,涉及是否重制内容而侵权、有无合理使用?此争议不仅引起法律界与学术界的广泛关注,更触发了版权持有人与AI业者的冲突。商业图库Getty Images公司、程序代码寄存平台GitHub开发者社群已先后告上法庭,指控AI公司侵犯版权,似乎预告着2023年将成为AI诉讼年!


Getty控告Stability AI侵权


   以ChatGPT为首的生成式AI服务在2022年大爆发,不论是科技大,还是初创公司,均争相在自家服务嵌入AI技术来优化使用体验,甚或打包成独立产品推出市场。目前市场上主流的生成式AI服务,分别为“生成文本”、“绘制图像,以及“产制程序代码”三大领域。


   目前引起最大版权争端的,正是AI绘制图像服务。Getty Images于2023年1月已在英国伦敦高等法院正式向Stability AI提告;同年2月,更跑到美国特拉华联邦法院发起诉讼。Getty指控AI公司Stability AI在未经授权下,复制和使用其图库中逾1,200万幅受版权保护的图片,以训练其AI图像生成模型Stable Diffusion,藉此获取商业利益,损害原创作者的权益。


   该公司进一步指出,其图库内容高质而多元化,非常适合用来训练AI模型,故此有提供图片授权给其他AI业者,惟Stability AI却从来没有向Getty寻求授权方案。此举不但侵犯版权,更违反公平竞争。


Stability AI从互联网上抓取逾50亿幅图像素材,供其AI模型Stable Diffusion进行数据训练,当中包括Getty Images图库内的图片。(图片来源:Stability AI官网)


基于AI模型Stable Diffusion而运作的AI绘图服务DreamStudio,用户只要适当的描述文字,就可以快速生成4幅图片,从中选拣合心意的再作微调。(图片来源:Stability AI官网)


AI记住训练图片再生成复现


   在诉讼书中,Getty援引Google、Deepmind、苏黎世联邦理工学院等多所著名大学的研究人员,于2023年1月联合发表的研究论文,证明AI图像生成系统可以记住训练数据中的图像样本,并在生成过程中重新复现出来。


   Getty提出了Stability AI涉嫌抄袭的明显证据——Stable Diffusion生成的部分图像中会呈现扭曲的Getty水印。该公司认为,这样可能会对其用户造成困惑。目前Getty已要求法院,勒令Stability AI停止取用其图库中的图片,并作出金钱赔偿,当中应包括Stability AI侵权后所获利润。


   有法律专家表示,Getty所提诉讼非常有力,但估计Stability AI可能会以“合理使用”(Fair Use)作抗辩理由——利用他人的作品,在新的框架下创造出新的内容、服务或应用,这样会被视为“合理使用”原则下的“转化性使用”(Transformative Use),这样便不会构成侵害他人版权。不过,在这个未知的法律领域中,最终审判结果如何,着实难以预测。


Getty Images指控Stability AI未经授权,擅自拿取其图库内逾1,200万幅照片来训练Stable Diffusion。(图片来源:翻摄Getty Images官网)


GitHub开发者起诉OpenAI


   另一宗瞩目的AI侵权官司,则是来自AI产制程序代码领域。GitHub与OpenAI取用GitHub平台上,由不同开发者贡献出来的公开程序代码,用作训练OpenAI Codex人工智能系统,藉此开发出AI生成程序代码服务GitHub Copilot,让软件工程师免去翻查技术文件、寻找程序代码语法的不便,有助加快软件开发进程。


   GitHub Copilot于2022年6月正式推出,每名用户需每月缴付10美元(约78港元)的服务费。同年7月,软件自由保护组织(Software Freedom Conservancy)公开批评,Copilot擅自把开源(开放原始码)社群的资产当作牟利工具,可能涉及侵权问题。


   2022年10月,一名唤作Tim Davis的开发者站出来指控Copilot,并提出证据证明Copilot曾使用其程序代码,因而引起美国律师事务所Joseph Saveri的关注,对此事件展开调查。


   随后,Joseph Saveri于同年11月代表GitHub平台上的多名开发者提出集体诉讼,控告Copilot违反《数码千禧年版权法》(Digital Millennium Copyright Act)、《不公平竞争法》(Unfair Competition Act),以及GitHub私隐声明与服务条款。


   GitHub是Microsoft旗下子公司,而微软又是OpenAI的大股东,加上Copilot是在Microsoft Azure云端平台上运作,所以Joseph Saveri把微软连同GitHub与OpenAI一起被列为被告。


由OpenAI与GitHub共同开发的的AI生成程序代码服务,能够主动侦测程序上下文、分析批注中的文意,进而提出程序代码建议,可以帮助开发者缩短开发时间。(图片来源:翻摄GitHub Copilot官网)


美国律师事务所Joseph Saveri代表众多GitHub开发者,对Microsoft、OpenAI与GitHub提出集体诉讼,并向3家被告公司索偿90亿美元。(图片来源:翻摄Joseph Saveri官网)


Copilot涉嫌进行大规模盗版


   Joseph Saveri指出,Copilot产出的程序代码很多时只是复制来自GitHub开源数据库的程序代码,但却没有显示相关程序代码的归属、版权声明、以及授权信息。


   尽管开发者摆放在GitHub上的程序代码都是开源的,但使用时仍需获得特定授权,或要表示其版权归属。可是,Copilot既未获授权,又隐藏了程序代码的归属,仿佛这一切全是由Copilot凭空创作出来,然后向其他开发者收取服务费。


   GitHub开发者社群认为,Copilot擅自取用GitHub上由开发者提供的程序代码来训练AI模型,不属于“合理使用”行为,而是以前所未见的规模进行盗版,最终只会把大量开源程序代码封入Copilot的付费墙内,伤害原创作者的权益。


   根据Joseph Saveri的估算,Copilot推出后已违反《数码千禧年版权法》达360万次,以每次违法的最低法定赔偿金为2,500美元来计算,向3家被告公司索偿90亿美元(约702亿港元)。


微软主张原告指控无事实根据


   面对GitHub开发者社群的控诉,微软主张原告提出的指控没有事实根据。2023年1月,Microsoft与GitHub向法院声请,Copilot侵害版权的指控欠缺两个重要元素:原告既不能精确叙述Copilot造成的损害权益为何,又没有办法提出其他有事实基础的论点,所以向法院要求驳回诉讼。


   3家被告公司指出,原告指控Copilot侵犯GitHub开发者版权仅属理论性假设,认定Copilot输出的程序代码有可能跟原告发表的程序代码一致,惟却未有列举实际例证或有明确姓名的受害者,证明Copilot究竟侵犯了哪些版权。


   他们更援引Google与Oracle的侵权诉讼案作例子,试图证明Copilot拿取GitHub程序代码进行AI训练,属于“合理使用”范围。Oracle于2010年控告Google侵犯其Java API软件版权,案件争论点在于Google取用归属于Oracle的Java API,是否符合“合理使用”原则下的“转化性因素”(Transformative Factor)。


   Google主张,他们基于Java API研发出《Android OS》操作系统,创造了全新的Android手机使用体验,已然属于“转化性使用”。最终这个主张被美国最高法院所接纳,于2021年判定Google胜诉。


AI案件争论点:合理使用原则


   3家被告公司声称,Copilot没有从GitHub开源数据库中撷取任何程序代码,而是从中学习到编程知识,进而为用户产出程序代码建议,这已是程序代码的“转化性使用”。


   律师事务所营销顾问公司Esquire Digital的首席法律分析师亚伦·所罗门(Aron Solomon)指出,程序代码的“转化性使用”必须为改变程序代码本身,或是转变程序代码的用途。然而,个别案件是否可以“合理使用”受版权保护的数据来训练AI,还须由法院裁定。


   Stability AI与GitHub Copilot的侵权案均涉及“合理使用”的争论点,案情发展现正受到AI业者的密切关注;尤其是Copilot的诉讼,一旦OpenAI输掉官司,将会成为案例。


   如此一来,基于OpenAI旗下GPT语言模型、或ChatGPT技术而运转的AI服务,每提出一个程序代码建议、每产制一张图片、甚或每生成一篇文案,都有机会因为没有说明其归属于谁、版权和授权条件而违法。这样很有可能引发外界对OpenAI,或有使用OpenAI技术的公司提出连番诉讼,将会严重影响OpenAI,甚至整个生成式AI业界的未来发展!


2010年,Oracle状告Google侵犯其Java API的软件版权。这场官司持续了11年,期间双方互有胜负,最终美国最高法院于2021年4月判决Google胜诉。(图片来源:Oracle官网)


根据Google的主张,他们使用Oracle旗下的Java API开发出《Android OS》作业平台,为手机用户带来崭新的使用体验,故此属于“合理使用”原则下的“转化性使用”。(图片来源:Android官网)


   《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

上一篇AI创作未必有版权保护!著作权谁属?取决于人类参与度
下一篇记者、作家饭碗不保?ChatGPT取代人类写书、写新闻
评论
我来说两句1