方展策

少年时，曾研习 Geographic Information System，可惜学无所成，侥幸毕业。成年后，误打误撞进入传媒圈子，先后在印刷、电子、网络媒体打滚，略有小成。中年后，修毕信息科技硕士，眼界渐扩，决意投身初创企业，窥探不同科技领域。近年，积极钻研数据分析与数码策略，又涉足 Location Intelligence 开发项目；有时还会抽空执教鞭，既可向他人分享所学，亦可鞭策自己保持终身学习。

AIGC成科技界新宠，Stability AI、Jasper获巨额融资！

2022-11-07 16:03

0A+A-

任何人只要输入寥寥数字，AI就能画出符合要求的斑斓画作，一下子让美术创作门槛变得极低！在全球经济不明朗下，投资者态度愈发保守，但这种AI生成图像技术却在逆市中备受追捧，相关初创近期陆续传出完成巨额融资的喜讯：Stability AI取得1.01亿美元（约7.88亿港元）种子轮投资；Jasper则获得1.25亿美元（约9.75亿港元）A轮融资。为什么这些AI作画工具在2022年突然爆红起来？当中蕴藏的商机到底有多大呢？

Stable Diffusion模型学习了逾50亿幅图像素材，因而能够生成轮廓细致的人像画作。其训练数据库内的图片主要来自Pinterest、Flickr等图片社交平台，以及Getty等商业图库网站。（图片来源：Stability AI官网）

AI初创两年内晋身独角兽

2022年10月18日，总部位于英国伦敦的AI初创企业Stability AI宣布，已完成由Coatue Management与Lightspeed Venture Partners领投的1.01亿美元融资。外界估计，其公司估值已攀升到10亿美元（约78亿港元），得以晋身独角兽行列。

Stability AI完成融资的翌日，总部座落于美国德州奥斯汀的AI初创Jasper，也拿下由Insight Partners领投的1.25亿美元投资，令公司估值上涨至15亿美元（约117亿港元），成为另一家新晋独角兽公司。

Stability AI创立于2019年，Jasper则创办于2021年，换言之，它们用了不足两年时间，便已升格为独角兽（估值达10亿美元或以上的初创）；就算以科网产业的发展标准而言，增长速度也非常惊人，这可说是2022年AI产业爆发式成长的缩影。

生成型人工智能爆发式增长

有别于传统的“分析型人工智能”（Analytical AI），这两家初创所研发的是“生成型人工智能”（Generative AI）技术，代表着AI不再是分析已存在的事物，而是正在产生全新的东西——“AI生成内容”（Artificial Intelligence Generated Content，AIGC）。

红杉资本（Sequoia Capital）近日发表一份题为《Generative AI: A Creative New World》的研究报告，预测从2020年至2025年之间，AIGC技术将会变得愈来愈成熟，能够生成文字、图片、影片、语音、程序代码、以至游戏模型等，为设计、游戏、编程、社交媒体等产业带来颠覆性的转变。

AI生成内容意指，基于AI算法而产生的文字、图片或影片内容。研发人员收集大量内容样本让AI学习，并了解个中规律，然后根据人类输入指令，按照不同规律而生成内容。AIGC技术一直存在，但过往却因技术本身的局限性，故此未受市场注视。

Diffusion扩散模型利用逆转噪点方式，逐步生成的AI画作。（图片来源：CompVis/Github网站）

生成对抗网络始终未成气候

2022年以前，AIGC研发团队主要使用“生成对抗网络”（Generative Adversarial Networks，GAN）来产出内容。这套算法模型是让两个AI网络以相互博弈方式进行学习：“生成网络”从训练图库中随机取样作为输入，其输出结果需要尽量模仿人类作品；“判别网络”则要将生成网络的输出作品，从真实样本中尽可能分辨出来。

生成网络要尽可能地骗过判别网络，让判别网络无法认出生成网络输出的是AI作品；如此一来，便可以产生最接近人类创作的图像。然而最大问题是，AI网络用作模仿的样本，均是来自人类创作的现成作品，于是生成内容只是无限仿制既有内容，意味着AI无法“创作”出全新作品。

譬如说，当用户输入一些天马行空的设计意念，如“眼睛长在额头的人脸”或“骑着由彩虹与烈火构成的单车”等，由于没有现成作品可供模仿，所以GAN通常就会失效。同时，在操作上，用户需要输入自己绘画的草图，让GAN将其转化为真实的图像；换言之，如果你不懂得画画，便无法有效使用GAN。

Google Imagen先以基础扩散模型把文字转化为解像度较低的图片，然后再用一系列超解像度模型，逐步提升图片解像度。（图片来源：Google Research官网）

DALL·E掀起AIGC研究浪潮

后来，因为“Diffusion”与“CLIP”算法模型出现，解决了GAN的问题，AIGC技术才有机会真正落地使用。Diffusion是一种去噪扩散模型，其原理是先给一幅图像不断加入噪点，直到整幅图完全被白噪音（White Noise）所覆盖，接着将整个过程逆转过来给AI学习。

AI所看到的是被噪点遮盖的图像，怎样一点点变清晰，直至回复原本模样；通过这个类似替相片去除噪声的学习过程，AI能够理解图像是如何逐步绘画出来。因此，Diffusion模型生成图像的精确度不但比GAN为高，而且更能符合人类审美逻辑。

CLIP（Contrastive Language-Image Pre-training）是一种基于对比图片与文字的训练模型，使用已经标注好的“文字-图片”数据给AI训练，让AI能够将文字与图像的意思进行匹配连接。有了CLIP后，才可以实现文字转化图像（Text-to-image）的崭新交互方式，容许用户输入文字来驱使AI作画。

2021年1月，AI研究机构OpenAI整合了Diffusion与CLIP模型，研制出能够以文生图的AI作画工具《DALL·E》，验证此技术方案的可行性，遂掀起学术界对AIGC的新研究浪潮。随后，多家科技企业也纷纷进场，投入AIGC技术开发。

Stable Diffusion用户逾千万

踏入2022年，不同公司与机构的AI产图工具相继诞生，形成百家争鸣的局面：3月，《Midjourney》启动Beta版本测试；4月，OpenAI推出制图解像度更高的第二代版本《DALL·E 2》；5月，Google Research发布AI绘图模型《Imagen》；真正将AI生成图像浪潮推上高峰的，是8月面世的《Stable Diffusion》。

相比起限制免费产图数量的DALL-E、不对外开放的Imagen，Stability AI旗下的《Stable Diffusion》不但免费给公众使用，更主动开放程序原始码，让其他人能够利用其原始码开发自己的AIGC应用，成功吸引逾2万开发者加入开发社群。

现时《Stable Diffusion》已被誉为最受欢迎的AI生成图像平台，日均活跃总用户数突破1,000万；其衍生AI作画工具《DreamStudio》的用户数亦超过150万，自8月以来累计产出逾1.7亿幅AI作品。Stability AI租用了亚马逊AWS云端平台上约4,000部NIVIDIA A100 GPU运算卡，以应付大量产图需求。

Stability AI现有约100名员工，获得1.01亿美元融资后，计划扩编到300人。该公司创办人兼执行长Emad Mostaque表示，现已跟一些政府与机构建立了合作伙伴关系来销售这项AIGC技术，所以该公司将具备一定的盈利能力。

Stable Diffusion原始码的开发社群现有约2万名成员，基于其原始码开发的AI生成工具涵盖图像、语言、音乐、3D等多个内容领域。（图片来源：Stability AI官网）

Stability AI建立了可供免费使用的《DreamStudio Lite》，让没有编程或绘画技能的用户，只要在平台上输入文字描述，便可直接产生AI图像。（图片来源：DreamStudio）

Jasper Art主攻营销图像设计

另一家拿到巨额融资AIGC初创Jasper，以“AI生成文字”作主打服务，能够产生适用于社交媒体贴文、博客文章、营销文案、或电子邮件等文字内容；其后又推出图像生成工具《Jasper Art》，同样可将用户输入文字转化成图片。

《Jasper Art》定位成专为营销图像设计而生的AIGC系统，特设无版权图片库，让用户以20美元月费订阅服务。Jasper总订户数现已超过7万，2021年收入达4,000万美元（约3.12亿港元），预计2022年将可暴增1倍以上，达到9,000万美元（约7.02亿港元）。

市调机构Gartner评估，及至2025年，生成型AI将占所有生成数据的10%，而目前占比仍少于1%。另一市调机构IDC预测，全球AI产业规模将在2025年增长至2218.7亿美元（约1.73兆港元）。由此可见，AIGC市场确是有很大的成长空间。

Jasper平台上不但有AI生成图像功能，也有AI生成文案服务，让用户可以同时获得好文章与精美配图。（图片来源：Jasper官网）

Jasper将《Jasper Art》定位成专门用于营销设计的AI作画工具，以建立品牌的差异化。（图片来源：Jasper官网）

版权争议阻碍AIGC商业化

不过，AIGC迈向商业化的道路上，仍然存有不少障碍，当中最受关注的是版权争议。AI学习所需的训练数据量极度庞大，就算是研发团队都无法保证，AI不会误拿需付费使用或有版权保障的图像资源。2022年9月，一篇刊登于《麻省理工技术评论》的文章指出，数码艺术家Greg Rutkowski发现其绘画风格被Stable Diffusion复制了，因而感到很不安。

为规避版权风险，Getty Images、Shutterstock等大型付费图库经已不再接收由《DALL·E 2》、《Stable Diffusion》、《Midjourney》等生成的AI画作。部分游戏制作人亦因顾虑版权问题，暂不考虑用AI产图技术来设计游戏角色与场景。

科技巨头Google对AIGC技术始终存有疑虑，故此一直抱持谨慎态度，只发表论文公布研发成果，但却未有将《Imagen》开放给公众使用。至于《DALL‧E》、《Midjourney》等则明确表示，用户拥有AI生成图像的所有权。

也有一些AIGC初创积极探索，解决版权争议的方法，包括：尽量清除训练数据库内有版权保护的图像素材；生成的画作结果附有版权风险提示；或者索性跟一些画家、摄影师或设计师直接合作，以分成或直接购买方式，鼓励他们来上传可以被利用来训练AI的图像。

事实上，AI训练数据库内可能含有受版权保护的内容，但因为AI生成内容充满高度的随机性与不确定性，就算有版权争议，举证亦非常困难。不过，随着愈来愈多艺术家抗议自己遭到AI抄袭，业界、学术界、以及相关政府部门应尽快探讨，拟定出比较好的版权解决方案。