不只满足探索欲,这家初创公司将AI制图引入跨境电商产业
记者|李馨婷
跨境电商品牌SHEIN的爆火,把“小单快返”模式带入大众视野:商家先小批量生产多种款式的产品投放市场,根据初步销售数据反馈,对卖得好的产品快速反单,”试”出爆款,减轻库存压力。
该模式衍生出卖家对大量产品图的需求。面对高达几千的SKU(存货单位,可理解为单品种类),给每件衣服都找模特、拍照、修图将面临巨大的工作量和时间成本,这显然违背了“小单快返”的初心。
一家初创公司ZMO.AI从中看到了商机。
ZMO将时下大火的AI生成图像技术应用在电商场景。卖家只需提交产品图,并挑选适合的模特,稍加调整后,就可得到模特穿着自家服饰的展示图,还可以通过这些图片为不同人群调整服装版型、颜色。
由于商家在上架之前不确定哪款卖得好,可能把上千款衣服全部做产品图展示。“大力出奇迹。”ZMO创始人张诗莹笑称。
ZMO成立于2020年,今年5月获得了800万美元的A轮融资,由高瓴资本领投,GGV纪源资本和金沙江创投跟投。公司核心团队成员来自谷歌、苹果、Facebook、商汤、Adobe、腾讯等国内外互联网企业。
创始人张诗莹做硬件出身,毕业后在苹果做第一代AirPods的系统架构,后来又到谷歌做AR眼镜。她给自己的定位是“技术+产品”。
2020年,疫情催热了线上消费需求,张诗莹观察生成算法在Google Shopping上的应用时发现,线上商铺对内容有需求,在无实物的情况下,精致的产品图能够吸引来消费者。这也是ZMO选择从电商场景切入的原因。
ZMO决定从海外起步,其平台名为imgcreator,除去AI生成模特展示图之外,还有文字生成图片的AI Image Generator、消除图片元素的Remover.App、类似文字版Photoshop的AI Image Editor等功能。近期ZMO.AI发布了中文版,微信小程序“YUAN初”。
积攒人气靠C端,赚钱靠B端
近一年,文字生成图像产品百花齐放。Disco Diffusion、Midjourney、Stable Diffusion等如雨后春笋般冒出。谷歌、Meta、微软等科技公司也推出了Imagen、Parti、Make-A-Scene、NUWA-Infinity等同类产品,但大多尚未向公众开放。
这其中受关注较高的当属Stable Diffusion,因其代码和权重已公开发布,可以在大多数消费级GPU上运行。Stable Diffusion由慕尼黑大学和Runway的研究者共同开发,项目初期还获得过Stability.Ai的算力支持。后者刚刚筹得1.01亿美元融资,公司估值达10亿美元。
和Stable Diffusion不同,Midjourney的特别之处则在于运营模式。这是一个AI绘画聊天机器人,搭载了聊天工具Discord。用户在对话框描述自己想象中的画面,机器人就会发回一张图片。人们甚至可以在公共聊天服务器看到其他人的创作过程,其聊天社区有数百万人,用户之间的互动还能够催生创作欲和灵感。
张诗莹提到,不同产品使用的技术有所差别,即便是基于相同的底层框架,搭建模型不同、训练数据不同、用户使用习惯不同,所产出的图片也各有千秋,平台会根据自己的风格和场景去调整算法。以Midjourney为例,它的图片风格偏艺术绘画,更梦幻。而ZMO本身从电商场景切入,主攻真实照片高清大图、3D以及插画风格。
但张诗莹强调,电商只是ZMO最初探索的领域,是用于数据积累的初级阶段。看起来,ZMO的野心是做一个更广泛的内容创作平台,包括打造社区。目前很多ZMO的用户是“自来水”(免费、自发宣传某项活动的群体),关注了公司的社交账号,也会主动分享自己的作品。
尽管在C端(用户端)受到不少肯定,但现阶段ZMO的收入还是更依赖B端客户(企业用户)。
不同于个人用户为了满足探索欲而使用AI生成图片,B端用户需要的是实打实的生产力工具,也更愿意付出真金白银。目前企业端用户主要是出海电商厂家,他们对内容有批量、精细化的需求。
ZMO对B端和C端用户都采用会员费的收费方式,只是在B端电商模式下,公司和亚马逊、Shopify等平台会合作,将网站接入商家后台。张诗莹透露,目前ZMO用户中有70%是C端用户,30%是B端用户,80%-90%的客户来自海外。B端用户虽然数量少,但贡献收入更多,因其内容生产规模和C端用户不是一个量级。
不过,C端用户中有一类比较突出的人群,即博主、大V等个人创作者。他们对图片同样有较高需求,愿意为AI绘画、AI修图等功能付费,有介于B端与C端之间的特质,属于潜力客户。
技术突破打开潘多拉魔盒
人工智能生成内容(AIGC,Artificial Intelligence Generated Content)早已不是新鲜话题,但直到今年,相关技术的突破才让AI绘画真正爆火起来。
前几年,这个领域应用比较广泛的技术是生成式对抗网络(GAN,Generative Adversarial Network),还有OpenAI发布的GPT-3(Generative Pre-trained Transformer 3)模型和CLIP模型。
2022年,文字生成图像产品多点爆发,则是因为扩散模型(Diffusion model)在AI生成图像领域发挥了作用,该模型能够大大提高生成图片的质量。Stable Diffusion、DALL-E2等产品都运用了扩散模型。
ZMO算法团队负责人对界面新闻表示,虽然技术风向偏向Diffusion,但目前大多平台还是多个模型共存及合作,比如ZMO所使用的模型是Diffusion+CLIP/GPT3/Other Language Model+GAN(optional)。他认为Diffusion在解决一些技术落地瓶颈后会更有潜力,上限更高。
技术的突破极大降低了AI生成图像的专业门槛,创作者只需要输入文字就可以得到相对专业的画作,几秒钟的时间,可能会诞生意想不到的图像,这给人类的想象力带来无限可能。甚至可以说,AI吸收了各流派艺术家之所长后,诞生了自己的艺术风格。
AI作画对技术、资金要求的降低,让专业图像的创作“民主化”,但同时有关版权、伦理之争也随之而来。
对于AI生成画作的权属问题,至今尚无定论,而艺术届对版权极其敏感。当训练AI使用的图片来自网络时,任何人的作品都有可能被吸收、模仿,只能靠平台自己划分界限。
以ZMO为例,张诗莹告诉界面新闻,为了避免争议,平台训练模型所使用的画家作品皆为已过世画家。以中国《著作权法》来看,作者去世50年后,其作品不再受到著作权法的保护,任何人都可以自由使用其作品,但作者的署名权、修改权和保护作品完整权永远受到保护,即意味着使用其作品需要标注作者。
对于AI只会模仿名家画作、没有自己风格的争议,张诗莹认为,人类学习绘画的过程也同样是模仿,而在使用AI创作的过程中,用户通过调整权重,可以融合各种风格的精髓,也是一种再创作,“我更愿意把AI当成是一个人,从模仿到超越。”
但AI毕竟不是人,无法作出价值判断,对创作者的指令照单全收,因此衍生了伦理问题,比如恶搞政治人物、生成种族歧视的图片,还有早些年的AI换脸风波。
《金融时报》在一篇对AIGC的报道中,引用了英国艺术家马修斯通的一句话,称人工智能生成图像“既有民主的一面,也有压迫的一面”,潘多拉魔盒一旦打开,恶意也有了可乘之机。
ZMO后台就曾经出现过执着的用户,输入无数次敏感词,变换各种表达,希望生成被平台禁止的图片。目前行业内还出现了一些做中间商赚差价的人,靠AI绘画平台制作图片,然后转手卖给图片网站,已经有国外图片网站明确禁止了这种行为。
由于技术超前,尚无法律案例可以应对这些争议,各家平台主要靠自己制定规则来约束用户。在ZMO的数据清洗标准中,涉及政治、色情暴力、人身攻击、种族歧视的内容是被禁止的。
但这可能又会引发新的问题:平台是否妨碍了创作者的自由?用户可不可以只生成内容而不传播?关于AIGC,未来尚有无限可能。