金磊 发自 凹非寺

量子位 | 公众号 QbitAI

家人们,咱就是说,又被国产AI作画给狠狠惊艳到了!

不仅是在AI作画的审美水平和专业度上达到顶尖水平,更是把用户们的“福利值”直接拉满的那种:

免费,在线可用,易上手,画小姐姐特别方便(bushi)

话不多说,直接来欣赏一组照片:

如果不说是AI生成的,相信很多小伙伴会以为是俊男靓女的真人写真了吧。

毕竟这根根分明的发丝、清晰可见的肤质,还有纵横交错的光影,着实是有点影楼摄影级的了。

就算是打破次元壁,在二次元的作画处理上,每张图也都是达到了“拿来即用”的水平:

这便是来自商汤科技最新升级的AI文生图领域的预训练模型——秒画Artist v0.3.5 版本,而且还是时隔仅3个月迭代出来的新版本。

我们知道,预训练对于提高模型的泛化性帮助很大,这样往往只需要少量训练和模型优化,它就能在新的下游任务中取得出色的表现,也就是大家通常所熟悉的LoRA模型。

现在市面上,很多知名LoRA模型,例如-blindbox/大概是盲盒,都是基于Stable Diffusion,添加相关数据,来进行训练,从而在某一个垂类领域可以达到非常出色的作画效果。

但是,Stable Diffusion作为泛化性支撑的预训练模型,其本身的作画效果并不会太突出。

那么秒画Artist v0.3.5作为商汤最新的预训练模型,在不额外训练LoRA模型的情况下,能达到什么样的水平呢?接下来,就让我们从各个不同领域,深入来了解一下它的真实水平。

摄影级AI作画体验实录

要想看一个AI作画的水平,首先就得主打一个方方面面,各种类型风格需得全能hold住才可。

那么接下来,就开启我们的多轮测试吧~

猜猜谁是真人

我们先来看下这两张照片,你是否能猜到哪张是真人呢?

无论是人物的表情、头发和衣物的细节,这两张都妥妥是真人模特出镜的水准。

现在我们就来公布答案——右图正是由秒画生成的AI画作。

而且提示词也是极其的简单:

中国女生,摄影风格,敦煌飞天风格,首饰细节精细,恢宏大气

为了检验秒画是不是一直能够输出如此高质量图片,我们继续输入提示词:

中国男孩,肖像照,黄色的花朵,白光,阳光进来,光影。

应当是完全符合光看提示词时,所脑补出来的画面了。

我们再加大难度,添加一些天马行空,但同样颇具艺术气息风格的提示词:

一位摇滚明星的肖像,全身裹着珠宝,详细的面部,杂志,奇幻森林背景,大卫·拉夏贝尔的作品,微光,月光,高度细致照片级真实感,细节,杰作,大师摄影作品。

毫无压力完成画作!所以不难看出,秒画在专业摄影水平上是过关的。

利好二次元爱好者

自打AI作画火爆起来之后,二次元风格也成了检验能力的标准之一。

我们再来看下秒画在二次元上的“功力”如何。

先“投喂”几段国漫风的二次元提示词:

二次元,清朝古装男孩,漂浮和水下夸张的身体动态,纠缠着红色和金色的锦鲤,超现实的油画,廷德尔效应,水滴,夏天,梦幻的色彩。光折射到水中产生虹彩反射、宝石光、超细节、廷德尔效应、最佳质量。

颇有《大鱼海棠》的味道了!而且画质上也比普通二次元风格要精进不少。

再来:

二次元,中国古代少年将军,女性,目光锐利,轻甲,劲装,暗红色布料,银色花纹,护肩,护腕,玉佩。

同样是妥妥可以出片儿的国漫风水准。

我们继续上难度,若是把“赛博朋克”和“中国武侠”来个混搭,秒画又该如何接招?

动漫,中国少女仿生人,3D风格脸型,紫色,战斗中,黑烟流中间,紫色烟雾缭绕,符文环绕,武侠动作皮肤,精致五官,汉服机甲,投影全息显示。中国武术动作、全息光环、荧光、丰富背景、赛博朋克、特效、3D美术、OC渲染、超写实、写实细节、微小细节、细致描绘、未来主义、3D渲染、虚幻引擎、超高清、8K。

可以说是非常符合国漫的二次元风格,并且每幅作品都可以直接拿来当封面了有木有!

接下来,我们再大变风格,再来个lol同好们,最喜欢的金克丝同人画创作:

Prompt:金克丝,二次元,插画艺术

如何?是你心目中的金克丝吗?

再来一个童年回忆,美少女战士!

二次元,克劳德·莫奈的风格,印象派,月野兔来自漫画美少女战士,绘画,笔触。

宛如动画片的某一帧镜头,人物的眼神和表情也是非常符合提示词的要求。

天马行空的创造力

中规中矩的作画之后,我们再来测试一下秒画的想象力。

实验电影技术,前卫电影肖像,被底片遮蔽,多层页面,低角度,胶片图像,融化,划痕,刺穿,撕裂,抽象。

不得不说,当看到这幅作品的时候,有被深深的震撼到;不论是作品的灵感亦或是妆造,都着实有点太前卫了。

再来看几组脑洞大开的未来科幻大作:

同样,依旧是被科幻与大胆的想象力所震撼。

经过多轮测试,我们可以发现,秒画Artist v0.3.5模型,作为一个基础的预训练模型,不仅保持了很好的泛化性,在画面的细节效果上也有很优秀的表现,在某些垂类的作画领域,甚至可以达到与LoRA模型相媲美的效果

与Midjourney同台竞技

在纵向看完秒画的最新能力之后。相信很多人希望我们请出来更具挑战性对手——Midjourney

我们做比较的方式非常简单粗暴:同样的提示词,直接比效果。

我们第一个提示词是:

一位美丽的异域女子,蓬松飞扬的长发,印第安风格头饰,金属风格,逆光,皮肤纹理,废土风,细节感,摄影作品。

A beautiful exotic woman with long, fluffy hair, Indian style headdress, metallic style, backlight, skin texture, wasteland, sense of detail, photography.

秒画给出的作品结果如下:

Midjourney给出的效果是这样的:

不得不说,在最终效果上是难分伯仲的,都非常符合提示词要求的意境。

再来动漫与科幻结合的比拼:

一个穿着白色服装的男人被一个巨大的圆盘包围,看起来,低角度视图,夜核风格,深青色和深红色,机甲动漫,未来派色波,噩梦,错综复杂。

A man in a white costume surrounded by a huge disc, looks, low angle view, nightcore style, dark cyan and crimson, Mecha anime, futuristic color wave, nightmare, intricate.

秒画的输出结果如下:

而Midjourney从不同角度给出了它的“理解”:

单单是在这个“题目”上,个人更倾向于秒画的作品,构图和意境相对更加完善一些。

最后前卫抽象派的水平:

抽象的脸,拼贴。

an abstract face, collage style.

左:秒画;右:Midjourney

那么对于二者的比较,你觉得谁更胜一筹呢?

不过在实用性上,秒画单是在免费这一条上,应当算是更胜一筹了。

其实秒画作为预训练模型,在这样的对标比拼中能够展现这样的作画能力,已经十分令人惊喜。

我们还了解到,用户可以基于秒画Artist v0.3.5 模型进一步训练小模型的功能,目前已经在B端开放应用了,这样企业可以基于秒画的能力,训练打磨自己的专属模型。

也让我们期待这一功能面向C端开放,让秒画能够进一步释放全部实力。

如何“食用”?

在操作上,秒画也是非常的好上手。

在官网注册登陆之后,直接点击“开始创作”,即可开启AI作画之旅。

根据自己的需要,选择自行选择商汤自研大模型(Artist)或各类社区开源模型,也可根据风格倾向自行LoRA模型。

在图生图界面,新版本的秒画还将ControlNet这一宝藏工具进行了整合,用户无需跳转,直接在“图生图”功能下即可使用,进阶创作更快捷。

是不是很简单?

如果大家灵感枯竭,也可以点击“灵感广场”,进行“充能”哦。

例如,汇集了用户诸多优质作品,包括完整的提示词,可以在灵感枯竭的时候“充能”。

并且在模型与数据集的选择上也并非单一不可改,在主页的上方菜单栏中即可进行选择。

不难看出,秒画在用户体验上也是主打的一个“方便易懂”。

怎么做到的?

正如我们前文提到的,秒画3.5的版本迭代,仅仅耗时3个月。

而追溯到更早的版本,秒画也在不断成长:

2023年1月:秒画Artist v0.1.0模型,内测上线。

2023年4月:秒画Artist v0.2.0模型,正式上线,是商汤首款基于14亿参数文生图模型打造的C端应用。

2023年7月:秒画Artist v0.3.0模型,参数量提升至70亿,并采用全新的生成模型架构。

2023年10月:带有全新美学引导算法的,秒画Artist v0.3.5模型,正式公测。

可以看到,近乎是每3个月便有一次版本的更新。

随之而来的一个问题便是:怎么做到的?

其实早在半年前,商汤站在AIGC新时代下,围绕数据、算法和算力三要素给出了一个新公式:

计算量(GPU数量 x 运行时间 x 并行效率 )= 模型参数量 x 处理数据量

这个公式侧重体现的是大数据和大算力方面的发力,但除此之外,我们发现商汤实则在算法方面也做了不少的工作。

据了解,秒画的预训练模型是由商汤科技基模型研究团队支撑完成。

过去的几年中,商汤在大模型结构设计、训练优化、平台和数据、算力等领域都有长期的深耕与投入,有架构设计和优化方面的丰富经验和积累。不但储备了超过50亿的有效图文数据,更发表10+相关论文。

例如在上半年提出的RAPHAEL算法,便是通过探究生成模型的内在性质,设计更高效的稀疏架构来强化文本理解和生成能力。

简单来说,这项技术是通过堆叠数十个“多专家模型”( Mixture-of-Experts,MoEs),包括空间维度和时间步维度等等,从而实现从网络输入到输出的数十亿个扩散路径。

而这些个路径,每个都可以视为一个“画家”, 用扩散时间步长将特定文本概念描绘到指定图像区域上。

基于RAPHAEL的生成效果图

从综合实验上来看,RAPHAEL在图像质量和美学吸引力方面已经优于当时众多的尖端模型。

在此之后,商汤还在基础文生图预训练模型方向进一步探索更高效的基础网络架构、大规模训练优化算法、美学算法引导架构设计、空间感知的动态文本尺度控制等算法,提升AI作画的生成质量和能力。

在这般努力之下,也就有了我们目前看到的秒画3.5版本了。

总而言之,有大数据、有大算力、有大模型,算法技术也在不断优化,商汤能够让秒画每三个月做到版本迭代就不难理解了。

最后,秒画的地址放下面了,感兴趣的小伙伴可以开启高质量、免费的AI作画之旅了~

秒画入口:

https://miaohua.sensetime.com/

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~