艺术创造力是人类最无可替代的能力之一,曾几何时,艺术是AI无法涉足的疆域。但从2014年推出的GAN,到近年的DALL-E、CogView、MidJourney,再到今年横空出世的Stable Diffusion,AI艺术生成不仅掀起了一股大众艺术创作热潮,并开始对人工智能技术和产业发展方向产生重要影响。AI从很大程度上加速了工业设计的流程,提升了效率,而反对者则认为,AI生成的作品无外乎机械复制、拼凑组合,远不能称之为艺术。

AIGC的创造力能给艺术带来什么帮助,10月底就这一话题,青源Workshop第10期「AI+艺术:应用与挑战」主题研讨活动上做过类似的论,在这里分享给你。

回答的嘉宾主要是北京智源人工智能研究院基础模型研究中心伍昱、中央音乐学院音乐人工智能系李子晋、中国传媒大学副教授吴卓浩、设计师西乔、中央美术学院设计学院教授费俊

北京智源人工智能研究院基础模型研究中心伍昱的分享

2018年左右,AI科学家Jason Weston在Facebook AI Research的一场讲座里提到了对未来的展望和AI研究者应该重点关注的方向,其中就有AI for Creativity。当时的AI技术在搜索、广告、推荐、翻译等任务上取得了不错的效果,很大程度上可以替代人工和传统的方法。但在全新的创造领域,AI创造力还是非常弱的,或者说没被真正有艺术创造力的人认可。但从去年到现在,极速发展的文生图

技术,可以说很大程度上向我们展示了AI的创造力。

2021年1月,OpenAI推出了DALL-E,引起极大轰动,这项技术展现了,人们可以通过输入「牛油果椅子」让AI生产相应的概念,也可以创造出一些真实世界中很少的概念。智源研究院也在2021年5月推出了中文的文图生成模型CogView,这项工作和OpenAI的工作算是同时期的探索。2021年11月MSRA提出了女娲模型,该工作不仅能生成图片,还能生成视频。同年12月百度提出了更大规模的ViLG。如果说2021年这项技术还停留在科研探索层面,那么2022年的大爆发则揭示了这项技术在商业落地上的成熟,更多的商业级产品开始出现,这其中就包括DALLE-2

、MidJourney、以及最近开源的Stable Diffusion,Diffusion成为文生图的主流技术。

智源研究院

也在今年上半年推出了CogView 2.0 和视频生成的CogVideo,当时也引起了不小的关注。在Stable Diffusion开源之后,我们也基于Stable Diffusion尝试做了一个中文版和国画版,生成效果的惊艳程度超过了我们的预期。

此外,我们把一张北大的图片尝试转换为Hogwarts School,生成效果很酷,这个工具让我们很简单地就能创造出一些脑海中的场景。

“罗马数字时代,乘法被认为是极艰深的概念,只有真正的数学家才懂得如何演算;而当阿拉伯数字出现,六七岁的孩童也能理解和用纸笔做计算——并非乘法本身困难,只因为数字的表示方法——UI获得了升级。”创造力曾被认为是少数幸运儿才能拥有的天赋,而随着十年前深度学习的爆发,创造力的新UI已被AI逐渐打开。如今,甚至“创造力新UI”这门技艺本身以及更先进AI技术的诀窍也不再局限于少数精英。

虽然AI技术的蓬勃发展,带来了很繁荣的景象和讨论度,但是我们确实也非常需要关注技术发展所带来的一些问题。

(1)AI生成图片的安全、合法性、版权问题。(2)AI作品是否会损害艺术家的利益?(3)怎样更好、更全面的评估AI生成的作品?(4)如何做好中文世界的AI生成?(5)未来AI与创作者、艺术家的关系。

万物有声中央音乐学院音乐人工智能系教授 李子晋——AIGC在音乐创造力上的作用

李子晋认为,人工智能时代下,对音乐创造力的理解可以拆解成几个关键词:

第一,音乐。音乐可以看作是一种数据(包括乐谱、音频、文字等各类数据),AI创造音乐最基础的就是数据构建工作。这些数据如何与计算连接,其中涉及到专家知识。

第二,计算。涉及到理解和分析,除了专家知识的加入,还依赖于听觉主观心理学

,声音要依赖于专业技术人员的翻译,才能打上标签。

第三,创造力。创造力是在分析理解的基础上,要考虑数据与理解之间的逻辑关系,而不是凭空想象出来的。此外设计方法的介入,可能是将创造力很好展现给公众的一个途径。

在音乐数据方面,李子晋团队构建了用于计算音乐学研究的大型音乐数据分享平台,其中包括用于MIR研究的多功能音乐数据库、中国传统乐器音响数据库、流行歌曲midi-wav双向数据库等,每个数据库又有多个数据集。基于这些数据,团队进行了很多数据库衍生相关的研究,在乐器分类方面有《基于卷积循环神经网络

的复音音乐中国民族乐器检测》,在演奏技巧的识别方面有《用于琵琶指法自动识别的网络图特征》,在音色空间研究方面,有《基于主观感知得分与客观音频特征的中国民族乐器音色相似性的研究》等。「万物有声」,团队希望基于对数据和声音的理解,做出艺术表达。比如团队成员采用洋流和鲸鱼迁徙的数据,做出「呐海」。这些艺术表达也包括实体界面的交互,交互设计的方式与大众沟通。

设计师 西乔——AIGC艺术创作与AI技术狭路相逢

西乔认为,由于DALL-E、CogView、MidJourney、DALLE-2、Stable Diffusion等的出现,数字艺术行业无论现在从事的细分领域是设计、插画、3D、游戏、动画、VR,在未来几年内都会面临AI技术带来的挑战。作为生成模型的使用者,西乔提出几个问题。

一,在视觉生成领域,AI在未来能做到什么程度?AI在多大程度上解放创作生产力,和现在的工作流、工具链做整合?创作本身是一个有很多环节的长链条,不仅仅只局限于图像生成这一步,涉及到需求、原型阶段、创作阶段,大量修订、返工,涉及写作、交付、复杂现实环境中的应用。现在大部分AI艺术使用者还停留在玩家阶段,不停去发现新模型、适用新模型,优化自己的prompt,做出满意的作品。乐趣很大,满足感很强。但如何让这些作品成为传统有收藏价值或者有交易价值的作品?能否融合到现有工作中让这些作品达到商业需求的标准?这是现在这些玩家很关心的问题。用AI图像生成模型来创作,是一件既容易又非常困难的事情,容易在于使用者可以直接调用模型,困难在于生成结果打磨到符合你的设计诉求、构想,质量上能够达到商业交付标准,达到形式上和内涵上的完美程度。

二,AI技术对于整个数字媒体创业行业的影响。所有人都会问,AI最先会冲击哪些工种,换言之,AI会优先敲掉哪些人的饭碗,时间窗口还有多久?西乔认为,新技术会淘汰适应性差的人,但是那些拥抱变革、适应力强的人,最终往往能驾驭新技术、发现新机遇,从此获得新收益。新的生产方式会被替代,新的工作岗位、新产业甚至新的艺术表现形式,会从变革中诞生。

三,AI艺术生成模型大火以后,会面临伦理上的争议,产生舆论问题。对于AI的仇视和恐惧是一种历史悠久的对于新技术的鄙视,可以称之为21世纪的卢德主义。对新技术的抵制数见不鲜,大部分普通人会恐惧新技术带来的变化和负面后果,担心会导致残酷竞争、失业、淘汰,会损害一部分脆弱群体的利益。同时也源于对AI技术的误解和无知。

四,AI模型的训练是否的确侵害了一部分群体,尤其是艺术家群体的利益,比如刚刚泄露了模型代码的Novel AI和二次元插画圈短兵相接的事件。Novel AI是一个封闭的收费商业模型,他们使用二次元分享社区的数据训练数据的模型,使得社区插画师分享者愤怒,产生强烈冲突。

中国传媒大学副教授、阿派朗创造力乐园

联合创始人 吴卓浩——AIGC是和小朋友们共创的方式

吴卓浩展示了阿派朗创造力乐园中「小朋友与AI共创」的项目。小朋友画的画,经常被成人认为「不像」,是因为他们的身心还没有成长到能够对造型做精确控制的时候,但其实他们画中的创意往往非常好,反而是很多成人无法达到的;如果让AI学习小朋友绘画的方式,再去绘制或者生成画面,就会既有小朋友画画的色彩、笔触风格,又有更成熟的造型能力。

小朋友还可以通过说出、写出自己的创意,让AI去生成影像变成设计作品、绘本故事;或者用表情和身体动作控制虚拟角色做表演,让AI帮助自己变身变脸,变成动画片;或者通过敲击音符、或者哼唱一段音调作为起始,让AI帮助自己作曲……通过自然的互动,小朋友和AI可以共创很多非常有意思的成果。小朋友做、AI学,小朋友想、AI做,小朋友和AI一起做,小朋友与AI可以用各种各样的方式进行合作探索,人类与AI的共创是无止境的。

中央美术学院设计学院教授 费俊——AIGC丰富了在新媒体艺术上的表达

费俊教授展示了新媒体艺术作品「水曰」。该作品在武汉公墓所做,公墓很适合表达生命,因此选择了一个人工湖。该作品全部埋在水下。费俊团队设计了一个人工智能交互的装置,人只有与湖面进行对话时,才看到湖面会以涟漪的方式回应。这是一个「看不见」的作品,既看不见技术也看不见作品本身,这个作品成为激活自然表达的一个不可见的能量。它的互动方式很特殊,人可以在现场对水说任何话,可以去哼一首小曲,也可以讲一段心里话,水会通过我们提供的一个声纹情绪识别的算法,解读声音中的情绪,并基于人的情绪做出回应。很多人以为它是声音可视化的作品,他们会去想通过呐喊激活水面的涟漪甚至看到喷泉,但是算法恰恰产生一个反面结果,当你情绪越激动、越极端时,水面往往会产生非常缓慢,甚至充满禅意的涟漪。费俊团队与中科院人工智能团队进行合作,用声纹识别方式完成该作品,并在展览中获得将近10万条数据,这些数据比原始数据更有效,通过打标签的方式再反哺模型。
新媒体艺术作品「水曰」

费俊认为,研究者普遍追求用人工智能模拟人的创造力,像人一样画画、唱歌、下象棋。同时,从另一个视角出发,机器拥有机器本身的智能,能否利用机器智能完成不一样的叙事。从这样的观点出发,费俊团队开发了一套基于氛围的模糊算法,通过捕捉人的基本属性,职业、人种、表情,甚至衣服色彩等数据源,共同构建了一个氛围值。该氛围值决定算法会把人带到地球上的某个角落。原因是他可能和某个角落的人、物、景,有某种氛围上的相似性。研究者通过把谷歌大量街景图片下载进行机器学习,再下载大量互联网上的家庭录像,构建了AI学习的数据库。基于氛围关联性算法加上语意联想式的算法,机器开始举一反三。算法可能无休止地在它认为有关联的图像之间进行关联,呈现一种失控的叙事状态。人为无法预计和设定。这样的关联突破了艺术家可能完成的关联多样性。

一位中年男性被算法关联到一个铺满黄花的墓地,显然黄花和他的衣服之间有某种相似性。费俊还介绍了团队的其他尝试,其中包括培训了3个戏剧角色式的AI机器人,利用3个月的时间将市场上成熟的语音机器人改造为服务态度不好,甚至有点「扎心」的机器人。在构建语料库过程中,不断让他口无遮拦地「说真话」。训练的结果是让AI在聊天过程中产生了非常尴尬的效果。费俊认为,只有这种破冰式的对话才能产生精神疗愈,这是一个极具精神疗愈式的实验。

黄花和他的衣服之间有某种相似性