1950年,计算机科学与人工智能之父图灵发表一篇名叫《计算机器和智能》的论文。这是人工智能的起点。
70多年后,2021年,OpenAI 推出了 DALL-E并于一年后推出了升级版本 DALL-E-2,用户只需输入简短的描述性文字,DALL-E-2即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。
但真正在大众层面引发广泛反响,还是在openAI推出ChatGPT 之后。这款由人工智能技术驱动的自然语言处理工具,也是自然语言处理发展中具有里程碑式意义的模型之一。
那么人工智能的未来会如何呢?在其中谁又将扮演举足轻重的角色呢?
70年的探索
回首人工智能的发展,并不是一蹴而就的,这中间经历了漫长的探索。早在上世纪60年代,就有科学家开发出来了一款可人机对话的机器人,主要通过关键字扫描和重组完成交互任务,不过后来由于高昂的系统成本无法带来商业变现,大家的热情渐渐消退。
转机发生在2014年,一个叫Ian Goodfellow的年轻人发表了一篇名叫《Generative Adversarial Networks》的论文,第一次提出了生成式对抗网络的深度学习算法,在方法上实现了人工智能的突破。
所谓的生成式对抗网络,核心思想在于两个部分:一个伪造者网络和一个鉴定网络。二者互相对抗,共同演进,在此过程两者的水平都越来越高,伪造者网络生成的内容就足以达到以假乱真的水平。
具体来看,生成式对抗网络的基本原理就在于两个网络:G(Generator)和D(Discriminator),分别是生成器和判别器。在训练过程中,生成网络G的目标就是尽量生成真实的内容去欺骗判别网络D。而D的目标就是尽量把G生成的内容和真实的内容分别开来。这样,G和D构成了一个动态的“博弈过程”。在理想状态下,博弈的结果就是G可以生成足以以假乱真的内容,而此时的D难以判定生成的内容到底是真是假。
在此之后,生成式对抗网络方法下大量AIGC领域的应用不断涌现,包括微软、英伟达、谷歌等巨头都在这方面实现了突破。
2017年,微软人工智能少女“小冰”推出了世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》。2018年,英伟达发布的 StyleGAN 模型可以自动生成图片,目前已升级到第四代模型 StyleGAN-XL。2019年,谷歌旗下的DeepMind 发布了 DVD-GAN 模型用以生成连续视频,在草地、广场等明确场景下表现突出。
它能够通过学习和理解人类的语言,进行对话、聊天互动。甚至能完成撰写邮件、视频脚本、文案、翻译、写代码、写论文等各种任务。上线短短5天,用户量突破百万,两个多月时间,月活跃用户数已达1亿。
AIGC强大的能力,可以在很多领域展现自己的魔法,比如在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势,打造新的数字内容生成与交互形态,AI绘画、AI写作等都属于AIGC的具体形式。
在内容生产上,AIGC变得高效容易,富有个性,它可以创建文本、音频、图像、视频、3D 模型。通过利用AI技术,AIGC能在大数据帮助下提升创作效率,突破创作内容和创作量上限。
其实所有应用背后都是一套机器深度学习算法模型,它经过大量训练完善模型,并最终模仿人类的思维方式来“生成”内容继而与人交互,它可以生成内容,包括文本、图像或语音,而ChatGPT 正是其中的文本对话模型。
模型的有效与否来源于数据处理的数量,比如Open AI 2019年 2月 14日发布的大预言模型GPT-2,是一个主要用800万篇 Reddit 论坛帖子、总计40GB 文本训练出来的语言模型,参数有15亿。到新一代GPT-3发布时,参数已经达到1700亿,是上一代的100多倍。2022年11月OpenAI 从 GPT-3拆出参数更少、聚焦特定任务的模型,这个模型被命名为GPT-3.5,也就是后来轰动一时的ChatGPT。
从这个角度也就可以理解,为什么现在说AIGC核心要素是算法、算力和数据。目前来看,包括生成式对抗网络在内的多种算法模型被证明是有效的,输出的内容足以以假乱真,而亚马逊云科技等云厂商所搭建的基础设施,算力性能也达到了极大的提升,另一方面,万维网已发明了几十年,在互联网上累计了海量的数据,足够可以用来帮助模型进行庞大数据的训练。
群雄逐鹿,谁领风骚
随着一些现象级应用的出现,AIGC 产业生态加速形成与发展,目前应用主要分为三大层,分别为基础层、中间层、应用层,第一层主要是由预训练模型的技术投入,主要代表为上游基础设施提供方如 Open AI、Stability AI 等;中间层是垂直化、场景化、个性化的模型和应用工具,比如ChatGPT;应用层即面向 C 端的用户的文字、图片、音视频等内容生成服务等。
这种产业生态的形成,从行业角度看,是有其客观规律的,从大语言模型再到应用,再到具体拥有商业价值的生成内容。
目前无论是Open AI、Stability AI都走向了模型即服务的道路,对外开源,努力要做行业的基础设施,Open AI大股东微软已经将ChatGPT 整合进Bing搜索引擎中,并且开放API接口,方便市场用户在此基础上开发使用。
以AI绘画走红全球的图片AI公司Stability早在去年就开源了自己训练的文字生成图片人工智能大模型 Stable Diffusion,借助这一模型,任何人只需要提供一段文字描述,就有机会创作出任意风格的绘画作品。据悉,Stability AI 计划通过为用户培训定制模型并充当通用基础设施来赚钱。
无论是Open AI、Stability AI目前已经都长成了独角兽,最新一轮融资Stability AI估值已经达到40亿美元,而Open AI估值更是达到了惊人的290亿美元。
ChatGPT在全世界的广泛成功,包括谷歌、百度在内的搜索引擎都感觉到了危机,如果未来要获取任何信息,只需要去问人工智能,就可以获得答案,何必还去谷歌和百度呢。
无论是新技术对传统巨头的冲击,还是追逐风口,外界也开始讨论中国什么时候开始出现本土的类ChatGPT应用。目前,无论腾讯还是百度,都在筹备推出自己的产品,腾讯针对类ChatGPT对话式产品已成立“混元助手(HunyuanAide)”项目组。百度表示,文心一言基于文心大模型技术推出的生成式对话产品文心一言将于3月面向公众开放。
AIGC已经证明了自身的价值,但必须指出的是,它的出色表现离不开预训练大模型的支持,大模型就意味着更高计算资源以及高效的平台进行训练和推理,据报道,Stability AI 拥有一个由4000多个在 AWS 中运行的 Nvidia A100 GPU 组成的集群,用于训练 AI 系统,包括 Stable Diffusion。维护成本相当高— Business Insider报告称,Stability AI 的运营和云支出超过5000万美元。
鉴于此,AIGC大模型往往离不开强大的“AI软件工具和平台”的支持。这就涉及到亚马逊云在AIGC领域扮演的角色。作为全球最大的公有云供应商,亚马逊云科技于2017年就开始布局,在re:Invent 全球大会上推出了全球首个用于机器学习的集成开发环境(IDE)Amazon SageMaker。Amazon SageMaker是一项完全托管的机器学习服务,它使不论开发人员、数据科学家、还是商业分析师都能够快速、轻松地准备数据,并在规模上构建、训练和部署高质量的机器学习模型,然后直接将模型部署到生产就绪托管环境中,大大降低了机器学习的使用门槛。
可以说,亚马逊云很早就开始了在AIGC领域的布局,而且已经服务了包括Stability AI 在内的多家明星企业,是在AIGC领域布局非常前瞻的云平台。
为了让行业更深入了解和探索AIGC,揭秘AIGC的概念及火爆出圈背后的驱动力,了解AIGC的商业化落地机遇及关键趋势洞察,以及探索AIGC在游戏、广告、电商等领域的创新实践,亚马逊云将于2023年3月9号14:00-18:00举办“ AIGC创新实践在线大会”。
除此之外,为了帮助广大AIGC算法与应用开发人员深入了解AI作画及基于大语言模型的AI对话服务背后的技术逻辑与实现方式,亚马逊云科技还将在全国12个城市陆续推出AIGC Day,邀请开发者携手亚马逊云科技专家一道,解密火爆出圈的AIGC领域的最新技术动态和行业实践,并在亚马逊云科技一站式全托管的机器学习平台Amazon SageMaker上快速搭建基于HuggingFace大规模语言模型的聊天机器人和Stable Diffusion的AI作画应用,全方位沉浸式体验和玩转AIGC。