随着ChatGPT的走红,生成式人工智能(AIGC)因其分析和创建文本、图像等的能力而成为各地的头条新闻。在如此铺天盖地的媒体报道下,我们几乎不可能错过从某个角度一睹AIGC的机会。在人工智能从纯分析过渡到创造的时代,值得注意的是,ChatGPT及其最新的语言模型GPT4只是众多AIGC任务中的一个工具。对ChatGPT的能力印象深刻的是,许多人都想知道它的局限性:GPT5(或其他未来的GPT变体)能否帮助ChatGPT统一所有AIGC任务以进行多样化的内容创建?为了回答这个问题,需要对AIGC现有的任务进行全面审查。现代生成式AI依赖于各种技术基础,从模型架构和自我监督预训练到生成式建模方法(如GAN和扩散模型)。在介绍了基本技术之后,本文根据各种AIGC任务的输出类型,包括文本、图像、视频、3D内容等,重点介绍了各种AIGC任务的技术发展,描绘了ChatGPT未来的全部潜力。此外,还总结了它们在一些主流行业中的重要应用,如教育和创意内容。最后,讨论了目前面临的挑战,并展望了生成式人工智能在不久的将来如何发展。

1、为什么AIGC会流行?

去年人们对生成式AI的兴趣激增,主要是因为出现了一些有趣的工具,如Stable diffusion或ChatGPT。在这里,我们通过关注是什么因素促成了如此强大的AIGC工具的出现,来讨论为什么生成式AI变得流行。从内容需求和技术条件两个方面总结原因。

1.1内容的需要

互联网从根本上改变了我们与世界交流和互动的方式,其中数字内容起着关键作用。在过去的几十年里,网络上的内容也经历了多次重大变化。在Web 1.0时代(20世纪90年代-2004年),互联网主要用于访问和共享信息,网站主要是静态的。用户之间几乎没有互动,主要的交流模式是单向的,用户访问信息,但不贡献或分享他们自己的内容。

内容以文本为主,主要由相关领域的专业人士生成,如记者生成新闻文章。因此,这样的内容通常被称为专业生成内容(PGC),这已经被另一种类型的内容所主导,称为用户生成内容(UGC)。与PGC相比,Web2.0中的UGC主要由用户在社交媒体上生成,如Facebook、Twitter、Youtube等。与PGC相比,UGC的体积明显更大,但其质量可能较差。

我们目前正从Web2.0过渡到Web3.0。Web3.0具有去中心化和无中介的特征,它还依赖于PGC和UGC之外的一种新的内容生成类型,以解决数量和质量之间的权衡问题。人工智能被广泛认为是解决这种权衡的有前途的工具。例如,在过去,只有那些有长时间练习的用户才能画出质量不错的图像。使用文本到图像的工具(如稳定扩散[357]),任何人都可以创建带有纯文本描述的绘图图像。这种用户想象力和AI执行力的结合,使得以前所未有的速度生成新类型的图像成为可能。除了图像生成,AIGC任务还有助于生成其他类型的内容。

AIGC带来的另一个变化是内容消费者和创造者之间的界限变得模糊。在Web2.0中,内容生成器和消费者通常是不同的用户。然而,随着Web3.0中的AIGC的出现,数据消费者现在能够成为数据创造者,因为他们能够使用AI算法和技术来生成自己的原创内容,并且它允许他们对自己生产和消费的内容有更多的控制,使他们使用自己的数据和AI技术来生产适合自己特定需求和兴趣的内容。总的来说,向AIGC的转变有可能极大地改变数据的消费和生产方式,使个人和组织在他们创建和消费的内容方面拥有更多的控制权和灵活性。

1.2技术条件

提到AIGC技术,人们首先想到的往往是机器(深度)学习算法,而忽略了它的两个重要条件:数据访问和计算资源。

数据访问的进步。深度学习是指在数据上训练模型的实践。模型的性能很大程度上依赖于训练数据的大小。通常情况下,训练样本越多,模型性能越好。

计算资源的进步。推动AIGC发展的另一个重要因素是先进的计算资源。早期的AI算法运行在CPU上,无法满足训练大型深度学习模型的需要。英伟达是一家领先的gpu制造公司。其CUDA的计算能力已经从2006年第一款支持CUDA的GPU (GeForce 8800)提升到最近的GPU (Hopper),计算能力提高了数百倍。gpu的价格从几百美元到几千美元不等,这取决于内核和内存的数量。张量处理单元(Tensor Processing Units, tpu)是谷歌专门为加速神经网络训练而设计的专用处理器。tpu可在谷歌云平台上使用,价格因使用情况和配置而异。总的来说,计算资源的价格正呈现出越来越亲民的趋势。

生成式人工智能(AIGC)概述:基本技术、AIGC核心任务和工业应用

2、AIGC任务:文本生成

NLP研究自然语言有两个基本任务:理解和生成。这两项任务并不是完全分开的,因为生成适当的文本通常取决于对某些文本输入的理解。例如,语言模型经常将一个文本序列转换为另一个文本序列,这构成了文本生成的核心任务,包括机器翻译、文本摘要和对话系统。除此之外,文本生成还向两个方向发展:可控性和多模态。

说明OpenAI如何训练ChatGPT的三个步骤的图表

3、AIGC任务:图像生成

与文本生成类似,图像合成任务也可以根据其输入控件进行分类。因为输出是图像,所以一种直接的控件类型是图像。图像类型控制包含许多任务,如超分辨率、去模糊、编辑、翻译等。图像类型控制的一个限制是缺乏灵活性。相比之下,文本引导控制可以根据人类的自由意志生成任何样式的任何图像内容。文本到图像属于跨模态生成的范畴,因为输入文本与输出图像具有不同的模态。

风格转换的例子作为一种形式的图像编辑

4、AIGC任务:超越文本和图像

与图像生成相比,视频生成的进展滞后,很大程度上是因为高维视频数据建模的复杂性。视频生成不仅涉及生成像素,还涉及确保不同帧之间的语义一致性。视频生成作品可分为非引导生成和引导生成(如文本、图像、视频和动作类),其中以文本引导时代(见下图)因其影响力大而最受关注。

文本引导的视频生成示例

5、工业应用

毫无疑问,自2022年以来,AIGC已经在社交媒体上疯传。例如,用户积极分享他们使用ChatGPT进行交互式对话的经验,或使用Stable diffusion生成带有文本提示的图像的经验。然而,如果AIGC不能用于行业的实际应用,以证明其价值,预计这种炒作将会减少。因此,我们讨论AIGC如何影响各个行业。

5.1教育

AIGC正在通过协助教学和学习来改变教育的范式。生成式人工智能在教学中具有变革的潜力,其应用范围从课程材料生成到评估和评价。同时,生成模型的应用已经开始影响学生的学习方式。

生成式人工智能技术可以为教育工作者提供个性化辅导、课程材料设计以及评估和评价。一个独特的幼儿外语教学产品,使用生成技术,如ChatGPT,可以吸引孩子的注意力,激励他们,并提供一个有趣的学习环境。高等教育需要接受人工智能在高等教育中的使用,这可以为学生创造更吸引人、更有效、更高效的学习体验。生成AI课程材料生成的主要好处之一是,它可以通过自动化创建和更新课程材料的过程来节省教师的时间和精力。此外,ChatGPT可以显著减少法学院教师的工作量,腾出时间来提高学术生产力或开发更复杂的教学技能。ChatGPT在促进教学方面的好处包括但不限于促进个性化和互动式学习。然而,ChatGPT的一些局限性,例如生成不正确的信息,加剧数据训练中的现有偏见,以及隐私问题,也可能出现。总体而言,应对这些挑战需要政策制定者和教育工作者共同努力,为适当使用生成式人工智能工具提供建议或指导。

此外,生成式人工智能技术可以帮助学生写论文,在家测试或测验,理解某些理论和概念,以及学术问题中的不同语言论文和论文。聊天机器人可以为学生提供全天候的支持,让他们在需要的时候得到帮助。ChatGPT这样的聊天机器人能够纠正语法,提出改进建议,并识别薄弱环节,可以为学生的写作提供即时反馈,帮助他们从错误中学习,随着时间的推移提高他们的写作技能。这不仅节省了学生的时间,也有助于他们成为更好的作家。根据在线课程提供商的一项调查,89%的学生使用ChatGPT完成家庭作业,50%的学生使用ChatGPT完成论文,48%的学生使用ChatGPT进行家庭测试或测验。此外,生成的人工智能可以根据个别学生的需求定制课程材料,例如学习风格和节奏,这有可能提高学生的参与度和学习成果。ChatGPT还可以帮助学生理解某些理论、概念和不同的语言文章,使他们更有效地工作。与生成的AI课程材料生成相关的还有挑战和担忧,包括生成的材料的质量,以及用于训练AI的数据存在偏差的可能性。因此,在教育环境中使用生成的课程材料之前,仔细评估和验证它是至关重要的[79]。

通过上述用例,AIGC有可能通过提高教育内容的质量和可访问性,提高学生的参与度和保留率,并为学习者提供个性化的支持,从而彻底改变教育。随着人工智能技术的不断进步,AIGC有望成为教育行业不可或缺的一部分,为学生提供更有吸引力、更容易获得和个性化的学习体验。

5.2游戏和元宇宙

大多数用户可能不会对游戏和元世界中的一刀切内容产生共鸣,在元世界中,个性化可以产生最佳体验。虽然游戏和元宇宙为用户提供了虚拟世界,但内容代表了用户的性格和个性。生成式人工智能使这成为可能,它不仅允许用户自定义他们的虚拟形象,而且还提供了不同的场景和故事情节,使体验更具沉浸感。

5.3媒体

随着生成式人工智能技术的普遍发展,它们在媒体和广告中扮演着越来越重要的角色。AIGC不仅促进了媒体的多样性,为受众提供了更好的体验,也使媒体从业者能够更高效地工作。

由AIGC驱动的媒体使报道内容和方式更加多样化,改变了媒体的生产方式和组织结构。AIGC可以应用于媒体中的各种应用,如编写机器人、新闻主播和标题生成。传统上,媒体依靠专业记者撰写新的文章和报道,这需要大量的精力和时间,导致文章数量有限。此外,新闻的时效性至关重要,新闻在一个小时后可能会黯然失色。生成式人工智能可以通过使用文本生成技术极大地帮助新闻业,使新闻业更加高效和响应迅速。

5.3其他领域

除上述领域外,AIGC有望在更多领域得到应用。例如,一种新药的设计和开发是复杂、昂贵和耗时的。平均而言,一种新药被市场接受需要30亿美元左右,10年以上的时间。这促使使用AIGC加速药物发现过程并降低成本。2018年,DeepMind创建了AlphaFold,它可以准确预测蛋白质的结构,被认为是药物发现和基础生物学研究的一个里程碑。其更新版本AlphaFold2于2020年发布,准确度比前者更高。由Justas Dauparas设计的ProteinMPNN可以为特定任务设计蛋白质序列,在短短几秒钟内快速生成全新的蛋白质。

除了直接利用生成的内容,AIGC还可以帮助各个领域的工作者提高工作效率。例如,在医疗咨询中,患者可以依靠聊天机器人获得基本的医疗建议,而只有在更严重的情况下才会求助于医生。在制造设计中,可以将AIGC与广泛使用的计算机辅助设计系统相结合,最大限度地减少重复工作,使设计师可以专注于更有意义的部分。

6、挑战与展望

6.1挑战

尽管AIGC在各个领域产生真实和多样化的输出方面取得了显著的成功,但在实际应用中仍存在许多挑战。除了需要大量的训练数据和计算资源外,我们还列出了以下一些最重要的挑战。

(1)缺乏可解释性。虽然AIGC模型可以产生令人印象深刻的输出,但理解模型如何得到输出仍然具有挑战性。当模型生成不期望的输出时,这尤其需要考虑。这种可解释性的缺乏使得控制输出变得困难。

(2)伦理和法律问题。AIGC模型容易产生数据偏差。例如,主要训练英语文本的语言模型可能偏向西方文化。侵犯版权和隐私是不可忽视的潜在法律问题。此外,AIGC模型也有被恶意使用的可能。例如,学生可以利用这些工具在论文作业中作弊,这就需要人工智能内容检测器。AIGC模型还可用于为政治活动分发误导性内容。

(3)领域特有的技术挑战。在当前和不久的将来,不同的领域需要各自独特的AIGC模型。每个领域仍然面临着独特的挑战。例如,Stable Diffusion(一个流行的文本到图像的AIGC工具)偶尔会生成与用户期望相差甚远的输出,例如将人画成动物,将一个人画成两个人等等。另一方面,聊天机器人偶尔会犯一些事实错误。

6.2展望

尽管生成式人工智能受到了前所未有的欢迎,但它仍处于早期阶段。在这里,简单介绍AIGC在不久的将来将如何发展。

(1)控制更加灵活。实现更灵活的控制是AIGC任务的一个主要趋势。以图像生成为例,早期基于gan的模型可以生成高质量的图像,但控制很少。最近的扩散模型训练大文本图像数据,使控制通过文本指令。这有助于生成更符合用户需求的图像。尽管如此,目前的文本到图像模型仍然需要更细粒度的控制,以便以更灵活的方式生成图像。

(2)来自微调。目前,ChatGPT等AIGC模型的开发主要集中在预训练阶段。相应的技术相对成熟;然而,如何为下游任务微调这些基础模型是一个有待探索的领域。与从零开始训练模型不同,优化的目标需要在基础模型原有的一般能力和对新任务的适应性能之间进行权衡。

(3)从大型科技公司到初创公司。目前AIGC科技主要发展了谷歌、Meta等大型科技公司。在大型科技公司的支持下,一些初创公司已经出现,显示出很高的潜力,如微软支持的OpenAI和谷歌支持的DeepMind。随着重点从核心技术开发转向应用,由于需求不断增加,预计将出现更多的创业公司。

7、总结

在技术方面,毫无疑问,AIGC在过去几年中取得了重大进展。当一项变革性技术出现时,市场往往对其潜在应用和未来增长过于乐观,这也适用于生成式AI。在过去两年中,来自风险投资(VC)的生成式AI资金大幅增加。一些批评人士担心,生成式人工智能可能会成为下一个泡沫。他们主要担心的一个问题是,大多数AIGC工具主要是好玩的,而不是实用的。例如,文字到图像的模式很有趣,但它们如何产生收入还不清楚。很难预测人工智能会如何进化。然而,这项工作的作者认为,生成式AI不太可能成为下一个泡沫,因为它是一个相对较新的和快速增长的领域,有许多潜在的应用。关于生成式人工智能是否会取代人类,导致大量工作机会的丧失,也存在着激烈的争论。另一方面,生成式人工智能也可以为拥有人工智能研究和实施技能的个人创造新的就业机会。受益于AIGC力量的行业也可能蓬勃发展,并创造更多的就业机会。