AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来快速完成内容创作。
“新晋流量”ChatGPT的背后,AIGC是“昙花一现”?还是将引领人工智能进入新的时代?「AIGC 周报」将从【技术前瞻】【企业动态】【政策法规】【专家观点】带你快速跟进 AIGC 世界。
一、技术前瞻
1.ChatGPT:这一次,我问你答
提出有洞察力的问题,对于获取知识和扩展机器对世界的理解至关重要。然而,在 AI 研究中,提问的重要性在很大程度上被忽视了。随着 ChatGPT 等大型语言模型的快速发展,它们被证明可以在提供合适的提示(prompt)时提出高质量的问题。这一发现为开发自动提问系统提供了新的机会。
该研究介绍了一种新颖的图像字幕自动提问方法——ChatCaptiter:ChatGPT 被提示向视觉问答模型 BLIP-2 询问一系列关于图像的问题,通过不断从 BLIP-2 的回答中获取新的视觉信息,其能够生成更丰富的图像描述。
具体来说,ChatCaptainer 从一个任务指令开始,设置文本并概述 ChatGPT 的问题;当收到来自 BLIP-2 的答案时,便将聊天日志和问题说明提示给 ChatGPT,以继续询问信息获取问题;最后,为 ChatGPT 提供一个图像说明并结束对话。
该研究对常见的图像标题数据集(如 COCO、Conceptive Caption 和 WikiArt)进行了人类主体评估,并将 ChatCaptainer 与 BLIP-2 以及人工标注框比较。
结果表明,ChatCaptioner 的字幕提供的信息要多得多,其从人类评估者那里获得的选票是 BLIP-2 的三倍;通过 WordNet 同义词集匹配测量,ChatCaptioner 比 BLIP-2 多识别了 53% 的图像中的物体。
论文链接:
https://arxiv.org/abs/2303.06594
2.文本嵌入空间,打造个性化“文生图”
Diffusion 模型在图像生成方面表现出了卓越的性能,但其固有的随机性使得其生成的图像难以符合人类的预期。虽然 DreamBooth 和 Textual Inversion 等方法在这方面实现了一定程度的改进,但对多个参考图像和复杂训练的依赖限制了它们的实用性。
该研究提出了一种简单、高效的个性化方法,将高度个性化文本嵌入,通过分解 CLIP 嵌入空间来实现个性化和内容操作。这一方法不需要模型微调或复杂损失函数,但仍能通过单一的图像和目标文本对背景、纹理和运动进行操作,只需三分钟的简单优化过程,就能快速轻松地操作图像。
如下图,上方的兔子和狗的身份特征被很好地保留了下来,同时充分地操纵图像以与目标文本对齐;在下方,也将运动、背景和源图像的纹理转换为相应的目标文本。
通过对不同目标文本的实验,研究证明了这一方法能在广泛的任务中产生高度个性化和复杂的语义图像编辑。
如下图,可以看出,这项研究所采用的方法连续地生成在视觉上更符合给定文本提示的图像,并且在身份方面更类似于源图像。
论文链接:
https://arxiv.org/abs/2303.08767
3.与 AI “面对面” 聊天
虽然 ChatGPT 等对话系统在基于文本的交互方面取得了重大进步,但它们往往忽视了其他模式在增强整体用户体验方面的潜力。该研究展示了 FaceChat,这是一个基于网络的对话框架,可以实现感知情绪的面对面对话。通过无缝集成自然语言处理、计算机视觉和语音处理等技术,FaceChat 提供了一种高度身临其境的用户体验。
情感感知的面对面对话系统的开发面临着几个挑战,如手语理解、非语言线索的解释和实时处理等。为了克服这些挑战,该研究使用 WebRTC 优化了流水线,并在基于 GPU 的服务器上运行模型,以提供更高效、无缝的用户体验。
通过创建集成人物角色和情绪检测的聊天机器人,FaceChat 能够根据用户的不同面部情绪,做出相应的反应。
FaceChat 可以用于各种需要面对面对话的应用程序(如客户服务、咨询和情感支持),准确衡量用户的情绪状态和参与程度。FaceChat 易于使用,带有基于Python 的数据库,可与其他算法和模型轻松集成。
论文链接:
https://arxiv.org/abs/2303.07316
二、企业动态
1.微软宣布Copilot:AI Office文档
3 月 16 日,微软推出 Microsoft 365 Copilot,它将大型语言模型的强大功能与 Microsoft Graph 和 Microsoft 365 应用中的数据相结合,将文字变成地球上最强大的生产力工具。
Copilot 通过两种方式集成到 Microsoft 365 中:一是嵌入到 Word、Excel、PowerPoint、Outlook、Teams 等应用程序中;二是商务聊天。用户可以向它提供自然语言提示,如“告诉我的团队我们如何更新产品策略”,它会根据早上的会议、电子邮件和聊天线程生成状态更新。Copilot 将从根本上改变人们与 AI 合作的方式以及 AI 与人合作的方式。
(1)释放创造力。Word 中的 Copilot 会提供初稿以供编辑和迭代——节省写作、寻找资源和编辑时间。PowerPoint 中的 Copilot可帮助通过简单的提示创建精美的演示文稿,添加过往制作文档中的相关内容。借助 Excel 中的 Copilot,可以在几秒钟内分析趋势并创建具有专业外观的数据可视化。
(2)释放生产力。Copilot 副驾驶减轻了工作负荷。从总结冗长的电子邮件线程到快速起草建议的回复,Outlook 中的 Copilot 可在几分钟内清理收件箱。Teams 中的 Copilot 可以在会议期间总结关键的讨论要点——包括谁说了什么,人们在哪里一致以及他们不同意的地方——并建议行动项目。借助 Power Platform 中的 Copilot,任何人都可以自动执行重复性任务、创建聊天机器人并在几分钟内将创意转化为可用的应用程序。
(3)提升技能。Copilot 可让用户在擅长的领域做得更好,并帮助快速掌握尚未学习的内容。所有这些丰富的功能都可以使用自然语言解锁。
参考链接:
https://blogs.microsoft.com/blog/2023/03/16/introducing-microsoft-365-copilot-your-copilot-for-work/
2.Midjourney v5 发布:AI 画手终于把人手搞明白了
3 月 16 日,Midjourney 宣布了其商业 AI 图像合成服务的第 5 版,该服务可以产生逼真的图像,其质量水平被一些 AI 艺术爱好者称为“令人毛骨悚然”和“过于完美”。
Midjourney 在其官方 Twitter 上这样写道:“从今天开始,我们的社区可以测试 Midjourney V5。它具有更高的图像质量,更多样化的输出,更广泛的风格范围,支持无缝纹理,更宽的纵横比,更好的图像提示,更广泛的动态范围等等。开始探索吧!”
其中最值得关注的是,Midjourney v5 可以很好地生成逼真的人类双手。在过去的一年中,AI 艺术生成器无法生成正确的人类双手已经司空见惯,如今,“手在大多数时候都是正确的,一只手有 5 个手指而不是 7-10 个”,人类设计师 Julie Wieland 观察到。
参考链接:
https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/
3.OpenAI:期待已久的GPT-4来了
OpenAI 于上周二官宣了GPT-4,比其广受欢迎的前身 GPT-3.5更可靠、更具创意。ChatGPT 之前由 GPT-3.5 提供支持,该更新适用于为 ChatGPT Plus 付费的用户,并且 API 的访问权限将授予 OpenAI 等候名单上的有限数量的开发人员。GPT-4 与 GPT-3.5 不同的几个主要方面分别是:
(1)GPT-4 是“多模态”的:这意味着它可以查看和处理图像提示以及文本。用户可以要求聊天机器人描述图像,但它也可以将图像置于上下文中并加以理解。但是,聊天机器人仍然仅限于文本响应,无法自行生成图像。
(2)回答准确性显著提高:OpenAI 在博文中表示,GPT-4 产生事实响应的可能性比 GPT-3.5 高 40%。据该公司称,GPT-4 还具有比其前身更多的“高级推理能力”。更新后的聊天机器人仍然无法避免“幻觉”,即 AI 产生错误反应或推理错误的倾向。
(3)用户可以进行更长时间的对话:GPT-4 可以接收和生成比 ChatGPT 多八倍的文本,拥有更长的“记忆力”。最新版本可以处理多达 25,000 个单词,而之前的版本只能处理 3,000 个单词。
(4)更有创意:这一变化在随意的谈话中可能是“微妙的”,但当机器人面临复杂情况时就会变得清晰。通过与用户合作,聊天机器人可以制作和编辑创意写作任务,例如起草剧本。该公司补充说,更新后的聊天机器人可以学习用户的写作风格。
参考链接:
https://openai.com/product/gpt-4
4.谷歌宣布开放PaLM的API商业使用
PaLM 是谷歌在 2022 年发布的自然语言预训练大模型。最近,Google CEO 宣布开放 PaLM 的商业 API 使用。根据谷歌云公布的信息,目前 PaLM 通过以下方式为大家提供 AI 的接口服务:
(1)生成式大模型已经可以在谷歌云的 Vertex AI 套件中使用,目前开发者可以利用 PaLM 模型,基于 Vertex AI 的基础环境生成文本、图片,后续还会获权使用音频和视频的生成能力,也可以用私人数据微调大模型,并部署到个人环境中。
(2)Generative AI App Builder:可以将类似 ChatGPT 的对话机器人引入用户的系统中,实现问答服务。
(3)Google 将大模型的能力引入了 Google 办公软件,如 Gmail、Google Docs 和 workspace。
(4)发布新工具 MakerSuite,可以做原型设计,prompt 工程以及模型微调。
参考链接:
https://www.datalearner.com/blog/1051678807001327
5.Anthropic推出“更理性的Claude”
近日,由 Alphabet Inc 支持的 AI 公司 Anthropic 发布了一个大型语言模型,旨在通过以类似人类的文本输出响应提示来执行与 ChatGPT 类似的任务。Anthropic 的主创人员都是 OpenAI 的前高管,他们专注于生产不太可能产生冒犯性或危险内容(如计算机黑客攻击或制作指令武器)的 AI 系统。
上个月,在《纽约时报》专栏作家发现聊天机器人会在长时间对话中产生令人不安的反应后,微软表示对其聊天机器人加以新限制。为避免产生有害内容,聊天机器人的创建者会通过编程来完全避开某些主题领域,但聊天机器人也容易受到所谓的“即时工程”的影响,用户可以通过讨论来绕过这些限制。Anthropic 采取了不同的方法,在用大量文本数据“训练”模型时,给 Claude 一套原则,使其没有试图避免潜在的危险话题,而是旨在根据其原则解释其反对意见。
据 Anthropic 的说法,Claude 比其他模型(如 ChatGPT)拥有多项优势,比如对话更理性,有效地减少产生了 “种族歧视”、“暴力恐怖” 等有害输出的可能性。另一方面,Claude 提供了更多对用户友好的对话技巧,更容易引导到特定的对话方向。另外,当被问及超出其知识领域的话题时,Claude 会推迟回答,降低产生虚假信息的风险。
目前,Quora 通过他们的 AI 聊天应用程序 Poe 向用户提供了 Claude。有用户表示,“Claude 感觉比 ChatGPT 更健谈。”“我发现 Claude 在讲故事时更具互动性和创造性。”Claude 还通过与Notion的集成提高了工作人员和学校人员的生产力等。Claude 现已开放候补名单,同时支持企业用户和个人用户。
参考链接:
https://www.anthropic.com/index/introducing-claude
三、政策法规
1.美国版权局:生成AI可能有资格获得版权保护
随着 GPT-4 和 Midjourney 等生成式 AI 的使用更加普及,基于这些 AI 大模型的创造性应用也越来越多。3 月 16 日,美国版权局发布了指南,阐明了 AI 生成的内容何时可以获得版权。
指导意见提供了一些关于什么不符合版权条件的具体细节,当涉及到仅由提示生成的 AI 作品——没有进行任何修改——版权局将其比喻为“向受委托的艺术家发出指令”。这些作品缺乏人类作者著作权,因此不会被注册。
然而,正如在 Midjourney 案例中,将生成性 AI 安排成特定的作者——如设计漫画书的版面——有可能为该图像序列获得版权,如果这种安排“有足够的创造性”。
如果作者或艺术家修改了 AI 生成的材料,并且“这些修改符合版权保护的标准”,也适用类似的逻辑。指导意见说,例子可以是在 Adobe Photoshop 中修改 AI 图像,或通过使用吉他踏板改变 AI 生成的音频。
值得关注的是,该指南提到,作者“有义务披露提交注册的作品中包含 AI 生成的内容”。在注册作品时,作者必须区分哪些内容是人工创作的,哪些内容是 AI 生成的。如果申请人不确定如何引用 AI 生成的内容,版权局建议提供一份一般性声明,说明该作品包含 AI 生成的内容。如果不公开 AI 内容,作者将面临失去版权的风险。
不过,很明显,版权局只是处于处理这些复杂案件的最初阶段,而且指导意见仍然有些模糊不清。版权局将在今年春天的听证会上听取公众意见。
参考链接:
https://www.govinfo.gov/content/pkg/FR-2023-03-16/pdf/2023-05321.pdf
四、专家观点
1.Sam Altman:AI将重塑社会,“有点害怕这个”
OpenAI CEO Sam Altman 表示,AI 将重塑我们所知的社会,会带来真正的危险,但也可能是“人类迄今为止发展出的最伟大的技术”,可以极大地改善我们的生活。Altman 承认,AI 可能的危险实施让他彻夜难眠。“我特别担心这些模型可能会被用于大规模的虚假信息……现在 AI 在编写计算机代码方面做得越来越好,并可以用于攻击性网络攻击……我最想提醒人们的是,我们所说的‘幻觉问题’。该模型会自信地陈述事物,就好像它们是完全虚构的事实一样。”
关于非法或道德上令人反感的内容,Altman 表示,OpenAI 有一个政策制定者团队,他们决定哪些信息进入 ChatGPT,哪些 ChatGPT 可以与用户共享。“我们正在与各种政策和安全专家交谈,对系统进行审计,试图解决这些问题,并推出我们认为安全和好的东西,”Altman 补充道,“我们不会在第一次就做到完美,但吸取教训并在风险相对较低的情况下找到优势非常重要。”
最后,Altman 认为,ChatGPT 可以用作人类工具的方式超过了风险。他说:“我们都可以在口袋里拥有一位为我们量身定制的不可思议的教育者,它可以帮助我们学习……我们可以为每个人提供超出我们今天所能获得的医疗建议。”他鼓励人们更多地将 ChatGPT 视为一种工具,而不是替代品。
他补充说,“经过几代人的努力,人类已经证明它可以很好地适应重大技术变革,人类的创造力是无限的。但如果这种情况发生在个位数的年数中,其中一些转变,这是我最担心的部分。”
参考链接:
https://abcnews.go.com/Technology/openai-ceo-sam-altman-ai-reshape-society-acknowledges/story?id=97897122
2.Yoshua Bengio:ChatGPT 的成功或促使AI保密性发生灾难性转变
Yoshua Bengio 在谈到 GPT-4 等所谓的大型语言模型时说:“这些都是复杂的系统,我们在其他人的代码之上构建我们的代码,它也建立在世界各地的科学论文中正在撰写和评估的想法之上——我们建立在彼此的进步之上。如果人们行动太快而破坏了东西,那可能会很糟糕,甚至可能会引起整个行业的强烈反对。”他表示,市场压力可能会推动行业减少披露,这可能会阻碍科学进步并造成其他危害。
Bengio 认为,ChatGPT 的发布可以起到积极的作用,让世界非常清楚 AI 的前景和风险。“我喜欢围绕 ChatGPT 的媒体马戏团,这是一个警钟。”“我认为人们已经看到了前几年 AI 的进步,许多公司、许多政府都认为,有些事情正在发生,那些技术人员正在做他们的事情,没有意识到非常强大的系统就在眼前。”
参考链接:
https://www.zdnet.com/article/chatgpts-success-could-prompt-a-damaging-swing-to-secrecy-in-ai-says-ai-pioneer-bengio/