编者按:本文翻译和整理自Roger Montti的文章《What is ChatGPT And How Can You Use It?》,主要介绍了ChatGPT的基本信息、语言模型、训练方法等内容,并展示了它的应用场景和不足之处,可以帮助我们为它的后续应用做好准备。
ChatGTP是由OpenAI公司开发的一款长文本问答式的AI,可以以会话的形式回答一些复杂的问题。
由于ChatGTP所受的训练,是学习并理解人类所问问题背后的目的,因此被认为是一项具有革命性的技术。
许多用户对ChatGTP表现出来的、极具人性化的回答感到震惊,并感觉它可能会最终打破人类与电脑的交互方式,以及信息获取的方式。
什么是ChatGPT
ChatGPT是由OpenAI公司开发的、基于GPT-3.5的大型语言模型聊天机器人,它在交流会话模式中具有相当出色的交互能力,并且可以提供出人意料的人性化的回答。
交流会话,需要有根据已有的一系列文字,来预测后续的信息的能力,大语言模型可以很好地执行这一任务。
RLHF(基于人类反馈的强化学习)是ChatGPT训练体系中的一个附加层,它的主要目的是用人类的反馈去帮助ChatGPT学习,如何生成更加人性化的回答。
谁创建了ChatGPT
ChatGPT是由总部位于旧金山的人工智能公司OpenAI创建的,OpenAI是一家非盈利性的公司,是盈利型公司OpenAI LP的母公司。
OpenAI以其著名的DALL·E而闻名,DALL·E是一种深度学习模型,它可以直接从文本指令生成图像。
OpenAI的CEO是Sam Altman,他曾是Y Combinator(美国著名创业孵化器)公司的总裁。
微软是OpenAI的合作方和投资方,并于近日追加10亿美元投资,他们曾共同开发了Azure人工智能平台。
大型语言模型
ChatGPT是一个大型语言模型(LLM)聊天机器人。大型语言模型使用非常庞大的数据进行训练,以求能够准确预测一句话中的后续文本信息。
人们发现,增加训练数据的数据量,可以提高语言模型做更多事情的能力。
根据斯坦福大学的研究:
GPT-3有1750亿个参数,并对570G的文本进行了训练,作为对比,GPT-2则只有15亿个参数,是GPT-3的一百分之一。
这种参数和文本规模性的增加,极大地改变了模型的行为。GPT-3甚至可以执行一些没有被训练过的任务,比如它可以几乎没有训练地将英语翻译成法语。这种行为是GPT-2极度缺乏的。
此外,尽管在一些任务中GPT-3达不到要求,但对于某些任务来说,GPT-3的表现要优于那些经过明确训练的模型。
大型语言模型,能够预测一句话中后续的文本单词,甚至是下一句话。这有点像自动补全、自动完成,但是规模却是惊人的。
这项“自动补全”能力,能够使得他们可以写出数段,甚至是数页内容。
但是大型语言模型也有限制,就是他们并不总是能够明白人们到底想要什么,这也是ChatGPT 当前需要改进的地方。
ChatGPT是怎么训练的
GPT-3.5是用大量来自互联网的代码和信息进行训练的,包括来源诸如Reddit的一些对话讨论,去帮助ChatGPT学习更多的对话方式,以实现更加人性化的回答。
ChatGPT也会用人们的反馈去训练(即基于人类反馈的强化学习,简称RLHF),所以它会知道人们所问问题的目的。用这种方式去训练大型语言模型是非常具有革命性的,因为这远远比预测下一个单词要简单的多。
一份2022年的报告,解释了为什么这是一个具有突破性的方法:
这项工作的目标,是通过训练他们去做一些给定的、人们希望他们去做的事情,来提高大型语言模型的积极影响。
默认情况下,语言模型会优化下一个单词预测目标,这个预测目标正是我们希望这些模型要做的。
我们的结果表明,我们的技术有望使语言模型更有用、更真实、更无害。
让语言模型规模更大,并不能从本质上使它们更好地理解用户的目的。
例如,大型语言模型可能会生成不真实的、有毒的或对用户没有帮助的输出。
换句话说,这些模型结果可能与用户的预期不一致。
创建ChatGPT的工程师们,雇佣了一些承包商来分别对GPT-3和新InstructGPT (ChatGPT的“兄弟模型”)两个系统进行评估。
基于评估情况,研究人员得出了以下结论:
相比于GPT-3,InstructGPT的结果更加受到青睐。
InstructGPT模型相比于GPT-3,在真实性方面改进明显。
InstructGPT的有害信息比GPT-3略有改善,且没有偏差。
研究报告表明,InstructGPT的输出结果是良好的,但仍然有一些改进的空间:
总的来说,我们的结果表明,用人们的对话偏好微调后的大型语言模型,在更大范围的任务表现上有显著改善,尽管还有一些安全性和可靠性的工作需要去做。
ChatGPT与一些简单聊天机器人不同的是,它专门被训练去理解人们问问题的背后目的,并且可以提供有用的、真实且无害的回答。
由于这些特殊的训练,ChatGPT可能会质疑某些问题,并且会舍弃那些没有意义的部分。
另外一项跟ChatGPT有关的研究报告,展示了他们是如何训练AI去预测人们的偏好的。
这些研究人员发现,用于评估自然语言处理AI输出的指标,会导致机器在指标上得分很高,但却与人们的预期不符。
以下是研究人员对这个问题的解释:
许多机器学习应用程序优化了简单的指标,而这些指标只是设计者的目标倾向。这可能会导致一些问题,比如YouTube推荐的推广内容,经常是标题党。
所以他们设计的解决方案,就是创造一个可以优化输出答案、满足人们偏好的AI。
为了做到这一点,他们使用人们对不同答案进行比较的数据集,来训练人工智能。这样的话,AI就能更好地预测符合人们判断的满意答案。
这篇报告还说,训练是通过让AI总结Reddit上的帖子和新闻,进行测试和完成的。
另一份研究报告《从人们的反馈中学习总结》,也表达了同样的观点:
通过训练模型去优化人们的偏好,可以显著提高AI内容总结的质量。
研究人员收集了一些高质量的、人类进行总结的比较数据集,训练模型去预测更加符合人类偏好的总结内容,并使用激励反馈来不断强化和调整AI的能力。
ChatGPT的不足
1、不会回答不良的问题
ChatGPT有专门设置,不会去提供一些不良的回答,所以它会有意避免去回答这类问题。
2、回答的质量取决于提示的质量
ChatGPT一项很重要的不足,就是输出答案的质量,取决于输入信息的质量。换句话说,专业的输入和提示语,会输出更好的答案。
3、回答并不总是正确
由于ChatGPT所受的训练,就是提供满足人们预期的答案,所以它可能会欺骗人们说这个答案是正确的。
许多用户发现,ChatGPT会输出一些不正确的回答,即使有些回答是明显不正确的。
编程问答网站Stack Overflow的版主,就发现了一个意想不到的后果。
Stack Overflow上充斥着从ChatGPT生成的用户回答,这些回答,有些看起来是正确的,但更多是错误的。
成千上万的答案让版主团队不知所措,以至于促使管理员颁布禁令,禁止任何用户发布由ChatGPT生成的答案。
大量的来自ChatGPT的回答,引发了一篇题为《临时政策:ChatGPT禁令》的帖子:
这是一个临时的政策,旨在减少来自ChatGPT的回答和其他内容。
…主要的问题是,虽然ChatGPT生成的答案有很高的错误率,但它们通常“看起来”它们“可能”是好的…
Stack Overflow版主的经历,对OpenAI来说也比较重要,他们已经注意到这个问题,并在技术发布会上做出了一些警告。
4、OpenAI对ChatGPT不足的解释
OpenAI的声明中提供了这样的警告:
ChatGPT有时候会输出一些听起来可行,但却是错误的,甚至是没意义的回答。
如果想要修复这个问题,还是比较有困难的,主要原因是:
(1)在强化学习期间,目前还没有来源是事实的内容;
(2)更加小心谨慎的训练,导致它拒绝回答原本可以正确回答的内容;
(3)有监督的训练会误导模型,因为理想的回答取决于模型知道什么,而不是演示的人知道什么。
ChatGPT是免费的吗
ChatGPT目前在“预研”期间是免费的。
目前这款聊天机器人是对用户开放试用的,并对用户问答的结果进行反馈,以便AI可以更好地回答问题,并从错误中汲取教训。
OpenAI官方声明称,他们迫切希望收到有关这些错误的反馈:
虽然我们已经努力让模型拒绝不适当的请求,但它有时还会回应一些不良的指令,或者表现出一些偏见的行为。
我们正在用审核API去警告和阻止某些不安全内容,但目前还会存在一些误差判断。
所以,我们迫切希望能够收到用户的反馈,帮助我们改善这个系统。
目前还有一场奖金为500美元的比赛,以鼓励公众对AI的回答进行评价。
我们鼓励用户通过UI对有问题的输出,以及来自外部内容的误判提供反馈。
我们特别感兴趣的,是在现实世界中、非对抗性条件下,可能发生的不良输出的反馈,这可以帮助我们发现和理解新的风险,以及可能的风险减轻措施。
你可以选择进入ChatGPT Feedback Contest3进行反馈,有机会赢得价值500美元的奖励。
反馈内容可以通过ChatGPT界面中的反馈表单提交。
语言模型会取代谷歌搜索吗
谷歌本身也开发了一款叫LaMDA的聊天机器人,它的性能非常接近人类的谈话,以至于谷歌的工程师都声称LaMDA是有意识的。
考虑到大型语言模型可以回答如此之多的问题,像OpenAI,谷歌或微软这样的公司,未来有一天用聊天机器人取代传统搜索的说法,听起来还会很牵强吗?
Twitter上已经有人宣称ChatGPT将成为下一个谷歌。
聊天机器人有一天可能会取代谷歌的说法,让那些以搜索营销为生的专业人士感到恐惧。
这也引发了在线搜索营销社区的激烈讨论,例如,比较流行的的Facebook SEO Signals Lab,就有人问搜索是否可能从搜索引擎变成聊天机器人。
在测试了ChatGPT之后,我不得不承认,搜索被聊天机器人取代的说法,并非空穴来风。
虽然这项技术还有很长的路要走,但我们可以展望一下混合搜索和聊天机器人搜索的未来。
如何应用ChatGPT
ChatGPT可以用特定作者的风格,写出代码、诗、歌曲,甚至是短故事。
ChatGPT在预测对话方向方面的专业性,将其地位从一个信息源,提升为一个可以完成指定任务的工具。
这对于写任何主题的文章都非常有用。
ChatGPT可以作为生成文章大纲,甚至整部小说的工具。
它几乎可以执行所有可以用书面文本回答的任务。
后记
在ChatGPT对公众开放的5天内,已经有超过100万用户注册。
如之前提到的,ChatGPT可预见的结果是,最终将会作为一个工具给到公众付费使用。
– END-
微信公众号:有笔不记(ID:you_buji ),关注产品的学习与思考,用有序的眼光观察无序的世界。