自从OpenAI宣布ChatGPT并且人们开始尝试它以来,已经有很多令人窒息的宣言,它将如何颠覆一切。其中一个颠覆是搜索。去推特或LinkedIn(或彭博社!),您可以阅读ChatGPT和类似的LLM将如何取代Google和其他搜索引擎。
但是,真的吗?
不,谷歌没有什么可担心的,至少在中短期内是这样。搜索引擎已经存在了几十年,并将存在几十年。对他们来说,缺乏真正的危险与基于聊天的环境中的搜索相关性和用户体验有关。
笔者在Algolia从事搜索工作已有七年,最近四年专门从事自然语言,语音和会话搜索。已经了解了什么有效,什么无效,虽然笔者长期使用LLM(大型语言模型),但我不会长期取代现有的搜索方式。原因如下。
查询公式
具有讽刺意味的是,第一个原因与查询公式有关。笔者在这里说具有讽刺意味的是,因为围绕人工智能(AI)和机器学习(ML)在搜索中的许多工作都是为了使查询公式不那么障碍。过去,最基本的搜索引擎将文本与结果中完全相同的文本进行匹配。这意味着,如果你搜索 JavaScript 片段,那么 JavaScript 片段必须正好在你想要查找的文档中。问题在于,它迫使搜索者尝试预测文档中将出现哪些文本。
举个例子:假设你正在清洁你的燃气灶,你意识到它是温暖的,即使你有一段时间没有使用它了。对于不智能的搜索引擎,您需要在搜索之前问自己:“我应该使用温暖还是热这个词?这对我得到的结果有什么影响吗?
ML 驱动的智能搜索通过扩展算作匹配的内容并包括“概念上”相似的匹配(如暖匹配和热匹配)来减轻这种负担 。搜索者在确定正确的搜索词上花费的精力更少,他们更有可能找到他们最初想要的信息。
然而,ChatGPT 响应在很大程度上依赖于提示(即查询)公式。 OpenAI“将此列为限制”:
ChatGPT 对调整输入措辞或多次尝试相同的提示很敏感。例如,给定一个问题的措辞,模型可以声称不知道答案,但稍微改写一下,就可以正确回答。
有时,当搜索者已经知道很多的东西时,这就会表现出来,但是当搜索者对细节模糊不清时,这是一个更大的问题。如果有人搜索后缀-gate的含义,那么正确的结果很有可能是关于政治丑闻的。谷歌和Kagi反映了这一点,ChatGPT没有:
(ChatGPT 的回应的结尾是说后缀 -gate 的使用很少见!
当涉及到错别字时,这一点更加明显。我们都会打错字,不是吗?有时我们拼写单词错误,因为我们不知道更好。例如,优等生这个短语在日常生活中并不常见,因此会有人想了解更多有关它的信息,但不知道正确的拼写。与 Kagi 相比,ChatGPT 如何处理 come lad 的拼写?
这并不是ChatGPT没有答案的情况。当您使用正确的拼写时,它会这样做:
搜索必须理解搜索者,即使拼写错误,否则体验就是后退。理解和匹配不同的拼写是困难的。在Algolia,我们采用两种方法:一种是文本之间的直接编辑距离;另一种是通过我们即将推出的AI Search,该搜索与概念匹配并考虑上下文线索,以便在编辑距离很大的情况下更好地匹配正确的拼写。
ChatGPT 还有另一个问题,那就是它如何显示不正确的结果。或者,实际上,它通常如何显示结果。
用户体验
几十年来,搜索布局通常一直相同。具体来说:一组结果,按从最相关到最不相关的顺序排列(无论如何测量)。近年来,这种情况有所改变。搜索引擎引入答案框、侧框、建议搜索、多媒体搜索等。查看必应搜索页面:
当然,必应是一个局外人。这个搜索结果页面包含大约 20 个不同的组件:流式处理选项、视频结果、图像结果和网页结果。也许这太过分了。谷歌、Kagi和其他公司则更少。但关键是搜索者总是有选择。
对于搜索者来说,获得选项很重要,因为第一个结果并不总是最适合搜索的。它可能“客观地”是整体上最好的,但搜索是查询、索引、用户和上下文的组合。所有这些加在一起可能会导致超过第一名的结果在当时是最相关的。这篇博文声称,谷歌搜索的头号结果在28%的时间内被点击。无论这个数字是否完全正确,它通常是正确的:大多数点击往往不是第一个结果。
什么是基于聊天的搜索?只有第一个结果。
更重要的是,它是在基于聊天的环境中。在对话界面中,用户希望始终获得相关的响应,并且只有最少量的“我不知道”响应。
在Algolia,我在我们的一些客户身上看到了这一点,他们使用我们的搜索作为他们的聊天机器人的后备。聊天机器人自然语言理解(NLU)有时会有很高的失败率(我们已经看到客户接近50%的失败),搜索似乎是一个自然的后备。不过,我们不得不定制聊天机器人UX,而不是将第一个结果作为响应呈现,而是显示一些结果,并清楚地表明用户看到了回退。这是用户所期望的。
聊天还会窃取上下文信息。登陆页面并查看相关信息是件好事:它有助于构建您找到的信息,甚至可能向您展示原始摘要不正确或误导的地方。
以想知道棒球本垒打记录的人为例。此人听说该记录曾经有一个星号。但是为什么?记录是什么?这句著名的例子是罗杰·马里斯(Roger Maris)在61年的1961支本垒打赛季,但搜索者不知道,所以搜索为什么本垒打记录是带星号的? 比较来自ChatGPT,Google和Kagi的答案:
ChatGPT提供了关于98年与Mark McGwire的本垒打记录的答案,该记录在多年后一直存在争议,但不是 带星号的本垒打记录。谷歌在答案框中给出正确的答案以及指向来源的链接,Kagi提供结果。其中,Kagi甚至可能是最好的,因为虽然Maris是人们说“astrisk”时想到的那个,但McGwire和Bonds也都有争议。
公平地说,OpenAI意识到了这一点。这是首席执行官Sam Altman的一条推文:
但笔者确实认为,在纯粹的聊天环境中,缺乏上下文和多种选择是不可避免的。这就是为什么聊天非常适合查找营业时间的原因;不太适合了解参加新兵训练营的感觉或人们为什么喜欢浪漫喜剧。
这甚至没有涉及产品搜索。如今,花在搜索上的大量资金不是用于Google的SEO,而是为网站自己的产品目录建立搜索。在这些情况下,对于搜索者来说,能够看到选项,通过点击过滤,并且通常深入到“发现阶段”非常重要。这不是聊天适合的。
还有其他障碍:法律(澳大利亚有一项法律要求谷歌和Facebook支付新闻费用;当新闻在没有来源的情况下自动汇总时,他们会怎么想?),成本和速度立即浮现在脑海中。这些也许有一天是可以克服的。过分自信的错误结果也可能如此。
但是用户体验:这个不会消失。好吧,是的,您可能会争辩说这很容易修复。基于聊天的系统可以一次显示多个结果,并让用户决定哪个是最好的。甚至可以根据信心对它们进行排名。然后它甚至可以链接出去,以便搜索者可以看到信息并决定它是否准确。更好的是,为什么不包括可能有趣的后续查询或多媒体建议?
恭喜,你刚刚重新生成了一个搜索 UI。
所以,简而言之:LLM很棒。了解用户意图非常棒。自动摘要功能强大。搜索无处可去。
(文章来源于网络,侵联必删)