最近,ChatGPT作为一个新近上市的,以文字对话为基础的人工智能(AI)软件,在全球范围内掀起了一场AI普及应用的热潮。几周前,ChatGPT通过了美国医生执业资格考试(Medical Licensing Examination, USMLE),这是一项所有在美国执业的医生都必须参加的考试。这个聊天机器人以优异的成绩通过了微生物学家Dr. Alex Berezow设计的微生物学考试。根据Dr. Berezow的介绍,这10道考题适于大学水平的终期考试。在斯坦福大学,有相当一部分学生在期末考试中使用ChatGPT。
哈佛医学院的住院医生导师Tiffany H. Kung M.D. 等在研究中评估了ChatGPT在USMLE考试中的表现,他们认为:“考试结果最终表明,经过大型语言模型(一种基于机器学习的自然语言处理技术)训练的ChatGPT具有协助医疗培训甚至拍板临床决策的潜力。”
自美国初创公司OpenAI于2022年11月向公众免费开放其聊天机器人原型ChatGPT以来,这种基于文本的对话系统的应用潜力已经引起了不小的轰动。这些应用包括文本生成、翻译和自动文书编辑。据估计,自今年2月成立以来,OpenAI的注册用户已经超过1亿。
由于ChatGPT正在永久性地改变着许多行业和生活领域,并充满了不确定性。因此在全球范围既带来了希望,也引起了恐惧。纽约学区已经禁止了ChatGPT的使用。但是这个决定是否正确?德国慕尼黑工业大学(Technical University of Munich, TUM)和(Ludwig Maximilian University of Munich大学)的科学家们认为,这项禁令是“一种不正确的, 过于简单化的解决方案”。他们认为,像ChatGPT这样的语言模型可以带来更大的教育平等。科学家们还认为ChatGPT语言模型的产生和发展,是一个技术领域的里程碑,没有回头路可走。这些工具已经出现在世界上,它们会变得更好,我们必须学会如何建设性地使用它们。
ChatGPT已经可用的模板
Jens Kleesiek作为德国埃森大学医院AI医学研究所的医学博士,内科医生和计算机专家,在ChatGPT参与医疗保健的活动上证实,现代语言模型发展过程中正在发生很多事情,而这一切都是一蹴而就的。除了OpenAI,谷歌也宣布了自己创建的聊天机器人Bard,这是对ChatGPT的横空出世的直接回应。
建一个OpenAI账户,亲自尝试一下现在的聊天机器人可以怎样帮忙撰写医疗报告、创建知情同意书和在回答患者询问的问题时能达到何种满意程度?的确都是很有趣的事情。操作ChatGPT的时候,要尽可能地使用措辞精确的提示(输入),检查和纠正后续的回答,这些都是非常重要的关键步骤。在Promptbase网址上,用户可以找到使用说明书和购买现成的操做指南。在此基础上ChatGPT已经为用户提供了一系列非常有用的操作模板。
这里举个例子:Berzow博士的微生物学试题中有这样一道题:“一个病人出现在急诊室,症状为严重头痛和脖子僵硬。医生建议进行腰椎穿刺收集脑脊液。脑脊液革兰氏染色显示存在革兰氏阴性双球菌。诊断结果是什么?” ChatGPT给出的正确回答是:“根据您所提供的信息,脑脊液革兰氏染色显示存在革兰氏阴性双球菌,这是一种典型的椭圆形细菌,成对出现。这一发现与脑膜炎的诊断一致。” 这个例子也许会给读者们带来许多具体的启发和兴趣。
目前ChatGPT存在的局限性
诸如此类的问答和人机对话,会让人们很快忘记,其实现代人工智能(AI)并不是通常意义上的智能。更确切地说,ChatGPT是模式识别,是在概率计算的基础上编译句子。因此,ChatGPT是具有局限性的。OpenAI自己也指出,ChatGPT可以生成听起来似乎合理,但是错误或无意义的回答。该模型还对输入的改变,或对同一输入请求的多次尝试做出过于敏感的反应。此外,ChatGPT也经常会出现绕圈子式的回应,过于频繁地使用某些公式,并且喜欢使用陈词滥调。这些都是在医学上不希望看到的。
信息来源未知
ChatGPT的一个重要的局限性是,目前还不可能知道AI在制定具体回应时,是从哪些来源中获取资讯和信息的。根据ChatGPT语言模型的局限性,以医疗报告为例,以下情况是可能要面对的挑战:
* 事实的陈述必须可靠而简明
* 为了患者的安全,建议使用的药物和剂量必须正确
* 使用ChatGPT 输入的组合必须节省时间,并且必须能很好地集成到工作流中
* 必须解决有关责任、数据保护和版权的问题
阿姆斯特丹大学临床心理学教授DR. Claudi L. Bockting等刊登在(Nature)杂志的一篇评论文中,列举了ChatGPT在进一步开发和研究中应该考虑的五个方面:
* 规定对人们的对话反应进行审核
* 制定责任法规
* 投资于真正开放的语言模型
* 利用 AI 的优势
* 扩大辩论范围并对处理技术的采用采取严格苛刻的态度
专家认为ChatGPT和类似的工具在医学上有很多应用潜力。例如:
* 结构化数据(回顾性/输入时)
* 数据筛选
* 总结病史(要求可靠性)
* 病历收集(与患者互动)
* 定制语言的信息调解(Information mediation in customized language)
* 研究结果翻译
* 文献检索
* 替代与护理人员的某些对话
* 与生成图像模型链接
专家还认为ChatGPT与其它人工智能算法相结合对医学界来说非常重要。在最近发表在《放射学(Radiology)》杂志上的一项研究中,研究人员调查了ChatGPT能在多大程度上提高乳腺X光摄影术中,计算机辅助诊断(CAD)的识别和解释能力。通过将ChatGPT整合到CAD系统,可以查询特定的患者或图像。AI学习还可以通过获取现有指南的数据支持来提供对图像的理解,并发现基于图像的生物标志物。
在使用ChatGPT等AI技术时,小心谨慎操作格外重要,尽管面临诸多挑战,但是专家还是认为这项技术在支持临床决策、以至提高成像程序的便利使用方面具有重大潜力。
正在研究的应用平台
专家介绍了两项关于语言转换模型的应用研究,所使用的转换器与OpenAI的生成式预训练转换器3 (GPT-3)属于同一类别。在第一项研究中,语言模型用来在文本中快速找到特定的信息。提示的一个例子是,“病人感染了吗?” 我们会看到这个模型并没有随意做出反应,而是替尔代之做出了可为理解的响应。然后,在文本中突出显示这些信息,以实现适当的可追溯性和一定的可靠性。这样,就可以理解为没有任何内容是想象或捏造的,并且这些响应是基于事实的。
使用自然语言查询,从弱结构放射学报告中提取信息的一项研究目前正在审批过程中。 另一项已经发表的研究,从放射学所见评估治疗反应。这个想法是聊天机器人或语言模型可以用来总结复杂的病史。 目的是为了在肿瘤发生的情况下,确定患者是否有恶化、改善或部分疗效反应。研究显示如果有明确的发现,机器的性能和表现与放射科医生一样好。
如果出现不确定的结果,该如何处理呢?例如,当一名患者的肺部和肝脏都有病变,一个肿瘤越来越大,另一个肿瘤越来越小。这对于放射科医生来说,比面对和处理某个具体的明确发现更为困难。但在出现这类不确定的发现时,机器的评估表现往往比放射科医生的评估表现下降得更多。因此必须批判性地看待机器评估的表现。
临床实践
ChatGPT是否可以用于医学报告中的命名实体识别?命名实体识别是计算机语言学的一个方面。它的目标是自动识别命名实体,并加以分类。医疗报告中的信息不太容易获取,因为它不是以数字形式构建的。这对人来说可能不是一个难题,从医疗报告中,可以确定诊断,患者是男性还是女性,现有疾病是什么,是否有专家参与治疗等等。关键的区别在于,人是在语义上进行处理,而ChatGPT和类似的模型是基于模式识别和模式处理的,而识别命名实体并不是ChatGPT的强项。因此,在ChatGPT和其他语言模型的发展中,还有很多事情要做。而ChatGPT目前的功能还没有准备好用于临床实践。
专家认为与社会人文面的技术融合很重要。虽然ChatGPT代表了医学领域的一个机遇。然而,这个工具不应该被看作是为感情所扰的青少年提供建议的工具。比如,如果输入,‘我感觉很糟糕,我想自杀’,然后ChatGPT也许会说,‘听到这个消息我很难过,我可以帮你。’显然ChatGPT并未能理解和区分自杀的社会语义,及其对社会的负面含义。假设进一步的对话有可能涉及到询问有关自杀的具体捷径,而ChatGPT对此加以介绍,就有可能导致灾难性的社会后果。ChatGPT语言模型所基于的模式识别,是导致灾难性句子的原因,“我可以帮助你”,这是对自杀观念表达的回应。由于聊天机器人在互联网上主要用于客户服务咨询。“我想要”这个短语最常跟着的是“我可以帮忙”,所以“我可以帮助你 (做这件事)”是接下来似乎合乎逻辑的结果。因此,不断完善和改进ChatGPT的短板,避免负面效应和灾难性句子是发展AI技术在医学领域中应用的重要步骤。
周雅思 阎影
转载本文请联系原作者获取授权,同时请注明本文来自阎影科学网博客。
链接地址: https://blog.sciencenet.cn/blog-3302154-1384183.html