谷歌最新《自然》论文：大语言模型构建的AI医生，比人类医生更出色-科技今日热点

导读

人工智能迎来了“井喷期”，全球科技大厂都在各显神通。最近，Google让大语言模型（LLM）做AI界的“妙手仁医”。

7月13日，Google和DeepMind的科研人员在《自然》杂志上发表了一项研究，提出了MultiMedQA评估基准，用于评估大语言模型在编码临床知识方面的表现。

这个评估基准包括专业医疗、研究和消费者查询等六个方面，力图从多方面把AI培养成一名合格的医生。

最终，研究人员发现大语言模型构建的AI医学在很多方面都强于人类医生。

周晨|撰文

人工智能迎来了新风口，即便是公认复杂的医学领域也有AI来“敲门”。无论是在知识检索还是临床决策支持方面，此前AI都交出过不俗的答卷。

但即便AI功能如此强大，我们也要有足够的辨别能力，别被它的一些假象给“迷惑”了，有时AI会装作很专业的样子，给你提供错误的医疗信息，往往搞得你一头雾水。

那么，怎样才能评估AI的回答呢？目前评价医疗AI的方法主要依赖单个的医疗测试得分，就好像把AI当成一个“医学考生”一样来测试它的水平。

但在真实的医疗场景中，AI能否灵活应对就成了一个未知数。如何能把AI从一个医学考生锻炼成一名合格的AI医生呢？构建一个更全面的评估体系变得尤为必要。

谷歌最新的基准评估医疗大语言模型

7月13日，来自Google的ShekoofehAzizi及其团队建立了一个名为MultiMedQA的测试基准，专门用来评估大语言模型在临床知识方面随机应变的能力。

这个基准综合了六个现有医疗问答数据集，包括专业医疗、研究和消费者查询等多个方面。

此外，研究者还添加了一个全新的数据集HealthSearchQA，光这一个数据集就包含了3173个在线搜索医学问题。

接着，研究人员就对大语言模型PaLM以及其变体Flan-PaLM进行了测试，测试的系统MultiMedQA整合了美国医师执照考试问题。

测试结果令研究人员很满意，在一些数据集中，Flan-PaLM的表现更是一骑绝尘。Flan-PaLM取得的分数比之前最先进的大语言模型还要高17%，在多选题方面表现尤为出色。

Flan-PaLM和现有最新技术的比较

但美中不足的是，Flan-PaLM在回答“消费者医疗问题”方面的水平有待提高。

于是研究人员采用了一种“设计指令微调”的方法，Med-PaLM也应运而生。

Med-PaLM系统介绍

调试之后的Med-PaLM在专业领域中的发挥变得更加出色，在试行评估中的结果也更加突出。

比如说在长篇回答方面，Flan-PaLM与医生评分的科学共识一致程度仅为61.9%，而Med-PaLM的回答评分高达92.6%，几乎与医生的回答一致（92.9%）。

同样地，Flan-PaLM有29.7%的回答被评为可能导致有害结果，而Med-PaLM仅为5.8%，接近医生回答的水平（6.5%）。

Flan-PaLM、Med-PaLM和临床医生答案评价对比

尽管这些结果都在暗示“AI+医疗”未来大有可为，但研究人员还是认为，医疗类的大语言模型需要进一步的评估。

“AI+医疗”：Google正在领跑

“AI+医疗”近年来已经成为热门领域，Google正是这个赛道的领跑者。

今年5月，Google对Med-PaLM模型再一次升级，推出了全新的Med-PaLM2模型，在MultiMedQA测试上，Med-PaLM2甚至可以达到“专家”的水准。

在诸多医学问题回答上，Med-PaLM2显得更为人性化、患者接受度更高。

在1000多个真实医疗场景的测试中，Med-PaLM2在9项基准测试中有8项表现良好，并且相比于人类医生的回答，Med-PaLM2的回答更受认可。

除了人性化以外，Med-PaLM2的准确度也提了上来。在测试中，Med-PaLM2有72.9%的回答被认为是和医生回答相对一致的。

与其他通用大型模型如ChatGPT相比，Med-PaLM2在医疗领域的表现更优。

图源社交网络

未来医学AI模型在回答医学问题方面有巨大的潜力，但在临床应用之前，医疗大型语言模型仍然面临准确度和隐私保护等问题。

无论如何，医学AI的发展无疑是医疗领域的一大进步。未来，也许每个人都可以拥有一个专属的“AI医生”。

参考资料

1.LargelanguagemodelsencodeclinicalKnowledge.Nature.

2.比ChatGPT还好用？谷歌医疗聊天机器人几乎与医生表现相当.科创板日报.

	长三角“高铁十字路口”来了！杭州人将受益
	乌克兰逾万外籍雇佣兵仅剩2290人, 美兵称前线人均存活仅4小时
	李渊李世民反目之谜：“玄武门之变”前，发生了这些不为人知的事！
	1毫克可诱发癌症！就藏在你身边
	《父母爱情》：社恐安杰开始相亲，那个年代的婚姻更像资源重组
	女演员长相有多重要？看《繁华似锦》里张雨绮和左小青就知道了
	为何同治去世后不过继溥字辈的人为子嗣继位，而让堂弟光绪继位？
	王不过项，力不过霸，将不过李，拳不过金是指谁？他们有何功绩？
	李现疑似与网红恋爱，仅因两人IP地址及该网红爆料的信息相吻合
	张翰吴宣仪官宣！加盟妻子的浪漫旅行，网友晒图评论太搞笑！