当前位置: 主页 > 生活杂文 >

⭐网上问医断病,这届AI行不行?科学家评估大型语言模型回答医学问题的能力|今日视点

最近网络热点文章💠《网上问医断病,这届AI行不行?科学家评估大型语言模型回答医学问题的能力|今日视点》,很多网友都想阅读✨网上问医断病,这届AI行不行?科学家评估大型语言模型回答医学问题的能力|今日视点的详细内容,芒果文学(www.mangowenxue.com)编辑精心收集整理了相关内容,希望大家都能开心的阅读。

你在网上搜过“我哪哪疼是不是得了啥啥病”吗?答案可能不尽如人意。但随着ChatGPT等大型自然语言模型风生水起,人们开始尝试用它来回答医学问题或医学知识。

不过,靠谱吗?

就其本身而言,人工智能给出的答案是准确的。但英国巴斯大学教授詹姆斯·达文波特指出了医学问题和实际行医之间的区别,他认为“行医并不只是回答医学问题,如果纯粹是回答医学问题,我们就不需要教学医院,医生也不需要在学术课程之后接受多年的培训了。”

鉴于种种疑惑,在《自然》杂志新近发表的一篇论文中,全球顶尖的人工智能专家们展示了一个基准,用于评估大型自然语言模型能多好地解决人们的医学问题。

现有的模型尚不完善

最新的这项评估,来自谷歌研究院和深度思维公司。专家们认为,人工智能模型在医学领域有许多潜力,包括知识检索和支持临床决策。但现有的模型尚不完善,例如可能会编造令人信服的医疗错误信息,或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。

相关的评估此前并非没有。然而,过去通常依赖有限基准的自动化评估,例如个别医疗测试得分。这转化到真实世界中,可靠性和价值都有欠缺。

而且,当人们转向互联网获取医疗信息时,他们会遭遇“信息超载”,然后从10种可能的诊断中选择出最坏的一种,从而承受很多不必要的压力。

研究团队希望语言模型能提供简短的专家意见,不带偏见、表明其引用来源,并合理表达出不确定性。

5400亿参数的LLM表现如何

为评估LLM编码临床知识的能力,谷歌研究院的专家希库费·阿孜孜及其同事探讨了它们回答医学问题的能力。团队提出了一个基准,称为“MultiMedQA”:它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及“HealthSearchQA”——这是一个新的数据集,包含3173个在线搜索的医学问题。

团队随后评估了PaLM及其变体Flan-PaLM。他们发现,在一些数据集中Flan-PaLM达到了最先进水平。在整合美国医师执照考试类问题的MedQA数据集中,Flan-PaLM超过此前最先进的LLM达17%。

不过,虽然Flan-PaLM的多选题成绩优良,进一步评估显示,它在回答消费者的医疗问题方面存在差距。

专精医学的LLM令人鼓舞

为解决这一问题,人工智能专家们使用一种称为设计指令微调的方式,进一步调试Flan-PaLM适应医学领域。同时,研究人员介绍了一个专精医学领域的LLM——Med-PaLM。

设计指令微调是让通用LLM适用新的专业领域的一种有效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如,Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答,Med-PaLM的回答评分为92.6%,相当于医师作出的回答。同样,Flan-PaLM有29.7%的回答被评为可能导致有害结果,Med-PaLM仅5.8%,相当于医师所作的回答。

研究团队提到,结果虽然很有前景,但有必要作进一步评估,特别是在涉及安全性、公平性和偏见方面。

换句话说,在LLM的临床应用可行之前,还有许多限制要克服。

发布时间:2023-07-19 18:31

上述文字是💠《网上问医断病,这届AI行不行?科学家评估大型语言模型回答医学问题的能力|今日视点》✨的美文内容,大家如想要阅读更多的短文学、文学名著、精品散文、诗歌等作品,请点击本站其他文章进行赏析。

版权声明:本文由互联网用户自发贡献,该文仅代表作者观点。芒果文学仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件进行举报,一经核实本站将立刻删除。

相关文章阅读

孩子做题理解能力差怎么办 孩子做题理解能力差如何提高

导读:孩子做题理解能力差怎么办?以下由小编为大家带来介绍。1、孩子的理解能力差,需要考虑进行积极的引导,增加孩子的语言理解和抽象思维,可以考虑进行康复训练。2、孩子...

[生活杂文] - 2023-02-02 16:27:44

司法考试报考条件

本文目录一览: 1、司法考试需要什么条件? 2、全国统一司法考试报名条件是什么? 3、司法考试需要什么条件? 司法考试需要什么条件? 司法考试需条件: 1、具有中华人民共和国国籍。...

[生活杂文] - 2024-02-24 22:52:50

一立方混凝土多少平方,一立方砖多少块

1的立方就是三个1相乘,1³=1×1×1=(1×1)×1=1²×1=1×1=1 1立方分米=1升,1立方厘米=1毫升 边长乘边长。即1×1=1² 比如 一个边长1m的正方体 它的体积就是1立方 立方米,体积单位,符号m³...

[生活杂文] - 2023-11-29 12:01:26

曹操传万能修改器 叶落秋寒(三国志曹操传全能修改器怎么用)

本篇文章给大家谈谈曹操传万能修改器,以及曹操传万能修改器 叶落秋寒对应的知识点,希望对各位有所帮助,不要忘了收藏本站! 内容导航: 三国志曹操传修改器怎么用 求三国吕布...

[生活杂文] - 2023-08-05 20:41:09

2023年全球智能手机出货量将创十年新低!为啥大家不换手机了?机构揭秘原因

智能手机市场从未如此惨淡。 8月24日消息,根据Counterpoint Research的最新全球智能手机出货量初步数据预测, 2023年全球智能手机出货量将下降6%,达11.5亿台,创过去十年来的最低水平。...

[生活杂文] - 2023-08-24 12:04:01

怎么挑花甲 如何挑新鲜的花甲

导读:怎么挑花甲?下文是小编给大家带来的介绍。1、花甲宜选择壳光滑、有光泽的,外形相对扁一点的。2、在人较多的固定海鲜档铺挑选花甲,一般花甲新鲜,也实惠,尽量不要...

[生活杂文] - 2023-01-31 18:52:45

怎样培养六年级孩子的专注力

导读:我家孩子今年上六年级,孩子专注力差,老师说话他一点都不听,甚至还跟老师顶嘴,上课时不专心,总是走神,老师提醒他,他还顶嘴,咋办呢?怎样培养六年级孩子的专注力...

[生活杂文] - 2023-12-04 17:04:29

什么是双标酱油,什么是双标男

就是单排标准和双排标准。 一般厢式货车除了单标和双标外,还有单长和双长。 就是双人标准房 一人一张床 双重标准 双语对照 词典结果: double standard [英][ˈdʌbl ˈstændəd][美][ˈdʌ...

[生活杂文] - 2023-08-14 05:52:09

冬至饺子的原因 什么馅的饺子好吃

冬至的时候,素有南吃汤圆,北吃饺子,但很多人却并不知道为什么在北方冬至要吃饺子,那么冬至饺子的原因是什么呢?什么馅的饺子好吃呢?接下来就跟随本期的饮食文化一起来看...

[生活杂文] - 2024-01-01 20:34:18

中国联合体团队将承担ITER真空室安装工程

2月29日,我国中法联合体TAC1团队承担ITER真空室模块组装合同签约仪式在法国ITER国际组织举办。这是中国科学院合肥物质院等离子体所与中核集团等单位组成的工程安装联合体,中标的...

[生活杂文] - 2024-03-01 22:01:27

服务器托管 深圳-深圳服务器托管哪家好

本篇文章给大家谈谈深圳服务器托管,以及服务器托管 深圳对应的知识点,希望对各位有所帮助,不要忘了收藏本站! 内容导航: 深圳服务器托管哪家好 游戏服务器租用哪里好? 深圳...

[生活杂文] - 2023-06-16 10:58:04

关心的话语注意身体,关心的话语简短

1、你是我想和全世界炫耀,又不舍得和任何人分享的人。 2、多想情窦初开是你,细水长流是你,柴米油盐是你,余生白首的也是你! 3、你别难过,风筝有风,海豚有海,你还有我。...

[生活杂文] - 2023-08-29 19:29:08

近月少女的礼仪2全语音(求一篇近月少女的礼仪2的中文攻略越详细越好)

1.求一篇“近月少女的礼仪2”的中文攻略(越详细越好) 艾斯特·加拉哈·阿诺兹 ◆SAVE01 以自己的设计为先 和瑠美姐去看独奏会 向艾斯特回复「想见你」 不再为她继续说话 「随时可...

[生活杂文] - 2023-04-16 23:01:46

深圳520婚纱摄影

本篇文章给大家谈谈深圳520,以及深圳520婚纱摄影对应的知识点,希望对各位有所帮助,不要忘了收藏本站! 内容导航: 深圳提拉米苏摄影工作室和深圳520婚纱店哪家旅拍比较靠谱?...

[生活杂文] - 2023-01-31 06:19:54

笔记本电脑放车里气温太高会坏吗

笔记本电脑放车里气温太高不会坏,可是会影响到计算机的性能,当电脑处于开机状态时,如果电脑温度过高,就会触发保护系统,自动关机或死机。在高温环境下工作还会影响电脑半...

[生活杂文] - 2023-02-15 21:59:30

宁都肉丸的正宗做法,宁都肉丸图片

先把瘦肉绞碎,然后一斤瘦肉配一碗的薯粉,盐和味精就是后面弄。把瘦肉弄好了之后在调盐水和味精,然后水半开的时候弄肉丸 做法: 材料:新鲜后臀肉、红薯粉、水、盐适量 做法...

[生活杂文] - 2023-09-01 17:23:53
文章阅读TOP10
猜你喜欢