西奈山伊坎医学院的研究人员表示,被称为大语言模型 (LLM) 的最先进的人工智能系统是糟糕的医疗编码员。 他们的研究发表在 4 月 19 日的 NEJM AI 在线期刊上,强调了在考虑临床实施之前完善和验证这些技术的必要性。
该研究从西奈山卫生系统 12 个月的常规护理中提取了超过 27,000 个独特的诊断和程序代码的列表,同时排除了可识别的患者数据。 利用每个代码的描述,研究人员提示 OpenAI、Google 和 Meta 的模型输出最准确的医疗代码。 将生成的代码与原始代码进行比较,并分析任何模式的错误。
研究人员报告说,所有研究的大型语言模型,包括 GPT-4、GPT-3.5、Gemini-pro 和 Llama-2-70b,在再现原始医学代码方面都显示出有限的准确性(低于 50%),这凸显了显着的它们在医疗编码方面的实用性存在差距。 GPT-4 表现出最佳性能,ICD-9-CM (45.9%)、ICD-10-CM (33.9%) 和 CPT 代码 (49.8%) 的精确匹配率最高。
GPT-4 还产生了最高比例的错误生成但仍传达正确含义的代码。 例如,当 ICD-9-CM 描述为“无尿路梗阻的结节性前列腺”时,GPT-4 生成了“结节性前列腺”的代码,展示了其对医学术语的相对细致的理解。 然而,即使考虑到这些技术上正确的代码,仍然存在大量令人无法接受的错误。
下一个表现最好的模型是 GPT-3.5,它最容易变得模糊。 它错误生成的代码比例最高,这些代码虽然准确,但与精确代码相比本质上更通用。 在这种情况下,当提供 ICD-9-CM 描述“未指定的麻醉不良反应”时,GPT-3.5 生成了“其他指定的不良反应,未在其他地方分类”的代码。
研究通讯作者、数据驱动和数字医学 (D3M) 助理教授、医学博士、理学硕士 Ali Soroush 表示:“我们的研究结果强调,在医疗编码等敏感操作领域部署人工智能技术之前,迫切需要进行严格的评估和完善。”西奈山伊坎医学(胃肠病学)。 “虽然人工智能拥有巨大潜力,但必须谨慎对待并持续发展,以确保其在医疗保健领域的可靠性和有效性。”
研究人员表示,这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码,用于报销和研究目的。
“之前的研究表明,较新的大型语言模型很难处理数字任务。然而,它们从临床文本分配医学代码的准确性程度尚未在不同模型中得到彻底研究,”共同高级作者、医学博士 Eyal Klang 说。 D3M 的生成式人工智能研究计划。 “因此,我们的目标是评估这些模型是否能够有效地执行将医疗代码与其相应的官方文本描述相匹配的基本任务。”
研究作者提出,将法学硕士与专家知识相结合可以自动提取医疗代码,从而有可能提高计费准确性并降低医疗保健的管理成本。
共同资深作者 Girish Nadkarni(医学博士、公共卫生硕士、Irene 和 Arthur M 博士)表示:“这项研究揭示了人工智能在医疗保健领域当前的能力和挑战,强调在广泛采用之前需要仔细考虑和进一步完善。” . Fishberg 西奈山伊坎医学教授、查尔斯·布朗夫曼个性化医疗研究所所长、D3M 系统负责人。
研究人员警告说,该研究的人工任务可能无法完全代表法学硕士表现可能更差的现实场景。
接下来,研究团队计划开发定制的法学硕士工具,用于准确的医疗数据提取和计费代码分配,旨在提高医疗保健运营的质量和效率。
该研究的标题是“生成大型语言模型是糟糕的医疗编码器:医疗代码查询的基准分析”。
该论文的其余作者(除非另有说明)均来自西奈山伊坎,他们是: Benjamin S. Glicksberg 博士; Eyal Zimlichman,医学博士(以色列谢巴医学中心和特拉维夫大学); Yiftach Barash,(以色列特拉维夫大学和示巴医学中心); 罗伯特·弗里曼 (Robert Freeman),注册护士、MSN、NE-BC; 亚历山大·W·查尼 (Alexander W. Charney) 医学博士、哲学博士。
这项研究得到了 AGA 研究基金会的 2023 年 AGA-安进奖学金到教师过渡奖 AGA2023-32-06 和 NIH UL1TR004419 奖的支持。
研究人员确认,该研究是在没有使用任何受保护的健康信息(“PHI”)的情况下进行的。
资讯来源:由a0资讯编译自THECOINREPUBLIC。版权归作者A0资讯所有,未经许可,不得转载