急诊是医院医疗服务的关键前沿,也是最能反映地区医疗现状的窗口,它时刻面临着各类突发的、紧急的医疗状况。急诊预检分诊是急诊就诊的首要环节,承担着对患者进行初步评估、分类和指导就诊流程的重要职责[1]。安全有效的急诊预检分诊可准确识别急危重症患者,确保患者安全,提高急诊运行效率[2]。国家卫生部分别在2011、2013年发布了的“急诊患者病情分级指导原则”和“急危重伤病标准及诊疗规范的通知”中按病情危重程度及需要的急诊资源数将急诊患者分为四级[3-4],但在此后的一段时间内我国的急诊预检标准仍不规范统一[5],2018的《急诊预检分诊专家共识》中再次完善预检分诊标准,根据客观指标和主观指标对急诊预检分诊分级工作进行了指导,并根据急诊预检分诊分级制定了不同的响应时间:Ⅰ级(急危患者)需立即进行救治;Ⅱ级(急重患者)需监护生命体征,10 min内进行救治;Ⅲ级(急症患者)需要在30 min内进行救治;Ⅳ级(亚急症和非急症患者),亚急症需在60 min内救治,非急症患者可能需要等待2~4 h或更长[6]。但在实际工作中由于预检分诊仍存在诸多困难,如对护士能力要求高:它要求分诊人员具备扎实的医学专业知识,在共识需要护士短时间内对患者的症状进行主观指标评定,在短时间内从患者复杂的表述和身体状况中提取关键信息,做出准确的分诊决策,故对分诊护士要求较高,需要完善的准入标准、培训考核及评价体系[7];而且随着人口老龄化及就医观念的改变,急诊科的患者数量急剧上升,许多医疗机构的急诊预检分诊人员相对不足,无法满足日益增长的工作量需求,给预检分诊带来巨大压力[8]。
人工智能大语言模型(large language models, LLMs)是“大数据+大算力+强算法”结合的产物,包含“预训练”和“大语言模型”两层含义,即模型在大规模数据集上完成预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用[9],在医学领域以多模态数据库(互联网数据库:维基百科、专业论坛等;专业数据库:药物数据库、循证医学库、国家标准库等;私有数据库:患者病历、影像学资料等)为预训练构架,在疾病诊断、医学影像识别、药物研发均有应用,其准确性也经过多次验证[10-11]。在国内还没有运用LLMs于急诊预检分诊的案例,本研究以百度旗下的大语言模型“文言一心”和字节跳动旗下的大语言模型“豆包”为代表,对本院已完成就诊患者运用不同方法重新预检分诊,通过对比各组的预检分诊正确率,探讨大语言模型在预检分诊中的准确性。
1 资料与方法 1.1 研究对象2024年8月1日至2024年8月5日在重庆市急救医疗中心急诊就诊患者,通过纳入排除标准筛选出447例患者为研究对象。纳入标准:①该时间段内由3名高年资护士(急诊工作>10年的主管护师)进行预检分诊的患者;②年龄≥14岁。排除标准:来院复诊、抽血体检、分诊后未就诊离开等患者。本研究经重庆市第四人民医院(重庆市急救医疗中心)医学伦理委员会审批通过,批准号:2024年伦审第(49)号。
1.2 分组 1.2.1 标准组由1名急诊科主任医师、2名急诊科副主任医师组成专业团队,通过急诊预检分诊中的主诉、生命体征、年龄及患者就诊后最终诊断(专业团队可以看到患者的就诊后的所有检查结果及诊断),参考2018年急诊预检分诊共识,回顾性给447例患者进行再次预检分诊分级,分诊级别不同时少数服从多数,未出现3名医生均不相同的情况。3名医生对患者就诊时的预检分诊不知情。
1.2.2 高年资护士组在患者就诊时3名护士中任意一人对患者预检分诊分级,分诊方式为分诊软件对生命体征等客观因素进行评估,护士根据主观因素进行调整。
1.2.3 低年资护士组1名急诊科工作<1年的低年资护士,参考2018年急诊预检分诊共识,根据病例记录中的主诉及生命体征(仅能看到基础信息、主诉和生命体征)进行再次预检分诊分级,分诊方式为分诊软件对生命体征等客观因素进行评估,护士根据患者就诊时主诉参考主观因素进行调整。该护士对患者就诊时的预检分诊不知情。
1.2.4 “豆包”组低年资护士组中分诊的低年资护士对患者分诊后,再次以“年龄+主诉+血压+心率+呼吸+体温+氧饱和度+意识,参考2018版急诊预检分诊专家共识进行急诊预检分诊分级”的公式,输入豆包大语言模型(https://www.doubao.com/chat/),“豆包”会反馈一个确切的预检分诊分级建议。
1.2.5 “文心一言”组低年资护士组中分诊的低年资护士对患者分诊后,再次以“年龄+主诉+血压+心率+呼吸+体温+氧饱和度+意识,参考2018版急诊预检分诊专家共识进行急诊预检分诊分级”的公式,输入文心一言大语言模型(https://yiyan.baidu.com/chat),“文心一言”会反馈一个预检分诊分级,或2个相邻的预检分诊分级建议,当出现2个相邻的预检分诊分级建议时,记录中间值(如建议预检分诊Ⅰ级或Ⅱ级时记录预检分诊分级为1.5)。见图 1。
![]() |
图 1 研究对象筛选及分组流程 |
|
收集患者的性别、年龄等基础指标。预检分诊分级包括:记录各组中对447例患者的预检分诊分级,Ⅰ级患者记录为1,Ⅱ级患者记录为2,Ⅲ级患者记录为3,Ⅳ级患者记录为4,文言一心大语言模型出现2个相邻的预检分诊分级建议时,记录中间值。
预检分诊正确率:对比高年资护士组、低高年资护士组、“豆包”组和标准组中的预检分诊分级,若两组分级相同记为预检分诊正确;若两组分级不同记为预检分诊错误。“文心一言”组中因可能出现两个预检分诊建议,故不纳入该研究。
1.4 统计学方法使用SPSS 23.0和GrashPad Prism 8.3.0软件进行统计学分析及图形绘制。正态分布的连续变量用均数±标准差(x±s)描述,分析采用单因素ANOVA+Dunnett检验;计数资料采用卡方检验。以P<0.05为差异有统计学意义。
2 结果 2.1 患者一般情况447例患者纳入该项研究,其中男性238例,占53.2%,女性209例,占46.7%;年龄(47.44±20.53)岁,标准组:Ⅰ级患者14例(3.1%);Ⅱ级患者90例(20.1%),;Ⅲ级患者234例(52.3%);Ⅳ级患者109例(24.8%)。
2.2 各组对患者预检分诊分级对比低年资护士组患者分级(2.861±0.745)明显低于标准组的(2.980±0.756)(P<0.05);高年资护士组患者分级(2.996±0.696)、“豆包”组患者分级(2.932±0.752)、“文心一言”组患者分级(2.931±0.748),高年资护士组vs. 标准组(P=0.979);“豆包”组vs. 标准组(P=0.729);“文心一言”组vs. 标准组(P=0.714),差异均无统计学意义(P>0.05),见表 1、图 2。
分组 | 例数 | 预检分诊分级 |
标准组 | 447 | 2.980±0.756 |
高年资护士组 | 447 | 2.996±0.696 |
低年资护士组 | 447 | 2.861±0.745 |
“豆包”组 | 447 | 2.932±0.752 |
“文心一言”组 | 447 | 2.931±0.748 |
![]() |
(ns为P>0.05,a为P<0.05) 图 2 447例患者在各组预检分诊结果对比 |
|
将各组患者的预检分诊等级与标准组进行对比,高年资护士组预检分诊错误65例(14.5%)、分诊正确382例(85.5%);低年资护士组患者预检分诊错误90例(20.1%)、分诊正确357例(79.9%);“豆包”组患者预检分诊错误63例(14.1%)、预检分诊正确384例(85.9%)。高年资护士组vs.低年资护士组(χ2=4.878, P=0.0272);低年资护士组vs.“豆包”组(χ2=5.749, P=0.0165);高年资护士组vs.”豆包”组(χ2=0.037, P=0.0859)。
高年资护士组和“豆包”组的正确率差异无统计学意义(P>0.05),且明显高于低年资护士组(P<0.05),见表 2、图 3。
分诊方法 | 例数(例) | 分诊错误(例) | 分诊正确(例) |
高年资护士组 | 447 | 65(14.5%) | 382(85.5%) |
低年资护士组 | 447 | 90(20.1%) | 357(79.9%) |
“豆包”组 | 447 | 63(14.1%) | 384(85.9%) |
![]() |
注:ns为P>0.05,a为P<0.05 图 3 高年资护士组、低年资护士组、“豆包”组预检分诊正确率对比 |
|
标准组预检分诊分级为Ⅰ级患者14例,高年资护士组分诊正确12例、正确率85.71%,低年资护士组分诊正确12例、正确率85.71%,“豆包”组分诊正确13例、正确率92.86%,高年资护士组vs.低年资护士组(χ2=0.0000, P>0.9999), 低年资护士组vs.“豆包”组(χ2=0.3733, P=0.5412), 高年资护士组vs.“豆包”组(χ2=0.3733, P=0.5412),三组患者间差异无统计学意义(P>0.05);标准组预检分诊为Ⅱ级患者90例,高年资护士组分诊正确72例、正确率80.00%,低年资护士组分诊正确74例、正确率82.22%,“豆包”组分诊正确73例、正确率81.11%,高年资护士组vs.低年资护士组(χ2=0.1450, P=0.7033),低年资护士组vs.“豆包”组(χ2=0.0371, P=0.8472), 高年资护士组vs.“豆包”组(χ2=0.0355, P=0.8506),三组患者间差异无统计学意义(P>0.05);标准组预检分诊为Ⅲ级患者234例,高年资护士组分诊正确209例、正确率89.32%,低年资护士组分诊正确194例、正确率82.91%,“豆包”组分诊正确210例、正确率89.71%,高年资护士组vs.低年资护士组(χ2=4.020, P=0.0450),低年资护士组vs.“豆包”组(χ2=4.634, P=0.0314),高年资护士组vs.“豆包”组(χ2=0.0228, P=0.8800),高年资护士组与“豆包”组患者正确率差异无统计学意义(P>0.05),且均高于低年资护士组(P<0.05);标准组预检分诊为Ⅳ级患者109例,高年资护士组分诊正确89例、正确率81.65%,低年资护士组分诊正确77例、正确率70.64%,“豆包”组分诊正确109例、正确率80.73%,高年资护士组vs.低年资护士组(χ2=3.637, P=0.0565), 低年资护士组vs.“豆包”组(χ2=3.016, P=0.0565),高年资护士组vs. “豆包”组(χ2=0.0228, P=0.0824),三组间患者正确率差异无统计学意义(P>0.05)。见表 3、图 4。
标准组分级 | 分诊方法 | 例数 | 分诊正确 | 分诊错误 |
Ⅰ级 | ||||
高年资护士组 | 14 | 12(85.71%) | 2(14.29%) | |
低年资护士组 | 14 | 12(85.71%) | 2(14.29%) | |
“豆包”组 | 14 | 13(92.86%) | 1(7.14%) | |
Ⅱ级 | ||||
高年资护士组 | 90 | 72(80.00%) | 18(20.00%) | |
低年资护士组 | 90 | 74(82.22%) | 16(17.78%) | |
“豆包”组 | 90 | 73(81.11%) | 17(18.99%) | |
Ⅲ级 | ||||
高年资护士组 | 234 | 209(89.32%) | 25(10.68%) | |
低年资护士组 | 234 | 194(82.91%) | 40(17.09%) | |
“豆包”组 | 234 | 210(89.71%) | 24(10.26%) | |
Ⅳ级 | ||||
高年资护士组 | 109 | 89(81.65%) | 20(18.35%) | |
低年资护士组 | 109 | 77(70.64%) | 32(29.36%) | |
“豆包”组 | 109 | 88(80.73%) | 21(19.27%) |
![]() |
注:A为Ⅰ级患者中各组分诊正确率对比,B为Ⅱ级患者中各组分诊正确率对比,C为Ⅲ级患者中各组分诊正确率对比,D为Ⅳ级患者中各组分诊正确率对比;ns为P>0.05,a为P<0.05 图 4 不同组对不同级别患者分预检分诊准确率 |
|
在全球人工智能大语言模型领域内,美国OPEN Ai在2022年发布分ChatGPT无疑是该领域的代表,并应用于医学的各个领域[12-13]。但急诊预检分诊在全球标准不一,美国研发的ChatGPT以国外主流的五级预检分诊标准为主,不适用于我国的四级预检分诊标准。在我国的人工智能大语言模型中,百度公司研发的文心一言在2023年新华社研究院中国企业发展研究中心发布的《人工智能大语言模型体验报告2.0》中基础能力名列第一[14],而2024年5月字节跳动公司发布的人工智能大语言模型“豆包”在2024年7月日均使用量超过5 000亿,成为国内使用量最大的大语言模型[15],故本研究选择文心一言和豆包作为大语言模型的代表进行研究。文心一言在关于急诊预检分诊的回答中常常给两个相邻的预检分诊分级,建议结合使用者的判断进行选择,故本研究中其进纳入部分研究,未纳入预检分诊正确率进行研究。
在本研究中,笔者在不同预检分诊方式下对447例患者的预检分诊级别进行了对比,与标准组对比中仅低年资护士组(低年资护士组)对447患者的预检分诊分级级别(2.861±0.745)显著低于标准组的(2.980±0.756)。既往研究中仅指出低年资护士因经验不足易导致分诊错误,但未错误分诊时是高估患者病情还是低估患者病情进行分析[16-17]。本研究结果说明低年资护士组(低年资护士组)在患者病情评估上存在显著高估患者病情的现状,其原因考虑低年资护士对病情把握不准时,为避免延误患者病情的情况,往往倾向于更严重的情况。结果中虽然高年资护士组与人工智能大语言模型两组在分诊级别与标准组差异无统计学意义,但考虑可能存在抬高和降低分诊级别综合的情况,并不能说明分诊的准确性。在进一步分诊准确性研究中发现高年资护士组和“豆包”组对447例患者的预检分诊准确率分别为85.5%和85.9%,两组间差异无统计学意义,且都显著高于低年资护士组的79.9%。该结果表明总体来说低年资护士运用人工智能大语言模型“豆包”后,对患者的急诊预检分诊水平显著提高,且能达到现目高年资护士运用分诊软件时的相同水平。在既往国内的研究中预检分诊负荷率在94%~98%[18],明显高于本研究结果,考虑原因为既往研究对急诊预检分诊符合率多以医生在就诊前或就诊过程中对患者的评估为标准,但18版急诊预检分诊共识中主观标准中许多是以疾病的最终诊断为标准,故本研究中为更加准确,采用患者就诊完成后的最终诊断为参考。而在韩国的一项回顾性研究中采用了与本研究相同的标准,且预检分诊准确率在85.3%与本研究相近[19]。
为进一步研究人工智能大语言模型在不同严重程度患者中的预检分诊效果,笔者将不同预检分诊方法对不同预检分诊级别患者的正确率进行了对比,笔者发现危重患者(Ⅰ级、Ⅱ级)中,不同预检分诊方法的预检分诊正确率差异无统计学意义,但在非危重患者中,高年资护士组和“豆包”组对Ⅲ级的预检分诊正确率差异无统计学意义,且均大于低年资护士组;高年资护士组(高年资护士)和“豆包”组(大语言模型-“豆包”)对Ⅳ级的预检分诊正确率差异无统计学意义,和低年资护士组(低年资护士组)比较,虽差异无统计学意义,但差异仍较明显(P值分别为0.0565和0.0824)。该结果表明,低年资护士在分诊软件的协助下参考2018年急诊预检分诊专家共识对患者的识别与高年资护士级与人工智能大语言模型能相近,但对非危重患者的识别能较差,而低年资护士运用人工智能大语言模型在危重患者和非危重患者的识别均能达到高年资护士同样的水平。在美国一项关于人工智能大语言模型GPT-3在预检分诊中准确率的研究中的结果中GPT-3的准确率仅有70%显著低于专业医生的92%,该研究中分析其原因可能是大语言模型GPT-3的训练中参考了太多非医学来源资料[20]。而在本研究中人工智能大语言模型分级的公式中明确强调了参考2018版《急诊预检分诊专家共识》[6],故降低分诊错误的比例。首都医科大学提出的基于机器学习的急诊预检分诊模式与本研究理念相近,但该研究主要以患者年龄、性别、生命体征为参考,仅包含客观指标,未按照2018版《急诊预检分诊专家共识》纳入主观指标进行分析[21]。
本研究为回顾性研究,故除了高年资护士分诊组外,其余各组均使用病历中已有主诉、生命体征等进行进行分诊,而在分诊工作中,护士的病史采集能力、环境因素和患者因素均会对预检分诊的准确率产生影响[22],需人工智能大言语模型在临床预检分诊中运用后再次对其准确性进行验证。
综上所述,低年资护士使用人工智能大语言模型对成人进行急诊预检分诊可显著提高低年资护士在预检分诊中的准确率,并和高年资护士的预检分诊准确率相当,临床使用可降低对急诊预检分诊护士的能力要求,降低人力成本。
利益冲突 所有作者声明无利益冲突
作者贡献声明 罗杰陈凤:选题与研究设计;艾山木:技术指导;辜锐、吴豪杰、龚元:数据收集;罗杰、阙婉舒、陈凤文章的撰写与修改;所有成员均参与本研究中分诊及再次分诊的过程
[1] | Sax DR, Warton EM, Kene MV, et al. Emergency severity index version 4 and triage of pediatric emergency department patients[J]. JAMA Pediatr, 2024, 178(10): 1027-1034. DOI:10.1001/jamapediatrics.2024.2671 |
[2] | 钟彬. 急诊预检分诊研究进展[J]. 当代护士(下旬刊), 2020, 27(10): 7-10. DOI:10.19793/j.cnki.1006-6411.2020.30.003 |
[3] | 中华人民共和国卫生部. 急诊病人病情分级指导原则(征求意见稿)[J/OL]. 中华危重症医学杂志(电子版), 2011, 4(4): 241-243. DOI: 10.3877/cma.j.issn.1674-6880.2011.04.006. |
[4] | 国家卫生计生委办公厅. 需要紧急救治的急危重伤病标准及诊疗规范的通知(国卫办医发〔2013〕32号)[EB/OL]. (2013-11-25) [2024-07-09]. https://www.gov.cn/gzdt/2013-11/25/content_2534321.htm. |
[5] | 金静芬, 郭芝廷. 国内三甲医院急诊预检分诊现状与对策研究[J]. 中华急诊医学杂志, 2015, 24(4): 458-461. DOI:10.3760/cma.j.issn.1671-0282.2015.04.031 |
[6] | 史冬雷, 刘晓颖, 周瑛. 急诊预检分诊专家共识[J]. 中华急诊医学杂志, 2018, 27(6): 599-604. DOI:10.3760/cma.j.issn.1671-0282.2018.06.006 |
[7] | 方珏, 王钰炜, 王飒, 等. 浙江省综合性医院急诊预检分诊现况的调查研究[J]. 中华急危重症护理杂志, 2023, 4(9): 842-847. DOI:10.3761/j.issn.2096-7446.2023.09.016 |
[8] | 郑琰莉, 韩福海, 李舒玉, 等. 人工智能大模型在医疗领域的应用现状与前景展望[J]. 医学信息学杂志, 2024, 45(6): 24-29. DOI:10.3969/j.issn.1673-6036.2024.06.005 |
[9] | Rao A, Kim J, Kamineni M, et al. Evaluating ChatGPT as an adjunct for radiologic decision-making [J/OL]. medRxiv: 2023.02.02.23285399 (2023-02-07) [2024-07-09]. DOI: 10.1101/2023.02.02.23285399. |
[10] | Liu JL, Wang CY, Liu SR. Utility of ChatGPT in clinical practice[J]. J Med Internet Res, 2023, 25: e48568. DOI:10.2196/48568 |
[11] | Hirosawa T, Kawamura R, Harada Y, et al. ChatGPT-generated differential diagnosis lists for complex case-derived clinical vignettes: diagnostic accuracy evaluation[J]. JMIR Med Inform, 2023, 11: e48808. DOI:10.2196/48808 |
[12] | 项阳. 生成式人工智能大模型的现状和未来[J]. 中国教育网络, 2023(11): 30-31. DOI:10.3969/j.issn.1672-9781.2023.11.016 |
[13] | 郭华源, 刘盼, 卢若谷, 等. 人工智能大模型医学应用研究[J]. 中国科学: 生命科学, 2024, 54(3): 482-506. DOI:10.1360/SSV-2022-0298 |
[14] | 新华社研究院中国企业发展研究中心.人工智能大模型体验报告2.0[EB/OL]. (2023.08.14) [2024-07-09]. http://dsj.guizhou.gov.cn/xwzx/gnyw/. |
[15] | 佚名. 豆包大模型再升级!日均Tokens使用量超5000亿[EB/OL].(2024-08-26) [2024-07-09]. http://new.qq.com/rain/a/20240823A085M400. |
[16] | Bijani M, Khaleghi AA. Challenges and barriers affecting the quality of triage in emergency departments: a qualitative study[J]. Galen Med J, 2019, 8: e1619. DOI:10.31661/gmj.v8i0.1619 |
[17] | 周涛, 汪琰彦, 屈纪富, 等. 基于信息系统的急诊分诊模式精准优化[J]. 黑龙江医药, 2023, 36(6): 1449-1452. DOI:10.14035/j.cnki.hljyy.2023.06.074 |
[18] | 王钰炜, 刘亚洁, 陈晨, 等. HIT技术与大数据分析在智慧化急诊预检分诊的应用[J]. 中华急诊医学杂志, 2023, 32(6): 846-849. DOI:10.3760/cma.j.issn.1671-0282.2023.06.027 |
[19] | Moon SH, Shim JL, Park KS, et al. Triage accuracy and causes of mistriage using the Korean Triage and Acuity Scale[J]. PLoS One, 2019, 14(9): e0216972. DOI:10.1371/journal.pone.0216972 |
[20] | Levine DM, Tuwani R, Kompa B, et al. The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study[J]. Lancet Digit Health, 2024, 6(8): e555-e561. DOI:10.1016/S2589-7500(24)00097-9 |
[21] | 韦力, 何宜楠, 李鹏, 等. 基于机器学习的急诊预检分诊模型应用研究[J]. 中国数字医学, 2023, 18(5): 54-57. |
[22] | 卢美珍, 毛卫婷, 陆彩云, 等. 急诊预检分诊错误原因分析及整改探讨[J]. 中国卫生标准管理, 2017, 8(16): 19-21. |