精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
MiniGPT-Med | 多模態(tài)模型在醫(yī)療報告生成與疾病檢測中取得突破性進展 !

備注好友:方向-學(xué)校/公司-姓名/昵稱

【AIGC 先鋒科技】交流群

近期人工智能(AI)的進步在醫(yī)療保健領(lǐng)域催生了重大突破,特別是在改進診斷程序方面。然而,以往的研究往往受限于有限的功能性。

本研究介紹了MiniGPT-Med,這是一個源自大規(guī)模語言模型并針對醫(yī)療應(yīng)用定制的視覺-語言模型。MiniGPT-Med在包括X射線、CT 掃描和 MRI在內(nèi)的各種成像模式中顯示出卓越的多功能性,增強了其實用性。

該模型能夠執(zhí)行包括醫(yī)療報告生成、視覺問題回答(VQA)和醫(yī)學(xué)圖像中的疾病識別等任務(wù)。其對圖像和文本臨床數(shù)據(jù)的綜合處理顯著提高了診斷的準確性。

作者的實證評估證實了 MiniGPT-Med 在疾病定位、醫(yī)療報告生成和VQA基準測試中的優(yōu)越性能,這代表著在縮小輔助放射學(xué)實踐差距方面邁出了重要的一步。

此外,它在醫(yī)療報告生成上的表現(xiàn)達到了最先進水平,比之前最佳模型的準確率高出 19%。MiniGPT-Med 有望成為放射學(xué)診斷的通用接口,提高廣泛醫(yī)療成像應(yīng)用中的診斷效率。

作者的模型和代碼已公開提供 https://github.com/Vision-CAIR/MiniGPT-Med 。

1 Introduction

圖像文本數(shù)據(jù)在各個領(lǐng)域的數(shù)量激增以及視覺語言建模的進步為生成式預(yù)訓(xùn)練領(lǐng)域的研究開辟了道路。這個創(chuàng)新時代以GPT-4(Achiam等人,2023)和Gemini(團隊等人,2023)等多模態(tài)模型的涌現(xiàn)為標志。這些進步意味著作者在處理和理解復(fù)雜數(shù)據(jù)方面的能力向前躍進了一步。盡管取得了這些進展,但在醫(yī)療領(lǐng)域采用多模態(tài)大型語言模型(LLM)仍然有限。醫(yī)療領(lǐng)域?qū)?shù)據(jù)復(fù)雜性、敏感性和特定性的獨特要求凸顯了需要量身定制的辦法來發(fā)揮LLM在轉(zhuǎn)變醫(yī)療研究和實踐中的潛力。已經(jīng)推出了許多為醫(yī)療應(yīng)用設(shè)計的模型,但它們通常針對特定任務(wù)表現(xiàn)出高度的專門化。這種專業(yè)化限制了它們的適應(yīng)性,尤其是在執(zhí)行多樣化的醫(yī)療應(yīng)用時。例如,像Med-Flamingo 和 XrayGPT(Thawkar等人,2023)這樣的模型主要是為醫(yī)療報告生成和醫(yī)療視覺問題回答等任務(wù)而定制的。然而,它們在需要視覺定位技能的關(guān)鍵領(lǐng)域(醫(yī)療領(lǐng)域的至關(guān)重要組成部分)如疾病檢測方面缺乏能力。為了彌補這一不足,作者推出了MiniGPT-Med,一個能夠熟練處理定位和非定位任務(wù)的統(tǒng)一模型。作者推出了MiniGPT-Med,這是一個為醫(yī)療領(lǐng)域的各種任務(wù)而設(shè)計的多功能模型,包括但不限于醫(yī)療報告生成、醫(yī)療視覺問題回答和疾病識別。MiniGPT-Med建立在大型語言模型(LLM)的架構(gòu)之上,這些模型已經(jīng)展示了出色的生成能力和廣泛的語文學(xué),包括醫(yī)學(xué)知識。借鑒LLM在廣泛的視覺語言應(yīng)用中的成功,如最近的Zhu等人(2023年);Chen等人(2023年);Li等人(2024年)的研究所示,作者的模型采用了類似于 MiniGPT-v2 的設(shè)計,使用LLaMA-2語言模型作為通用接口。此外,作者融入了不同的任務(wù)標識符,以提高模型準確執(zhí)行各種醫(yī)療視覺語言技能的能力。通過廣泛的實驗,作者證明了作者的模型在醫(yī)療視覺語言任務(wù)范圍內(nèi)表現(xiàn)出強大的性能,包括醫(yī)療報告生成、醫(yī)療視覺問題回答和疾病檢測。作者將作者的模型與專業(yè)化和通用化 Baseline 模型進行了基準測試,結(jié)果顯示作者的方法在所有評估任務(wù)中取得了強大的成果。值得注意的是,在醫(yī)療報告生成領(lǐng)域,作者的模型達到了最先進的表現(xiàn),BERT-Sim上超過最佳 Baseline 模型19%,CheXbert-Sim上超過5.2%。這表明作者的模型在多樣化的醫(yī)療視覺語言任務(wù)上具有強大的生成能力。

作者的貢獻如下:

  1. 作者推出了MiniGPT-Med,這是一個為放射學(xué)圖像的異質(zhì)性量身定制的模型,包括X射線、CT掃描和MRI。這個模型擅長處理各種視覺語言任務(wù),包括疾病識別、醫(yī)療視覺問題回答和醫(yī)療報告生成。
  2. 通過全面評估,作者在定位和非定位任務(wù)上對作者的模型進行了評估,并輔以專家手動評估。研究發(fā)現(xiàn),MiniGPT-Med在大多數(shù)基準測試中提供了具有競爭力的性能,超過了通用和專用模型,特別是在醫(yī)療報告生成方面取得了最先進的結(jié)果,超過最佳 Baseline 19.0%。

2 Background

圖1:MiniGPT-Med的多樣化能力。它可以進行疾病檢測、醫(yī)學(xué)視覺問題解答和醫(yī)療報告生成。MiniGPT-Med有效地與廣泛的放射學(xué)數(shù)據(jù)(X射線、CT掃描和MRI)合作,并擅長診斷許多疾病。

將視覺數(shù)據(jù)與大語言模型對齊:大語言模型領(lǐng)域最近的進展,如GPT-4的發(fā)布,增強了LLM的解釋和生成能力。這種進步體現(xiàn)在LLaVA(Liu et al., 2023)、Flamingo(Alayrac et al., 2022)和MiniGPT-v2(Chen et al., 2023)等模型中。LLaVA旨在通過多種多模態(tài)指令增強大語言模型對視覺內(nèi)容的理解。這種理解上的增強對于整合不同形式的數(shù)據(jù)輸入至關(guān)重要。相比之下,F(xiàn)lamingo在少量數(shù)據(jù)的情況下快速適應(yīng)新任務(wù)方面表現(xiàn)出卓越的能力。這個模型有效地管理了包含視覺和文本元素的序列。另一方面,MiniGPT-v2在單一模型框架內(nèi)展示了增強的多模態(tài)能力。這是通過特定任務(wù)的訓(xùn)練和將視覺標記與大語言模型結(jié)合的專門架構(gòu)實現(xiàn)的,與LLaVA和Flamingo的目標很好地對齊。

融合視覺語言模型以增強醫(yī)療診斷:視覺-語言模型最近的工作在醫(yī)療保健應(yīng)用中取得了顯著的改進,特別是在醫(yī)學(xué)圖像分析和診斷報告生成方面。在醫(yī)療診斷中利用VLM標志著醫(yī)療行業(yè)的重大進步。這些模型結(jié)合了計算機視覺和語言處理,以更好地分析X射線、計算機斷層掃描(CT)和MRI等醫(yī)療圖像。醫(yī)學(xué)領(lǐng)域更專業(yè)的應(yīng)用,如LLaVA-Med (Li et al., 2024) 和MedBERT (Rasmy et al., 2020),在將結(jié)構(gòu)化電子健康記錄整合到疾病預(yù)測任務(wù)中顯示出希望。MedVQA (Canepa et al., 2023) 展示了醫(yī)學(xué)視覺問題解答和圖像分析能力。此外,對于分類和解釋任務(wù),Med-Flamingo (Moor et al., 2023)、MedVis (Shen et al., 2008) 和MedMCQA (Pal et al., 2022) 展示了少樣本學(xué)習(xí)、視覺解釋和醫(yī)學(xué)AI領(lǐng)域特定問題解答的重要性。LLaVA-Med和Med-Flamingo都專注于醫(yī)學(xué)背景下的多模態(tài)對話式AI和少樣本學(xué)習(xí),使用大規(guī)模數(shù)據(jù)集并在視覺問題解答方面表現(xiàn)出能力。BioViL (Bannur et al., 2023)、BioBERT (Lee et al., 2019) 和BioGPT (Luo et al., 2022) 都已經(jīng)解決了更領(lǐng)域特定的語言模型預(yù)訓(xùn)練。BioViL強調(diào)文本語義以增強生物醫(yī)學(xué)視覺-語言處理。對放射學(xué)應(yīng)用的專業(yè)模型強調(diào)也表現(xiàn)在MedKLIP (Wu et al., 2023a)、XrayGPT (Thawkar et al., 2023b) 和BERTHop (Monajatipoor et al., 2021)上,所有這些都展示了實現(xiàn)高診斷準確性的挑戰(zhàn)。特別是MedKLIP通過將醫(yī)學(xué)知識整合到視覺-語言預(yù)訓(xùn)練中,為改進疾病分類提供了創(chuàng)新。XrayGPT將醫(yī)學(xué)視覺編碼器與大語言模型結(jié)合,以結(jié)合視覺和文本分析,從放射學(xué)數(shù)據(jù)生成精確的摘要,而BERTHop在胸部X射線的小數(shù)據(jù)集上展示了診斷性能。此外,CheXagent (Chen et al., 2024)、CheXNeXt (Rajpurkar et al., 2018) 和CheXpert (Irvin et al., 2019) 的貢獻在胸部病理檢測方面設(shè)定了基準。雖然每一項工作都提出了獨特的方法,但它們的共同目標是通過對AI模型的改進來增強放射學(xué)分析。

3 Method

Model architecture

作者的模型架構(gòu)如圖2所示,由三個關(guān)鍵組成部分構(gòu)成:視覺 Backbone 網(wǎng)絡(luò)、線性投影層和大型語言模型。以下是每個組件的詳細描述:

視覺編碼器。 在作者的方法中,作者采用了EVA(Sun等人,2023年)作為模型的主要視覺 Backbone 網(wǎng)絡(luò)。EVA(Sun等人,2023年)是一個高性能的視覺編碼器,由于其能夠處理復(fù)雜的圖像結(jié)構(gòu)和變化,因此特別適用于放射學(xué)數(shù)據(jù)。在整個訓(xùn)練過程中,這個視覺 Backbone 網(wǎng)絡(luò)在訓(xùn)練期間保持凍結(jié)狀態(tài)。放射學(xué)圖像通常是高分辨率的,作者以448448的圖像分辨率訓(xùn)練模型。作者還對位置編碼進行插值以適應(yīng)更高的圖像分辨率。

大型語言模型(LLM)。 作者采用了LLaMA2-chat(7B)(Touvron等人,2023年),一個開源的語言模型,作為主要的語言模型 Backbone 。這個LLM已經(jīng)通過學(xué)習(xí)大量的語言知識學(xué)習(xí)了廣泛的醫(yī)學(xué)知識,作者將它視為處理許多醫(yī)學(xué)視覺-語言任務(wù)的統(tǒng)一接口。例如,LLM可以幫助生成詳細的醫(yī)學(xué)報告,也可以在醫(yī)學(xué)領(lǐng)域?qū)δ[瘤進行精確的定位。

視覺語言對齊。 作者采用了MiniGPT-v2(Chen等人,2023年)的架構(gòu),并通過將視覺編碼器中的視覺標記進行拼接來提高效率,這種技術(shù)特別有利于處理高分辨率的醫(yī)學(xué)圖像。這種方法涉及將四個相鄰的視覺標記合并為一個嵌入,然后通過線性投影層將其映射到語言模型的特征空間中。

Prompt Template.

作者采用了提示模板,使作者的模型能夠很好地處理許多不同的醫(yī)療視覺-語言技能,如視覺問答、圖像字幕、指代表達式理解(REC)、指代表達式生成(REG)、疾病檢測和基于圖像的字幕生成。語言模型在處理許多不同的視覺-語言任務(wù)時可能會經(jīng)歷高度幻覺和混淆。例如,當被要求識別潛在的肺腫瘤時,它可能會錯誤地關(guān)注并描述血管或心臟中的鈣化區(qū)域。因此,為了避免在這些多任務(wù)環(huán)境中的歧義,作者在訓(xùn)練框架中添加了特定于任務(wù)的標記。作者在指令模板中遵循了類似于MiniGPT-v2Chen等人(2023)的指令設(shè)計,如下所示:

指令[/INST]

作者在表1中展示了不同的提示模板,以演示作者的模型如何通過任務(wù)標識符有效地處理不同的任務(wù)。

Region grounding representation.

在涉及目標空間位置的技能定位中,例如疾病檢測和基于實體的圖像字幕生成,作者采用邊界框的文本表示。這種表示使作者能夠?qū)⒖臻g位置整合到輸入語言模型的文本中。作者將邊界框坐標在[0,100]范圍內(nèi)進行歸一化。

4 Experiments

該實驗旨在評估MiniGPT-Med在準確分析及描述復(fù)雜醫(yī)學(xué)影像數(shù)據(jù)方面的有效性,應(yīng)用于如肺癌檢測、報告生成以及問答能力等領(lǐng)域。作者使用包括X光、MRI和CT掃描在內(nèi)的全面放射學(xué)圖像數(shù)據(jù)集,對MiniGPT-v2的第三階段進行了微調(diào),涵蓋了一系列醫(yī)療狀況,以提升各種技能。

Dataset Setup

缺乏高質(zhì)量的醫(yī)療數(shù)據(jù)集是深度學(xué)習(xí)在醫(yī)學(xué)成像領(lǐng)域的一個重大挑戰(zhàn)。為了解決這個問題,作者優(yōu)先收集了專注于放射學(xué),特別是肺部疾病以及一般醫(yī)療信息的全面數(shù)據(jù)集。作者的目標是收集包括X光片、CT掃描和MRI圖像在內(nèi)的多樣化且廣泛的醫(yī)療圖像。此外,作者還通過整合帶有邊界框的圖像、采用問答格式的數(shù)據(jù)集以及用于報告生成的數(shù)據(jù)集來增強數(shù)據(jù)集。這些補充將支持模型訓(xùn)練和發(fā)展的所有必要技能。

收集的數(shù)據(jù)集包括MIMIC(Johnson等人,2019年)、NLST(癌癥成像檔案館,2023年)和SLAKE(醫(yī)學(xué)視覺問答(Med-VQA),2023年)、RSNA(北美放射學(xué)會,2018年)和RadVQA(OSF,2023年)。以下是這些醫(yī)療數(shù)據(jù)集的詳細信息:MIMIC 數(shù)據(jù)集包括377,110張圖像和227,835份醫(yī)療報告。在作者的研究中,作者從XrayGPT(Thawkar等人,2023a年)獲得了預(yù)處理后的MIMIC數(shù)據(jù)集,該數(shù)據(jù)集包括114,539張去身份化的胸部X光圖像(JPG格式),每張圖像都附有相應(yīng)的放射學(xué)報告。其中,171,085張圖像和報告用于訓(xùn)練,而43,454張圖像和報告用于測試。這個數(shù)據(jù)集用于報告生成任務(wù)。

NLST 這個數(shù)據(jù)集用于檢測任務(wù),包括7,625張精心標注的低劑量CT掃描圖像,用于檢測肺癌,特別標記以定位結(jié)節(jié)的位置。作者從完整的3D體積中提取了顯示結(jié)節(jié)的2D CT切片。這些用于訓(xùn)練的標注來自于Sybil(Mikhael等人,2023年)的工作。

SLAKE 這個數(shù)據(jù)集用于訓(xùn)練接地(grounding)和視覺問答(VQA)任務(wù),包括579張描繪各種身體器官的放射學(xué)圖像,以及3,543組不同的問答對,用于訓(xùn)練。

RSNA 作者使用RSNA數(shù)據(jù)集來評估肺炎檢測任務(wù)。RSNA數(shù)據(jù)集包括1,218名至少有一種或以上肺炎條件的患者。作者在該數(shù)據(jù)集上進行零樣本評估,用于疾病檢測任務(wù)。

RadVQA 包括315張放射學(xué)圖像,均勻分布在 Head 、胸部和腹部,每張圖像都配有多組問題和答案,共計2,248組問答對。這些問題分為11個不同的類別:異常、屬性、檢查方式、器官系統(tǒng)、顏色、計數(shù)、物體或條件的存在、大小、平面和位置推理。一半的回答是封閉式的(即,是/否),而其余的回答是開放式的,通常需要一個單詞或短語的回答。作者在RadVQA數(shù)據(jù)集上進行零樣本評估。

Training Details

在作者的實驗中,作者使用MiniGPT-v2(陳等人,2023)的預(yù)訓(xùn)練權(quán)重(階段3之后)初始化作者的模型,并在整個訓(xùn)練過程中保持視覺編碼器凍結(jié)。作者微調(diào)線性投影層,并使用LoRA(低秩適應(yīng))(胡等人,2021)來微調(diào)LLAMA-2(圖弗隆等人,2023)大型語言模型。該模型使用交叉熵損失函數(shù)進行訓(xùn)練,并使用AdamW優(yōu)化器進行優(yōu)化。作者的數(shù)據(jù)集包含124,276張醫(yī)療圖像,每張圖像的分辨率為448x448像素,未應(yīng)用數(shù)據(jù)增強。整個訓(xùn)練在單個NVIDIA A100 GPU上進行了100個周期,最大學(xué)習(xí)率為1e-5。訓(xùn)練持續(xù)大約22小時。

Baseline models

在本研究中,作者對MiniGPT-Med在三個不同任務(wù)上的表現(xiàn)進行了評估:醫(yī)療報告生成、疾病檢測和醫(yī)療視覺問答(VQA)。作者將作者的模型與專業(yè)模型和通用模型進行了比較。專業(yè)模型指的是那些只能執(zhí)行接地(grounding)或非接地任務(wù)的模型。通用模型則是指那些能夠執(zhí)行包括接地和非接地任務(wù)在內(nèi)的各種任務(wù)的模型。

  • 對于醫(yī)療報告生成任務(wù),作者將MiniGPT-Med與專業(yè)模型進行了比較,包括在視覺語言任務(wù)和上下文學(xué)習(xí)能力方面表現(xiàn)出色的Med-Flamingo(Moor等人,2023)和LLaVA-Med。此外,作者還與專門針對放射學(xué)的RadFM(Wu等人,2023b)以及為胸透分析設(shè)計的全新視覺語言模型XrayGPT進行了比較。此外,作者還評估了MiniGPT-Med與專注于提高胸透解讀能力的CheXagent的表現(xiàn)。同時,作者還與在一般視覺語言數(shù)據(jù)上訓(xùn)練的通用模型MiniGPT-v2和Qwen-VL(Bai等人,2023)進行了比較,這些模型在多個以視覺為重點的理解基準測試中表現(xiàn)出色。

  • 疾病檢測任務(wù)中,MiniGPT-Med與在視覺語言醫(yī)療數(shù)據(jù)集上預(yù)訓(xùn)練的專業(yè)模型進行了比較,包括BioVil(Bannur等人,2023)、MedKLIP和GLoRIA,以及通用模型MiniGPT-v2和Qwen-VL。

  • 醫(yī)療VQA任務(wù)中,作者比較了MiniGPT-Med與專門針對醫(yī)療VQA挑戰(zhàn)的模型,如MedVINT(Zhang等人,2023)、OpenFlamingo(Awadalla等人,2023)和Med-Flamingo(Moor等人,2023),特別是在零樣本場景下,使用RadVQA數(shù)據(jù)集。此外,作者的工作還與通用模型MiniGPT-v2和Qwen-VL進行了比較,以全面評估MiniGPT-Med的表現(xiàn)。

Evaluation Metrics

在作者的研究中,作者調(diào)整了評估方法,以便與使用MiniGPT-Med解讀放射學(xué)圖像所需的不同技能保持一致。為了評估模型生成放射學(xué)報告的能力,作者采用了兩種指標:BERT相似度(BERTsim)和CheXbert相似度(CheXbertSim)。BERTsim用于評估模型生成的放射學(xué)圖像描述與專家提供的基準真值標注之間的語義相似性。這涉及使用BERT模型嵌入基準真值和生成的句子,然后計算這些嵌入之間的余弦相似度。相比之下,CheXbert-Sim被選中用于評估模型在復(fù)制專業(yè)醫(yī)學(xué)報告標準方面的準確性。它是BERT模型的專門版本,經(jīng)過在臨床文本上的微調(diào),它在編碼后計算每對對應(yīng)句子嵌入的余弦相似度。對于視覺問題回答(VQA)方面,作者專門使用BERTsim來衡量模型響應(yīng)的語義準確性。此外,作者還采用了交并比(IoU)作為定位指標,這是一種量化模型在放射學(xué)圖像中精確定位和識別特定特征或異常(如在RSNA數(shù)據(jù)集中的肺炎)的精確度的度量。

Medical Report Generation

在作者的綜合研究中,作者利用Johnson等人(2019年)提供的全面MIMIC數(shù)據(jù)集,評估了MiniGPT-Med模型在醫(yī)療報告生成的有效性。這一評估的結(jié)果在表5中概述,表明MiniGPT-Med模型超越了專門的和通用的 Baseline 模型。特別值得一提的是,MiniGPT-Med在BERT-Sim和CheXbert-Sim指標上,分別以21.6和5.2的顯著優(yōu)勢領(lǐng)先于領(lǐng)先的專門模型CheXagent Chen等人(2024年)。這一性能不僅展示了MiniGPT-Med在醫(yī)療報告生成領(lǐng)域的卓越性,也強調(diào)其在很大程度上超越頂級通用模型的實力——在BERT-Sim上高出19個百分點,在CheXbert-Sim上高出9個百分點。這些發(fā)現(xiàn)鞏固了MiniGPT-Med作為前沿工具的地位,證明了其在醫(yī)療報告生成方面的有效性。

Disease Detection

表3中的數(shù)據(jù)表明,與一系列基準模型相比,MiniGPT-Med的表現(xiàn)頗具競爭力。MiniGPT-Med的交并比(IoU)得分為0.26,不僅比通用模型高出16%,而且其性能指標與專業(yè)模型持平。在這些專業(yè)模型中,最高的IoU得分是0.31。作者的MiniGPT-Med在所有基準模型中取得了具有競爭力的結(jié)果,并在疾病檢測性能方面表現(xiàn)出色,凸顯了其作為醫(yī)療領(lǐng)域一個多用途且有效的工具的潛力。

Medical Visual Question Answering

本研究使用RadVQA(OSF,2023s)基準測試,評估了作者的模型MiniGPT-Med與各種 Baseline 模型的對比,結(jié)果如表4所示。MiniGPT-Med取得了顯著的成績,得分為0.58,超過了包括MiniGPT-v2(Chen等人,2023)在內(nèi)的通用模型,以及像OpenFlamingo(Awadalla等人,2023)和Med-Flamingo(Moor等人,2023)這樣的專業(yè)模型。這一性能不僅展示了MiniGPT-Med相對于眾多模型的優(yōu)越性,還表明它能達到與領(lǐng)先的專業(yè)模型MedVIN(Zhang等人,2023)相當?shù)某晒笳邷蚀_度為0.62。MiniGPT-Med能夠超越或匹配多個專業(yè)和通用模型的表現(xiàn),凸顯了其作為開發(fā)先進醫(yī)療視覺問答模型基礎(chǔ)的重要潛力。

Radiology Expert Evaluation

作者的研究采用嚴格的人類主觀評估協(xié)議,由兩位高級放射科醫(yī)師對MiniGPT-Med進行了評估。他們從MIMIC數(shù)據(jù)集的測試套件中評估了50個隨機樣本,重點關(guān)注模型的魯棒性、細致性和準確性。評估圍繞三個問題展開:Q1:生成的報告與您的專家判斷的一致性如何?Q2:生成的報告中醫(yī)療內(nèi)容的詳細程度如何?Q3:生成的報告在診斷病理方面的準確性如何?

作者將在附表5中呈現(xiàn)結(jié)果。結(jié)果顯示,高達 76% 的人工醫(yī)療報告被評為高質(zhì)量。另有 19% 被評為中等質(zhì)量,僅有5%被評為低質(zhì)量。這種分布強調(diào)了模型在合成醫(yī)療報告方面的能力,這些報告不僅符合專業(yè)標準,而且在細節(jié)和診斷準確性方面表現(xiàn)出色。這些發(fā)現(xiàn)強調(diào)了MiniGPT-Med在醫(yī)療報告流程增強中的潛力,表明它在生成臨床相關(guān)報告方面具有顯著的可靠性和有效性。

Qualitative Evaluation

在本節(jié)中,作者全面展示了 MiniGPT-Med在生成醫(yī)療報告和執(zhí)行解釋性任務(wù)中的能力。首先,圖2(a)說明了模型從圖像數(shù)據(jù)生成詳細醫(yī)療報告的能力。此外,模型能夠準確識別并用邊界框描繪特定的異常,如圖2(b)所示。另外,圖2(c)展示了接地(grounding)技能,模型解釋每個生成的單詞并在目標周圍繪制邊界框。此外,圖2 (d) 詳細說明了模型在引用和定位用戶指定的異常時的精確性。此外,圖2(e)展示了識別功能,模型利用目標坐標提供詳細的醫(yī)療描述。最后,圖2(f)呈現(xiàn)了模型的視覺問答(VQA)功能,突顯了其在回答醫(yī)療問題時的有效性。

5 Limitation

MiniGPT-Med 由于缺乏多樣化和高質(zhì)量的訓(xùn)練數(shù)據(jù)集,其覆蓋的疾病范圍受限。為了改進,作者需要更豐富和更多樣的數(shù)據(jù)集,以及更先進的視覺 Backbone 網(wǎng)絡(luò)和底層大型語言模型的提升。該模型偶爾會生成不準確的治療報告,并且不恰當?shù)貙Y狀與疾病關(guān)聯(lián)起來,這種現(xiàn)象被稱為虛構(gòu)。此外,它還難以區(qū)分人體內(nèi)植入設(shè)備的人工制品和醫(yī)學(xué)圖像中的異常。圖4展示了一個 MiniGPT-Med 未能正確識別肺炎位置的數(shù)據(jù)樣本。綠色邊界框下的目標是真實情況,紅色邊界框下的目標是錯誤檢測。該模型容易將設(shè)備植入物誤認為是異常。這個缺點常導(dǎo)致誤診。特別是當AI遇到包含植入物的X射線或MRI時,它可能將這些誤認為是異常。

6 Conclusions

在本研究中,作者介紹了 MiniGPT-Med,這是一個專為放射診斷應(yīng)用設(shè)計的多模態(tài)模型。它處理各種醫(yī)學(xué)視覺-語言任務(wù),如生成醫(yī)療報告、檢測疾病以及回答基于視覺的醫(yī)療問題,通過使用不同的任務(wù)標識符來高效地導(dǎo)航這些任務(wù)。MiniGPT-Med 在接地和非接地任務(wù)上都優(yōu)于 Baseline 模型,在 MIMIC-CXR 醫(yī)療報告生成任務(wù)上取得了最先進的表現(xiàn)。

放射學(xué)家的評估顯示,大約 76% 生成的報告具有首選質(zhì)量,突顯了模型的優(yōu)越性。

未來的計劃包括整合更多樣化的醫(yī)療數(shù)據(jù)集,提高對復(fù)雜醫(yī)學(xué)術(shù)語的理解,增強可解釋性和可靠性,并進行廣泛的臨床驗證研究,以確保在真實醫(yī)療環(huán)境中的有效性和安全性。

參考

[1].miniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
開源的迷你大語言視覺模型:MiniGPT
多模態(tài)的過渡態(tài)——Latent Modal
統(tǒng)一圖像和文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續(xù)寫,還會自動配圖了
揭秘MiniGPT
提高視覺常識推理模型在地區(qū)多樣化場景上的泛化能力的重要性
文本 視覺,多篇 Visual/Video BERT 論文介紹
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 桑植县| 老河口市| 南充市| 饶平县| 京山县| 莱西市| 滕州市| 西昌市| 内丘县| 昂仁县| 临江市| 淳化县| 望奎县| 安陆市| 习水县| 大埔区| 长沙县| 茶陵县| 广宁县| 瓮安县| 绥中县| 驻马店市| 永宁县| 股票| 哈尔滨市| 九台市| 昌图县| 松原市| 忻州市| 浮山县| 晋州市| 南涧| 邢台县| 高雄县| 清苑县| 日喀则市| 昂仁县| 衡山县| 南澳县| 乐陵市| 榕江县|