医療分野における大規模言語モデルの評価実態:実患者データ活用はわずか、精度重視で公平性やバイアスは未検証
【背景】
大規模言語モデル(LLM)は医療現場での活用が期待されるが、現在の評価方法では最も有用な適用分野が十分に特定されていない。既存のLLM評価がどのようなデータ、タスク、評価指標、専門分野で行われているかをまとめる目的で、本系統的レビューが実施された。
【結果】
2022年1月から2024年2月までの519の研究のうち、実患者データを用いたLLM評価はわずか5%だった。最も一般的なタスクは医師国家試験のような医学知識評価(44.5%)と診断(19.5%)で、請求コード付与や処方箋作成などの事務タスクは少なかった。評価指標の95.4%は精度に焦点を当て、公平性、バイアス、毒性(15.8%)はほとんど評価されていなかった。
【臨床へのインパクト】
現在のLLM評価は、実臨床データではなく医学知識の正確性に偏り、公平性やバイアスといった重要な側面が見過ごされている。このままでは、実臨床で安全かつ効果的にLLMを導入する上での課題が残る。今後は、標準化された評価指標と臨床データを用い、幅広いタスクと専門分野での評価を拡大することで、日本の臨床現場でのLLMの適切な活用に向けた道筋が示される可能性がある。
本記事は AI(Gemini)が PubMed 上の英語 Abstract を要約したものです。臨床判断には必ず原著をご確認ください。
