主要大規模言語モデルの認知機能評価、MoCAで軽度認知機能障害の兆候
【背景】
大規模言語モデル(LLM)の医療分野での活用が期待される中、その認知能力と認知機能低下への脆弱性は不明でした。本研究は、主要なLLMの認知機能を評価し、認知機能障害の兆候を特定することを目的としました。
【結果】
MoCAテストでは、ChatGPT 4oが最高スコアの26/30点を獲得し、次いでChatGPT 4とClaudeが25/30点、Gemini 1.0が最低の16/30点でした。ほとんどのLLMは視空間/実行機能タスクで低成績を示し、Geminiモデルは遅延再生タスクに失敗しました。ストループテストの不一致条件で成功したのはChatGPT 4oのみでした。
【臨床へのインパクト】
ChatGPT 4oを除くほとんどのLLMがMoCAテストで軽度認知機能障害の兆候を示し、古いモデルほど成績が悪い傾向が判明しました。これは、AIが人間の医師をすぐに代替するという仮説に疑問を投げかけ、LLMが医療診断で信頼性を欠く可能性や、患者の信頼を損なうリスクがあることを示唆します。医療現場でのLLM導入には、その認知能力の限界を考慮した慎重な検討が必要です。
本記事は AI(Gemini)が PubMed 上の英語 Abstract を要約したものです。臨床判断には必ず原著をご確認ください。
