主要大規模言語モデルの認知機能評価、MoCAで軽度認知機能障害の兆候

📚 掲載誌:BMJ | 掲載日:2024-12-19 | DOI:10.1136/bmj-2024-081948

📄 原題:Age against the machine-susceptibility of large language models to cognitive impairment: cross sectional analysis.

🔗 PubMed:PMID: 39706600

【背景】

大規模言語モデル(LLM)の医療分野での活用が期待される中、その認知能力と認知機能低下への脆弱性は不明でした。本研究は、主要なLLMの認知機能を評価し、認知機能障害の兆候を特定することを目的としました。

【結果】

MoCAテストでは、ChatGPT 4oが最高スコアの26/30点を獲得し、次いでChatGPT 4とClaudeが25/30点、Gemini 1.0が最低の16/30点でした。ほとんどのLLMは視空間/実行機能タスクで低成績を示し、Geminiモデルは遅延再生タスクに失敗しました。ストループテストの不一致条件で成功したのはChatGPT 4oのみでした。

【臨床へのインパクト】

ChatGPT 4oを除くほとんどのLLMがMoCAテストで軽度認知機能障害の兆候を示し、古いモデルほど成績が悪い傾向が判明しました。これは、AIが人間の医師をすぐに代替するという仮説に疑問を投げかけ、LLMが医療診断で信頼性を欠く可能性や、患者の信頼を損なうリスクがあることを示唆します。医療現場でのLLM導入には、その認知能力の限界を考慮した慎重な検討が必要です。

本記事は AI(Gemini)が PubMed 上の英語 Abstract を要約したものです。臨床判断には必ず原著をご確認ください。

上部へスクロール