2026年05月20日

主要大規模言語モデルの認知機能評価、MoCAで軽度認知機能障害の兆候

📚 掲載誌：BMJ ｜ 掲載日：2024-12-19 ｜ DOI：10.1136/bmj-2024-081948

📄 原題：Age against the machine-susceptibility of large language models to cognitive impairment: cross sectional analysis.

🔗 PubMed：PMID: 39706600

【背景】

大規模言語モデル（LLM）の医療分野での活用が期待される中、その認知能力と認知機能低下への脆弱性は不明でした。本研究は、主要なLLMの認知機能を評価し、認知機能障害の兆候を特定することを目的としました。

【結果】

MoCAテストでは、ChatGPT 4oが最高スコアの26/30点を獲得し、次いでChatGPT 4とClaudeが25/30点、Gemini 1.0が最低の16/30点でした。ほとんどのLLMは視空間/実行機能タスクで低成績を示し、Geminiモデルは遅延再生タスクに失敗しました。ストループテストの不一致条件で成功したのはChatGPT 4oのみでした。

【臨床へのインパクト】

ChatGPT 4oを除くほとんどのLLMがMoCAテストで軽度認知機能障害の兆候を示し、古いモデルほど成績が悪い傾向が判明しました。これは、AIが人間の医師をすぐに代替するという仮説に疑問を投げかけ、LLMが医療診断で信頼性を欠く可能性や、患者の信頼を損なうリスクがあることを示唆します。医療現場でのLLM導入には、その認知能力の限界を考慮した慎重な検討が必要です。

本記事は AI（Gemini）が PubMed 上の英語 Abstract を要約したものです。臨床判断には必ず原著をご確認ください。

【背景】

【結果】

【臨床へのインパクト】

現場のプロが選ぶ、特別な1着を。

現場のプロが選ぶ、
特別な1着を。