2026年05月20日

GPT-3.5 Turboはシステマティックレビューの文献スクリーニングで使えるか

📚 掲載誌：Ann Intern Med ｜ 掲載日：2024-06-01 ｜ DOI：10.7326/M23-3389

📄 原題：Sensitivity and Specificity of Using GPT-3.5 Turbo Models for Title and Abstract Screening in Systematic Reviews and Meta-analyses.

🔗 PubMed：PMID: 38768452

【背景】

科学文献の爆発的な増加により、システマティックレビューの文献スクリーニングは手作業で行われ、多大な労力を要しています。本研究は、OpenAIのGPT-3.5 Turboがシステマティックレビューのタイトル・抄録スクリーニングにおいて、単独のレビューアとしてどの程度の精度を持つかを検証しました。

【結果】

バランス重視ルールでは感度81.1～96.5%、特異度25.8～80.4%でした。GPTは人間が見逃した7件の論文を特定しましたが、10,279件の偽陽性（45.3%）を生じました。感度最適化ルールでは感度94.6～99.8%、特異度2.2～46.6%でした。これにより手動スクリーニング対象を最大45.4%削減可能でしたが、フルテキストレベルで0～1件の論文（3.8%）を見逃す可能性がありました。

【臨床へのインパクト】

GPT-3.5 Turboは、システマティックレビューにおけるタイトル・抄録スクリーニングで、第二のレビューアとして使用できる可能性があります。ただし、偽陽性増加による追加の調整作業が必要となります。また、スクリーニング前の文献数を削減する可能性も示唆されましたが、フルテキストレベルで一部の文献を見逃すリスクも考慮する必要があります。今後のシステマティックレビューの効率化に貢献する可能性があります。

本記事は AI（Gemini）が PubMed 上の英語 Abstract を要約したものです。臨床判断には必ず原著をご確認ください。