【結論】今回のニュースで分かったこと#
糖尿病患者の食事管理において、AI技術への過度な依存が極めて危険であることが科学的に証明されました。同一の食事写真を4つの主要AIモデル(OpenAI GPT-5.4、Anthropic Claude Sonnet 4.6、Google Gemini 2.5 Pro、Google Gemini 3.1 Pro Preview)に対して計26,904回質問した結果、毎回異なる炭水化物推定値が返され、最悪の場合は42.9単位ものインスリン投与量の差が生じることが判明しました。
なぜいま注目されているのか#
近年、糖尿病管理アプリでAIによる炭水化物カウント機能が普及していますが、その精度と安全性に疑問符が付けられています。研究者は実際の食事写真13枚を使用し、各写真を500回以上同じAIモデルに送信。同じ写真、同じ質問、同じ設定にも関わらず、AIは一貫した答えを出せませんでした。
最も危険な例:パエリア写真の場合
- Gemini 2.5 Proの推定値:55g〜484gの幅(429gの差)
- この差は42.9単位のインスリンに相当
- 研究者は「これは単なる丸め誤差ではなく、致命的になりうる」と警告
技術的なポイントをわかりやすく解説#
AIモデル別の信頼性比較#
各AIモデルの一貫性を変動係数(CV)で測定した結果:
| モデル | 中央値変動率 | 中央値インスリン変動 | 最悪ケース |
|---|---|---|---|
| Claude Sonnet 4.6 | 2.4% | 0.9単位 | 13.6単位 |
| GPT-5.4 | 8.4% | 2.3単位 | 16.6単位 |
| Gemini 3.1 Pro | 10.3% | 2.9単位 | 16.2単位 |
| Gemini 2.5 Pro | 11.0% | 4.7単位 | 42.9単位 |
チーズサンドイッチの「正確に間違える」問題#
最も単純な食事であるチーズサンドイッチ(実際の炭水化物量40g)でも深刻な問題が発覚:
- 3つのモデル(Claude、Gemini 2.5 Pro、Gemini 3.1 Pro):一貫して28g(12g過小評価)
- GPT-5.4:平均74g(34g過大評価)で、かつ高い変動性
これは「高い一貫性が精度を保証しない」という重要な教訓を示しています。
私たちへの影響は?#
糖尿病患者への直接的リスク#
研究では臨床的に危険なインスリン投与エラーの発生率を分析:
- Claude: 100%が安全〜中程度の範囲(誤差2単位未満)
- GPT-5.4: 37%が臨床的に重大な誤差(2単位超)
- Gemini 3.1 Pro: 12%が臨床的に重大な誤差
- Gemini 2.5 Pro: 12%が5単位超の誤差(重篤な低血糖症リスク)
食品識別エラーの実態#
13枚のテスト画像のうち8枚で食品識別エラーが発生:
- ベイクウェルタルト:Claudeが100%の確率で「リンツァートルテ」と誤認
- クレマカタラーナ:4モデル中3つが100%「クレームブリュレ」と誤認
- チーズサンドイッチ:Gemini 3.1 Proが17.4%の確率で存在しないハムを「幻覚」
よくある疑問にお答えします#
Q: AIの信頼度スコアは参考になる?#
A: 全く参考になりません。 4つのモデルすべてで、信頼度スコアと実際の精度の相関関係はほぼゼロでした。Claudeの場合、高信頼度(0.85以上)の推定値は低信頼度のものより実際には精度が悪いという逆転現象も確認されています。
Q: どのAIが最も安全?#
A: Claude Sonnet 4.6が最も一貫性が高く、危険な範囲のエラーは発生しませんでした。 ただし、systematic bias(系統的偏向)により、すべてのモデルが平均的に炭水化物量を過大評価する傾向があります。
Q: 糖尿病アプリは使わない方が良い?#
A: 自動計算への完全依存は避けるべきです。 DTN-UKは今年初めに「汎用LLMを自律的なインスリン投与計算機として使用してはならない」と声明を発表しており、今回の研究がその定量的証拠となっています。
まとめ:押さえておくべき重要ポイント#
- 同一条件でもAIは毎回異なる答えを出す(最大400g以上の差)
- 信頼度スコアは安全性の指標にならない(むしろ誤解を招く可能性)
- 食品識別エラーが頻発(13枚中8枚でエラー)
- 2つのリスク要因:系統的偏向(慢性的過剰投与)と確率的変動(急性的危険)
- Claude以外のモデルでは10%以上の確率で危険な投与エラー
筆者の見解:AI技術の進歩は素晴らしいものですが、生命に関わる医療分野では「補助ツール」として慎重に活用すべきです。完全自動化ではなく、従来の知識と併用することが現時点では最も安全なアプローチと言えるでしょう。
参考・関連情報#
この研究は現在プレプリント段階で発表されており、糖尿病技術分野における重要な安全性の警告として注目されています。詳細は元記事を参照してください。
出典: He asked AI to count carbs 27000 times. It couldn’t give the same answer twice



