メインコンテンツへスキップ
  1. Tags/

SWE-Bench

2026

【速報】OpenAIが発表:SWE-bench Verifiedが信頼性を失った3つの重大な理由

OpenAIが2026年2月、AI評価ベンチマークSWE-bench Verifiedの使用停止を発表。テスト設計の欠陥とデータ汚染により、もはや真のコーディング能力を測定できないと判明。業界標準だった評価手法の転換点となる重要発表を詳しく解説します。