↓ メインコンテンツへスキップ

AIベンチマーク

2026

【速報】OpenAIが発表：SWE-bench Verifiedが信頼性を失った3つの重大な理由

2026年4月27日·5 分

IT SWE-Bench AIベンチマーク OpenAI コーディング評価機械学習評価

OpenAIが2026年2月、AI評価ベンチマークSWE-bench Verifiedの使用停止を発表。テスト設計の欠陥とデータ汚染により、もはや真のコーディング能力を測定できないと判明。業界標準だった評価手法の転換点となる重要発表を詳しく解説します。

主要AIベンチマークが100%ハッキング可能と判明 - UC Berkeley研究が暴く評価の盲点

2026年4月12日·5 分

IT AIベンチマークセキュリティ評価指標 AI開発者

UC Berkeleyの研究チームが8つの主要AIエージェントベンチマークをハッキングし、全て100%近いスコアを不正に獲得することに成功。AI性能評価の根本的な問題が明らかに。