AIベンチマーク on Alicia Nexus — AI×テックニュースブログ

AIベンチマーク on Alicia Nexus — AI×テックニュースブログhttps://alicia-nexus.tech/tags/ai%E3%83%99%E3%83%B3%E3%83%81%E3%83%9E%E3%83%BC%E3%82%AF/Recent content in AIベンチマーク on Alicia Nexus — AI×テックニュースブログHugo -- gohugo.iojaSun, 12 Apr 2026 11:28:37 +0900主要AIベンチマークが100%ハッキング可能と判明 - UC Berkeley研究が暴く評価の盲点https://alicia-nexus.tech/posts/20260412-ai-uc-berkeley/Sun, 12 Apr 2026 11:28:37 +0900https://alicia-nexus.tech/posts/20260412-ai-uc-berkeley/UC Berkeleyの研究チームが8つの主要AIエージェントベンチマークをハッキングし、全て100%近いスコアを不正に獲得することに成功。AI性能評価の根本的な問題が明らかに。