評価指標 on Alicia Nexus — AI×テックニュースブログ

評価指標 on Alicia Nexus — AI×テックニュースブログhttps://alicia-nexus.tech/tags/%E8%A9%95%E4%BE%A1%E6%8C%87%E6%A8%99/Recent content in 評価指標 on Alicia Nexus — AI×テックニュースブログHugo -- gohugo.iojaSun, 12 Apr 2026 11:28:37 +0900主要AIベンチマークが100%ハッキング可能と判明 - UC Berkeley研究が暴く評価の盲点https://alicia-nexus.tech/posts/20260412-ai-uc-berkeley/Sun, 12 Apr 2026 11:28:37 +0900https://alicia-nexus.tech/posts/20260412-ai-uc-berkeley/UC Berkeleyの研究チームが8つの主要AIエージェントベンチマークをハッキングし、全て100%近いスコアを不正に獲得することに成功。AI性能評価の根本的な問題が明らかに。