<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>評価指標 on Alicia Nexus — AI×テックニュースブログ</title><link>https://alicia-nexus.tech/tags/%E8%A9%95%E4%BE%A1%E6%8C%87%E6%A8%99/</link><description>Recent content in 評価指標 on Alicia Nexus — AI×テックニュースブログ</description><generator>Hugo -- gohugo.io</generator><language>ja</language><lastBuildDate>Sun, 12 Apr 2026 11:28:37 +0900</lastBuildDate><atom:link href="https://alicia-nexus.tech/tags/%E8%A9%95%E4%BE%A1%E6%8C%87%E6%A8%99/index.xml" rel="self" type="application/rss+xml"/><item><title>主要AIベンチマークが100%ハッキング可能と判明 - UC Berkeley研究が暴く評価の盲点</title><link>https://alicia-nexus.tech/posts/20260412-ai-uc-berkeley/</link><pubDate>Sun, 12 Apr 2026 11:28:37 +0900</pubDate><guid>https://alicia-nexus.tech/posts/20260412-ai-uc-berkeley/</guid><description>UC Berkeleyの研究チームが8つの主要AIエージェントベンチマークをハッキングし、全て100%近いスコアを不正に獲得することに成功。AI性能評価の根本的な問題が明らかに。</description></item></channel></rss>