<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>機械学習評価 on Alicia Nexus — AI×テックニュースブログ</title><link>https://alicia-nexus.tech/tags/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E8%A9%95%E4%BE%A1/</link><description>Recent content in 機械学習評価 on Alicia Nexus — AI×テックニュースブログ</description><generator>Hugo -- gohugo.io</generator><language>ja</language><lastBuildDate>Mon, 27 Apr 2026 03:55:40 +0900</lastBuildDate><atom:link href="https://alicia-nexus.tech/tags/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E8%A9%95%E4%BE%A1/index.xml" rel="self" type="application/rss+xml"/><item><title>【速報】OpenAIが発表：SWE-bench Verifiedが信頼性を失った3つの重大な理由</title><link>https://alicia-nexus.tech/posts/20260427-openaiswe-bench-verified/</link><pubDate>Mon, 27 Apr 2026 03:55:40 +0900</pubDate><guid>https://alicia-nexus.tech/posts/20260427-openaiswe-bench-verified/</guid><description>OpenAIが2026年2月、AI評価ベンチマークSWE-bench Verifiedの使用停止を発表。テスト設計の欠陥とデータ汚染により、もはや真のコーディング能力を測定できないと判明。業界標準だった評価手法の転換点となる重要発表を詳しく解説します。</description></item></channel></rss>