
【2026年最新】LLM業界激変の6か月|コーディングAI実用化とモデル性能大幅向上の全記録#
読了時間:約8分 | 難易度:中級 | 更新:2026年5月対応
LLM(大規模言語モデル)業界では、2025年11月から2026年5月にかけて業界を根本から変える大きな変化が続々と起きています。特にコーディングエージェントの実用化と、オープンソースモデルの性能向上は、AI開発の現場に革命的影響を与えています。
この記事では、Simon Willison氏がPyCon US 2026で発表した最新レポートを基に、この激動の6か月間で何が起きたのかを詳しく解説します。
【結論】重要ポイント3選#
1. コーディングエージェントが「使える」レベルに到達#
2025年11月を境に、OpenAIとAnthropicのコーディングエージェントが劇的に改善。日常業務で実用的に使えるレベルに達し、修正作業の大幅削減を実現しました。
2. 最先端モデルの王座が5回交代#
6か月間で「最高性能」とされるモデルが、Claude、GPT、Gemini間で5回も入れ替わる異例の競争状況が発生しました。
3. ノートPC級オープンソースモデルが大幅性能向上#
Qwen3.6-35Bなど、個人のノートPCで動作するオープンソースモデルが、従来の大規模モデルに迫る性能を実現しています。
詳細解説:2025年11月「インフレクションポイント」の全貌#
モデル性能競争の激化#
Simon Willison氏は、2025年11月を「インフレクションポイント(変曲点)」と呼んでいます。特にコーディング分野での変化が顕著でした。
最高性能モデルの変遷(2025年11月-2026年5月)
- Claude Sonnet 4.5(9月29日リリース、11月まで最高評価)
- GPT-5.1(11月、一時的に最高性能獲得)
- Gemini 3(11月、短期間で王座交代)
- GPT-5.1 Codex Max(11月、コーディング特化版)
- Claude Opus 4.5(11月末、数か月間トップ維持)
「ペリカンの自転車テスト」による性能比較#
Willison氏は独自の評価基準として「ペリカンが自転車に乗っているSVGを生成する」テストを使用しています。この奇抜なテストには重要な理由があります:
- ペリカンは描画が困難
- 自転車も技術的に複雑
- 現実的に不可能な組み合わせ
- AI学習データに含まれる可能性が極めて低い
このテストでは、Gemini 3が魚を籠に入れた非常に高品質なペリカンの自転車画像を生成し、注目を集めました。
背景・経緯:コーディングエージェント革命の技術的基盤#
Reinforcement Learning from Verifiable Rewards(RLVR)の成果#
2025年中、OpenAIとAnthropicは「Reinforcement Learning from Verifiable Rewards」という手法を用いて、コーディング品質の向上に取り組んできました。この技術により:
- CodexとClaude Codeエージェントハーネスとの連携強化
- コード生成の精度と実用性が大幅向上
- 「しばしば動作する」から「ほとんど動作する」レベルへ
実用化の転換点#
11月の変化は単なる性能向上ではありませんでした。コーディングエージェントが「日常業務で使える道具」として質的転換を遂げ、開発者がミスの修正に費やす時間を劇的に削減できるようになったのです。
他社比較・競合分析:オープンソースVS商用モデル#
中国系オープンソースの躍進#
GLM-5.1の衝撃
- サイズ:1.5TB(テラバイト級の巨大モデル)
- 特徴:非常に高性能だが、動作には高性能ハードウェアが必要
- 開発元:中国のAI研究所GLM
Qwen3.6-35Bの実用性
- サイズ:20.9GB(ノートPC動作可能)
- 性能:Claude Opus 4.7を上回るペリカン画像を生成
- 革新性:個人レベルで最先端性能にアクセス可能
米国企業の対応#
Google Gemma 4シリーズ Googleが発表したGemma 4シリーズは、米国企業発のオープンウェイトモデルとして最も高性能とされています。
影響と今後の展望:個人AI時代の到来#
「Claw」現象の社会的影響#
2025年11月末に初回コミットされた「Warelay」プロジェクトは、数回の名称変更を経て「OpenClaw」として2026年2月に世界的注目を集めました。
Clawの定義と特徴
- 正式名称:パーソナルAIアシスタント
- 通称:「Claw」(NanoClaw、ZeroClawなどから派生した総称)
- 設置環境:Mac Miniが人気(「完璧な水族館」と表現される)
エンターテインメント業界への波及#
Google Jeff Dean氏は、Willison氏のペリカンテストに応答する形で、動物たちが乗り物に乗るアニメーション動画を公開。これにより、AI研究所が独自ベンチマークにも注目していることが明らかになりました。
よくある質問(FAQ)#
Q: コーディングエージェントは本当に実用的なのか?#
A: 2025年11月以降、「日常業務で使える」レベルに到達したとされています。ミスの修正時間が大幅に削減され、実際の開発プロジェクトで活用されています。
Q: オープンソースモデルの性能はどの程度?#
A: Qwen3.6-35Bなどは、商用の大規模モデルに迫る性能を個人のノートPCで実現しています。ただし、ペリカンテストの限界も指摘されており、実用性の評価には注意が必要です。
Q: 最高性能モデルはどれか?#
A: 2026年5月時点では明確な結論は出ていませんが、Claude Opus 4.5が数か月間トップを維持していたとされます。
専門家の見解・業界反応#
開発者コミュニティの反応#
Willison氏自身、2025年年末年始の休暇期間中に新しいコーディングエージェントを試用し、「LLM精神病」とも呼べる状態になったと告白しています。その結果生まれたプロジェクトの一つが「micro-javascript」です。
micro-javascriptの技術スタック
- MicroQuickJSの緩いPythonポート
- ブラウザプレイグラウンド利用可能
- 動作環境:JavaScript → WebAssembly → Pyodide → Python → micro-javascript
過度な期待への警鐘#
Willison氏は、実用性に疑問のあるプロジェクトを「静かに引退させた」と述べ、AI技術への過度な期待に対する冷静な判断の重要性を示しています。
【保存版】チェックポイントまとめ#
技術選択のポイント#
- コーディング用途:CodexまたはClaude Codeエージェント推奨
- 個人利用:Qwen3.6-35B等のオープンソース検討
- 企業利用:Claude Opus 4.5またはGemini 3.1 Pro
- コスト重視:Mac Mini + OpenClawの組み合わせ
今後の注目ポイント#
- Clawエコシステムの発展状況
- オープンソースモデルの性能向上ペース
- 商用モデル間の競争激化継続
- コーディングエージェントの適用範囲拡大
関連情報・追加リソース#
本記事で取り上げた技術動向は、AI/機械学習業界の急速な発展を示しています。特にオープンソース勢力の台頭と、コーディング分野での実用性向上は、今後の技術選択に大きな影響を与えると予想されます。
最新動向については、各AI研究所の公式発表や、開発者コミュニティでの議論を継続的にフォローすることをお勧めします。
