
AppleのMLXフレームワークでOllamaが高速化#
2026年3月30日、Ollamaチームは、Apple Siliconデバイス向けにMLX(Appleの機械学習フレームワーク)を活用した最速版のOllamaプレビューをリリースしました。この新バージョンにより、macOS上での要求の高いAI作業が大幅に加速されることになります。
統合メモリアーキテクチャを活用した性能向上#
Ollamaは現在、AppleのMLXフレームワーク上に構築されており、統合メモリアーキテクチャの利点を最大限活用します。この改良により、すべてのApple Siliconデバイスで大幅な速度向上を実現しています。
特にAppleのM5、M5 Pro、M5 Maxチップでは、新しいGPU Neural Acceleratorsを活用して、最初のトークンまでの時間(TTFT)と生成速度(tokens per second)の両方を加速します。
パフォーマンステストの結果#
2026年3月29日に実施されたテストでは、AlibabaのQwen3.5-35B-A3Bモデル(NVFP4量子化)とOllamaの従来実装(Q4_K_M量子化、Ollama 0.18使用)を比較しました。さらに、Ollama 0.19では、int4実行時に1851 token/sのプリフィル性能と134 token/sのデコード性能を実現する見込みです。
NVFP4サポートで品質と実用性を両立#
Ollamaは新たにNVIDIAのNVFP4フォーマットを活用し、モデルの精度を維持しながら推論ワークロードのメモリ帯域幅とストレージ要件を削減します。多くの推論プロバイダーがNVFP4フォーマットを使用してスケールしているため、Ollamaユーザーは本番環境と同じ結果を共有できるようになります。
また、NVIDIAのモデルオプティマイザーで最適化されたモデルを実行する機能も開放されます。その他の精度については、Ollamaの研究とハードウェアパートナーの設計と使用意図に基づいて利用可能になる予定です。
キャッシュシステムの改良で応答性が向上#
Ollamaのキャッシュシステムが強化され、コーディングやエージェント系タスクがより効率的になりました。
主な改良点:
- メモリ使用量の削減: 会話間でキャッシュを再利用し、Claude Codeなどのツールでシステムプロンプトを共有する際のメモリ使用量削減とキャッシュヒット率向上
- インテリジェントチェックポイント: プロンプトの適切な場所にキャッシュのスナップショットを保存し、プロンプト処理の削減と高速応答を実現
- スマートな削除機能: 古いブランチが削除されても、共有プレフィックスがより長く生存
利用開始方法#
Ollama 0.19をダウンロードすることで、この機能を利用できます。このプレビューリリースは、コーディングタスク用にサンプリングパラメータが調整されたQwen3.5-35B-A3Bモデルを加速します。
システム要件: 32GB以上の統合メモリを搭載したMacが必要です。
使用例:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 - OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4 - チャット:
ollama run qwen3.5:35b-a3b-coding-nvfp4
今後の展開#
Ollamaチームは将来のモデルサポートに積極的に取り組んでおり、サポートされているアーキテクチャでファインチューニングされたカスタムモデルを持つユーザー向けに、モデルをOllamaにインポートする簡単な方法を導入予定です。同時に、サポートされるアーキテクチャのリストも拡張していく計画です。
まとめ#
このアップデートにより、Apple Siliconユーザーは大幅な性能向上を体験でき、特にコーディング支援やパーソナルアシスタントなどの用途でその恩恵を受けることができます。MLXフレームワークの活用とNVFP4サポートの追加により、Ollamaはより実用的で高性能なAI実行環境として進化を続けています。
出典: Ollama is now powered by MLX on Apple Silicon in preview

