
MicrosoftがマルチモーダルAI基盤モデル3種を発表#
Microsoft AIは4月2日、テキスト、音声、画像を生成できる3つの基盤AIモデルをリリースしたと発表した。この発表は、OpenAIとのパートナーシップを維持しながらも、独自のマルチモーダルAIモデルスタックを構築し、競合AI研究所との競争を強化するMicrosoftの継続的な取り組みを示している。
3つの新モデルの詳細#
今回発表された3つのモデルは以下の通り:
MAI-Transcribe-1(音声転写モデル)#
- 25の異なる言語で音声をテキストに転写
- MicrosoftのAzure Fastサービスと比較して2.5倍高速
- 価格は1時間あたり0.36ドルから
MAI-Voice-1(音声生成モデル)#
- 1秒で60秒分の音声を生成可能
- カスタム音声の作成機能を提供
- 価格は100万文字あたり22ドルから
MAI-Image-2(画像生成モデル)#
- ビデオ生成機能を搭載
- 3月19日に新しい大規模言語モデルテストソフトウェア「MAI Playground」で先行リリース
- テキスト入力は100万トークンあたり5ドル、画像出力は100万トークンあたり33ドルから
開発体制と戦略的位置付け#
これらのモデルは、2025年11月に設立が発表されたMicrosoftのMAI Superintelligenceチームによって開発された。同チームは、Microsoft AIのCEOであるMustafa Suleymanが率いるAI研究チームである。
Suleymanはブログ投稿で「Microsoft AIでは、ヒューマニストAIを構築している。AIモデルを作成する際には独特な視点を持ち、人間を中心に据え、人々が実際にコミュニケーションを取る方法に最適化し、実用的な使用のためのトレーニングを行っている」と述べている。
競争戦略と価格優位性#
競争が激化するLLM(大規模言語モデル)市場において、MAIはこれらのモデルがGoogleやOpenAIのモデルよりも安価であることを売りにしたいとしている。
現在、3つのモデルすべてがMicrosoft Foundryでリリースされており、転写モデルと音声モデルはMAI Playgroundでも利用可能となっている。
OpenAIとの関係性#
独自モデルをリリースしながらも、SuleymanはVentureBeatとのインタビューでOpenAIとのパートナーシップに対するMicrosoftのコミットメントを再確認した。The Vergeに対しては、最近のパートナーシップの再交渉により、Microsoftがこの超知能研究を真に追求することが可能になったと語っている。
MicrosoftはOpenAIに130億ドル以上を投資しており、複数年のパートナーシップを通じて同社のモデルを様々な製品でホストしている。同社はチップ分野でも同様のスタンスを取っており、自社で製造すると同時に外部企業からも購入している。
今後の展開#
Suleymanは「間もなくFoundryで、そして直接Microsoft製品や体験の中で、我々からより多くのモデルが登場することになるでしょう」と予告しており、今後さらなるモデルのリリースが期待される。
筆者の見解: この発表は、MicrosoftがOpenAIとの戦略的パートナーシップを維持しながらも、AI分野での独立性を高めようとする姿勢を明確に示している。価格競争力を前面に打ち出すことで、企業顧客の獲得を狙う戦略が読み取れる。
出典: Microsoft takes on AI rivals with three new foundational models



