シンプルな自己蒸留でLLMのコード生成能力が大幅向上

概要
#

大規模言語モデル（LLM）が外部の検証器や教師モデル、強化学習を使わずに、自分自身の出力のみでコード生成能力を向上させることは可能なのか。この疑問に対し、研究者らは「Simple Self-Distillation（SSD）」という手法で肯定的な答えを提示した。

SSDは驚くほどシンプルな手法である。具体的には以下のステップで構成される：

この手法により、Qwen3-30B-InstructモデルのLiveCodeBench v6におけるpass@1スコアが42.4%から55.3%へと大幅に改善された。特に注目すべきは、この向上が主に難易度の高い問題で集中的に見られたことである。

SSDの効果は特定のモデルに限定されない。研究では4B、8B、30BスケールのQwenとLlamaモデルで一般化することが確認されており、instructバリアントとthinkingバリアント両方で効果が認められた。

研究者らは、この単純な手法が機能する理由をLLMの復号化における「精度-探索の衝突」に求めている。SSDはトークン分布を文脈依存的に再形成し、精度が重要な場面では注意を散らす末尾を抑制する一方で、探索が重要な場面では有用な多様性を保持する。

従来のLLMのコード生成能力向上には、外部の検証システムや複雑な強化学習手法が必要とされることが多かった。しかし、SSDはモデル自身の出力のみを使用する極めてシンプルなアプローチでありながら、実用的な改善を実現している点で画期的である。

この手法は、文脈に応じてトークンの分布を適切に調整することで、コード生成における精度と探索のバランスを最適化する新たなアプローチを示している。

SSDは、LLMのコード生成能力向上のための補完的なポストトレーニング手法として位置づけられる。その単純さと効果の高さから、今後のLLM開発において重要な選択肢となる可能性がある。外部ツールに依存せず、モデル自身のリソースのみで性能向上を実現できる点は、実装の観点からも非常に魅力的である。

筆者の見解： この研究は「シンプルであることの力」を改めて証明した事例と言える。複雑な手法が注目されがちな分野において、基本的なアプローチの重要性を再認識させる価値ある研究である。