
2025年春、中国スタートアップのMiniMaxは4560億パラメータを持つMixture‑of‑Expertsモデル「M1」を公開しました。アクティブパラメータは45.9億で、従来のTransformerと「ライトニングアテンション」を組み合わせたハイブリッドなアテンション機構を採用しており、100万トークンという長いコンテキストを処理します。加えて、新しい強化学習アルゴリズムCISPOにより安定したトレーニングを実現しています。
M1の特徴
特長 | 説明 |
---|---|
巨大MoE構造 | 4560億パラメータだが、1回の推論では45.9億しか活性化しないため効率的 |
超長コンテキスト | 100万トークンまで対応し、プログラムコードや書籍全体など長文処理に向く |
ライトニングアテンション | 従来のソフトマックスアテンションと組み合わせ、計算量を大幅に削減 |
CISPOアルゴリズム | 重要度サンプリングの重みをクリップし、学習を安定化 |
応用例
M1は長いプログラムの解析や大量のドキュメント検索に適しており、教育や研究に役立ちます。初心者は長コンテキスト処理のメリットを体験し、コードや文書の要約ツールとして応用できます。
まとめ
MiniMax M1は大規模言語モデル開発の新たな方向性を示しています。効率的なMoE設計と長文対応が特徴で、リサーチ分野や産業界での採用が期待されます。