MiniMax M1:1Mトークンの文脈に対応する巨大MoEモデル

2025年春、中国スタートアップのMiniMaxは4560億パラメータを持つMixture‑of‑Expertsモデル「M1」を公開しました。アクティブパラメータは45.9億で、従来のTransformerと「ライトニングアテンション」を組み合わせたハイブリッドなアテンション機構を採用しており、100万トークンという長いコンテキストを処理します。加えて、新しい強化学習アルゴリズムCISPOにより安定したトレーニングを実現しています。

M1の特徴

特長説明
巨大MoE構造4560億パラメータだが、1回の推論では45.9億しか活性化しないため効率的
超長コンテキスト100万トークンまで対応し、プログラムコードや書籍全体など長文処理に向く
ライトニングアテンション従来のソフトマックスアテンションと組み合わせ、計算量を大幅に削減
CISPOアルゴリズム重要度サンプリングの重みをクリップし、学習を安定化

応用例

M1は長いプログラムの解析や大量のドキュメント検索に適しており、教育や研究に役立ちます。初心者は長コンテキスト処理のメリットを体験し、コードや文書の要約ツールとして応用できます。

まとめ

MiniMax M1は大規模言語モデル開発の新たな方向性を示しています。効率的なMoE設計と長文対応が特徴で、リサーチ分野や産業界での採用が期待されます。

参考文献

  1. arXiv
  2. GitHub

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です