MoE(混合専門家モデル)白書2024年版
■概要■ 昨今、MoEの普及が進んでいるにもかかわらず、MoEに関する体系的かつ包括的なレビューが不足している。本白書では、MoEモデルに関する動向、論文、文献を体系的かつ包括的にレビューし... もっと見る
製本版とPDF版をセットでご購入される場合には、PDF版の価格を半額でご提供しております。
サマリー
■概要■
昨今、MoEの普及が進んでいるにもかかわらず、MoEに関する体系的かつ包括的なレビューが不足している。本白書では、MoEモデルに関する動向、論文、文献を体系的かつ包括的にレビューし、MoE技術の展望を探る者にとって価値ある大要として提供するものである。
本白書では、MoEモデルに関して形成されつつある分類法を紹介し、アルゴリズム設計、システム設計、コンピューティングシステムのサポート、実用的な応用といったさまざまな視点を包含する分析を提供し、
それぞれ分類法で概説した構造に従って掘り下げている。
さらに、この分野で直面する課題に焦点を当て、将来的に最も有望な研究・開発・実装手段を概説する。
本白書が、MoEモデルを迅速に理解しようとする研究者、実務者、AI投資家、アナリスト等にとって不可欠な参考資料となり、MoE探索における継続的な更新と最先端開発の共有を促進することを願っている。
目次
序
第1章 MoE(専門家混合モデル)概説
1-1 まえがき
1-2 定義・概念の広がり
1-3 MoEモデルが関心を集める根拠・背景
1-4 LLMとMoEの関係
1-5 密なモデルよりも効果的にスケールするMoEモデル
第2章 MoEの展開と背景
2-1 概説
2-2 密なMoE
2-3 疎なMoE
2-4 MoEのスパース混合
2-5 条件付き計算
2-6 言語のためのMoE
2-7 視覚のためのMoE
2-8 浅いMoE
2-9 トランスフォーマーモデルへの応用
第3章 MoEに関する分類法
3-1 概説
3-2 TransformerベースのモデルにおけるMoE層
第4章 MoEがもたらす効率向上
4-1 MoE言語モデルのスケーリング則
4-2 効率的なスケーリングと生涯学習
4-3 検索補強モデル
4-4 効率的なフィードフォワード層
4-5 関連研究
グーグル・ディープマインド 「100万人のMoE」
第5章 MoEの研究動向
5-1 概況・近況
5-2 スパース性/活性化スパース性
5-3 異種MoE
5-4 スパースゲートMoE
5-5 ルーティング戦略
5-6 ニューラルアーキテクチャ探索
5-7 トップPルーティング戦略
5-8 事例
[1] テンセント・フンユアン/マサチューセッツ工科大学 「言語モデリングのための専門家の異種混合:HMoE」
第6章 MoE普及の課題・解法の道筋
6-1 概説
6-2 モデルのサイズ
6-3 トレーニングの安定性と負荷分散
6-4 スケーラビリティと通信オーバーヘッド
6-5 言語処理タスクに対応
6-6 専門家の専門化とコラボレーション
6-7 スパース活性化と計算効率
6-8 汎化性と頑健性
6-9 解釈可能性と透明性
6-10 学習後のLLMの量子化
6-11 パラメータオフロードによる推論
6-12 LLM圧縮による効率性、信頼性の向上
6-13 モデルを圧縮する際の問題
6-14 最適化された活性化オフロード
[1] 異なるエキスパートに対する不均等な計算負荷への対処
[2] LLMの量子化
[3] MoEの圧縮
第7章 最適化されたMoE活性化オフロード
7-1 MoEモデルの最適化
7-2 LLMの量子化とMoE
7-3 MoEの圧縮
第8章 専門家混合アルゴリズムの設計
8-1 ゲーティング機能
[1] 疎なゲーティング関数
[2] 密度
[3] ソフト
他
第9章 エキスパート・ネットワークのアーキテクチャ
9-1 ネットワークの種類
[1] フィード・フォワード・ネットワーク
[2] アテンション
[3] その他
9-2 ハイパーパラメーター
[1] 専門家の数
[2] エキスパートのサイズ
[3] MoE層の頻度
9-3 アクティベーション機能
9-4 共有エキスパート
第10章 MoE派生モデルの進化
10-1 概説
10-2 パラメータ効率の良いMoE
[1] フィード・フォワード・ネットワーク
[2] アテンション
[3] トランス・ブロック
[4] 各レイヤー
10-3 トレーニングと推論スキーム
[1] 密から疎へ
[2] 疎から密へ
[3] エキスパートモデルのマージ
10-4 派生モデル
10-5 パラメータ効率の良い微調整(PEFT)
10-6 Mixture of Depthアーキテクチャによるアプローチ
第11章 MoEの設計
11-1 計算
11-2 コミュニケーション
11-3 ストレージ
第12章 MoEの応用
12-1 自然言語処理
12-2 コンピュータビジョン
12-3 レコメンダー・システム
12-4 マルチモーダル・アプリケーション
他
第13章 MoEアーキテクチャの統合による大規模マルチモーダルモデルの機能拡張
13-1 概説
13-2 漸進的学習アプローチ
13-3 フレームワーク
13-4 戦略的トレーニング
13-5 トレーニング
13-6 統一されたマルチモーダルモデル
13-7 LLMのためのマルチモーダル命令チューニング
13-8 MoEによる大規模モデル
13-9 関連研究
[1] インスティテュート・オブ・テクノロジー他研究チーム 「Uni-MoE:MoEによる統一マルチモーダルLLMのスケーリング」
第14章 MoEのソリューション
14-1 動的なエキスパート配置・複製
第15章 非線形性を識別するための強力なモデルとしてのMoE
15-1 概説
第16章 SMoEs(スパースMoEモデル)
16-1 Sparse Mixture of Experts (SMoEs)による推論とトレーニング速度、メモリフットプリントの改善
16-2 関連研究
[1] グーグル・ブレイン 「専門家のスパース混合によるスケーリング・ビジョン」
[2] アーロン・クールビル 「Sparse Mixture-of-Expertによる分散実施」
第17章 主なプレーヤー/商用利用可能なMeEモデル
17-1 Mistral AI 「Mixtral 8x7B」
17-2 IBM 「量子回路の最適化、量子コンピューティング能力の強化:Qiskit SDK v1.2」
17-2 マイクロソフト 「勾配情報付き専門家混合MoEモデル:GRIN MoE」
17-3 マイクロソフト/中国科学院大学 「Q-Sparse:LLMにおける活性化の完全なスパース性を可能にするAIアプローチ」
17-4 アレンAI研究所/コンテクスチュアルAI/ワシントン大学/プリンストン大学の研究チーム 「完全にオープンソース化されたMoE」
17-5 XVERSE Technology 「MOEアーキテクチャと大規模言語処理における新たな基準を設定する多言語 AI モデル: XVERSE-MoE-A36B」
17-6 DeepSeek-AI 「MoEを特徴とする最先端の238億パラメータモデル:DeepSeek-V2.5」
第18章 その他主な研究論文紹介
18-1 テキサス大学オースティン校、ドレクセル大学、MIT、UIUC、ローレンス・リバモア国立研究所、AI安全性センター他研究チーム 「LLM圧縮の評価: AI言語モデル開発における効率性、信頼性、倫理性のバランス
18-2 非線形力学系のための専門家モデルの変分ベイズ混合と感度分析
18-3 モスクワ物理工科大学 「オフロードを用いた専門家混合言語モデルの高速推論」
ご注文は、お電話またはWEBから承ります。お見積もりの作成もお気軽にご相談ください。本レポートと同分野の最新刊レポート
次世代社会システム研究開発機構社の分野での最新刊レポート
本レポートと同じKEY WORD()の最新刊レポート
よくあるご質問次世代社会システム研究開発機構社はどのような調査会社ですか?一般社団法人次世代社会システム研究開発機構は、社会・産業・経営に大きな影響を与える先端技術からマネジメント、次世代産業まで幅広い分野を対象に、経験豊富なアナリストによって編纂された学際的・... もっと見る 調査レポートの納品までの日数はどの程度ですか?在庫のあるものは速納となりますが、平均的には 3-4日と見て下さい。
注文の手続きはどのようになっていますか?1)お客様からの御問い合わせをいただきます。
お支払方法の方法はどのようになっていますか?納品と同時にデータリソース社よりお客様へ請求書(必要に応じて納品書も)を発送いたします。
データリソース社はどのような会社ですか?当社は、世界各国の主要調査会社・レポート出版社と提携し、世界各国の市場調査レポートや技術動向レポートなどを日本国内の企業・公官庁及び教育研究機関に提供しております。
|
詳細検索
2024/11/22 10:26 155.52 円 163.34 円 198.56 円 |