世界各国のリアルタイムなデータ・インテリジェンスで皆様をお手伝い

スモール言語モデル(SLM)/スーパー・タイニー言語モデル(STLM)白書2024年版-LLMのファインチューニングから最適化、量子化まで-


■概要■   2024年以降、AIコミュニティでは、LLMのファインチューニング、最適化、より実用的なモデル追及の流れの一環で、スモール言語モデル(SLM)、スーパー・タイニー言語モデル(STLM)、量... もっと見る

 

 

出版社 出版年月 冊子体価格 電子版価格 ページ数 言語
次世代社会システム研究開発機構
2024年10月15日 ¥165,000 (税込)
ライセンス・価格情報
注文方法はこちら
¥129,800 (税込)
PDF(CD-R)
ライセンス・価格情報
注文方法はこちら
250 日本語

製本版とPDF版をセットでご購入される場合には、PDF版の価格を半額でご提供しております。


 

サマリー

■概要■
 
2024年以降、AIコミュニティでは、LLMのファインチューニング、最適化、より実用的なモデル追及の流れの一環で、スモール言語モデル(SLM)、スーパー・タイニー言語モデル(STLM)、量子化LLMの有効性に関する探求が急速に高まり、これらへのシフトが促進されている。
 
こうしたコンパクトなモデルは特定のデータセットで微調整され、さまざまな性能評価で卓越した能力が実証されつつある。これらのモデルは、性能とリソース利用のバランスをとり、計算資源を最適に管理しながら、適切な性能を提供することを約束する。
 
これらのモデルの傑出した性能は、コンパクトなモデルが、大型LLMに代わる実現可能な選択肢を提供することを示唆している。この画期的な進歩は、言語モデルを展開する上で重要な意味を持ち、効率と性能が両立する道を示している。
 
本白書は、AI業界、LLMの研究者層で高い注目を集めているスモール言語モデル(SLM)、スーパー・タイニー言語モデル(STLM)、LLMのファインチューニングからから計算要件、最適化、量子化まで、その全容および最新動向を解説したレポートである。


ページTOPに戻る


目次

 
第1章 AI性能向上と言語モデルの新たな展望
 
1-1 概況・近況
1-2 生成系AIツールのROI向上
1-3 LLM、SLM、STLMが注目を集める背景
 
 
第2章 LLM、SLM、STLMに関する包括的な比較分析
 
2-1 概説
2-2 持続可能なAIのための超小型言語モデルの出現
2-3 スモール言語モデルは本当に言語モデルの未来なのか?
 
 
第3章 言語モデルの最適化技術
 
3-1 概説
3-2 システム設計と最適化
[1] 専門家混合モデル(MoE)
[2] LLMの量子化
[3] MoEの圧縮
3-3 言語モデルの微調整
3-4 AIのワークロードに応じたリソース配分の最適化
3-5 関連研究
[1] マサチューセッツ工科大学他研究チーム 「LLM圧縮の評価: AI言語モデル開発における効率性、信頼性、倫理性のバランス」
[2] ダイヤルパッド 「小さな大規模言語モデル」
 
 
第4章 LLM評価の効率化とコスト削減
 
4-1 概説
4-2 マルチアーム・バンディットにおけるベストアーム識別
4-3 LLMの性能評価関数
4-4 LLM性能評価ベンチマーク
4-5 研究チーム、参入企業動向
[1] コーネル大学/カリフォルニア大学サンディエゴ校研究チーム 「LLM評価の効率化とコスト削減を実現するマルチアーム・バンディット・アルゴリズム」
 
 
第5章 GPU使用量の削減とLLM事前トレーニングシナリオの変化
 
5-1 時間とGPUリソースへの多大な投資が必要とされるLLM開発
5-2 研究チーム、参入企業動向
[1] Yandex 「GPU使用量を20%削減し、LLMトレーニングに革命をもたらすオープンソースAIツール:YaFSDP」
 
 
第6章 LLMを導入する際のコストと性能のトレードオフ最適化
 
6-1 費用対効果の高いLLM
6-2 研究チーム、参入企業動向
[1] UC Berkeley/Anyscale/Canva研究チーム 「費用対効果の高いLLMルーティングのためのオープンソースフレームワーク」
 
 
第7章 精度と効率のバランスを保持しながら複雑なタスクを実行するモデル
 
7-1 概説
7-2 研究チーム、参入メーカー、参入ベンダー動向
[1] Nvidia AI 「単一GPUで4倍のワークロードを実行できる新しいLLM」
 
 
第8章 研究開発プロセスの自動化と最適化を目的としたAIツール
 
8-1 概説
8-2 研究チーム、参入メーカー、参入ベンダー動向
[1] マイクロソフト 「研究開発プロセスの自動化と最適化を目的としたオープンソースAIツール:RD-Agent」
 
 
第9章 大規模言語モデル(LLM)の最適化
 
9-1 CPU上で大規模言語モデル(LLM)の最適化
9-2 研究チーム、参入企業動向
oneAPI Collective Communications Libraryを利用した分散推論最適化の手法
 
 
第10章 AI性能向上を阻む要因
 
10-1 AIの開発生産性とAI導入・評価の間に生まれている断絶
10-2 AIの課題を浮き彫りにするGitLabのDevSecOpsレポート
 
 
第11章 リソース効率に優れた代替手段としての小型言語モデル(SLM)の可能性
 
11-1 概説
11-2 スモール言語モデル(SLM)
11-3 ミニCPM
11-4 関連研究
[1] MiniCPM:スケーラブルな学習戦略で小さな言語モデルの可能性を解き明かす
11-5 モデル事例
[1] Ai2 「オープンソースのマルチモーダル言語モデルファミリー:Molmo」
 
 
第12章 パフォーマンス向上に最適化されたスモール言語モデル
 
12-1 概説
12-2 研究チーム、参入メーカー、参入ベンダー動向
[1] AMD 「LLaMA2モデルアーキテクチャに最適化されたスモール言語モデルシリーズ」
 
 
第13章 スモール言語モデル(SLM)の学習
 
13-1 概説
13-2 インストラクションのチューニング
13-3 説明のチューニング
13-4 関連研究
[1] ケンブリッジ大学 「スモール言語モデル:調査、測定、洞察」
[2] マイクロソフト・リサーチ 「小さな言語モデルへの推論学習:Orca」
 
 
第14章 スモール言語モデル(SLM)の推論能力向上
 
14-1 概説
14-2 SLMの推論能力の向上
14-3 SLMの概要
14-4 SLMのアーキテクチャ
[1] 自己注意のタイプ
[2] フィードフォワード・ニューラルネットワークのタイプ
[3] フィードフォワード・ニューラルネットワークの中間比
[4] フィードフォワード・ニューラルネットワークの活性化関数
[5] レイヤー正規化のタイプ
ロボット 語彙サイズ
14-5 モデル・アーキテクチャの革新
14-6 関連研究
[1] マイクロソフト・リサーチ 「算数におけるSLMの可能性:Orca-Math」
 
 
第15章 スーパー小規模言語モデル(STLM)
 
15-1 概説
15-2 パラメーターの削減
15-3 枝刈り
15-4 量子化
15-5 低ランク因数分解
15-6 データの質とトレーニングの効率
15-7 関連研究
 
 
第16章 CPUやx86アーキテクチャ上でのAI・ディープラーニングの実装
 
16-1 GPUを含む特殊なハードウェアやコプロセッサが抱える課題
[1] CPU上のAIの必要性
[2] スパース性の役割
[3] 最新のCPUがもたらすチャンスと課題
15-2 関連研究
[1] ライス大学アント・グループ 「コモディティCPUをGPUのような特殊プロセッサと同等にできるシステムの設計」
[2] CPU上でLLMの最適化/推論と効率を向上させるテクニック
 
 
第17章 量子化LLM
 
17-1 概説
17-2 大規模言語モデルの展開を変えるモデル量子化の新境地
17-3 大規模言語モデルの量子化に革命を起こすデータフリーアルゴリズム
17-4 GPTQアルゴリズム
17-5 LLMのための新しい量子化技術
17-6 LLMの重みをほぼ損失なく圧縮できる圧縮フォーマットと量子化技術
17-7 効率的な推論技術に関する取り組み
17-8 ベクトル量子化(VQ)を用いた大規模ネットワークのポストトレーニング量子化
17-9 関連研究
[1] MIT、NVIDIA、UMass Amherst、MIT-IBM Watson AI Labの研究グループ 「量子化を改良する新しいアプローチであるQoQ(Quattuor-Octo-Quattuor)アルゴリズム」
[2] コーネル大学研究チーム 「非干渉性処理による量子化(QuIP)」
[3] SpQR (Sparse-Quantized Representation): 大きな言語モデルの重みをほぼ損失なく圧縮できる圧縮フォーマットと量子化技術
[4] LLMの効率とパフォーマンスを橋渡しするAI手法:OmniQuant
[5] Hugging Face メモリ効率と計算速度のトレードオフを最適化するGPTQ量子化
[6] テンセント データフリーアルゴリズム 「EasyQuant」
[7] AIの効率化に革命を起こす: カリフォルニア大学バークレー校のSqueezeLLMが、大規模言語モデルサービングの品質とスピードを両立させる「密とパースの量子化」を発表
[8] マイクロソフト、シドニー大学、ラトガース大学の研究チーム 「FP6-LLM:大規模言語モデルのためのGPUベース量子化」
[9] クアルコムAIリサーチ、GPTVQ法を提案: ベクトル量子化(VQ)を用いた大規模ネットワークのポストトレーニング量子化のための高速機械学習手法
[10] Q-GaLoreリリース: 機械学習モデルの事前学習と微調整のためのメモリ効率の高い学習アプローチ
 
 
第18章 量子化と低ランク射影・低ランク適応によるメモリ使用量削減
 
18-1 概説
18-2 低ランクの適応とトレーニング
18-3 低精度トレーニング
18-4 関連研究
[1] カリフォルニア工科大学/メタAI他 「Q-GaLore:INT4射影とレイヤー適応的低ランク勾配による量子化GaLore」
 
 
第19章 量子化考慮学習(QAT)/ポストトレーニング量子化(PTQ)/量子化パラメータ効率的微調整(Q-PEFT)
 
19-1 概説
19-2 LLMのポストトレーニング量子化
19-3 LLMの量子化を考慮したトレーニング
19-4 LLMの量子化パラメータによる効率的な微調整
 
 
第20章 ニューラルネットワークの量子化
 
20-1 概説
[1] ニューラルネットワークの量子化
[2] 量子化グリッドの種類とその柔軟性
[3] ベクトル量子化の課題
20-1 関連研究
クアルコムAIリサーチ 「LLM量子化における次元性の恩恵」
 
 
第21章 量子化パラメータチューニングと言語モデルの微調整効率化
 
21-1 概説
21-2 関連研究
[1] LQ-LoRA:言語モデルの微調整を効率化する低ランク量子化行列分解を可能にするLoRAのバリエーション
 
 
第22章 6ビット量子化(FP6)
 
22-1 概説
22-2 量子化のためのシステムサポート
22-3 関連研究
FP6-LLM:FP6中心のアルゴリズム・システム協調設計による大規模言語モデルの効率的な提供
 
 
第23章 メモリ消費・ストレージ削減
 
23-1 プルーニング
23-2 パラメータ効率的ファインチューニング(PEFT)
23-3 学習後のデルタ圧縮
 
 
第24章 ミニCPM
 
24-1 概説
24-2 関連研究
[1] 清華大学コンピューター科学技術学部/モデルベスト社 「スケーラブルな学習戦略で小さな言語モデル:MiniCPM」
 
 
第25章 コンパクト言語モデル/TinyLlama
 
25-1 概説
25-2 関連研究
[1] StatNLP研究グループ/シンガポール工科デザイン大学 「オープンソースの小型言語モデル:TinyLlama」
 
 
第26章 標準的なPCで実行可能なLLM/SLM
 
26-1 概説
26-2 関連研究
[1] Stability AI 「標準的なPCで実行可能な画像生成系AI:Stabile Diffusion XL 0.9」
 
 
第27章 SLMの作成と配布を目的としたオープンソースツール
 
27-1 概説
27-2 研究チーム、参入企業動向
[1] Arcee AI 「高性能なSLM作成に向けたモデル蒸留を変換するオープンソースツール:DistillKit」
 
 
第28章 低ランク勾配更新によりLLMのフルパラメータ学習を可能にする技術
 
28-1 概説
28-3 関連研究
[1] 量子化と低ランク射影を組み合わせによるメモリ制約に対する解決策
 
 
第29章 商用化されている主なSLM
 
29-1 概説
29-2 GPT-4o mini
29-3 Mistral-Nemo
[1] 概要
[2] 特性・メリット
29-4 SmolLM
[1] 概要
[2] 特性・メリット
[3] マイクロソフトの軽量AI
29-5 TinyLLaVA
29-6 GTE-tiny
29-7 TinyLlama
 
 
第30章 参入企業動向
 
30-1 インテル 「CPU上のLLMをより効率的に展開する新しいAIアプローチ」
30-2 Hugging Face 「1億3500万から17億パラメータまでの高性能小型言語モデルによるオンデバイスAI‘SmolLM」
30-3 Arcee AI 「効率的で高性能な小型言語モデルの作成に向けたモデル蒸留を変換: DistillKit」
 
 
第31章 その他主な研究開発・研究チーム動向
 
31-1 マイクロソフトAIチーム 「卓越した推論と言語理解能力を示す27億パラメータの小規模言語モデル:Phi-2」
31-2 ポツダム大学、クアルコムAIリサーチ他研究チーム 「ハイブリッド大小言語モデルを用いたクアルコムAIリサーチによる機械学習アプローチ」
31-3 マサチューセッツ工科大学/プリンストン大学/NVIDIA/Together AI 「デルタを1ビットまで量子化:BitDelta」
31-4 モハメド・ビン・ザイードAI大学、オーストラリア国立大他研究チーム 「小規模言語モデル領域で最先端の性能を発揮するMobiLlama」
31-5 上海AI研究所OpenGVLab /香港大学 「大規模言語モデルのための効率的な量子化を考慮した学習:EfficientQAT」

 

ページTOPに戻る

ご注文は、お電話またはWEBから承ります。お見積もりの作成もお気軽にご相談ください。

webからのご注文・お問合せはこちらのフォームから承ります

本レポートと同分野の最新刊レポート

  • 本レポートと同分野の最新刊レポートはありません。

次世代社会システム研究開発機構社の分野での最新刊レポート

  • 最新刊レポートはありません。

本レポートと同じKEY WORD()の最新刊レポート

  • 本レポートと同じKEY WORDの最新刊レポートはありません。

よくあるご質問


次世代社会システム研究開発機構社はどのような調査会社ですか?


一般社団法人次世代社会システム研究開発機構は、社会・産業・経営に大きな影響を与える先端技術からマネジメント、次世代産業まで幅広い分野を対象に、経験豊富なアナリストによって編纂された学際的・... もっと見る


調査レポートの納品までの日数はどの程度ですか?


在庫のあるものは速納となりますが、平均的には 3-4日と見て下さい。
但し、一部の調査レポートでは、発注を受けた段階で内容更新をして納品をする場合もあります。
発注をする前のお問合せをお願いします。


注文の手続きはどのようになっていますか?


1)お客様からの御問い合わせをいただきます。
2)見積書やサンプルの提示をいたします。
3)お客様指定、もしくは弊社の発注書をメール添付にて発送してください。
4)データリソース社からレポート発行元の調査会社へ納品手配します。
5) 調査会社からお客様へ納品されます。最近は、pdfにてのメール納品が大半です。


お支払方法の方法はどのようになっていますか?


納品と同時にデータリソース社よりお客様へ請求書(必要に応じて納品書も)を発送いたします。
お客様よりデータリソース社へ(通常は円払い)の御振り込みをお願いします。
請求書は、納品日の日付で発行しますので、翌月最終営業日までの当社指定口座への振込みをお願いします。振込み手数料は御社負担にてお願いします。
お客様の御支払い条件が60日以上の場合は御相談ください。
尚、初めてのお取引先や個人の場合、前払いをお願いすることもあります。ご了承のほど、お願いします。


データリソース社はどのような会社ですか?


当社は、世界各国の主要調査会社・レポート出版社と提携し、世界各国の市場調査レポートや技術動向レポートなどを日本国内の企業・公官庁及び教育研究機関に提供しております。
世界各国の「市場・技術・法規制などの」実情を調査・収集される時には、データリソース社にご相談ください。
お客様の御要望にあったデータや情報を抽出する為のレポート紹介や調査のアドバイスも致します。



詳細検索

このレポートへのお問合せ

03-3582-2531

電話お問合せもお気軽に

 

2024/11/21 10:26

156.13 円

165.08 円

200.38 円

ページTOPに戻る