大規模言語モデル（LLM）白書 2023年版　製本版

メニュー

カートの中身を見る

カートの中に商品はありません

メールマガジン

メールアドレスを入力してください。

店長コーナー

Institute of Next Generation Social System

一般社団法人の概要／事業案内、その他各種参照コンテンツ（ブログ形式）を掲載

店長日記はこちら

モバイル

Feed

RSS
ATOM

［出版日］

2023年10月10日

［ページ数］

A4判／約1,400ページ
（※　バインダー製本とPDF版では編集上の違いによりページ数が若干異なります。）

［発行＜調査・編集＞］

監修・発行：　一般社団法人次世代社会システム研究開発機構

［レポート内容］

■概要■

本白書は、大規模言語モデル（Large Language Model：LLM）の基本・体系・種類、機能別の特性、活用パターン、LLMを取り巻く世界的なトレンド、課題・リスクおよびリスク対策、投資およびスタートアップ動向、エンジニアリング面や技法面に関する網羅的な解説、エンタープライズLLM、LLMとロボティクスやメタバースなどの連携、ハードウェア面での情勢や課題、各種実証的分析、自然言語処理関連のLLMフレームワーク、LLMプラットフォーム、LLMの性能を向上させる最新技法、高度な技法、国際的な研究動向にいたるまで、その最新動向を踏まえながらほぼ網羅的にLLMの全容を解き明かした、世界でも唯一無比のLLM全集である。

LLMはAIのムーブメントをリードしている。大規模言語モデルとは、AIアルゴリズムの一種であり、AIにおける言語モデルの概念を進化させたものでもある。LLMは、ディープラーニング技術と膨大なデータセットを活用し、人間の言語を理解、生成、応答する洗練されたAIシステムである。

LLMは、学習と推論に使用するデータを劇的に拡張することで、AIモデルの能力が飛躍的に向上させることができる。また、ディープラーニング（深層学習）技術と大規模なデータセットを用いて、新しいコンテンツの理解、要約、生成、予測を行う。生成AIもLLMと密接不可分の関係にあり、LLMはテキストベースのコンテンツを生成するために特別に設計された生成AIの一種である。

LLMは、常識的な質問応答から、スクリプトや物語のモデル化、言語処理や他のテキスト作成活動における確率的アルゴリズムの合成に至るまで、様々な用途で利用価値がある。そのインパクトは、医療、金融、教育、エンターテインメントなど、幅広い業界ですでに十分なレベルの進歩が見られる。

GPT-4、DALLE、BERTT5、PaLMなどのLLMによる性能は著しく向上している。いくつかの詳細な研究によると、LLMはそのサイズが巨大である場合に優れた性能を発揮している。巨大なデータの塊でこれらのモデルを訓練することで、これらのモデルは人間の言語の構文、意味論、語用論を理解することができる。

LLM は本質的に汎用的なものである。企業向けLLMの可能性を最大限に発揮するためには、文書、Wiki、ビジネス・プロセスなどの観点から収集された知識によって、LLMをコンテクスト化する必要がある。これは、LLMを企業の知識/埋め込みでファイン・チューニングし、スケーラブルな方法でコンテクストに特化したLLMを開発することで達成される。

今後、LLMは、モデルの開発や、チューニングだけではなく、デプロイメント、モニタリングなど運用的側面も今後重視されることになるとみられる。そして、LLMソリューションのライフサイクル全体をカバーする新しい、柔軟なフレームワークとして発展していくだろう。すでに、特にモデルが想定外の出力をするようなケースを検出しそれに対する対応を行ったり、ユーザーからのフィードバックを使って継続的にモデルの改善を行なっていくワークフローを自動化するなどの取り組みが注目されている。

※　なお、「大規模言語モデル（LLM）」というテーマは、複眼的、立体的な視点で解明し、アプローチすることで、より精確で深みのある理解が得られるものである。当団体でもそうしたコンセプトで本白書を編纂している。

そのため、以下の白書（ほぼ当団体よりほぼ同時期に発刊）がそれぞれ独立して編纂されながらも、４巻セットとしてシリーズ編成されている。まとめて全４巻を購入された場合、特別に半額の価格設定で提供している。

■　生成AI白書 2023年版
　　（A4判／約3,200ページ）
https://www.x-sophia.com/?pid=177427870

■　機械学習／ディープラーニング（DL）／生成AI・大規模言語モデルと機械学習・DL白書 2023年版
　　（A4判／約1,400ページ）
https://www.x-sophia.com/?pid=177428005

■　次世代NLP（自然言語処理）と大規模言語モデル（LLM）白書 2023年版
　　（A4判／約1,180ページ）
https://www.x-sophia.com/?pid=177428071

※※　各白書とも、英語版について近刊を予定している。

■内容編成（目次）■

序

第1章　大規模言語モデルの基本・体系

1-1　概説
　　［1］　概要
　　［2］　生成系と識別系の言語モデル
　　［3］　LLMを取り巻く主要なトレンド

1-2　大規模言語モデル　概要
　　［1］　大規模言語モデルの仕組み
　　［2］　大規模言語モデルの主な構成要素
　　［3］　LLMの種類
　　［4］　大規模言語モデルと生成系AIIの関係
　　［5］　大規模言語モデルの生成機構
　　［6］　大規模言語モデルの使用パターン
　　［7］　大規模言語モデルの利点

1-3　規範的な言語モデルのタイプ別特性
　　［1］　大規模言語モデル
　　［2］　ファインチューニングされた言語モデル
　　［3］　マルチモーダリティ
　　［4］　エッジ言語モデル
　　［5］　フォワード言語モデルとバックワード言語モデル
　　［6］　将来への展望

1-4　大規模言語モデルの体系
　　［1］　事前学習（Pre-training）
　　［2］　時系列に対する事前学習
　　［3］　時系列を用いた対照学習
　　［4］　ニューラルネットワークとLLM
　　［5］　トランスフォーマー・モデルアーキテクチャ
　　［6］　アテンション（注意）メカニズム／アテンションの可視化
　　［7］　LLMの用途と種類
　　［8］　LLMの応用パターン
　　［9］　多言語言語モデルの基本
　　［10］　ホワイトカラーの仕事を変える大規模言語モデル

1-5　機能別の特性
　　［1］　コンテクスト学習／インコンテクスト学習
　　［2］　CoT（思考の連鎖）
　　［3］　プロンプトエンジニアリング
　　［4］　Zero-Shot／Few-Shot／K-Shot
　　［5］　CodexとInstructGPT
　　［6］　ユーザーのフィードバックからの強化学習（RLHF）
　　［7］　コンテクストとデータソース
　　［8］　外部知識ベース／ベクトルデータベース／ベクトルストア／ベクトルデータベース
　　［9］　セマンティック検索／類似検索
　　［10］　フレームワークのライブラリ（SDK）
　　［11］　RAG（Retrieval-Augmented Generation）
　　［12］　ファクト・グラウンディング
　　［13］　システムメッセージの使用
　　［14］　マルチモーダル機能
　　［15］　外部ツールへのアクセス許可
　　［16］　前処理／事前学習／トレーニング／ファインチューニング
　　［17］　ファインチューニング（微調整）
　　［18］　評価と展開

1-6　トランスフォーマーモデルおよびアプリケーション
　　［1］　機械翻訳
　　［2］　テキスト生成
　　［3］　感情分析
　　［4］　質問応答
　　［5］　固有表現認識
　　［6］　音声認識・合成
　　［7］　画像キャプション

第2章　大規模言語モデル（LLM）の活用パターン・潜在的な可能性

2-1　LLMの開発競争

2-2　LLMの活用
　　［1］　記事の作成
　　［2］　草稿
　　他

2-3　大規模言語モデル（LLM）の企業への導入
　　［1］　エンタープライズLLMアプリ
　　［2］　エンタープライズ LLMOps - LLM の微調整
　　［3］　マルチエージェント LLM オーケストレーション
　　［4］　ブラックボックスLLM API

2-4　大規模言語モデルの潜在的な可能性
　　［1］　LLMの性能拡張
　　［2］　コンテクスト性／トランスフォーマー・アーキテクチャー
　　［3］　予測可能性／予測精度の高さ
　　［4］　人間の神経細胞の模倣／人工神経回路を追及する先端LLM
　　［5］　英語以外の言語用のLLMの構築

2-5　LLMが作成した疑いのあるコンテンツの取り扱い
　　［1］　LLMの短期トレーニングとスケーリングの法則
　　［2］　学習データ
　　［3］　言語モデルの本質
　　［4］　言語モデルの機械学習

2-6　LLMの理論的支柱を形成してきた重要論文（24論文）
　　［1］　まえがき
　　［2］　主要なアーキテクチャとタスク
　　［3］　スケーリングと効率性の向上
　　［4］　言語モデルを意図した方向へ誘導する
　　［5］　人間のフィードバックによる強化学習(RLHF)

第3章　LLMの課題・リスク対策

3-1　概況・近況
　　［1］　概況
　　［2］　大規模言語モデルの利用に対するWHOの懸念

3-2　学習データの偏り

3-3　フェイクニュースの生成、誤情報の拡散、世論操作の可能性

3-4　透明性の欠如

3-5　言語と文化的バイアス

3-6　プライバシーとデータセキュリティ

3-7　著作権侵害問題

3-8　　言語モデルトレーニングで記事や画像のスクレイピングを巡る法廷闘争

3-9　　幻覚／人工幻覚
　　［1］　概説
　　［2］　LLMの幻覚回避策／データからメタデータへ

3-10　LLMの監査プロセスの構築

3-11　膨大なメモリと計算能力

3-12　スループット指向の生成推論

3-13　逆スケーリングを示すタスクの問題

3-14　LLMのAPIを利用するためのコスト

第4章　LLM関連投資動向・スタートアップ動向

4-1　LLM関連スタートアップ動向／投資殺到
　　［1］　大規模言語モデルの台頭とAI投資
　　［2］　AI・LLMと投資のスクランブル交差点
　　［3］　ポートフォリオを最適化するためのLLM取引戦略とアルゴリズムの使用
　　［4］　LLM銘柄への投資における考慮事項
　　［5］　東京大学・松尾研発発のAIスタートアップ　「Deepreneur」　LLMのビジネス実装推進／Deep30から資金調達を実施

第5章　プロンプトエンジニアリング／プロンプト最適化／新しいプロンプティング方法

5-1　プロンプト・エンジニアリングのタイプ別特性
　　［1］　概要
　　［2］　静的プロンプト
　　［3］　文脈に応じたプロンプト
　　［4］　プロンプトテンプレート
　　［5］　プロンプト連鎖
　　［6］　プロンプト・チェイニング
　　［7］　プロンプトパイプライン
　　［8］　生成AIプロンプト・パイプライン
　　［9］　エージェント型プロンプト
　　［10］　思考の連鎖プロンプト

5-2　LLM埋め込みと微調整技術によるプロンプト・エンジニアリング
　　［1］　プロンプトエンジニアリングにおけるLLMの組み込み
　　［2］　プロンプトエンジニアリングにおけるファインチューニング（微調整）
　　［3］　LLMエンベッディングとファインチューニング：相乗効果のあるペア

5-3　プロンプトエンジニアリングの高度な技法
　　［1］　まえがき
　　［2］　フューショット・プロンプト
　　［3］　思考連鎖プロンプト
　　［4］　自己一貫性プロンプト
　　［5］　知識生成プロンプティング
　　［6］　プログラム支援言語モデル（PAL）
　　［7］　ReAct（推論トレースとアクションをインターリーブで生成するフレームワーク）
　　［8］　ReActとPAL
　　［9］　自動プロンプトエンジニア

5-4　ドメイン固有のLLMの開発に係る問題
　　［1］　概説
　　［2］　事前に訓練された言語モデルLMからドメイン固有の知識を取得「SwitchPrompt」

5-5　プロンプト最適化アプローチ
　　［1］　概説
　　［2］　強化学習（RL）を用いた新しいプロンプト最適化アプローチ　「RLPrompt」

5-6　LLMにおけるシンプルなプロンプティングアプローチ課題
　　［1］　概説
　　［2］　強化学習（RLHF）トレーニングで訓練されたLLMにおけるシンプルなプロンプティングアプローチ

5-7　LLMの誘導最適化のためのプロンプティングフレームワーク
　　［1］　概説
　　［2］　LLMの誘導最適化のための新しいプロンプティングフレームワーク　「Directional Stimulus Prompting（DSP）」

5-8　プロンプトに含まれる比喩表現を反映した画像生成を可能にするフレームワーク
　　［1］　概説
　　［2］　生成したプロンプトを用いて既存モデルに出力させた画像と比較する検証

5-9　ハードプロンプトの最適化
　　［1］　概説
　　［2］　連続エンベッディングを利用したテキスト用勾配最適化ツールによる難しいプロンプトの最適化

5-10　プロンプトベースのインコンテクスト学習
　　［1］　概説
　　［2］　プロンプトベースのインコンテクスト学習をアルゴリズム学習問題と統計的観点からの提示

5-11　外部メモリで補強されたLLM
　　［1］　概説
　　［2］　Google Brain／アルバータ大学　「LLMへの外部読み書き可能メモリ追加しによるアルゴリズムエミュレートの検証」

5-12　自然言語を超えるLLMをプロンプト化に関する建機
　　［1］　概説
　　［2］　Microsoft AI Research　「自然言語を超えるLLMをプロンプト化するeXtensible Prompt（X-Prompt）の提唱」

5-13　Google　最適化ツールとして活用する手法　「Optimization by PROmpting（OPRO）」

5-14　特許評価システムとプロンプト最適化の研究開発

5-15　プロンプトエンジニアリングの諸課題

第6章　LLMのファインチューニング

6-1　概説
　　［1］　概要
　　［2］　LLMを微調整する8大メソッド

6-2　特定のタスクに適合するためのLLMの微調整

6-3　APIの利用
　　［1］　OpenAI　「GPT-4」「DALL・E」「Whisper」などのAPI一般提供
　　［2］　OpenAI　「GPT-4」のAPIを一般提供開始／旧モデルの非推奨化の発表

6-4　強化学習（RLHF）を利用して用途に応じたLLMの生成

6-5　LLMを強化学習エージェントの方策として使用したGLAM（Grounded LAnguage Models）手法

6-6　暗黙のメタ最適化プロセスとチューニング　「Few-Shot Prompting」
　　［1］　LangChainによる大規模言語モデルのファインチューニング
　　［2］　QLoRa：大規模な言語モデルをGPUで微調整する

6-7　大規模な拡散モデルと効果的な微調整技術
　　［1］　概説
　　［2］　Huawei Noah's Ark Lab　「大規模拡散モデルを効率的に微調整するDiffFitを発表」

第7章　事前学習・事前訓練されたファウンデーションモデルとLLM

7-1　概説
　　［1］　概要
　　［2］　Pathways Language Model（PaLM）
　　［3］　Chinchilla
　　［4］　Galactica
　　［5］　BioMedLM
　　［6］　GLaM（Generalist Language Model）

7-2　事前学習されたLLMの制御および追加入力条件をサポートするためのニューラルネットワーク構造
　　［1］　スタンフォード大学　「ControlNet」
　　［2］　スタンフォード大学　「言語モデルプリトレーニングのためのスケーラブルな2次最適化ツール」

7-3　事前学習を自己教師対照学習で初めて現実化した時間-周波数整合性（TF-C）
　　［1］　概要
　　［2］　問題定式化
　　［3］　提案手法
　　［4］　1対多の事前トレーニング評価
　　［5］　切り分け研究

第8章　エンタープライズ LLM／LLMの導入における基盤モデルと自社開発のバランス

8-1　ビジネスへの実用的な応用を考えた場合のLLMの課題点

8-2　LLMの微調整とエンタープライズ LLMOps
　　［2］　MLOps
　　［3］　LLMの導入における基盤モデルと自社開発のバランス
　　［4］　LLMモデル開発のアプローチ別特性
　　［5］　LLMOpsのワークフロー

8-3　企業データのLLM微調整とプライベートGPT

第9章　有償LLMとオープンソースLLM：比較・考慮事項

9-1　概説

9-2　企業でLLMを活用するための適切なアプローチ決定方法
　　［1］　概説
　　［2］　ChatGPTとオープンソースLLMの戦略的選択
　　［3］　ChatGPTとオープンソースLLMのコスト比較
　　［4］　大規模言語モデルのオープンソース化
　　［5］　オープンソースLLM：オープンソースモデルを展開するためのアーキテクチャ
　　［6］　QLoRAのような量子化モデルの使用

第10章　LLMの能力を向上させるアーキテクチャ／フレームワーク上の課題

10-1　概説

10-2　スケーリング効率の課題

10-3　数学的推論問題におけるLLMの性能を向上させる技法
　　［1］　概説
　　［2］　マイクロソフト　「数学的推論問題におけるLLMの性能を向上させる技法：MathPrompter」

10-4　Meta　「次世代AIアーキテクチャ：Megabyte」

10-5　ヒューマン・イン・ザ・ループ・システムのアプローチに関する研究
　　［1］　概説
　　［2］　UCバークレー校研究グループ　「あらゆる形態のフィードバックから学習することを可能にするChain of Hindsight（CoH）技術」

10-6　LLMの推論を向上させる合成プロンプティング手法

10-7　グロッキングと位相変化（長時間経過後に未見のデータへの汎化を行う現象）

10-8　LLMのデコード性能向上

10-9　投機的サンプリング（SpS）アルゴリズム

10-10　パラメーターのコンパクト化によるレスポンス／電力消費／サーバコストを抑制
　　［1］　NEC　「130億パラメーターの軽量さと高い日本語能力をうたうLMMを開発」

第11章　LLMの能力を向上させる文脈内学習（インコンテクスト）のアプローチ

11-1　概説
　　［1］　イン・コンテクスト学習の概要
　　［2］　コンテクストの長さとコンテクスト構築の最適化

11-2　トランスフォーマーベースのニューラルシーケンスモデルによる文脈内学習。

11-3　心の理論（ToM）推論／LLM性能を向上させる適切なプロンプトに関する研究
　　［1］　概説
　　［2］　ジョン・ホプキンス大学　「心の理論」（ToM）推論／LLM性能を向上させる適切なプロンプトに関する研究成果」

11-4　大規模な言語モデルを誘導するためのアクティブプロンプティング

11-5　RLHF（人間からのフィードバックを用いた強化学習）

11-6　推論中の指示に従う文脈内学習学習
　　［1］　概説
　　［2］　KAIST／LG Researchの研究グループ　「推論中の指示に従うことを文脈内学習で学習するICIL（In-Context Instruction Learning）」

11-7　外部コーパスからの取得なしでより正確な事実知識を生成するモデル
　　［1］　概説
　　［2］　Google Brain　「外部コーパスからの取得なしでより正確な事実知識を生成：RECITE」

11-8　外部ドキュメントの取得に代わって文脈でドキュメントを直接生成する技術
　　［1］　概説
　　［2］　generate-then-readプロセスによるGENREAD

11-9　LLMを使ったAIエージェント構築のための次世代コンテクスト検索システム／ニューラルデータベース
　　［1］　エンベッディングの維持、保存、検索の難しさ
　　［2］　エンベッディングやANNに対するニューラル・データベースの主な利点
　　［3］　ThirdAIの違い

第12章　LLM増強自律エージェントの進化／ゴール指向エージェント

12-1　概説

12-2　AutoGPT

12-3　セールスフォース　「LLM増強自律エージェントの進化と革新的なBOLAA戦略」

第13章　LLMの推論能力・推論能力強化

13-1　概説
　　［1］　概要
　　［2］　Chain-of-Thought（CoT）
　　［3］　Self-consistency with CoT（自己整合型COT）プロンプト
　　［4］　CoT-SC（思考連鎖による自己一貫性）
　　［5］　LLMが自らの論理的整合性をチェックするためのフレームワーク「LogiCoT」
　　［6］　Google／東京大学／北京大学／マイクロソフト　「LLMで困難な多段階問題を解決するためのプロンプティング技法／ゼロショットCoT他」
　　［7］　Tree of Thoughts（ToT）
　　［8］　ToTの戦略・実装
　　［9］　ToTにおける主な検索アルゴリズムと特性

13-2　マイクロソフト　推論能力を強化するための新しい方法論の提唱　「AoT（Algorithm of Thoughts）」
　　［1］　概要
　　［2］　AoTの特徴・手法

第14章　LLMによる認知的自動化に関する研究開発

14-1　概要

14-2　アイデアの創出・選択・開発／ブレインストーミング

14-3　テキスト作成／編集／文章要素の評価

14-4　文献検索

14-5　学習アシスタント

14-6　調査・分析／コーディング／数学的導出などの研究ツール

第15章　性能の良いモデルの学習／モデル学習の合理化／展開時の生成速度の向上

15-1　概説

15-2　新たな学習データを必要とせず、わずか数個の例から新しいタスクを学習できるモデル

15-3　データセット蒸留による大規模モデル学習の合理化

15-4　Meta AI　「マルチスケールデコーダアーキテクチャ「MEGABYTE」を提唱」

第16章　LLMとロボティクスの結合

16-1　概況・近況

16-2　LLMを使ったロボット工学におけるイノベーション
　　［1］　概説
　　［2］　グーグル　「LLMを使ったロボット工学における最新のイノベーション：PaLM 2」

16-3　生成系AIのロボットアプリケーションへの適用
　　［1］　概説
　　［2］　マイクロソフト　「ChatGPTのロボットアプリケーションへの使用に関する実験的研究」

16-4　LLMとロボットを融合させたグーグルの新型ロボット「RT-2」

16-5　マルチモーダル言語モデル「PaLM-E」とロボティクス

16-6　LLMによる未知知のシーンにゼロショットで行動を移せるロボット新システム
　　［1］　概説
　　［2］　Meta AI　「GenAug」

16-7　Google DeepMind　「視覚と言語を行動に変換する視覚言語アクション（VLA）モデル「RT-2」

16-8　LLMによるロボットの多様な動作生成

第17章　LLMとスーパーコンピュータ・量子コンピューター関連技術

17-1　スーパーコンピュータによる大規模言語モデルの研究開発

17-2　スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発について

17-3　ChatGPTによる量子プログラミング
　　［1］　概説
　　［2］　ChatGPTの世界における量子の役割
　　［3］　量子機械学習（QML）アルゴリズム
　　［4］　ChatGPTと量子の統合における現在の限界
　　［5］　量子エラー訂正
　　［6］　フォールト・トレラントな量子コンピューターと量子制御

17-4　LLMと量子コンピューター関連技術による大規模高速高精度なガントチャート生成

第18章　メモリ増強・メモリ削減LLM／限られたGPUメモリでLLM高スループットで処理する生成エンジン

18-1　グーグル・ブレイン／アルバータ大学　「メモリ増強LLMでLLMにおけるブレークスルーを起こす」

18-2　枝刈りアルゴリズムによるメモリ使用量削減

18-3　UCB／スタンフォード大学／CMU／Meta他　「FlexGen」

18-5　NVIDIA GPUのスケーラリビティを活用した新たな可能性

第19章　大規模言語モデル学習の各種実証的分析

19-1　計算最適な大規模言語モデル学習の実証的分析

19-2　スタンフォード大学　「LLMの推論コストを110倍削減する新しいAIアプローチ」

19-3　OPT-175Bによる大規模言語モデルへのアクセスの民主化

19-4　LLMがパラメータから知識を抽出する方法に関する研究

19-5　計画問題の自然言語記述に関する研究

19-6　メタ認知プロセスが可能なLLMの自己改善能力を実証する研究

19-7　メタ認知をさせてLLMの能力を上げる手法　「メタ認知プロンプティング」

第20章　大規模言語モデルの課題と解決のアプローチ

20-1　プロンプトパラダイムに関するReWOO（Reasoning WithOut Observation）の提案

20-2　人工幻覚（AIによる真実ではない確信的な応答問題）
　　［1］　概説
　　［2］　幻覚の軽減と測定
　　［3］　幻覚を見ている人工知能を見抜く方法

20-3　強化学習（RL）アルゴリズムによる結果の正確度合いのスコア化
　　［1］　概説
　　［2］　人間の指示によりよく沿うように提案された新しいLLMアルゴリズム　「HIR」

20-4　説明によって意思決定時のAIシステムへの過度な依存を軽減するアプローチ
　　［1］　概説
　　［2］　スタンフォード大学　「意思決定AIシステムの戦術的判断をコスト・ベネフィット・フレームワークで定式化・検証」

20-5　 Eleuther AI、FAR AI、ボストン大学、トロント大学、UCバークレー校　「チューニングレンズによるロジットレンズ問題の解決」

第21章　大規模言語モデルに関連した最新研究・新たな取り組み［1］

21-1　自動運転大規模言語モデル研究（中国）：コンピュータビジョン世界最高峰の学会で最優秀賞

21-2　LLMによるインテリジェントな質問応答システム
　　［1］　概説
　　［2］　質問応答とトランスフォーマー

21-3　自律型エージェントにおける目標への合致をチェックする技法
　　［1］　概説
　　［2］　スタンフォード大学／DeepMind　「LLMを代理報酬関数として利用するアプローチの提唱」

21-4　自己フィードバックにより強化された反復的な自己修正型LLM。
　　［1］　KAIST研究チーム　「自己フィードバックと自己修正生成型に設計されたSelFeeモデルを発表」

21-5　多段階の推論を必要とする構成的課題を解くためのトランスフォーマーの研究
　　［1］　概説
　　［2］　合成タスクにおけるLLMの限界と能力を改善する方法

21-6　言語モデルのプロンプト圧縮を効率化する新技法
　　［1］　概説
　　［2］　スタンフォード大学研究者　プロンプトを圧縮するための新しい技術「gisting」

21-7　LLMによるマインクラフトの探索でゲームの達人になるAIモデル「Voyager」

21-8　強化学習を使わずに嗜好から言語モデルを学習させる学習パラダイム

21-9　逆スケーリング（モデルサイズの増加に伴う出力低下）問題への対処
　　［1］　エディンバラ大学／ヘリオット・ワット大学　「新しい種類の逆スケーリングジョブ技法の提案」
　　［2］　メリーランド大学　「決定論的摂動による拡散モデル：Cold Diffusion」

21-10　ミッションクリティカルなタスクの性能を向上させるモジュールによる外部知識に基づく応答の実現
　　［1］　概説
　　［2］　マイクロソフトとコロンビアの研究グループ　「LLM-AUGMENTER」

21-11　大規模な言語モデルの推論と最適化
　　［1］　概説
　　［2］　100B以上の言語モデルを実行できるオープンソースAI　「Petals」

21-12　純粋な生成型AIモデルよりも信頼性が高く、説明責任の要求おを充たす検索結果の表示
　　［1］　概説
　　［2］　Google／Brave Search（推論効率を最大化するために微調整された独自の非公開モデル）

21-13　巨大なデータベースをマイニングして新たな洞察を得るための方法
　　［1］　概説
　　［2］　カリフォルニア大学バークレー校　「言語記述を用いたテキスト分布間の差異の目標駆動型識別」

21-14　マルチモーダル思考連鎖推論による新しいLLMモデル／思考連鎖（CoT）プロンプト
　　［1］概説
　　［2］　Amazon　「Multimodal-answer CoTの推論と推論生成」

21-15　LLMに3D世界を導入する試み　「3D-LLM」

21-16　意思決定問題に言語からの背景知識を統合するアプローチ
　　［1］　概説
　　［2］　MIT　「言語モデルからの確率的プリオ抽出・背景知識の統合：LAMPP」

21-17　高効率かつ安定的に学習させる言語モデルの手法
　　［1］　概説
　　［2］　Google AI Research　「22BパラメータViT（ViT-22B）を高効率かつ安定的に学習させる手法」

21-18　状態空間モデル（SSM）とトランスフォーマー言語モデル
　　［1］　概説
　　［2］　スタンフォード大学　「状態空間モデル（SSM）とトランスフォーマー言語モデルの注意メカニズム間のギャップ解決」

21-18　？大規模言語モデルの「創発的」能力

21-19　LMのスケーリング（規模）能力と予測不可能性の関係

21-20　手作業によるラベリングを大規模に置き換える言語モデル

第22章　大規模言語モデルに関連した最新研究・新たな取り組み［2］

22-1　ローコードLLMによる人間とLLMのインタラクションパターン

22-2　生成モデル（GPTなど）の推論効率のボトルネック解消技術
　　［1］　概説
　　［2］　Microsoft Research　「生成モデルの推論効率のボトルネック解消技術」

22-3　チャート理解、グラフのデレンダリング、数学的推論を大幅に改善するLLM
　　［1］　概説
　　［2］　Google AI　「チャート理解、グラフのデレンダリング、数学的推論を大幅に改善するモデルを提唱」

22-4　知識グラフ抽出のためのLLMオントロジー・プロンプティング

22-5　モデル表現から知識を検出する教師なし手法
　　［1］　概説
　　［2］　UC Berkeley／北京大学　「コントラスト一貫性探索（CCS）」

22-6　インストラクションのチューニング方法
　　［1］　概説
　　［2］　創発的かつ最先端の結果に焦点を当てたデータ収集とインストラクションチューニングプロセスに適用する手法

22-7　セマンティック検索モデル／構造化データと非構造化データ
　　［1］　構造化データと非構造化データ
　　［2］　テキストからSQLへ
　　［3］　セマンティック検索埋め込みモデル
　　［4］　LLMによる構造化データと非構造化データのクエリ／テキストからSQLへの構造分析とセマンティック検索
　　［5］　非構造化テキストを効率的にセマンティック検索するNeo4j

22-8　LLMによる文書検索と質問応答
　　［1］　概説
　　［2］　検索補強生成（Retrieval Augmentation Generation）／生成的質問応答（Generative Question Answering）

22-9　ビデオ言語モデル（VidLM）の改善
　　［1］　概説
　　［2］　UIUC／UNC研究グループ　「VidLMにアクション知識をパッチする独自のフレームワークを提唱」

22-10　生成タスクにおける拡散モデルの適用
　　［1］　概説
　　［2］　MIT　「デノイズスコアマッチングの分散を減らし、画質、安定性、拡散モデルの学習速度を向上させるモデル」

22-11　3Dシナリオを写実的にデジタル表現するためのニューラルネットワーク
　　［1］　3D環境を自然言語で説明することとNeural Radiance Fields（NeRF）
　　［2］　カリフォルニア大学バークレー校　「視覚言語モデルの言語埋め込みをNeRFに組み込むためのLERF（Language Embedded Radiance Fields）」

22-12　モバイルUIで会話型インタラクションを可能にするLLM

22-13　Chain-of-Thought推論（論理・算術・象徴的な推論タスクでより優れた推論を描写するアプローチ）の導入
　　［1］　LLMにCoT（Chain-of-Though）推論導入による性能の向上
　　［2］　思考連鎖推論により言語モデルのゼロショット学習と数ショット学習を強化する命令データセット

22-14　LLMのゼロショット性能を改善するための軽量かつ多用途なアプローチ
　　［1］　概要
　　［2］　Microsoft　「UPRISE」

22-15　Adamの2倍の速度でLLMを解くことができる新しい2次オプティマイザ

22-16　特定のタスクに適したインターフェース設計／インターフェース増強法
　　［1］　概説
　　［2］　中国人民大学／中国電子科技大学　「構造化データに対するLLM推論能力を向上させるStructGPTを提唱」

22-17　LMQL（言語モデル相互作用のためのプラットフォーム）
　　［1］　LLMインタラクションのためのオープンソースプログラミング言語とプラットフォーム　「LMQL」
　　［2］　LMQL

第23章　主な大規模言語モデル［1］

23-1　GPT3／GPT4

23-2　GPT-Neo／GPT-NeoX／GPT-NeoX-20B

23-3　GPT-J

23-3　GPT4All

23-4　BERT

23-5　LLaMA（Large Language Model Meta AI）

23-6　PaLM／PaLM 2

23-7　Gemini

23-8　LaMDA（ダイアログアプリケーション用言語モデル）

23-9　LLaMA（Meta）

23-10　MT-NLG（DeepSpeedとMegatronを搭載したメガトロン・チューリング自然言語生成モデル）

23-11　Bard

23-12　Google AI　「SoundStorm」

23-13　Meta　「OPT-IML」

23-14　Meta AI　「LLaMA」

23-15　Meta AI　「MultiRay」

23-16　NVIDIA　「megatron-turing-NLG」

23-17　Intel　「Aurora genAI」

23-18　DeepMind 　「Gopher」

23-19　DeepMind 　「Chinchilla」

23-20　DeepMind　「Sparrow」

23-21　Salesforce AI　「コードインテリジェンスタスクのLLM統合：CodeTFライブラリ」

23-22　Salesforce AI　「テキストから画像への拡散生成を行う新しい編集アルゴリズム：EDICT」

23-23　Salesforth AIリサーチ　「画像エンコーダとLLMからブートストラップする視覚・言語事前学習戦略：BLIP-2」

23-24　MosaicML Foundation　「MPT-7B」

23-25　Amazon　「Alexa AI／AlexaTM 20B」

23-26　Amazon Web Services（AWS）　「Bedrock」

23-27　ファーウェイ　「Pangu-α／ファーウェイ　「Pangu-Σ」

23-28　ファーウェイクラウド　「自動車向け・医療向けの大規模言語モデル」

23-29　バイドゥ　「Ernie Bot」

23-30　バイドゥ　「Ernie 3.0」

23-31　Alibaba AI Research　「テキスト、画像ペアで学習させた50億パラメータ制御可能な拡散モデル：Composer」

23-32　Google、NVIDIA、Salesforce、Meta、Apple、Amazon、AI2による2022年の人工知能（AI）研究の革新性

第24章　主な大規模言語モデル［2］

24-1　スタンフォード大学　「Alpaca」

24-2　Falcon

24-3　Claude

24-4　BLOOM

24-5　mT5

24-6　RedPajama　「RedPajama-INCITE」

24-7　Jurassic-1

24-8　LangChain

24-9　Together　「オープンソースのChatGPT代替ツール：OpenChatKit」

24-10　LangFlow

24-11　PaLM-E（ロボット操作などのタスクで強い推論能力を発揮するエンボディド・マルチモーダル言語モデル）

24-12　Falcon LLM

24-13　Stable Diffusion　「StableLM」

24-14　BlenderBot-3

24-15　LG AI Research　「Exaone」

24-16　StarCoder（最大規模のオープンソースの大規模コード用言語モデル）

24-17　ChatLLaMA（強化学習（RLHF）に基づくLLaMAの最初のオープンソース実装）

24-18　OPT（Open Pre-trained Transformer）

24-19　BLOOMChat（多言語チャット大規模言語）

24-20　セレブラス・システムズ　「Cerebras-GPT」

24-21　ニューラルグループ　「NEURAL LLM」

24-22　中国科学院／清華大学の研究チーム　「GPT-4を上回る性能をうたうAI「Xwin-LM」」

24-23　オープンソースの主な大規模言語モデル
　　［1］　GPT-Neo、GPT-J、GPT-NeoX
　　［2］　XLNet
　　［3］　RoBERT
　　［4］　DeBERTa
　　［5］　XLM-RoBERTa
　　［6］　DistilBERT

24-24　　日本独自LLMの研究・開発を巡る主な動き
　　［1］　概要
　　［2］　日本経済団体連合会　「AI活用によるSociety 5.0 for SDGsの実現に向けて」。
　　［3］　NTT
　　［4］　サイバーエージェント
　　［5］　ソフトバンク
　　［6］　LINE
　　［7］　オルツ
　　［8］　富士通・理研
　　［9］　ABEJA
　　［10］　rinna
　　［11］　さくらインターネット
　　他

第25章　LLMのためのAIフレームワーク

25-1　概説

25-2　シンボリックAIとLLMの長所を組み合わせた強力なフレームワーク「SymbolicAI」

25-3　Open AI　「生成・拡散モデルファミリー：Consistency Models」

25-4　プロンプトエンジニアリングの最適化と改善
　　［1］　概説
　　［2］　Microsoft AI Research　「LMプロンプトを自動最適化するためのシンプルで汎用的なフレームワーク」

25-5　AIガバナンスに不可欠なアプリケーションレベルの監査・監査制御
　　［1］　AIガバナンスの仕組みとして監査が期待される背景
　　［2］　スタンフォード大学　「自然言語クエリを処理するLLM APIのためのAIフレームワーク」
　　［3］　ガバナンス、モデル、アプリケーションの各レベルでLLMを監査するためのポリシーフレームワーク

25-6　GPUアクセラレーションで幅広いクラスのプラットフォームに対応するオープンフレームワーク
　　［1］　概説
　　［2］　GPUアクセラレーションで幅広いクラスのプラットフォームに対応するオープンフレームワーク　「MLC-LLM」

25-7　推論プログラムの中間段階を迅速に生成するLLMを使用するフレームワーク
　　［1］　概説
　　［2］　マイクロソフト／メタ／ワシントン大学／カリフォルニア大学／アレンAI研究所　「Automated Reasoning And Tool-Use (ART)」
　　［3］　マイクロソフト　「クロスリンガルなニューラルコーデック言語モデル：VALL-E X」

25-8　テキスト説明から完全な動画を作成できるソフトウェア

25-9　インストラクションチューニングされたドイツ語LLMファミリー　「IGEL」

25-10　AIモデルの接続やAIタスクを解決する拡散モデル／フレームワーク
　　［1］　概説
　　［2］　様々なAIモデルの接続やAIタスクを解決するフレームワーク　「HuggingGPT」
　　［3］　テキストガイド付きビデオ編集のための拡散モデル・AIフレームワーク　「Dreamix」

25-11　エージェント同士をタスク完了に向けて自律的に行動させるフレームワーク
　　［1］　まえがき
　　［2］　Role-Playing Framework
　　［3］　Inception Prompting
　　［4］　Experiments

25-12　スタンフォード大学Alpaca研究グループ　「命令追従型LLaMAモデルの微調整のための軽量適応法：LLaMA-Adapter」

25-13　トランスフォーマーのための多人数計算（MPC）でプライベート推論を可能にするモデル
　　［1］　近似値への置き換えによるMPC推論処理の高速化
　　［2］　プライバシー、推論レイテンシにおいてバランスのとれた性能を達成するMPCFormer

第26章　自然言語処理関連の言語モデル・フレームワーク

26-1　概説

26-2　自然言語処理モデルの事前学習とT5（Text-To-Text Transfer Transformer）

26-3　ChatGPTの推論・対話機能をNLPアプリケーションに活用する方法

26-4　文脈内学習を持つLLM・AIフレームワーク
　　［1］　概説
　　［2］ Microsoft／UT Austin研究グループ　新しいモデルアーキテクチャ　「Prompt Diffusion」

26-5　対話型解決エージェントで大規模言語モデル補完を強化するAIフレームワーク　「DERA」
　　［1］　概説
　　［2］　対話型解決エージェントで大規模言語モデル補完を強化するAIフレームワーク　「DERA」

26-6　CMU研究グループ　「コードドキュメントの取得による自然言語によるコード生成アプローチ：DocPrompting」

26-7　GLaM（エキスパート混合による言語モデルの効率的スケーリング）

26-8　PaLM（パスウェイ言語モデル）／Palm2
　　［1］　概説
　　［2］　新しいGoogle AIレポートでは、新しいPalm2大規模言語モデルを可能にしたデータの改善とスケーリングの洞察が示されている。

26-9　「転移学習」を利用した機械学習モデル・自然言語処理AI
　　［1］　概説
　　［2］　Google　「新たな自然言語処理AI：T5」
26-10　推論と演技を相乗させるためのAIモデル

　　［1］　概説
　　［2］　プリンストン大学／Google AI　「ReAct」

26-11　検閲に対応し、有害・不快なコンテンツを生成させない安全ルールを備えたLLM
　　［1］　概説
　　［2］　スタンフォード大学研究グループ　検閲対応／有害・不快コンテンツを生成させない安全ルールを備えたLLM　「FreedomGPT」

26-12　レコメンデーション技術とLLM
　　［1］　概説
　　［3］ユーザーフィードバックに基づくリアルタイムに近いモデル更新
　　［3］　Bytedance　「Monolith」

26-13　高品質なラベル付きデータっを必要とする自然言語処理アプリケーション
　　［1］　概説
　　［2］　チューリッヒ大学研究グループ　「MTurkアノテーションを上回る性能を見せたゼロショットChatGPT分類」

26-14　Meta　「4000言語の話し言葉を理解する多言語LLM「MMS」のオープンソース化」

26-15　多言語LLM
　　［1］　概説
　　［2］　チューリッヒ大学　「多言語言語モデル「SwissBERT」を開発」
　　［3］　Phoenix

26-16　生成系AIとの対話を支援するビジュアルファウンデーションモデル
　　［1］　概説
　　［2］　Microsoft Research　「ChatGPTとの対話を支援するビジュアルファウンデーションモデル：Visual ChatGPT」

26-17　インコンテクスト学習を行うことができるマルチモーダル大規模言語モデル
　　［1］　概説
　　［2］　Microsoft Research　「インコンテクスト学習を行うことができるマルチモーダル大規模言語モデル：Kosmos-1」

26-18　世論測定の言語モデル
　　［1］　概説
　　［2］　MIT／ハーバード大学　「メディアダイエットで学習した世論測定の言語モデルを発表」

26-19　生成を3倍高速化する信頼性適応言語モデリング
　　［1］　概説
　　［2］　Google AI　「LLMによるテキスト生成を3倍高速化する信頼性適応言語モデリング：Confident Adaptive Language Modeling（CALM）」

26-20　脚本を生成する映画オーサリングツール
　　［1］　概説
　　［2］　Deepmind　「脚本を生成する映画オーサリングツール：Dramatron」

26-21　スタンフォード大学　「自然言語クエリを処理するLLM APIのためのAIフレームワーク」

26-22　自然言語で携帯端末を操作するための学習データセット

26-23　自然言語処理システムの仕組みを変える検索拡張世代（RAG）
　　［1］　概説
　　［2］　大規模言語モデルにおけるいくつかの重要な課題に対処するRAG
　　［3］　RAGシステムの潜在的なビジネスアプリケーションと影響
　　［4］　効率的なRAGパイプラインの実装
　　［5］　RAGライブラリとフレームワーク

26-24　視覚言語モデルとその応用可能性
　　［1］　概説
　　［2］　カリフォルニア大学バークレー校　視覚言語モデルの言語埋め込みのNeRFへの組み込み　「LERF（Language Embedded Radiance Fields）」

第27章　音声合成モデルとLLM

27-1　概説

27-2　Google AI　「翻訳したテキストと音声を同時に生成する大規模言語モデル：AudioPaLM」

27-3　Google AI　「最先端の音声モデルファミリ：Universal Speech Model (USM)」

27-4　CMU研究グループ　「多様な音声を扱う人間のような音声合成トレーニングのためのAIシステム」

27-5　 Suno　「音声合成AIボイスクローンモデル：Bark」

第28章　AIアシスタント／テキスト生成／チャットボット関連のLLM

28-1オープンソースチャットボット
　　［1］　概説
　　［2］　LLaMA-13Bをベースにしたオープンソースチャットボット　「Vicuna」

28-2　GPT-Turbo-3.5アシスタントスタイル生成の言語モデル　「GPT4All」
　　［1］　概説
　　［2］　GPT-Turbo-3.5アシスタントスタイル生成の言語モデル　「GPT4All」

28-3　自動テキスト配信、チャットボット、言語翻訳、コンテンツ制作の開発・作成モデルの訓練および微調整　「xTuring」
　　［1］　概説
　　［2］　ストキャスティック　自動テキスト配信、チャットボット、言語翻訳、コンテンツ制作の開発・作成モデルの訓練および微調整：　「xTuring

28-4　ChatGLM（中国人ユーザー向けに特別に設計されたチャットロボット）

第29章　ソフトウェア開発関連のLLM

29-1　コードによる複雑なアルゴリズムの自動実装と検証を可能にするAIフレームワーク LLM
　　［1］　概説
　　［2］　スタンフォード大学　「Parse」

29-2　コーディング用大規模言語モデル
　　［1］　Hugging Face　「コーディング用LLM：「StarCoder／StarCoderBase」

29-3　LLMのための許諾済みソースコード
　　［1］　概説

　　［2］　BigCodeプロジェクト　「Stack」
29-4　自然言語のフィードバックでプログラム合成するソフトウェア開発技術
　　［1］　概説
　　［2］　自然言語のフィードバックでプログラム合成するソフトウェア開発技術

第30章　企業・産業におけるLLM活用法／LLMによる企業情報資産のコンテクスト化

30-1　概説

30-2　大規模言語モデル(LLM)と企業データとの関連付け

30-3　製造業における大規模言語モデル

30-4　セクター別に特化したLLM
　　［1］　概説
　　［2］　金融データで訓練された大規模言語モデル　「BloombergGPT」

30-5　企業独自LLMの開発
　　［1］　リコー　「LLMをノーコードでカスタマイズできるツール」

第31章　画像・映像・アート系生成モデル／拡散モデル（DM）／潜在拡散モデル（LDM）

31-1　概説
　　［1］　OpenAIによる画像合成で拡散モデルがGANに勝つ
　　［2］　UC Berkeleyによる拡散確率モデルのノイズ除去
　　［3］　DALL-E 2 by OpenAI
　　［4］　Googleによる画像生成：Imagen
　　［5］　コンピュータビジョンと学習グループ（LMU）による安定した拡散
　　［6］　スタンフォード大学によるControlNet

31-2　画像生成・動画広告などで可能性が広がる拡散モデル（Diffusion Model）
　　［1］　拡散モデルの概要
　　［2］　架空のグラドル生成

31-3　医療画像の合成データの作成
　　［1］　概説
　　［2］　スタンフォード研究グループ　「学習データが乏しい状況で高忠実度の合成データセットを生成する安定拡散モデル」

31-4　Generative Adversarial Networks（GAN）の目的・スケーリング
　　［1］　概説
　　［2］　カーネギーメロン大学／アドービ・リサーチ　「テキストから画像への合成のための大規模な修正GANアーキテクチャ：GigaGAN」

31-5　言語と画像を使って既存の動画から新しい動画を生成する生成AIモデル
　　［1］　概説
　　［2］　Stability Ai　「DALL-E 2、Stable Diffusionと事前に訓練されたニューラルネットワーク」

31-6　画像拡散モデルを使った動画編集モデル
　　［1］　概説
　　［2］　画像拡散モデルを使って動画編集を簡略化するモデル　「Pix2Video」

31-7　エンベッディング空間によるテキストから画像への生成
　　［1］　概説
　　［2］　テキストから画像への拡散モデル

31-8　人間のフィードバックを利用してテキストから画像へのAIモデルを改善するアプローチ
　　［1］　概説
　　［2］　Google／U.C.Berkeley　「人間のフィードバックによる強化学習（RLHF）」

31-9　生成トランスフォーマーによるテキストから画像への生成・編集モデル
　　［1］　概説
　　［2］　Google AI　「マスク型生成トランスフォーマーによるテキストから画像への生成・編集モデル：　Muse」
　　［3］　Facebook AI Research　「視覚および視覚言語タスクの広い範囲をサポートするたモデル：　X-Decoder」

31-10　3Dジオメトリとコンピュータグラフィックスアプリケーション
　　［1］　概説
　　［2］　OpenAI　「テキストプロンプトに基づき3D画像を高速生成する機械学習システム：Point-E」

31-11　非拘束空間を限定空間に変換するスペースワープ技術
　　［1］　概説
　　［2］　新しいグリッドベースの映像合成システム「F2NeRF」

31-12　Stability AI　「標準的なPCで実行可能な画像生成系AI：Stabile Diffusion XL 0.9」

31-13　画像と交錯する自由形式のテキストを生成するAIモデル
　　［1］　概説
　　［2］　CMU　「Frozen Large Language Models（LLM）を効率的にブートストラップ：FROMAGe」

31-14　生成系AIアートのパーソナライゼーション
　　［1］　拡散モデルを用いたText-to-Image生成
　　［2］　Adobe Research　モデルを完全に再トレーニングすることなく複数の新しい概念を学習する方法」

31-15　テキストから画像を生成する拡散モデルを調整する方法
　　［1］　概説
　　［2］　多様で制御可能な画像生成を可能にする統合AIフレームワーク　「MultiDiffusion」
　　［3］　CMU研究グループ　「制御可能なフォトリアリスティック画像合成のための3Dを意識した条件付き生成モデル：Pix2pix3D」

31-16　事前に訓練された画像拡散モデルによる時間的にコヒーレントな動画生成
　　［1］　概説
　　［2］　NVIDIA　「効率的で表現力豊かなテキストからビデオへの変換モデル」

31-17　未知物体の3D再構成とコンピュータビジョンにおける課題
　　［1］　概説
　　［2］　Nvidia　「単眼RGBD映像からのニューラル・オブジェクト追跡と3D再構成を実行するBundleSDFの提供」

31-18　既存の視覚モデルや視覚言語モデルが苦手とする視覚課題の解決
　　［1］　概説
　　［2］　Microsoft AI　「MM-REACT」（視覚プールを組み合わせてマルチモーダル推論・行動を実現するシステム）

31-19　動画の深層生成モデル
　　［1］　概説
　　［2］　動画の新しい生成モデルによるSOTAスコアの向上とGPUメモリ使用量の削減

31-20　テキストから4D（3D+時間）を生成するシステム
　　［1］　概説
　　［2］　Meta AI　「テキストから4D（3D+時間）を生成するシステム」

31-21　3D生成モデル
　　［1］　概説
　　［2］　検索補強型視覚言語事前トレーニング
　　［3］　Google AI　「チャート理解と数学的推論に革命を起こすMatChaとDePlotを提唱」
　　［4］　Video-LLaMA：映像理解のための命令調整された視聴覚言語モデル

第32章　音楽・音響の生成モデル

32-1　テキスト記述から音楽を生成するAIモデル
　　［1］　概説
　　［2］　テキスト記述から音楽を生成するAIモデル　「MusicLM」

32-2　音楽合成と音源分離の両方が可能な拡散ベースの生成モデル
　　［1］　概説
　　［2］　ローマ大学GLADIA研究室　「Multi-Source Diffusion Model (MSDM)

32-3　歌の伴奏を生成するAIモデル
　　［1］　概説
　　［2］　歌の伴奏を生成するAIモデル　「SingSong」

32-4　オーディオ生成のための潜在拡散モデル
　　［1］　概説
　　［2］　オーディオ生成のための潜在拡散モデル　「AudioLDM」

32-6　その他、主な生成系AIのモデル
　　［1］　概説
　　［2］　MusicLM
　　［3］　SingSong
　　［4］　Moûsai
　　［5］　AudioLDM
　　［6］　EPIC SOUNDSデータセット

第33章　科学・学術研究用のLLM

33-1　医療教育、研究、実践における大規模言語モデルの例としてのChatGPTの有用性：将来の展望と潜在的限界に関する系統的レビュー
　　［1］　概説
　　［2］　条件整備・方法
　　［3］　結果
　　［4］　医療におけるChatGPTの利点と限界／懸念のまとめ
　　［5］　対象記録の特徴
　　［6］ChatGPTの利点と医療教育、実践、研究における応用の可能性
　　［7］　収録された記録に基づく、医療教育・実践・研究におけるChatGPTのリスクと懸念事項
　　［8］　課題・将来の展望

33-2　文脈に基づく文献ベースの発見と科学的アイデアの支援
　　［1］　概説
　　［2］　文脈に基づく文献ベースの発見　「C-LBD」

33-3　単純な表現から分子の構造を推測する事前学習済みの人工知能AIモデル
　　［1］　概説
　　［2］　IBM　「MoLFormer-XL」

33-4　生物医学の言語を解釈するために訓練された目的別AIモデル
　　［1］　概説
　　［2］　スタンフォード大学／MosaicML　「PubMed GPT」

33-5　分子生物学における大規模言語モデル
　　［1］　概説
　　［2］　分子生物学における言語モデル／LLMの果たす役割
　　［3］　ファウンデーションモデル
　　［4］　LLMによるDNAのシーケンス解析
　　［5］　未来への展望

33-6　大規模な生物医学文献で事前学習されたドメイン固有の生成変換言語モデル
　　［1］　概説
　　［2］　Microsoft Research　「BioGPT」

33-7　科学的ニューラルネットワークアシスタント　「Galactica」

33-8　LLMによるニューロン解析
　　［1］　概説
　　［2］　OpenAI　「GPT-4によるニューロン解析の研究成果を公表」

33-9　生成系AIによる衛星データ活用の課題解決
　　［1］　Solafune／マイクロソフト　「GPU（画像処理半導体）インスタンス（仮想マシン）の提供による生成系AIの衛星データ活用」

第34章　医療領域を支援する大規模言語モデル

34-1　概説

34-2　医療システム規模の言語モデル
　　［1］　概説
　　［2］　メソッド
　　［3］　構造化されたデータセット
　　［4］　ファインチューニング
　　［5］　展開
　　［6］　評価指標
　　［7］　他の言語モデルとの比較
　　［8］　機械学習モデルとの比較

34-3　医療領域を支援する大規模言語モデル　「Med-PaLM」

34-4　安定拡散ベースの大規模な胸部X線および放射線データセットで微調整するモデル
　　［1］　概説
　　［2］　スタンフォード大学　「RoentGen」

34-6　ディープラーニングモデルによる個別化医療を支援
　　［1］　概説
　　［2］　MIT　「電子健康記録から重要なデータを抽出するモデル」

34-7　LLMによる認知症予測
　　［1］　概説
　　［2］　ドレクセル大学　「LLMによる自発的なスピーチからの認知症予測」
　　［3］　デンマーク工科大学／コペンハーゲン大学病院　「LLMが医学的な質問について推論する能力の探求」

34-8　ヒポクラティックAI　「安全性に特化した言語モデル」

第35章　LLMプラットフォーム／LLMによるAIソリューション

35-2　Google　生成AIプラットフォーム　「Vertex AI」

35-2　事実の関連付けを効率的に検索・編集するためのLLMソリューション
　　［1］　概説
　　［2］　ROME（Rank-One Model Editing）
　　［3］　ChatGPTをクローンするオープンソースのAIソリューション　「ColossalChat」