LLaMA

この項目では、大規模言語モデルについて説明しています。その他のラマについては「ラマ」をご覧ください。

「LaMDA」とは異なります。

LLaMA（ラマ、Large Language Model Meta AI）は、Meta AI が2023年2月に発表した大規模言語モデル（LLM）である^[1]。

LLaMA の開発者の論文^[2]によれば、70億パラメータ（業界の慣習でこれをBillionのBを使って「7B」と書くことがある。以下同様。）から650億パラメータ（65B）まで、いくつものサイズのモデルが作られた。LLaMA-13Bの性能は、GPT-3-175BをほとんどのNLPベンチマークで上回る。そして、LLaMA-65Bの性能は、GoogleのPaLM-540BやDeepMindのChinchilla（英語版）-70Bなど、最先端モデルに匹敵する。

アーキテクチャと学習

LLaMA は、2018年以降の言語モデリングの標準的アーキテクチャである Transformer アーキテクチャを採用している。

LLaMA の開発者は、パラメータの数ではなく、トレーニングデータの量を増やすことで、モデルの性能を上げることに注力した。これは、トレーニングプロセスの計算コストより、トレーニング済みモデルによる推論のコストの方が支配的であるためである。

LLaMA は、下記のような公開データソースから抽出した1.4兆個のトークンで学習した。

コモン・クロールでスクレイピングしたWebページ
GitHub のオープンソースリポジトリ
ウィキペディア（20種類の言語）
プロジェクト・グーテンベルクのパブリックドメインの書籍
ArXivにアップロードされた科学論文のLaTeXソースコード
Stack Exchangeウェブサイトの質問と回答

リリースとリーク

LLaMA は、2023年2月23日、ブログ投稿と論文により発表された。

モデルのトレーニングに使用されたコードは、オープンソースのGPLv3ライセンスで公開された^[3]。

それまでは、ほとんどの強力な大規模言語モデルは限られた API を通じてしかアクセスできなかった。Metaは、LLaMA のモデルで学習の結果得られた重みを内部管理し、「世界中の学術研究者、政府・市民社会・学術機関の関係者、産業界の研究所にケースバイケースで許可」として、研究コミュニティにだけ非商用ライセンスで利用許可する方針とした。

ところが2023年3月2日、LLaMAのリリースから1週間でその重みが漏れ、4chan経由で拡散されてしまった^[4]。

応用

Alpaca

スタンフォード大学の基盤モデル研究センター（Center for Research on Foundation Models, CRFM）は、LLaMA-7Bをファイン・チューニングした、Alpaca をリリースした^[5]。Alpaca は OpenAI GPT-3.5シリーズの text-davinci-003モデルに匹敵する性能を獲得した^[6]。

Llama-3-ELYZA-JP

ELYZA（本社：東京都文京区）は、Metaの「Llama 3」シリーズをベースに日本語性能を強化したLLM「Llama-3-ELYZA-JP」（8Bおよび70B）を開発した^[7]。

脚注

[脚注の使い方]

出典

^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL3]。
^ “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. Meta AI (24 February 2023). 2023年4月1日閲覧。
^ llama - GitHub
^ Vincent, James (8 March 2023). “Meta's powerful AI language model has leaked online — what happens now?”. The Verge. 2023年4月1日閲覧。
^ stanford alpaca - GitHub
^ Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (2022年12月20日), “Self-Instruct: Aligning Language Model with Self Generated Instructions” (英語), arXiv, arXiv:2212.10560, ISSN 2331-8422 , Wikidata Q117202254
^ “「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました”. ELYZA (2024年6月26日). 2024年6月29日閲覧。

外部リンク

Meta AI
Llama

自然言語処理

基礎用語

AI完全
Bag-of-words（英語版）
n-gram
- bi-gram（英語版）
- tri-gram（英語版）
計算言語学
自然言語理解
ストップワード（英語版）
テキスト処理（英語版）

テキスト分析

コロケーション抽出（英語版）
コンセプト・マイニング（英語版）
共参照解析（英語版）
深い言語処理（英語版）
遠読（英語版）
情報抽出
固有表現抽出
オントロジー学習（英語版）
構文解析
品詞タグ付け（英語版）
意味役割付与（英語版）
意味的類似性（英語版）
感情分析
用語抽出（英語版）
テキストマイニング
テキスト含意（英語版）
Truecasing（英語版）
語義の曖昧性解消
語義推定（英語版）

テキストセグメンテーション（英語版）	複合語用語処理（英語版）見出し語化（英語版）字句解析テキストチャンキングステミング（英語版）文区切り（英語版）単語区切り（英語版）

自動要約

複数文書要約（英語版）
センテンス抽出（英語版）
テキスト平易化（英語版）

機械翻訳

翻訳支援ツール
用例ベース（英語版）
ルールベース（英語版）
統計的（英語版）
転送ベース（英語版）
ニューラル

分布意味論（英語版）モデル

BERT
単語文書行列（英語版）
明示的セマンティック分析（英語版）
fastText（英語版）
Glove（英語版）
潜在意味解析
単語の埋め込み
Word2vec

言語資源、
データセット・コーパス

種類・基準	コーパス言語学 Lexical resource（英語版） LLOD（英語版）機械可読辞書（英語版）対訳コーパス（英語版） PropBank（英語版）意味ネットワーク SKOS（英語版）音声コーパス（英語版）コーパスシソーラスツリーバンク Universal Dependecies（英語版）
データ	BabelNet（英語版） Bank of English（英語版） DBペディアフレームネット（英語版） Google Ngram Viewer ThoughtTreasure（英語版） UBY（英語版） WordNet