この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。
⚠ 以下の点について、あらかじめご理解とご了承をお願いいたします:
- 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
- 一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
- 本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス(例:CC BY-NC-SA 4.0)や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。
この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。
- テキスト生成に主に使うモデル
- 入力テキストの処理に主に使うモデル
- 埋め込み (Embeddings) 作成に特化したモデル
- 視覚言語モデル (Vision-Language Models)
- 音声言語モデル (Speech-Language Models)
- 日本語LLM評価ベンチマーク/データセットまとめ
- 各モデル・アーキテクチャの原論文
- LLMの学習手法の原論文
- コントリビューター
- 引用
画像を含むテキスト生成モデルはこちら
アーキテクチャ | 入出力で扱える トークン数 |
学習テキスト | 開発元 | ライセンス | |
---|---|---|---|---|---|
LLM-jp-13B v1.1 | GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1) |
2,048 | Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF |
LLM-jp | Apache 2.0 |
LLM-jp-13B | GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0) |
2,048 | 事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン) Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1 |
LLM-jp | Apache 2.0 |
PLaMo-13B | Llama1 (13b, 13b-instruct, 13b-instruct-nc) |
base: 4,096 instruct, instruct-nc: 8,192 |
事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4 (計 1.5T トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習) |
Preferred Networks | Apache 2.0 (NC モデルは CC BY-NC 4.0) |
Stockmark-13b | Llama (13b, 13b-instruct) |
2,048 | 事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus (計 220B トークン) Instruction Tuning (LoRA): ichikara-instruction |
ストックマーク | baseモデル: MIT instructモデル: CC BY-NC-SA 4.0 |
Weblab-10B | GPT (10b, 10b-instruction-sft) |
2,048 | Japanese mC4 + The Pile(計 600B トークン) *instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング |
東大 松尾研 | CC BY-NC 4.0 |
Japanese StableLM Alpha | GPT (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2) |
2,048 | Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama (+ 独自のデータセット)2 (計 750B トークン) *instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング (v2では商用利用不可の Alpaca Dataset を除外) |
Stability AI | baseモデル: Apache 2.0 instruct モデル (v1): 独自のライセンス instruct モデル (v2): Apache 2.0 |
CALM2 | Llama (7b, 7b-chat, 7b-chat-dpo-experimental) |
base: 4,096 chat: 32,768 |
一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン) *dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習 |
サイバーエージェント | Apache 2.0 (dpo モデルのみ CC BY 4.0) |
OpenCALM | GPT (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b)) |
2,048 | 日本語 Wikipedia + Jpanese mC4 + Japanese CC-100 |
サイバーエージェント | CC BY-SA 4.0 |
Stormy | GPT (7b(6.8b)) |
2,048 | OpenCALM (6.8b) に対して llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング |
東大 和泉研 | CC BY-SA 4.0 |
rinna GPT (英語やコードも含めて学習されたモデル) |
GPT (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo) |
8kモデル: 8,192 他: 2,048 |
Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile (計 524B トークン) *8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング *instruction-sft モデルでは HH RLHF、FLAN でファインチューニング *instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習 |
rinna | MIT |
japanese-large-lm | GPT (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft) |
2,048 | 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど (計 650GB) *instruction-sft モデルでは OASST1 でファインチューニング |
LINE | Apache 2.0 |
rinna GPT (日本語のみで学習されたモデル) |
GPT (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo) |
≤ 2,048 | 日本語 Wikipedia + Japanese CC-100 (1b 以降のモデルでは さらに Japanese mC4 を追加) *instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング *instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習 |
rinna | MIT |
レトリバT5 | T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b)) |
日本語 Wikipedia + Japanese mC4 | レトリバ | CC BY-SA 4.0 | |
kotomamba-2.8B | Mamba (2.8B-v1.0) |
2,048 | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
ABEJA GPT | GPT (large, neox-2.7b) |
日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR |
ABEJA | MIT | |
早大GPT | GPT (small, xl(1.5b)) |
日本語 Wikipedia + Japanese CC-100 |
早大 河原研 | CC BY-SA 4.0 | |
ストックマークGPT | GPT (1.4b) |
日本語 Wikipedia (0.88B トークン) + Japanese CC-100 (10.5B トークン) + 独自のWebデータ (8.6B トークン) |
ストックマーク | MIT | |
イエローバックGPT | GPT (1.3b) |
日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR |
イエローバック | Apache 2.0 | |
colorfulscoop GPT | GPT (small) |
日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 | |
東工大GPT | GPT (medium, medium (逆方向)) 3 |
日本語 Wikipedia + Japanese CC-100 | 東工大 岡崎研 | CC BY-SA 4.0 | |
京大GPT | GPT (small (文字レベル), medium (文字レベル), large (文字レベル)) |
日本語 Wikipedia (約2,700万文 (3.2GB)) + Japanese CC-100 (約6億1,900万文 (85GB)) + Japanese OSCAR (約3億2,600万文 (54GB)) |
京大 言語メディア研究室 | CC BY-SA 4.0 | |
日本語BART | BART (base, large) |
日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | CC BY-SA 4.0 | |
Megagon Labs T5 | T5 (base) |
Japanese mC4 (87,425,304 ページ (782 GB)) + Japanese wiki40b (828,236 記事 (2 GB)) |
Megagon Labs (リクルート) |
Apache 2.0 |
ドメイン | アーキテクチャ | 学習テキスト | 開発元 | ライセンス | |
---|---|---|---|---|---|
日本語対話Transformer | 対話 | Transformer | Twitter 上の日本語リプライのペア | NTT | 独自のライセンス |
日本語ニュースBART | ビジネス | BART (base) | 日本語ビジネスニュース記事(約2,100万記事 (2.9億文)) | ストックマーク | MIT |
AcademicBART | 学術 | BART (base) | CiNii の日本語論文 | 愛媛大 人工知能研究室 | Apache 2.0 |
ベースのLLM | 学習テキスト | 開発元 | ライセンス | |
---|---|---|---|---|
Swallow 70B (70b-hf, 70b-instruct-hf, 70b-NVE-hf, 70b-NVE-instruct-hf) |
Llama 2 (70b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1 |
TokyoTech-LLM | Llama 2 Community License |
KARAKURI LM (70b-v0.1, 70b-chat-v0.1) |
Llama 2 (70b) | 事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット (計 16B トークン) SteerLM: OASST2, 独自のデータセット |
カラクリ | Llama 2 Community License4 |
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b) |
Llama 2 (70b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1 |
Stability AI | Llama 2 Community License |
Swallow-MX 8x7B (8x7b-NVE-v0.1) |
Mixtral-8x7B-Instruct-v0.1 (46.7b) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault | TokyoTech-LLM | Apache 2.0 |
ABEJA-Mixtral-8x7B-japanese (8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged) |
Mixtral-8x7B-Instruct-v0.1 (46.7b) *Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース |
事前学習: Japanese CC, Redpajama, 独自 (計 450B トークン) |
ABEJA | Apache 2.0 |
Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf) |
Qwen (14b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部 |
rinna | Tongyi Qianwen LICENSE |
Swallow 13B (13b-hf, 13b-instruct-hf, 13b-NVE-hf) |
Llama 2 (13b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1 |
TokyoTech-LLM | Llama 2 Community License |
ELYZA-japanese-Llama-2-13b (13b, 13b-instruct, 13b-fast, 13b-fast-instruct) |
Llama 2 (13b) | 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット |
ELYZA | Llama 2 Community License |
Swallow 7B (7b-hf, 7b-instruct-hf, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf) |
Llama 2 (7b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1 |
TokyoTech-LLM | Llama 2 Community License |
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct) |
Llama 2 (7b) | 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット |
ELYZA | Llama 2 Community License |
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq) |
Llama 2 (7b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 40B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部 |
rinna | Llama 2 Community License |
houou-7b (instruction-7b-v1, instruction-7b-v2) |
Llama 2 (7b) | Youri 7B (base) に対して Instruction Tuning (Full-parameter FT): ichikara-instruction | マネーフォワード | Llama 2 Community License |
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b) |
Llama 2 (7b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1 |
Stability AI | Llama 2 Community License |
SambaLingo-Japanese (Base, Chat) |
Llama 2 (7b) | 事前学習: Cultura-X Instruction Tuning: ultrachat_200k DPO: ultrafeedback, cai-conversation-harmless |
SambaNova Systems | Llama 2 Community License (?)5 |
blue-lizard (blue-lizard) |
Llama 2 (7b) | 不明 | Deepreneur | Llama 2 Community License |
Swallow-MS 7B (7b-v0.1) |
Mistral-7B-v0.1 (7b) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile | TokyoTech-LLM | Apache 2.0 |
RakutenAI-7B (7B, 7B-instruct, 7B-chat) |
Mistral-7B-v0.1 (7b) | 事前学習: 不明 Instruction Tuning: Dolly Dataset, OASST1, (jasterと同様に)言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット |
楽天 | Apache 2.0 |
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b) |
Mistral-7B-v0.1 (7b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset |
Stability AI | Apache 2.0 |
ChatNTQ JA 7B (7b-v1.0) |
Mistral-7B-v0.1 (7b) | Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning | NTQ Solution | Apache 2.0 |
Shisa Gamma 7B (7b-v1) |
Mistral-7B-v0.1 (7b) | Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning | AUGMXNT | Apache 2.0 (?)5 |
Shisa 7B (base-7b-v1, 7b-v1) |
Mistral-7B-v0.1 (7b) | 事前学習: shisa-pretrain-en-ja-v1 (8B トークン) Instruction Tuning(Full-parameter FT) & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1 |
AUGMXNT | Apache 2.0 (?)5 |
Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed) |
Mistral-7B-v0.1 (7b) | Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット |
Lightblue | Apache 2.0 (?)5 |
Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf) |
Qwen (7b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部 |
rinna | Tongyi Qianwen LICENSE |
lightblue/japanese-mpt-7b | MPT (7b) | Japanese mC4 | Lightblue | Apache 2.0 |
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct) |
StableLM-3B-4E1T (3b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset |
Stability AI | Apache 2.0 |
kotomamba-2.8B-CL | mamba-2.8b-slimpj (2.8b) |
日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
karasu-1.1B | TinyLlama (1.1b) | 事前学習: Japanese OSCAR, Japanese mC4 (計 3B トークン) |
Lightblue | Apache 2.0 |
ドメイン | ベースのLLM | 開発元 | ライセンス | |
---|---|---|---|---|
AIgroup-CVM-utokyohospital/MedSwallow-70b | 医療 | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC-SA 4.0 |
nekomata-14b-pfn-qfin (qfin, qfin-inst-merge) |
金融 | Qwen (14b) | Preferred Networks | Tongyi Qianwen LICENSE |
Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron) |
大喜利 | Llama 2 (13b) | わたしは | Llama 2 Community License |
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct) |
コーディング | Code Llama (7b) |
ELYZA | Llama 2 Community License |
AIBunCho/japanese-novel-gpt-j-6b | 物語生成 | GPT-J (6b) | 個人 (大曽根宏幸) | CreativeML OpenRAIL-M License |
NovelAI/genji-jp | 物語生成 | GPT-J (6b) | NovelAI | ? |
ベースのLLM | 学習テキスト | 開発元 | ライセンス | |
---|---|---|---|---|
ao-Karasu (72B) |
Qwen1.5 (72b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本語の公開技術ブログ, ニュース記事, QAサイトの回答, 独自のデータセット | Lightblue | Tongyi Qianwen LICENSE (?)5 |
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | Llama 2 Community License | |
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 | Llama 2 (70b) | 同志社大学 メディア情報学研究室 | ? | |
Qarasu (14B-chat-plus-unleashed) |
Qwen (14b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット | Lightblue | Tongyi Qianwen LICENSE (?)5 |
Sparticle/llama-2-13b-chat-japanese-lora | Llama 2 (13b) | Sparticle | ? | |
izumi-lab/llama-13b-japanese-lora-v0-1ep | Llama (13b) | 東大 和泉研 | ? | |
ganchengguang/Yoko-7B-Japanese-v1 | Llama 2 (7b) | 横浜国大 森研 | ? | |
Sparticle/llama-2-7b-chat-japanese-lora | Llama 2 (7b) | Sparticle | ? | |
izumi-lab/llama-7b-japanese-lora-v0-5ep | Llama (7b) | 東大 和泉研 | ? | |
lightblue/jod | Mistral-7B-SlimOrca (7b) | Lightblue | Apache 2.0 | |
NTQAI/chatntq-7b-jpntuned | RWKV-4 World (7b) | NTQ Solution | ? |
ドメイン | ベースのLLM | 開発元 | ライセンス | |
---|---|---|---|---|
JMedLoRA (llama2-jmedlora-6.89ep) |
医療 | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC 4.0 |
マージ元のLLM(太字は日本語LLM) | 開発元 | ライセンス | |
---|---|---|---|
EvoLLM-JP-A (v1-7B) |
Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002 | Sakana AI | Apache 2.0 |
EvoLLM-JP (v1-7B, v1-10B) |
Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002 | Sakana AI | MICROSOFT RESEARCH LICENSE |
アーキテクチャ | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? 6 | |
---|---|---|---|---|---|
京大BERT | BERT (base, large) | 日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | Apache 2.0 | △ |
東北大BERT | BERT (base, large) | base (v1): 日本語 Wikipedia 約1,700万文 (2.6GB) base (v2) & large: 日本語 Wikipedia 約3,000万文 (4.0GB) base (v3) & large (v2): 日本語 Wikipedia 約3,400万文 (4.9GB) + 日本語 CC-100 約3億9,200万文 (74.3GB) |
東北大 自然言語処理研究グループ |
base (v1, v2) & large: CC BY-SA 3.0 base (v3) & large (v2): Apache 2.0 |
◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル)) |
NICT BERT | BERT (base) | 日本語 Wikipedia | NICT | CC BY 4.0 | △ |
colorfulscoop BERT | BERT (base) | 日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 | ◯ |
東大BERT | BERT (small) | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ |
chiTra (Sudachi Transformers) | BERT (base) | 国語研日本語ウェブコーパス (NWJC) (148GB) | NINJAL & ワークス徳島人工知能NLP研 | Apache 2.0 | △ |
ACCMS BERT | BERT (base) | 日本語 Wikipedia (3.3GB) | 京大 ACCMS | CC BY-SA 4.0 | ◯ |
日立BERT | BERT (base) | 日本語 Wikipedia + Japanese CC-100 |
日立製作所 | CC BY-NC-SA 4.0 | ◯ 7 |
Bandai Namco DistilBERT | DistilBERT | - (東北大BERT(base) を親モデルとして知識蒸留) | Bandai Namco Research | MIT | ◯ |
LINE DistilBERT | DistilBERT | - (LINE社内のBERTを親モデルとして知識蒸留) | LINE | Apache 2.0 | ◯ |
rinna RoBERTa | RoBERTa (base) | 日本語 Wikipedia + Japanese CC-100 |
rinna | MIT | ◯ |
早大RoBERTa | RoBERTa (base, large) | 日本語 Wikipedia + Japanese CC-100 |
早大 河原研 | CC BY-SA 4.0 | ◯ (base, large, large (seq512)) 8 |
インフォマティクスRoBERTa | RoBERTa (base) | 日本語 Wikipedia + Web 上の記事 (計25GB) |
インフォマティクス | Apache 2.0 | △ |
京大RoBERTa | RoBERTa (base, large) | 日本語 Wikipedia + Japanese CC-100 |
京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ (base (文字レベル), large (文字レベル)) |
横浜国大RoBERTa | RoBERTa (base) | 日本語 Wikipedia (3.45GB) | 横浜国大 森研 | Apache 2.0 | ◯ |
Megagon Labs RoBERTa | RoBERTa (base) 9 | Japanese mC4 (約2億文) | Megagon Labs (リクルート) |
MIT | ◯ |
ACCMS RoBERTa | RoBERTa (base) | 日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB) | 京大 ACCMS | CC BY-SA 4.0 | ◯ |
シナモンELECTRA | ELECTRA (small) | 日本語 Wikipedia | シナモン | Apache 2.0 | ◯ |
Megagon Labs ELECTRA | ELECTRA (base) | Japanese mC4 (約2億文) | Megagon Labs (リクルート) |
MIT | ◯ |
東大ELECTRA | ELECTRA (small, base) | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
日本語RoFormer | RoFormer (base) | 日本語 Wikipedia (3.45GB) | 横浜国大 森研 | Apache 2.0 | ◯ |
日本語LUKE | LUKE (base, large) | 日本語 Wikipedia | Studio Ousia | Apache 2.0 | ◯ (base, large) |
京大DeBERTaV2 | DeBERTaV2 (tiny, base, large) | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR (計171GB) |
京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ (tiny, tiny (文字レベル), base, large) |
東大DeBERTaV2 | DeBERTaV2 (small, base) | 日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR | 東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
日本語BigBird | BigBird (base) | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR |
早大 河原研 | CC BY-SA 4.0 | ◯ |
日本語LayoutLM | LayoutLM (base) | 東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習 | 日本総合研究所 | CC BY-SA 3.0 | ◯ |
アーキテクチャ | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? | |
---|---|---|---|---|---|
日本語ニュースBERT | BERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | CC BY 4.0 | △ |
日本語ニュースXLNet | XLNet (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | ? | ※ 非公式の HuggingFace 向けに変換されたモデルが公開されている |
日本語ニュースALBERT | ALBERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | ? | △ |
Laboro BERT | BERT (base, large) | 日本語 Web コーパス (ニュースサイトやブログなど 計4,307のWebサイト、2,605,280ページ (12GB)) |
Laboro.AI | CC BY-NC 4.0 | ✕ |
Laboro DistilBERT | DistilBERT | - (Laboro BERT(base) を親モデルとして知識蒸留) | Laboro.AI | CC BY-NC 4.0 | ◯ |
日本語ブログELECTRA | ELECTRA (small) | 日本語ブログコーパス(3億5,400万文) | 北見工大 桝井・プタシンスキ研 | CC BY-SA 4.0 | ◯ |
日本語話し言葉BERT | BERT (base) | 東北大BERTに対して日本語話し言葉コーパス(CSJ)を用いて追加学習 (DAPTモデルでは国会議事録データも使用) |
レトリバ | Apache 2.0 | ◯ |
日本語金融BERT | BERT (small, base) 10 | 日本語 Wikipedia + 日本語金融コーパス (約2,700万文 (5.2GB)) |
東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
日本語金融ELECTRA | ELECTRA (small) | 日本語 Wikipedia (約2,000万文 (2.9GB)) + 日本語金融コーパス (約2,700万文 (5.2GB)) |
東大 和泉研 | CC BY-SA 4.0 | ◯ |
UTH-BERT | BERT (base) | 日本語診療記録(約1億2,000万行) | 東大病院 医療AI開発学講座 |
CC BY-NC-SA 4.0 | △ |
medBERTjp | BERT (base) | 日本語 Wikipedia + 日本語医療コーパス(『今日の診療プレミアム』Web版) |
阪大病院 医療情報学研究室 |
CC BY-NC-SA 4.0 | △ |
JMedRoBERTa | RoBERTa (base) | 日本語医学論文 (約1,100万文 (1.8GB)) | 東大 相澤研 | CC BY-NC-SA 4.0 | ◯ (万病WordPiece, SentencePiece) 11 |
AcademicRoBERTa | RoBERTa (base) | CiNii の日本語論文 (約628万文) | 愛媛大 人工知能研究室 | Apache 2.0 | ◯ |
アーキテクチャ | 開発元 | ライセンス | |
---|---|---|---|
JaColBERT (JaColBERT, JaColBERTv2) |
ColBERT | 個人 (Benjamin Clavié) | MIT |
Japanese SimCSE (cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large) |
SimCSE | 名大 武田・笹野研 | CC BY-SA 4.0 |
GLuCoSE (pkshatech/GLuCoSE-base-ja) |
LUKEベースの文埋め込みモデル (GLuCoSE) |
PKSHA Technology | Apache 2.0 |
colorfulscoop/sbert-base-ja | Sentence-BERT | Colorful Scoop | CC BY-SA 4.0 |
MU-Kindai/SBERT-JSNLI-base MU-Kindai/SBERT-JSNLI-large |
Sentence-BERT | 近畿大学 (研究室不明) | ? |
MU-Kindai/Japanese-SimCSE-BERT-base-unsup MU-Kindai/Japanese-SimCSE-BERT-large-unsup MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup MU-Kindai/Japanese-SimCSE-BERT-base-sup MU-Kindai/Japanese-SimCSE-BERT-large-sup |
SimCSE | 近畿大学 (研究室不明) | MIT |
pkshatech/simcse-ja-bert-base-clcmlp | SimCSE | PKSHA Technology | CC BY-SA 4.0 |
MU-Kindai/Japanese-MixCSE-BERT-base MU-Kindai/Japanese-MixCSE-BERT-large |
MixCSE | 近畿大学 (研究室不明) | MIT |
MU-Kindai/Japanese-DiffCSE-BERT-base | DiffCSE | 近畿大学 (研究室不明) | MIT |
アーキテクチャ | 学習画像/テキスト | 開発元 | ライセンス | |
---|---|---|---|---|
EvoVLM-JP (v1-7B) |
- | - (Shisa Gamma 7B (v1) と LLaVA-1.6-Mistral-7B をマージ) | Sakana AI | Apache 2.0 |
Heron (blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1) |
BLIP-2 または GIT | v1: LLaVA-Instruct-150K-JA または LLaVA-Instruct-620K-JA v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset |
Turing | CC BY-NC 4.0 |
Japanese Stable VLM (japanese-stable-vlm) |
LLaVA-1.5 | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE |
Japanese InstructBLIP Alpha (japanese-instructblip-alpha) |
InstructBLIP | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | JAPANESE STABLELM RESEARCH LICENSE |
rinna MiniGPT-4 (bilingual-gpt-neox-4b-minigpt4) |
MiniGPT-4 | CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset | rinna | MIT |
アーキテクチャ | ドメイン | 開発元 | ライセンス | |
---|---|---|---|---|
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm | LLaVA | 大喜利 | わたしは | Llama 2 Community License |
アーキテクチャ | 学習画像/テキスト | 開発元 | ライセンス | |
---|---|---|---|---|
リクルートCLIP (japanese-clip-vit-b-32-roberta-base) |
CLIP | laion2B-multi のキャプション約1億2000万件 | リクルート | CC BY-4.0 |
Japanese Stable CLIP (japanese-stable-clip-vit-l-16) |
SigLIP | CC12M のキャプションを日本語に翻訳したもの、STAIR Captions | Stability AI | STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE |
rinna CLIP (japanese-clip-vit-b-16) |
CLIP | CC12M のキャプションを日本語に翻訳したもの | rinna | Apache 2.0 |
rinna CLOOB (japanese-cloob-vit-b-16) |
CLOOB | CC12M のキャプションを日本語に翻訳したもの | rinna | Apache 2.0 |
博報堂テクノロジーズCLIP (base, deeper, wider) |
CLIP | laion2B-multi のキャプション約1億2000万件 | 博報堂テクノロジーズ | CC BY-NC-SA 4.0 |
Japanese Stable Diffusion XL (japanese-stable-diffusion-xl) |
Stable Diffusion | 不明 | Stability AI | STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE |
東北大Stable Diffusion (base, refiner) |
Stable Diffusion | WMT2023 Shared Task の日英対訳コーパス、laion2B-multi のキャプション約 1,300 万件 | 東北大 自然言語処理研究グループ |
CreativeML OpenRAIL-M License |
rinna Stable Diffusion (japanese-stable-diffusion) |
Stable Diffusion | LAION-5B データセットのうちキャプションが日本語のもの(画像約 1 億枚) | rinna | CreativeML OpenRAIL-M License |
アーキテクチャ | 学習コーパス | 開発元 | ライセンス | |
---|---|---|---|---|
Kotoba-Whisper (v1.0, v1.0-ggml) |
Distil-Whisper | ReazonSpeech | Kotoba Technologies | Apache 2.0 |
Nue ASR (nue-asr) |
Nue ASR (HuBERT + LLM) |
ReazonSpeech | rinna | Apache 2.0 |
ReazonSpeech (espnet-v1, espnet-next, espnet-v2, nemo-v2) |
ESPnet (Conformer-Transducer) または NeMo (FastConformer-RNNT) | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |
アーキテクチャ | 学習コーパス | 開発元 | ライセンス | |
---|---|---|---|---|
Kotoba-Speech (v0.1) |
Transformer | 不明 | Kotoba Technologies | Apache 2.0 |
東大HuBERT (base-jtube) |
HuBERT | JTubeSpeech | 東大 猿渡・高道研 | MIT |
rinna HuBERT (base, large) |
HuBERT | ReazonSpeech | rinna | Apache 2.0 |
Nejumi LLMリーダーボード Neo (Weights & Biases)
一問一答形式で言語理解を評価する llm-jp-eval とプロンプト対話で生成能力を評価する Japanese MT-bench による総合評価の結果をまとめている。
llm-jp-eval (LLM-jp)
複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。
評価結果は llm-jp-eval リーダーボード にまとめられている。
JP Language Model Evaluation Harness (Stability AI)
Stability AI による EleutherAI/lm-evaluation-harness のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。
rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harness
JGLUE (早大河原研 & ヤフー)
GLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む(JCoLA は東大大関研により作成)。各タスクの詳細はこちらやこちらを参照
JMMLU (早大河原研)
MMLU ベンチマークの日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題(日本問題)を新たに追加しているのが特徴である。
日本語 Open LLM Leaderboard (LLM-jp)
Huggingface の Open LLM Leaderboard と同様の検証を日本語 LLM に対して行ったもの。日本語 LLM の英語タスクにおける性能を確認できる。
Japanese MT-bench (Stability AI)
マルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。
GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。
Rakuda Benchmark (YuzuAI)
日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。
ELYZA-tasks-100 (ELYZA)
複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。
要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。
評価結果はこちらやこちらを参照。また、より新しいモデルを含む評価結果はこちらを参照。
Japanese Vicuna QA Benchmark (京大 言語メディア研究室)
MT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価(勝率計算)のスクリプトも含まれている。リーダーボードはこちら
日本語 LLM の演繹推論能力を問うデータセット(同著者らが提案している FLD (Formal Logic Deduction) の日本語版)。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。
Japanese Language Model Financial Evaluation Harness (Preferred Networks)
金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細はこちらを参照
Stockmark Business Questions (ストックマーク)
市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。
JMTEB (SB Intuitions)
MTEBの日本語版として作成されたベンチマーク。
文書クラスタリング、文書分類、文間類似度、文ペアラベル予測、文書抽出の5種類のタスクから構成されている(その後、リランキングタスクが新たに追加)。
Heron-Bench (Turing)
21 枚の画像に対して計 102 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。
JA-VLM-Bench-In-the-Wild (Sakana AI)
Sakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。
LLaVA-Bench-In-the-Wild (Japanese) (Turing)
LLaVA-Bench-In-the-Wild を DeepL で日本語に訳したもの。24 枚の画像に対して計 60 問の質問が割り当てられている。
LLaVA-Bench (COCO) Japanese (Turing)
LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。
手法 | 初出時期 | 会議/ジャーナル | 論文 |
---|---|---|---|
PPO (RLHF) | 2017.07.20 | - | Proximal Policy Optimization Algorithms |
Instruction Tuning (Supervised Fine-tuning; SFT) |
2021.09.03 | ICLR 2022 | Finetuned Language Models Are Zero-Shot Learners |
DPO | 2023.05.29 | NeurIPS 2023 | Direct Preference Optimization: Your Language Model is Secretly a Reward Model |
SteerLM | 2023.10.09 | Findings of EMNLP 2023 | SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF |
このプロジェクトに貢献してくれているコントリビューターのみなさんです!
このリポジトリの要約はプレプリントとしても公開されています: Exploring Open Large Language Models for the Japanese Language: A Practical Guide
このリポジトリについて言及する場合は、以下の通り引用してください:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
Footnotes
-
ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました ↩
-
詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』 ↩
-
通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。 ↩
-
ただし、KARAKURI LM を商用利用したい場合は、開発元であるカラクリ株式会社に直接連絡が必要であるとしている。 ↩
-
Instruction Tuning において、GPT-3.5, GPT-4 等の OpenAI のモデルで生成されたデータを使って学習しているため、OpenAI の規約に違反している可能性がある。 ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
○: HuggingFace の Model Hub にモデルがアップロードされており、
AutoModel.from_pretrained()
等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。 ↩ -
様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。 ↩
-
nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩
-
ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる ↩
-
small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩
-
万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル ↩