awesome-japanese-llm

github.com/llm-jp/awesome-japanese-llm ↗

日本語LLMまとめ - Overview of Japanese LLMs

1.4k

GitHub Stars

410

Curated Resources

Use this list with your AI agent

Add the Context Awesome MCP server to Claude, Cursor, or any MCP client, then ask:

"Show me スクラッチ学習モデル resources from awesome-japanese-llm"

Installation instructions →

What's inside

テキスト生成に主に使うモデル

ABEJA GPTスクラッチ学習モデル
2022
ABEJA-Mixtral-8x7B-japanese8x7B-v0.1-japanese8x7B-Instruct-v0.1-japanese8x7B-Instruct-v0.1-japanese-alpha8x7B-Instruct-v0.1-japanese-alpha-merged海外モデルに日本語で継続事前学習を行ったモデル
2024
ABEJA-Qwen2.5-32b-Japanese-v0.132b-Japanese-v0.1海外モデルに日本語で継続事前学習を行ったモデル
2025
ABEJA-Qwen2.5-32b-Japanese-v1.0v1.0海外モデルに日本語で継続事前学習を行ったモデル
2025
ABEJA-Qwen2.5-7b-Japanese-v0.1v0.1海外モデルに日本語で事後学習を行ったモデル（継続事前学習なし、または詳細不明）
2025
ABEJA-Qwen3-14B-Agentic-256k-v0.1v0.1海外モデルに日本語で継続事前学習を行ったモデル
2026

入力テキストの処理に主に使うモデル

AcademicRoBERTaドメイン特化型
学術
ACCMS BERT汎用
BERT (base)
ACCMS RoBERTa汎用
RoBERTa (base)
Bandai Namco DistilBERT汎用
DistilBERT
みんぱくBERTドメイン特化型
文化財
ByBERT-JP汎用
Llama ベースのエンコーダ

視覚言語モデル (Vision-Language Models)

AIdeaLab VideoJPAIdeaLab-VideoJPテキストからの動画生成
2025
Asagi2B4B8B14B画像+テキストからのテキスト生成
2025
AXCXEPT/EZO-InternVL2-26B画像+テキストからのテキスト生成
2024
AXCXEPT/Llama-3-EZO-VLM-1画像+テキストからのテキスト生成
2024
リクルートCLIPjapanese-clip-vit-b-32-roberta-baseその他
2023
CommonArt βcommonart-betaテキストからの画像生成
2024

埋め込み (Embeddings) 作成に特化したモデル

AMBERbaselargeBi-Encoders
512
bclavie/fio-base-japanese-v0.1Bi-Encoders
cl-nagoya/shioriha-large-ptBi-Encoders
colorfulscoop/sbert-base-jaBi-Encoders
GLuCoSEbase-jaBi-Encoders
512
GLuCoSE v2base-ja-v2Bi-Encoders
512

音声言語モデル (Speech-Language Models)

いざなみbaselarge特徴抽出
2025
くしなだbaselarge特徴抽出
2025
J-Moshij-moshij-moshi-ext音声基盤モデル・音声対話
2025
Kana-Whisperkana-whisper音声認識
2026
Kotoba-Speechv0.1音声合成 (TTS)
2024
Kotoba-Whisperv1.0v1.0-ggmlv1.0-fasterv1.1bilingual-v1.0bilingual-v1.0-ggmlbilingual-v1.0-fasterv2.0v2.0-ggmlv2.0-fasterv2.1v2.2音声認識
2024

日本語LLM評価ベンチマーク/データセットまとめ

BusinessSlideVQA視覚言語モデル (Vision-Language Models) のベンチマーク/データセット
複雑な日本語ビジネススライド画像に関する220問の質問応答データセット。文書理解能力の評価を目的として設計されている。
ELYZA-tasks-100テキスト生成能力を測定するベンチマーク/データセット
複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。
Heron VLM リーダーボード powered by nejumi@WandB視覚言語モデル (Vision-Language Models) のベンチマーク/データセット
Japanese-Heron-Bench と LLaVA-Bench-In-the-Wild (Japanese) の評価結果をまとめている。
JA-Business-Doc-RQ-Bench視覚言語モデル (Vision-Language Models) のベンチマーク/データセット
日本語ビジネスドキュメントに対する多段階推論能力を評価するためのベンチマーク。画像 (Chart、Table、Diagram、Document の4種類) に対して 3〜5 段階の推論を要する 229 件の質問 (Yes/No、Factoid、Numerical の3種類) から構成される。すべて合成画像で、質問・回答は人手作成。
JaCWIR埋め込みモデルのベンチマーク/データセット
Wikipedia 以外のドメインで文書抽出・リランキングの評価を行えることを目指して作成されたデータセット。5,000件の質問文それぞれに対し、その質問文が作成される元になった 1 件の Webページと、質問文とは関係のない 99 件の Web ページが割り当てられている。
JAMMEval視覚言語モデル (Vision-Language Models) のベンチマーク/データセット
既存の日本語マルチモーダルベンチマーク 7 つ (CC-OCR-JA、CVQA-JA、 Heron-Bench 、 JA-Multi-Image-VQA 、 JA-VLM-Bench 、 JDocQA 、 JGraphQA ) を精緻化して構築された、日本語VLM向けの評価データセット集。

音楽言語モデル (Music-Language Models)

Japanese MULANjapanese-mulan-base音楽-テキスト間変換
2025

Showing a sample of 410 resources. View the full list on GitHub →