Skip to main content

日本語LLMまとめ - Overview of Japanese LLMs

1.4k
GitHub Stars
397
Curated Resources
7
Categories
6 hours ago
Last Refreshed
テキスト生成に主に使うモデル入力テキストの処理に主に使うモデル埋め込み (Embeddings) 作成に特化したモデル視覚言語モデル (Vision-Language Models)音声言語モデル (Speech-Language Models)音楽言語モデル (Music-Language Models)日本語LLM評価ベンチマーク/データセットまとめ

Use this list with your AI agent

Add the Context Awesome MCP server to Claude, Cursor, or any MCP client, then ask:

"Show me スクラッチ学習モデル resources from awesome-japanese-llm"

Installation instructions →

What's inside

テキスト生成に主に使うモデル

入力テキストの処理に主に使うモデル

視覚言語モデル (Vision-Language Models)

埋め込み (Embeddings) 作成に特化したモデル

音声言語モデル (Speech-Language Models)

日本語LLM評価ベンチマーク/データセットまとめ

  • BusinessSlideVQA視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

    複雑な日本語ビジネススライド画像に関する220問の質問応答データセット。文書理解能力の評価を目的として設計されている。

  • ELYZA-tasks-100テキスト生成能力を測定するベンチマーク/データセット

    複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。 要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。

  • Heron VLM リーダーボード powered by nejumi@WandB視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

    Japanese-Heron-Bench と LLaVA-Bench-In-the-Wild (Japanese) の評価結果をまとめている。

  • JA-Business-Doc-RQ-Bench視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

    日本語ビジネスドキュメントに対する多段階推論能力を評価するためのベンチマーク。画像 (Chart、Table、Diagram、Document の4種類) に対して 3〜5 段階の推論を要する 229 件の質問 (Yes/No、Factoid、Numerical の3種類) から構成される。すべて合成画像で、質問・回答は人手作成。

  • JaCWIR埋め込みモデルのベンチマーク/データセット

    Wikipedia 以外のドメインで文書抽出・リランキングの評価を行えることを目指して作成されたデータセット。5,000件の質問文それぞれに対し、その質問文が作成される元になった 1 件の Webページと、質問文とは関係のない 99 件の Web ページが割り当てられている。

  • JAMMEval視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

    既存の日本語マルチモーダルベンチマーク 7 つ (CC-OCR-JA、CVQA-JA、 Heron-Bench 、 JA-Multi-Image-VQA 、 JA-VLM-Bench 、 JDocQA 、 JGraphQA ) を精緻化して構築された、日本語VLM向けの評価データセット集。

音楽言語モデル (Music-Language Models)

Showing a sample of 397 resources. View the full list on GitHub →