Context Awesome

awesome-llms-datasets

github.com/lmmlzn/awesome-llms-datasets ↗

Summarize existing representative LLMs text datasets.

1.5k

GitHub Stars

542

Curated Resources

8

Categories

1 hour ago

Last Refreshed

ChangelogPre-training CorporaInstruction Fine-tuning DatasetsPreference DatasetsEvaluation DatasetsTraditional NLP DatasetsMulti-modal Large Language Models (MLLMs) DatasetsRetrieval Augmented Generation (RAG) Datasets

Use this list with your AI agent

Add the Context Awesome MCP server to Claude, Cursor, or any MCP client, then ask:

"Show me evaluation platform resources from awesome-llms-datasets"

Installation instructions →

What's inside

Evaluation Datasets

CLUE Benchmark SeriesEvaluation Platform
C-MTEB LeaderboardEvaluation Platform
DatasetSubject
DatasetMultilingual
GithubFactuality
GithubLong Text

Preference Datasets

DatasetPreference Evaluation Methods
DatasetPreference Evaluation Methods
DatasetPreference Evaluation Methods
GithubPreference Evaluation Methods
GithubPreference Evaluation Methods
GithubPreference Evaluation Methods

Instruction Fine-tuning Datasets

DatasetGeneral Instruction Fine-tuning Datasets
DatasetGeneral Instruction Fine-tuning Datasets
DatasetGeneral Instruction Fine-tuning Datasets
DatasetGeneral Instruction Fine-tuning Datasets
DatasetGeneral Instruction Fine-tuning Datasets
DatasetGeneral Instruction Fine-tuning Datasets

Pre-training Corpora

DatasetGeneral Pre-training Corpora
DatasetGeneral Pre-training Corpora
DatasetGeneral Pre-training Corpora
DatasetGeneral Pre-training Corpora
DatasetGeneral Pre-training Corpora
DatasetGeneral Pre-training Corpora

Retrieval Augmented Generation (RAG) Datasets

Traditional NLP Datasets

DatasetRecognizing Textual Entailment
GithubRecognizing Textual Entailment
GithubQuestion Answering
GithubText Classification
Github1Question Answering
PaperRecognizing Textual Entailment

Multi-modal Large Language Models (MLLMs) Datasets

PaperEvaluation Datasets
PaperEvaluation Datasets
PaperEvaluation Datasets
PaperEvaluation Datasets
PaperInstruction Fine-tuning Datasets
PaperInstruction Fine-tuning Datasets

Showing a sample of 542 resources. View the full list on GitHub →