Context Awesome

awesome-crawler-cn

github.com/liinnux/awesome-crawler-cn ↗

互联网爬虫，蜘蛛，数据采集器，网页解析器的汇总，因新技术不断发展，新框架层出不穷，此文会不断更新...

333

GitHub Stars

74

Curated Resources

13

Categories

26 min ago

Last Refreshed

PythonJavaC#JavaScriptPHPC++CRubyRErlangPerlGoScala

Use this list with your AI agent

Add the Context Awesome MCP server to Claude, Cursor, or any MCP client, then ask:

"Show me c# resources from awesome-crawler-cn"

Installation instructions →

What's inside

C#

Abot
具有很好效率和可扩展性的C#网络爬虫.
ccrawler
一个简单的Web内容分类方案，它可以根据其内容分开网页,基于C#3.5.
DotnetSpider
基于C#开发的一个轻量级，交叉平台的网络爬虫.
Hawk
用 C#/WPF开发的网络爬虫，具有简单的ETL功能.
SimpleCrawler
简单的多线程网络爬虫，基于REG表达式.
SkyScraper
一个支持异步网络和有很好扩展性的网络爬虫.

Java

anthelion
一个基于Apache Nutch抓取语义注释在HTML页面插件.
Apache Nutch
用于生产环境的高度可扩展的高度可扩展的网络爬虫.
Crawler4j
简单和轻量级的网络爬虫.
Gecco
一个易于使用的轻量级网络爬虫.
Heritrix3
可扩展，大规模的网络爬虫项目.
JSoup
采集，分析，处理和清洗HTML页面.

Go

ants-go
基于Golang的高并行网络爬虫.
dht
fetchbot
gocrawl
一个高并发的，轻量级，遵守道德的网络爬虫.
go_spider
一个非常好的高并发网络爬虫.
pholcus
一个分布式，支持高并发的网络爬虫.

Python

brownant
一个轻量级的网络数据抽取框架.
cola
一个分布式的爬虫框架.
crawley
基于非阻塞通信(NIO)的python爬虫框架.
Demiurge
基于PyQuery的微型爬虫框架.
distribute_crawler
基于Scrapy内核采用redis, mongodb开发的分布式爬虫框架。
django-dynamic-scraper
基于Scrapy内核由django Web框架开发的爬虫。

Ruby

Cobweb
非常灵活，易于扩展的网络爬虫，可以单点部署使用.
mechanize
自动采集网站数据的框架.
RubyRetriever
基于Ruby的网站数据采集和全网数据收割机.
Spidr
全站数据采集，支持无限的网站链接地址采集.
upton
一个易于上手的爬虫框架集合，支持CSS选择器.
wombat
基于Ruby天然的支持DSL的网络爬虫，易于提取网页正文数据.

Scala

crawler
基于Scala DSL的网络爬虫.
ferrit
基于Scala开发使用了Akka, Spray，Cassandra的网络爬虫.
scrala
由Scala开发基于scrapy内核的网络爬虫.

PHP

dom-crawler
易于抽取DOM文件的网络爬虫.
Goutte
基于PHP的网页截屏和爬取程序.
laravel-goutte
基于Laravel 5 的网络爬虫.
php-spider
一个基于PHP的高可扩展的网络爬虫.
pspider
基于PHP的并发网络爬虫.

Erlang

ebot
一个分布式，高可扩展的网络爬虫.

Showing a sample of 74 resources. View the full list on GitHub →