Skip to main content

互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷,此文会不断更新...

335
GitHub Stars
74
Curated Resources
13
Categories
5 hours ago
Last Refreshed
PythonJavaC#JavaScriptPHPC++CRubyRErlangPerlGoScala

Use this list with your AI agent

Add the Context Awesome MCP server to Claude, Cursor, or any MCP client, then ask:

"Show me c# resources from awesome-crawler-cn"

Installation instructions →

What's inside

C#

  • Abot

    具有很好效率和可扩展性的C#网络爬虫.

  • ccrawler

    一个简单的Web内容分类方案,它可以根据其内容分开网页,基于C#3.5.

  • DotnetSpider

    基于C#开发的一个轻量级,交叉平台的网络爬虫.

  • Hawk

    用 C#/WPF开发的网络爬虫,具有简单的ETL功能.

  • SimpleCrawler

    简单的多线程网络爬虫,基于REG表达式.

  • SkyScraper

    一个支持异步网络和有很好扩展性的网络爬虫.

Java

  • anthelion

    一个基于Apache Nutch抓取语义注释在HTML页面插件.

  • Apache Nutch

    一个基于Apache Nutch抓取语义注释在HTML页面插件.

  • Crawler4j

    简单和轻量级的网络爬虫.

  • Gecco

    一个易于使用的轻量级网络爬虫.

  • Heritrix3

    可扩展,大规模的网络爬虫项目.

  • JSoup

    采集,分析,处理和清洗HTML页面.

Go

  • ants-go

    基于Golang的高并行网络爬虫.

  • dht

  • fetchbot

  • gocrawl

    一个高并发的,轻量级,遵守道德的网络爬虫.

  • go_spider

    一个非常好的高并发网络爬虫.

  • pholcus

    一个分布式,支持高并发的网络爬虫.

Python

  • brownant

    一个轻量级的网络数据抽取框架.

  • cola

    一个分布式的爬虫框架.

  • crawley

    基于非阻塞通信(NIO)的python爬虫框架.

  • Demiurge

    基于PyQuery的微型爬虫框架.

  • distribute_crawler

    基于Scrapy内核采用redis, mongodb开发的分布式爬虫框架。

  • django-dynamic-scraper

    基于Scrapy内核由django Web框架开发的爬虫。

Ruby

  • Cobweb

    非常灵活,易于扩展的网络爬虫,可以单点部署使用.

  • mechanize

    自动采集网站数据的框架.

  • RubyRetriever

    基于Ruby的网站数据采集和全网数据收割机.

  • Spidr

    全站数据采集,支持无限的网站链接地址采集.

  • upton

    一个易于上手的爬虫框架集合,支持CSS选择器.

  • wombat

    基于Ruby天然的支持DSL的网络爬虫,易于提取网页正文数据.

Scala

  • crawler

    基于Scala DSL的网络爬虫.

  • ferrit

    基于Scala开发使用了Akka, Spray,Cassandra的网络爬虫.

  • scrala

    由Scala开发基于scrapy内核的网络爬虫.

PHP

Erlang

  • ebot

    一个分布式,高可扩展的网络爬虫.

Showing a sample of 74 resources. View the full list on GitHub →