Python爬虫常用库有哪些？

发表于： 2024年9月13日 2024年9月13日
分类：未分类

Python 爬虫与大模型相关的库和框架，整理如下，欢迎补充：

FireCrawl

简介：可以爬取任何网站的内容并将其转换为 Markdown 或结构化数据，为大语言模型训练、检索增强生成（RAG）提供数据。另外，还提供了易于使用且统一的 API，支持本地部署或在线使用，同时还支持与各种工具集成使用，如 Langchain、Dify、Flowise 等。而且，项目一直在快速迭代更新很多实用的功能。

GitHub 地址：https://github.com/mendableai/firecrawl

CyberScraper 2077

简介：CyberScraper 2077是一款基于AI的网页爬虫工具，它利用OpenAI和Ollama等大型语言模型(LLM)来智能解析网页内容，提供数据提取服务。这款工具不仅拥有用户友好的图形界面，还支持多种数据导出格式，包括JSON、CSV、HTML、SQL和Excel。此外，它还具备隐形模式，以降低被检测为机器人的风险，以及遵循robots.txt和网站政策的道德爬取特性。

GitHub 地址：https://github.com/itsOwen/CyberScraper-2077

ScrapeGraphAI

简介：ScrapeGraphAI 是一款创新的网络爬虫 Python 库，它巧妙地结合了大型语言模型和直接图逻辑，为网站和本地文档（如 XML、HTML、JSON 等）创建高效的爬取管道。这个工具的核心优势在于其简单性和强大功能的完美结合 – 用户只需告诉库想要提取哪些信息，ScrapeGraphAI 就能自动完成复杂的爬取任务。

GitHub 地址：https://github.com/ScrapeGraphAI/Scrapegraph-ai

Crawl4AI

简介：开源的、专为大型语言模型(LLM)友好设计的网页爬虫和抓取工具。

GitHub 地址：https://github.com/unclecode/crawl4ai

Crawlee-Python

简介：Python下的网络爬虫与浏览器自动化库，提供端到端的网页抓取与数据抓取解决方案，支持快速构建可靠爬虫，具有人类行为模拟和现代反爬虫技术规避能力。

GitHub 地址：https://github.com/apify/crawlee-python

res-downloader

简介：支持视频号、小程序、抖音、快手、小红书、酷狗、QQ音乐等网络资源下载!

GitHub 地址：https://github.com/putyy/res-downloader

markdown_crawler

简介：一个多线程的网页爬虫工具，它能够递归地爬取网站并为每个页面创建 Markdown 文件。这个工具专为大型语言模型（LLM）文档解析而设计，尤其适用于检索增强生成（RAG）等场景。使用 Markdown 格式的好处在于它易于人类阅读，结构清晰，同时文件体积小，便于后续的文本分析和数据挖掘工作。

GitHub 地址：https://github.com/paulpierre/markdown-crawler

StormCrawler

简介：基于StormCrawler的新闻内容爬取工具，用于生成WARC文件并作为Common Crawl的一部分存储，适用于新闻数据的收集和分析。

GitHub 地址：https://github.com/commoncrawl/news-crawl

Kspider

简介：Kspider 是一个爬虫平台，以图形化方式定义爬虫流程，无需代码即可实现一个爬虫流程，Kspider不仅限爬虫，也可用于WEB自动化测试，更多功能等你探索。

GitHub 地址：https://github.com/kkangert/kspider

AgentQL

简介：AgentQL for Web 通过使用自然语言查询提供了一种革命性的方法来与网页元素交互。借助 AgentQL，用户可以轻松定位和交互网页元素，而无需复杂的代码或特定选择器。这种直观的界面简化了网页自动化的过程，使用户能够轻松高效地执行任务。无论是点击按钮、填写表单还是浏览页面，AgentQL for Web 都简化了交互过程，使网页自动化对各类用户都变得易于访问。

GitHub 地址：https://github.com/tinyfish-io/fish-tank

EasySpider

简介：一个可视化浏览器自动化测试/数据采集/爬虫软件，可以使用图形化界面，无代码可视化的设计和执行任务。只需要在网页上选择自己想要操作的内容并根据提示框操作即可完成任务的设计和执行。同时软件还可以单独以命令行的方式进行执行，从而可以很方便的嵌入到其他系统中。

GitHub 地址：https://github.com/NaiboWang/EasySpider

最后，给大家推荐一款，数据集搜索引擎遇见数据集，无需网络爬虫，我们也可以发现很多有用的数据集，助力大模型训练、学术研究等。

admin

2349