先看结果

两个月前因为一个idea,需要非常多图片素材资源

于是花了零零散散的一点时间,就去做了一个pinterest的爬图项目,非常小巧

使用比较简单的beautifulsoup4爬取


教程

  1. 打开github仓库,并点上小小的star!

2. 按照教程clone并且安装依赖,这里强烈推荐uv,非常现代的一款python包管理工具

# 克隆项目
git clone https://github.com/creeponsky/image_scraper.git
cd image_scraper

# 创建虚拟环境并安装依赖
uv sync

3. 开始愉快的爬取(请保持网络畅通)

我已经默认放上了一个关键词文件夹,是关于设计、艺术类的爬取,所以如果想快速预览下效果,直接运行main就好了~~

uv run python main.py

程序逻辑是尽可能优先下载原图(当然因为效率,并没有每一张pinterest图片都点进去下载原图,靠url去获取大尺寸,所以不少图片仍然是小尺寸)

然后就是睡个觉,看看剧,等待结果~

最后,就能获取数以万计高质量图片


但是,图片数量过于庞大,非常需要一个AI筛选的工具,来帮忙筛选出大量、低质量、不满足条件的图片了

这个,就加入todo list吧

暂且的实现思路是: qwen2.5VL 去实现不同图片的参数匹配和评分,简单可用就足够