AI能干爬虫干的事吗？也就是搜集数据？

刚安装好 Gemini CLI，测试用 AI Agent 来写个爬虫试试。

我本来想写复杂一点，比如告诉 AI 列表页的 URL 构造，告诉 AI HTML 页面里的 DOM 构造，告诉 AI 我都需要哪些数据等等。

后来想，既然都智能体了，干脆让 AI 自主到底，所以用了最简单的 Prompt：

爬取完整的知识库 [链接]，将结果保存在一个 txt 文档里。

AI 的第一步：访问链接，获取 HTML（由于不那么信任 AI，所以我选的单次同意执行）：

第二步：安装需要的库（其实环境里已经有了，pip 之后是 already satisfied）

第三步：编写代码，并请求写入文件。此处可以使用编辑器查看完整代码：

第四步：执行代码。

没有正确获取到链接，于是自行 debug，有趣的是，在 debug 过程中，甚至会采用最原始的 print 大法，把输出打印到控制台，也就是放入模型上下文中检视输出：

fix 之后就能正常运行了：

后面又迭代发现了一些问题，我索性点了「永远同意」，让模型自己 fix → run，最终结果还挺满意的。

顺带一提，Gemini CLI 用的模型是 Gemini 2.5 Pro，号称有 1M 上下文，在交互中也会即时显示当前上下文窗口的占用量。Agent 完成这段爬虫程序的分析、编写、运行、debug、再运行，最后也只用了不到 10% 的窗口，也就是大概 10 万 tokens。

所以，ChatBot 类的 AI 也许无法直接完成爬虫任务，要么靠 Browsing 插件获取网页信息，要么编写爬虫程序让用户复制粘贴自己运行；但是，基于现在前沿模型的编程 Agent 已经能够做到仅凭一个 URL 链接，在没有人为提供信息和帮助的情况下自主完成爬虫任务了。

当然了，这个网页比较常规简单，不涉及账号登录和爬虫对抗技术，但 Agent 能这样自主规划、执行、Debug，我还是挺满意的。

以上。