刚安装好 Gemini CLI,测试用 AI Agent 来写个爬虫试试。

我本来想写复杂一点,比如告诉 AI 列表页的 URL 构造,告诉 AI HTML 页面里的 DOM 构造,告诉 AI 我都需要哪些数据等等。

后来想,既然都智能体了,干脆让 AI 自主到底,所以用了最简单的 Prompt:

爬取完整的知识库 [链接],将结果保存在一个 txt 文档里。

AI 的第一步:访问链接,获取 HTML(由于不那么信任 AI,所以我选的单次同意执行):

第二步:安装需要的库(其实环境里已经有了,pip 之后是 already satisfied)

第三步:编写代码,并请求写入文件。此处可以使用编辑器查看完整代码:

第四步:执行代码。

没有正确获取到链接,于是自行 debug,有趣的是,在 debug 过程中,甚至会采用最原始的 print 大法,把输出打印到控制台,也就是放入模型上下文中检视输出:

fix 之后就能正常运行了:

后面又迭代发现了一些问题,我索性点了「永远同意」,让模型自己 fix → run,最终结果还挺满意的。

顺带一提,Gemini CLI 用的模型是 Gemini 2.5 Pro,号称有 1M 上下文,在交互中也会即时显示当前上下文窗口的占用量。Agent 完成这段爬虫程序的分析、编写、运行、debug、再运行,最后也只用了不到 10% 的窗口,也就是大概 10 万 tokens。

所以,ChatBot 类的 AI 也许无法直接完成爬虫任务,要么靠 Browsing 插件获取网页信息,要么编写爬虫程序让用户复制粘贴自己运行;但是,基于现在前沿模型的编程 Agent 已经能够做到仅凭一个 URL 链接,在没有人为提供信息和帮助的情况下自主完成爬虫任务了。

当然了,这个网页比较常规简单,不涉及账号登录和爬虫对抗技术,但 Agent 能这样自主规划、执行、Debug,我还是挺满意的。

以上。