作者:子轩学长
链接:https://www.zhihu.com/question/664985399/answer/49746110720
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

之前发布的AutoGLM产品,已经惊艳了一波,29号这次,智谱清言带着最新升级的AutoGLM,以及整个Agent家族,来了!

这次智谱不仅直接将AutoGLM升级了,还开始占领电脑端,推出了网页版AutoGLM和开始申请内测的GLM-PC.

01 AutoGLM,自主执行复杂且多步骤的任务

首先是AutoGLM,没想到短短一个月,我手机显示现在已经到1.2.03版本了,更新了很多次,而这次的重大更新主要有几个:

  1. 支持更多主流的app,比如抖音,微博,饿了么等。
  2. 实现跨app操作
  3. 引入快捷口令功能,简化复杂指令输入。
  4. 实现更加复杂的操作。

其实对于app的支持,第一次用的时候虽然发现受到了局限,但是是很清楚后面可以支持的会越来越多,这不,现在支持的更多,而且还可以跨app操作了。

这真的是非常牛逼啊,一句话动动嘴,啥也搞定了,还能跨app交互,比如我想让它直接帮我从小红书找个帖子然后发给微信好友,她就开始理解指令自动操作了。

这个过程实现了自己去搜索:天坛,自己打开笔记,然后打开转发功能,打开微信,搜索好友名字,然后开始发送。

这个到现在我都还是觉得不可思议,这种自动驱使的操作。

它还不是简单的类似于固定好一个程序,让它模拟人手固定点哪里,而是真的好像理解了指令,然后一步步在操作,手机有延时,它也会等一会在输入。

加上现在慢慢理解复杂指令,我真的一下子就能想到,以后的生活,用嘴操作一切。

02 AutoGLM-Web,网页端的自动操作agent

同样的这次原本的智谱清言浏览器的插件,也进行了升级,接入了AutoGLM,之前也专门写过一篇介绍智谱清言的这个插件,量子速读和高级检索本身已经很牛逼了,现在接入了AutoGLM,可以自行阅读操作网页,完成复杂的浏览器操作任务。

比如来测试一个:帮我搜索找到5篇点赞最多的关于分享AI视频制作技巧的回答,并将前5篇问答的内容整理合并成条理清晰的AI视频制作思路给到我。

接着它开始自己在知乎上输入文字开始搜索了,因为提示词里有点赞数据要求,所以它竟然还自己点开了筛选按钮,点击了筛选最多点赞???

还能有这操作,看懵了,真不是简单的点点按钮啊,是真的理解要求了。

当然到最后一步找到之后的总结还有些欠缺,找到之后再配合高级检索功能,阅读整理搜索的内容即可。

不过这里操作下来发现高级检索也是会自动操作页面然后还会同时选中要阅读的内容,开始总结,这里就有点搞不清楚两个的区别了,使用下来如果是单纯操作AutoGLM就足够了,如果还需要阅读内容那就用高级检索。

目前支持的有知乎,微博,Github,百度,谷歌学术等网站,再试一个:

提示词:找到黄晓明最近的微博点个赞,评论一个:加油。

然后一波操作就开始了,搜索黄晓明——找到第一篇帖子,先点赞,然后在评论区打出加油两个字,这时候提醒我要不要发布评论,然后点击发布就出去了。

03 GLM-PC,操作电脑

本次推出的GLM-PC,那就更牛了,直接能操作电脑,采用的是CogAgent模型,因为需要有强大的视觉理解和任务规划能力,才能够操作你的电脑执行复杂任务。

同样是只需要一句话发出命令,GLM-PC便能根据屏幕信息进行自我纠错和计划调整,从而精准完成任务。

目前开始内测申请了,可以提交申请等待。