这篇文章的诞生过程本身就挺离谱——我对接的 GLM-5.2 是个看不了图的国产模型,但我让它自己开浏览器、自己截图、自己看页面、自己抓数据,最后自己写出了这份知乎变现分析报告。全程我没敲一行代码。

怎么做到的?先卖个关子。文末会告诉你这套方案藏在哪。

一、一个让人崩溃的痛点

最近在折腾 AI Agent,对接的是国产模型 GLM-5.2。便宜、快、上下文长,但有一个致命问题:

它是个"瞎子"。

你试过就知道了:

  • 让它看一张 UI 截图 → “我无法识别图片内容”
  • 让它去网页上点个按钮 → 它只会 curl,拿不到 JS 渲染后的东西
  • 让它分析一个网页长什么样 → 它只能靠 DOM 文本猜,看不见真实视觉
  • 让它读 K 线图、看表格截图、识别验证码 → 全部歇菜

Claude Code 本身是好东西,但当你为了成本/合规接入国产非多模态模型时,"看不了图"这个坑能把人逼疯。

我之前写过几个 Agent,都在"看图"这一步卡死。直到有一天我灵光一闪——

既然主模型看不了图,那我给它配一双"外接眼睛"不就行了?

二、我让它干了一件离谱的事

为了验证方案跑通了,我没写测试用例,直接给它出了道题:

“打开知乎网站,探索一下能发掘什么赚钱路子吗?”

接下来发生的事,我全程没动键盘。它自己:

  1. 打开 Chrome 浏览器,导航到知乎首页
  2. 自己截了张图,存到本地
  3. 调用视觉模型"看"了这张图,识别出首页有"盐言作者平台"“付费咨询”"知乎知学堂"三个变现入口
  4. 自己点进盐言作者平台,截图 → 看图 → 发现"累计发放稿费破亿"
  5. 跳到付费咨询页,截图 → 看图 → 拿到"平台抽成 30%"
  6. 跳到知乎热榜,自己写 JavaScript 注入页面,抓出了 Top 15 话题的真实热度数据
  7. 综合分析所有信息,给我输出了一份完整的变现路径分析

它给我的报告里有这样的数据:

排名 话题 热度
1 世界杯32强对阵出炉 1076万
2 网红诋毁袁隆平成果 1059万
3 韩国队无缘世界杯淘汰赛 1007万

这些数据是 JS 动态渲染的,curl 根本拿不到。它自己想办法抓出来了。

最后它给我的结论是:知乎日活还在千万级,AI 方向能进热榜,最值得做的是盐言故事投稿。

整个过程,我只说了两句话。第一句"打开知乎",第二句"探索赚钱路子"。

三、这不是"调个 API"那么简单

很多人会想:不就是接个视觉模型 API 吗?

没那么简单。从"截图存哪"到"怎么强制主模型走视觉链路",从"视觉模型选哪个"到"浏览器怎么控",再到"多模型怎么协作"——中间隔着至少 5 个大坑,每一个都能让你折腾半天。

这套方案我断断续续折腾了很久才跑通。跑通的那一刻我才意识到——这玩意儿的价值不在于"看图",而在于让任意非多模态模型瞬间拥有完整的"视觉 + 浏览器操控"能力。

具体踩了哪些坑、怎么解决的,后面我会单独写文章拆开讲。

四、这套方案能干什么

跑通之后,我发现它能做的事远不止"探索网站":

场景 怎么用
AI 自动化测试 截图 → 看页面 → 点按钮 → 验证结果
网页 UI 调试 截图 → 描述视觉 bug → 定位元素 → 改代码
数据爬取 看表格结构 → 抓 DOM → 转结构化数据
流程自动化 像本文 demo 一样全自动探索任意网站
截图分析工作流 落盘 → 看图 → 决策 → 执行

凡是"看图 + 操控浏览器"的场景,这套方案都能套。

五、为什么我不直接用多模态模型?

三个理由:

  1. 成本 — 接入 GLM-5.2、DeepSeek 等国产非多模态模型本身就很便宜,视觉能力按需调用便宜的视觉模型,不用为每一次对话都付多模态溢价
  2. 可定制 — 主模型和视觉模型都可以随意换,改一行配置即可
  3. 合规 — 很多场景要求数据不出境,国产模型 + 国产视觉模型是刚需

六、写在最后

这篇文章只是个 demo 预告。如果你也被"国产模型看不了图"坑过,你大概会想知道这套方案到底怎么落地——

具体怎么实现的(MCP 怎么写、规则怎么配、多模型怎么串、踩了哪些坑),我会在后续文章里慢慢拆开讲。

如果你也在折腾 Claude Code / AI Agent / 国产模型,关注我,后续更新第一时间通知。


附录:这次 demo 的成果展示

这次对话我让它输出了完整的分析报告,包括:

  • 知乎 3 个官方变现入口的调研结果
  • 知乎热榜 Top 15 真实热度数据
  • 流量结构分析(哪些赛道还有流量)
  • 变现路径优先级建议

全程 0 行手敲代码,纯对话驱动。

这就是 AI Agent 该有的样子。

Logo

一站式 AI 云服务平台

更多推荐