让国产版 “Claude Code“ 长出眼睛和手:我用两个 MCP 搭了套可视化浏览器方案,自动探索知乎赚钱路子
这篇文章的诞生过程本身就挺离谱——我对接的 GLM-5.2 是个看不了图的国产模型,但我让它自己开浏览器、自己截图、自己看页面、自己抓数据,最后自己写出了这份知乎变现分析报告。全程我没敲一行代码。
怎么做到的?先卖个关子。文末会告诉你这套方案藏在哪。
一、一个让人崩溃的痛点
最近在折腾 AI Agent,对接的是国产模型 GLM-5.2。便宜、快、上下文长,但有一个致命问题:
它是个"瞎子"。
你试过就知道了:
- 让它看一张 UI 截图 → “我无法识别图片内容”
- 让它去网页上点个按钮 → 它只会
curl,拿不到 JS 渲染后的东西 - 让它分析一个网页长什么样 → 它只能靠 DOM 文本猜,看不见真实视觉
- 让它读 K 线图、看表格截图、识别验证码 → 全部歇菜
Claude Code 本身是好东西,但当你为了成本/合规接入国产非多模态模型时,"看不了图"这个坑能把人逼疯。
我之前写过几个 Agent,都在"看图"这一步卡死。直到有一天我灵光一闪——
既然主模型看不了图,那我给它配一双"外接眼睛"不就行了?
二、我让它干了一件离谱的事
为了验证方案跑通了,我没写测试用例,直接给它出了道题:
“打开知乎网站,探索一下能发掘什么赚钱路子吗?”
接下来发生的事,我全程没动键盘。它自己:
- 打开 Chrome 浏览器,导航到知乎首页
- 自己截了张图,存到本地
- 调用视觉模型"看"了这张图,识别出首页有"盐言作者平台"“付费咨询”"知乎知学堂"三个变现入口
- 自己点进盐言作者平台,截图 → 看图 → 发现"累计发放稿费破亿"
- 跳到付费咨询页,截图 → 看图 → 拿到"平台抽成 30%"
- 跳到知乎热榜,自己写 JavaScript 注入页面,抓出了 Top 15 话题的真实热度数据
- 综合分析所有信息,给我输出了一份完整的变现路径分析
它给我的报告里有这样的数据:
| 排名 | 话题 | 热度 |
|---|---|---|
| 1 | 世界杯32强对阵出炉 | 1076万 |
| 2 | 网红诋毁袁隆平成果 | 1059万 |
| 3 | 韩国队无缘世界杯淘汰赛 | 1007万 |
这些数据是 JS 动态渲染的,curl 根本拿不到。它自己想办法抓出来了。
最后它给我的结论是:知乎日活还在千万级,AI 方向能进热榜,最值得做的是盐言故事投稿。
整个过程,我只说了两句话。第一句"打开知乎",第二句"探索赚钱路子"。
三、这不是"调个 API"那么简单
很多人会想:不就是接个视觉模型 API 吗?
没那么简单。从"截图存哪"到"怎么强制主模型走视觉链路",从"视觉模型选哪个"到"浏览器怎么控",再到"多模型怎么协作"——中间隔着至少 5 个大坑,每一个都能让你折腾半天。
这套方案我断断续续折腾了很久才跑通。跑通的那一刻我才意识到——这玩意儿的价值不在于"看图",而在于让任意非多模态模型瞬间拥有完整的"视觉 + 浏览器操控"能力。
具体踩了哪些坑、怎么解决的,后面我会单独写文章拆开讲。
四、这套方案能干什么
跑通之后,我发现它能做的事远不止"探索网站":
| 场景 | 怎么用 |
|---|---|
| AI 自动化测试 | 截图 → 看页面 → 点按钮 → 验证结果 |
| 网页 UI 调试 | 截图 → 描述视觉 bug → 定位元素 → 改代码 |
| 数据爬取 | 看表格结构 → 抓 DOM → 转结构化数据 |
| 流程自动化 | 像本文 demo 一样全自动探索任意网站 |
| 截图分析工作流 | 落盘 → 看图 → 决策 → 执行 |
凡是"看图 + 操控浏览器"的场景,这套方案都能套。
五、为什么我不直接用多模态模型?
三个理由:
- 成本 — 接入 GLM-5.2、DeepSeek 等国产非多模态模型本身就很便宜,视觉能力按需调用便宜的视觉模型,不用为每一次对话都付多模态溢价
- 可定制 — 主模型和视觉模型都可以随意换,改一行配置即可
- 合规 — 很多场景要求数据不出境,国产模型 + 国产视觉模型是刚需
六、写在最后
这篇文章只是个 demo 预告。如果你也被"国产模型看不了图"坑过,你大概会想知道这套方案到底怎么落地——
具体怎么实现的(MCP 怎么写、规则怎么配、多模型怎么串、踩了哪些坑),我会在后续文章里慢慢拆开讲。
如果你也在折腾 Claude Code / AI Agent / 国产模型,关注我,后续更新第一时间通知。
附录:这次 demo 的成果展示
这次对话我让它输出了完整的分析报告,包括:
- 知乎 3 个官方变现入口的调研结果
- 知乎热榜 Top 15 真实热度数据
- 流量结构分析(哪些赛道还有流量)
- 变现路径优先级建议
全程 0 行手敲代码,纯对话驱动。
这就是 AI Agent 该有的样子。
更多推荐




所有评论(0)