让国产版 “Claude Code“ 长出眼睛和手：我用两个 MCP 搭了套可视化浏览器方案，自动探索知乎赚钱路子

寻常(plain)

19人浏览 · 2026-06-28 23:13:28

寻常(plain) · 2026-06-28 23:13:28 发布

这篇文章的诞生过程本身就挺离谱——我对接的 GLM-5.2 是个看不了图的国产模型，但我让它自己开浏览器、自己截图、自己看页面、自己抓数据，最后自己写出了这份知乎变现分析报告。全程我没敲一行代码。

怎么做到的？先卖个关子。文末会告诉你这套方案藏在哪。

一、一个让人崩溃的痛点

最近在折腾 AI Agent，对接的是国产模型 GLM-5.2。便宜、快、上下文长，但有一个致命问题：

它是个"瞎子"。

你试过就知道了：

让它看一张 UI 截图 → “我无法识别图片内容”
让它去网页上点个按钮 → 它只会 curl，拿不到 JS 渲染后的东西
让它分析一个网页长什么样 → 它只能靠 DOM 文本猜，看不见真实视觉
让它读 K 线图、看表格截图、识别验证码 → 全部歇菜

Claude Code 本身是好东西，但当你为了成本/合规接入国产非多模态模型时，"看不了图"这个坑能把人逼疯。

我之前写过几个 Agent，都在"看图"这一步卡死。直到有一天我灵光一闪——

既然主模型看不了图，那我给它配一双"外接眼睛"不就行了？

二、我让它干了一件离谱的事

为了验证方案跑通了，我没写测试用例，直接给它出了道题：

“打开知乎网站，探索一下能发掘什么赚钱路子吗？”

接下来发生的事，我全程没动键盘。它自己：

打开 Chrome 浏览器，导航到知乎首页
自己截了张图，存到本地
调用视觉模型"看"了这张图，识别出首页有"盐言作者平台"“付费咨询”"知乎知学堂"三个变现入口
自己点进盐言作者平台，截图 → 看图 → 发现"累计发放稿费破亿"
跳到付费咨询页，截图 → 看图 → 拿到"平台抽成 30%"
跳到知乎热榜，自己写 JavaScript 注入页面，抓出了 Top 15 话题的真实热度数据
综合分析所有信息，给我输出了一份完整的变现路径分析

它给我的报告里有这样的数据：

排名	话题	热度
1	世界杯32强对阵出炉	1076万
2	网红诋毁袁隆平成果	1059万
3	韩国队无缘世界杯淘汰赛	1007万

这些数据是 JS 动态渲染的，curl 根本拿不到。它自己想办法抓出来了。

最后它给我的结论是：知乎日活还在千万级，AI 方向能进热榜，最值得做的是盐言故事投稿。

整个过程，我只说了两句话。第一句"打开知乎"，第二句"探索赚钱路子"。

三、这不是"调个 API"那么简单

很多人会想：不就是接个视觉模型 API 吗？

没那么简单。从"截图存哪"到"怎么强制主模型走视觉链路"，从"视觉模型选哪个"到"浏览器怎么控"，再到"多模型怎么协作"——中间隔着至少 5 个大坑，每一个都能让你折腾半天。

这套方案我断断续续折腾了很久才跑通。跑通的那一刻我才意识到——这玩意儿的价值不在于"看图"，而在于让任意非多模态模型瞬间拥有完整的"视觉 + 浏览器操控"能力。

具体踩了哪些坑、怎么解决的，后面我会单独写文章拆开讲。

四、这套方案能干什么

跑通之后，我发现它能做的事远不止"探索网站"：

场景	怎么用
AI 自动化测试	截图 → 看页面 → 点按钮 → 验证结果
网页 UI 调试	截图 → 描述视觉 bug → 定位元素 → 改代码
数据爬取	看表格结构 → 抓 DOM → 转结构化数据
流程自动化	像本文 demo 一样全自动探索任意网站
截图分析工作流	落盘 → 看图 → 决策 → 执行

凡是"看图 + 操控浏览器"的场景，这套方案都能套。

五、为什么我不直接用多模态模型？

三个理由：

成本 — 接入 GLM-5.2、DeepSeek 等国产非多模态模型本身就很便宜，视觉能力按需调用便宜的视觉模型，不用为每一次对话都付多模态溢价
可定制 — 主模型和视觉模型都可以随意换，改一行配置即可
合规 — 很多场景要求数据不出境，国产模型 + 国产视觉模型是刚需

六、写在最后

这篇文章只是个 demo 预告。如果你也被"国产模型看不了图"坑过，你大概会想知道这套方案到底怎么落地——

具体怎么实现的（MCP 怎么写、规则怎么配、多模型怎么串、踩了哪些坑），我会在后续文章里慢慢拆开讲。

如果你也在折腾 Claude Code / AI Agent / 国产模型，关注我，后续更新第一时间通知。

附录：这次 demo 的成果展示

这次对话我让它输出了完整的分析报告，包括：

知乎 3 个官方变现入口的调研结果
知乎热榜 Top 15 真实热度数据
流量结构分析（哪些赛道还有流量）
变现路径优先级建议

全程 0 行手敲代码，纯对话驱动。

这就是 AI Agent 该有的样子。

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

cover

C语言学习笔记20260628：字符串子串查找的三种解法

EazyDevelop社区

cover

办公效率升级靠 AI 导出鸭：如何用腾讯元宝做 excel 表格实现批量制表

EazyDevelop社区

cover

基于HarmonyOS 7.0 跨端开发的火箭发射日历追踪页面实战

EazyDevelop社区

所有评论(0)

查看更多评论

寻常(plain)

已为社区贡献1条内容