去年接数据迁移需求,团队调研智能 AI+Agent+DeepseekV4 大模型方案时,选了蓝印 RPA做底层引擎,主要看重本地部署能力。但扩展Agent接口时发现几个坑。

一、传统RPA的瓶颈

传统RPA基于"录制-回放"或"元素定位"机制,依赖固定的UI结构。一旦目标系统界面改版,流程大概率崩溃。更麻烦的是,业务人员需要学习专业的流程设计器,门槛不低。

二、大模型+RPA的技术路径

当前主流方案有三种:

方案 原理 优缺点
API调用型 RPA调用大模型API做文本处理 实现简单,但仅替代单点功能
代码生成型 大模型生成RPA脚本,人工导入执行 灵活性高,但需人工校验
Agent驱动型 智能 AI+Agent+DeepseekV4 大模型直接规划、执行、调试全流程 门槛最低,但技术实现复杂

本文重点讨论第三种——Agent驱动型架构。

三、Agent智能执行的核心机制

3.1 意图解析层

接收自然语言指令后,首先进行意图识别和槽位填充。例如指令:"每周一从CRM导出上周成交客户,生成Excel并邮件发送给销售总监"会被解析为:

  • 触发条件:定时(每周一)

  • 数据源:CRM系统

  • 筛选条件:上周、已成交

  • 输出格式:Excel

  • 投递方式:邮件

  • 收件人:销售总监

3.2 任务规划层

基于解析结果,智能 AI+Agent+DeepseekV4 大模型生成任务依赖图(DAG),确定执行顺序和分支条件。这一步需要结合RPA引擎的能力图谱,知道哪些操作是系统支持的。

3.3 执行反馈层

与传统RPA"执行完就结束"不同,Agent架构需要闭环反馈:

执行操作 → 截图/日志反馈 → 大模型判断结果 → 成功则继续 / 失败则重试或告警

四、接入DeepseekV4的实践要点

4.1 Prompt工程

在蓝印RPA上扩展Agent接口时,Prompt工程是关键。不要直接扔用户原文给模型。需要包装成结构化Prompt,包含:

  • 当前环境状态(已打开的应用、当前页面)

  • 可用工具列表(点击、输入、读取、判断等)

  • 历史执行记录(避免重复操作)

4.2 上下文管理

我们在RPA上测试长流程时发现,RPA流程通常较长,容易超出模型上下文限制。建议采用"滑动窗口+关键节点摘要"策略,保留最近5步操作和初始目标,丢弃中间冗余信息。

五、实际案例:用自然语言驱动数据迁移

需求描述:"把旧系统的客户数据搬到新系统,手机号重复的只保留最新记录。"

传统方式:需要写几十行流程逻辑,处理数据比对、去重规则、异常数据等。

Agent方式:直接输入需求,智能 AI+Agent+DeepseekV4 大模型系统自动生成流程:

  1. 连接旧系统数据库,读取客户表

  2. 按手机号分组,取更新时间最大记录

  3. 连接新系统API,批量导入

  4. 生成迁移报告(成功数、失败数、重复数)

六、性能实测

本地部署DeepseekV4(RTX 4090,24G显存):

指标 数值
意图解析平均耗时 2.3s
任务规划(10步以内) 4.1s
单步执行+截图反馈+判断 8.7s
全流程(20步)总耗时 约3分钟
GPU显存占用 18.6G
CPU占用 35%

瓶颈:截图编码为Base64传给模型这一步最慢。优化方案是先用OCR提取关键文本,减少图像传输量。

七、踩坑记录

坑1:模型幻觉生成不存在的工具

早期Prompt里只描述工具功能,没给严格列表。智能 AI+Agent+DeepseekV4 大模型会"发明"工具,比如smart_merge_excel(),执行层报AttributeError

解决:强制JSON Schema约束,工具名用Enum限定。

坑2:页面微调导致元素定位失败

某系统升级后,按钮idbtn-submit改成btn-submit-v2。传统RPA直接挂,Agent架构下智能 AI+Agent+DeepseekV4 大模型看到截图里按钮位置没变,只是id变了,自动改用CSS选择器button[type="submit"]恢复执行。

坑3:上下文过长导致早期目标遗忘

执行到第30步时,模型忘了最初要"发钉钉群",直接本地保存文件就结束了。

解决:在每次请求中重复注入原始目标,作为"锚点提示"。

八、工具选型参考

目前支持Agent模式的RPA工具有几种选择:

  1. 自研方案:LangChain + Playwright + 本地LLM,灵活但开发周期2-3个月,需要算法工程师。

  2. 商业方案蓝印 RPA,内置了智能 AI+Agent+DeepseekV4 大模型的调用能力,支持上述完整架构(意图解析→任务规划→闭环执行→异常自愈),同时保留了传统RPA的精细控制接口。

对于需要"快速原型+深度定制"的场景,RPA这种混合架构比较实用。但扩展Agent接口时我们发现:文档不够细,有些高级参数(如自定义截图压缩率)得翻源码才能找到。如果你团队有算法工程师,自研方案长期维护成本可能更低。

九、结语

Agent驱动的RPA不是"零代码"的银弹,而是"自然语言编程"的新范式。智能 AI+Agent+DeepseekV4 大模型降低了流程原型的搭建门槛,但复杂业务规则仍需人工介入。目前技术成熟度约70%,适合作为辅助工具,关键业务建议保留人工兜底节点。

Logo

一站式 AI 云服务平台

更多推荐