Harness Engineering是什么？和提示词工程和上下文工程有什么关系？

2026年，OpenAI在一篇博客文章提到了 Harness Engineering，驾驭工程，之后，它就快速在AI圈里火了起来。很多人根本不知道它到底是什么，就开始各种跟风吹爆。这在三天一重磅，5天一炸裂的AI圈里，虽然离谱，但也合理。那它到底是什么？和这两年很火的提示词工程、上下文工程又是什么关系？图片全网资料参差不齐，如有差异，以我为准。今天就把这些概念串起来讲透，看完你就会知道，AI Ag

程序员小橙

275人浏览 · 2026-04-13 10:21:08

程序员小橙 · 2026-04-13 10:21:08 发布

2026年，OpenAI在一篇博客文章提到了 Harness Engineering，驾驭工程，之后，它就快速在AI圈里火了起来。

很多人根本不知道它到底是什么，就开始各种跟风吹爆。

这在三天一重磅，5天一炸裂的AI圈里，虽然离谱，但也合理。

那它到底是什么？和这两年很火的提示词工程、上下文工程又是什么关系？

图片

全网资料参差不齐，如有差异，以我为准。

今天就把这些概念串起来讲透，看完你就会知道，AI Agent 开发本质上在做什么？为什么同样的模型，换个 AI IDE，效果会差这么多。有了ai，程序员就不写代码，是真的吗，怎么做到的。

Prompt Engineering

把 ChatGPT、Claude 的外壳剥开，里面的大模型，也就是LLM，本质就是一个磁盘上的超大参数文件，将它加载到显卡内存里，配上http接口，就成了大模型API服务。给它加个聊天界面，就成了聊天AI，加个代码编辑器，就成了AI IDE。

大模型和ai应用的关系

AI大模型做的事情很简单，就是基于当前输入的内容，预测下一个字词大概率会是什么。

它本质上只是在猜你想要什么，所以如果你给它输入的指令太宽泛，那它预测的答案就会非常发散。

比如你丢给它一段代码，说“加个排序”。它可能只回你排序的那部分怎么写。你得补一句“给我完整函数代码，不要乱改我的代码”，它给的结果才会更符合要求。

提示词

能加的内容有很多，比如角色设定，背景、历史对话、参考文档、限制、输出格式，这些约束, 构成了所谓的提示词。

提示词结构

而这种有意识地调整和设计提示词，让模型稳定地朝着你预期的内容和格式输出的技术手段，就是所谓的提示词工程。它解决的是大模型无引导，乱说话的问题。

提示词工程

Context Engineering

提示词写得越长越仔细，模型知道得就越多，回答就越准。

反过来同理，大模型回答不准，那大概率是因为知道得不够多。

于是大家很自然会不断往大模型里塞各种资料。这些打包到一起，发给大模型的所有信息，就叫上下文，提示词只是上下文的一部分。

上下文是什么

但大模型再强，一次性能处理的上下文也有最大限制，这个限制，叫上下文窗口。

在AI大模型应用里，多对话几轮，就很容易将上下文窗口打满。

于是就需要通过一些策略去压缩或丢弃部分信息。

在这个过程中，不可避免会丢失关键信息，从而破坏上下文的完整性和准确性，这类问题被统称为“上下文腐化”。

效果上，就是模型开始“记不住”、回答前后不一致。

上下文窗口就这么大，于是问题就变成了，怎么才能在合适的时候，将合适的内容塞入到有限的上下文中。于是衍生了一套负责动态管理大模型上下文的技术，也就是所谓的上下文工程。

上下文工程

提示词是上下文的一部分，那自然，提示词工程其实也是上下文工程的一部分。

它一般通过外部程序来实现，比如 cursor、claude code，trae这类coding agent,注意这不是广子。

每一家的技术实现都有差异，但总的来说可以总结为三个步骤，召回，压缩和组装。

上下文本质

第一步召回，说白了就是“找什么信息”。

这些信息，可以来自外部新闻，也可以来自过去聊天记录，当前代码环境，以及程序运行报错等，总之就是从里面找出最相关的内容。这里面涉及到一些RAG，memory等技术，随便拿出一个都能单开一个视频，这里先跳过。看到这里还没睡着的弹幕扣个0。

信息很多，上下文窗口有限，所以需要将信息变小。

于是引入第二步，压缩，比如将信息分开发给大模型，做总结。

之后就是组装，因为信息放置的位置和顺序，会直接影响模型的理解和输出，比如越靠后越容易被模型关注，所以我们需要通过一定的结构重新组装内容。

这样进入模型的上下文更精简、更相关，输出也会更稳定、更准确。

不同AI工具的上下文工程策略不同，所以你会发现就算用的是同一个模型，不同AI工具的执行效果也会有差异。

不同ai工具的上下文工程不同

claude code最近也"被开源"了，正好可以单开一期讲下它的上下文工程是怎么做的，看到这里还在坚持的弹幕扣个1。

Harness Engineering

提示词工程解决了大模型无引导、乱说话的问题。上下文工程解决的是上下文的组织问题。模型是更聪明了，但它只能聊天，没法帮我们干活。

于是，我们可以给大模型加入 bash 沙箱、文件系统、MCP 这些能力，让它能像人一样操作外部工具，读写代码文件，执行命令做测试。它们共同构成了执行层。

将它们串成一个流程，在外部套一层循环，于是我们就可以通过提示词工程和上下文工程，组装上下文，发给大模型，大模型负责思考，外部程序负责执行，执行过程中得到的报错等信息，再加到上下文里继续推理和执行。这套一边思考，一边行动的循环，就是所谓的 ReAct(Reasoning + Acting)。而这个能通过聊天，帮你执行任务的程序，就是所谓的AI Agent.

AI Agent的本质

Agent的本质，就是一个for循环。只要这个循环一长，上下文就一定会膨胀，上下文工程做再好，也可能会腐化。随着它看过的文件越来越多，拿到的信息越来越杂，前面定好的目标和约束，后面可能慢慢就被冲淡了，理解也会越来越偏。

怎么办呢？很简单，只要我们可以保证每次给大模型的上下文中，都包含一些可复用的核心信息，比如项目目标，技术栈，需求背景，代码风格，禁止事项等。只要保证这部分一直在，那大模型就能在大框架约束下，减少理解偏移。

这些核心信息可以单独写成文件，固定在代码仓库里。比如Claude Code 用 CLAUDE.md，Cursor 或 Trae 也会有各自的 rules 文件。它们暂时没有统一的名字，我暂且称为规则文件。规则文件会在调用大模型的时候作为系统提示词，自动注入上下文。

规则文件写多了也会变长，所以上下文也会很长。那就拆，把它拆成几份更短的文件，再加一个简单的路由，比如背景就读bg.md，技术栈就看stack.md，一般情况下只需要加载文件地址路径，真正需要的时候再加载文件的全部内容。

规则文件内容

将它们跟提示词工程和上下文工程配合在一起，形成记忆层。

有了记忆层和执行层的配合，agent就能不停写代码，跑linter和单元测试，过程中发现执行有问题，还可以将测试输出和报错加入到上下文里，这样就可以驱动agent在下一轮循环中自动做修复。这套通过校验结果，回传错误来实现自动修复问题的能力，形成了反馈层。

但 Agent 的循环如果缺乏全局规划和清晰的结束目标，依然很容易跑偏，甚至陷入无效死循环。所以我们还可以将大任务拆解为有明确执行标准的多个子任务，就像这样：

1.确认开发规范
2.编写接口代码
3.编写测试用例
4.执行代码校验
5.验证功能闭环

按规划驱动 Agent 分步执行。这种以全局规划为核心，对任务做拆解与全流程管控的能力，形成了编排层。

编排层,执行层,反馈层和记忆层这些能力，共同组成了一套包裹着大模型的工程外壳，它就是 Harness Engineering，驾驭工程。

Harness Engineering是什么

大模型越强，外壳就可以做的越薄。但无论怎么样，这层外壳都得有。

再给个公式，agent等于大模型 + Harness。只要不是大模型的那部分，那都属于harness Engineering的范畴。存量程序员们，好好看好好学，以后它就是我们的主战场啦。那增量程序员怎么说？评论区会给你答案。

agent和harness的关系

Harness Engineering有哪些落地方案

概念理解了，那最重要的问题来了，怎么落地？以Claude Code为例，Claude Code软件本身已经原生支持harness的四层能力，所以最轻量的做法就是在 CLAUDE.md 文件里写清楚，项目背景是什么，你希望大模型做什么，别做什么，做完之后要跑哪些lint、单测和CI，执行哪些skill就行。

如果不想自己写那么累，那就引入一些插件。比如 spec-kit 这类扩展，它们会根据项目将需求拆成多个阶段。

Spec-kit这类SDD