Harness Engineering

人类的核心工作从写代码转向了设计 Agent 的工作环境。Harness Engineering 就是这门新学科。

什么是 Harness

Agent = Model + Harness. Model 是大脑，Harness 是它工作的一切环境：文档、约束、工具、日志、记忆、反馈循环。

一个好的 Harness 做三件事：

职责	说明	类比
前馈 (Guide)	在 agent 行动前预防错误	架构文档、约束规则、参考案例
后馈 (Sensor)	在 agent 行动后检测问题	Linter、测试、LLM-as-Judge
记忆 (Memory)	跨会话保持上下文和知识	Decision Records、Solution 库、日志

三个扩展维度

2026 年三大 AI 厂各探索了一个维度：

时间维度 (Temporal) — Anthropic

问题：Agent 连续工作数小时，如何保持方向和质量？

方案：Planner / Generator / Evaluator 三角色分离。每个角色有清晰的职责边界，通过文件 artifact 传递状态。

关键洞察：把"做事的 agent"和"评判的 agent"分开，是质量最强的杠杆。

空间维度 (Spatial) — Cursor

问题：数百个 Agent 并行，如何获得线性吞吐增长？

方案：递归 Planner-Worker 层级。Worker 在隔离的 repo 副本上工作，互不感知。信息只向上流动。

关键洞察：架构选择（monolith vs modular）直接影响 agent 并行效率。

交互维度 (Interaction) — OpenAI

问题：3 人团队如何管理 1500+ PR？

方案：Symphony 守护进程，把 ticket 自动转为 agent 任务。Agent 自带观测栈、自验证、自提 PR。

关键洞察：从"写 prompt 触发"进化到"写 ticket 改状态"。

核心共识

跨所有文章和实践，行业已达成 7 条共识：

改 Harness > 换 Model — Harness 的改进对所有模型同时生效
约束 > 指令 — 可执行的确定性规则比模糊指导有效
< 60 秒反馈循环 — Build/Test/Lint 必须快到 agent 能高效迭代
四层记忆 — Agent config + Git history + Progress log + Structured state
渐进式加载 — 永远不要把所有信息塞进 context，按需读取
失败驱动改进 — 每个 agent 错误都应变成 harness 改进
验证分层 — 确定性检查（快/廉价）在前，推理性检查（慢/语义）在后

本节内容

页面	内容	适合谁
Init 方法论	核心 — 任何项目的 Harness 初始化流程	新项目启动时
设计思想	从多模块实战沉淀出的抽象 harness 架构原则	初始化复杂项目时
Context 设计	CLAUDE.md / AGENTS.md 设计指南	写配置文件时
日志系统	可观测 + 可修复的日志架构	搭建 pipeline 时
知识管理	Decision / Solution / Plan / Playbook	积累经验时
自进化	自修复 + 自迭代 + 衰减检测	系统成熟后
模板库	所有文档模板，可直接复制	随时参考

适用范围

本方法论适用于使用以下工具的项目：

Claude Code (Anthropic) — CLAUDE.md + Skills + Hooks
Codex (OpenAI) — AGENTS.md + Workflows
Cursor (Anysphere) — .cursorrules + Composer
通用 LLM Agent — 任何基于 prompt + tool 的 agent 系统

核心原则是通用的，具体实现按工具调整。

事实依据

本板块的方法论推荐基于 L3 事实层：

Harness 文献快照 2026-04 — 6 篇核心文章 + 3 个开源项目 + 10+ 篇扩展引用

Harness Engineering ​

什么是 Harness ​

三个扩展维度 ​

时间维度 (Temporal) — Anthropic ​

空间维度 (Spatial) — Cursor ​

交互维度 (Interaction) — OpenAI ​

核心共识 ​

本节内容 ​

适用范围 ​

事实依据 ​