AI工程演进:从提示词工程到上下文工程再到Harness工程
文档版本:1.0 | 更新日期:2026-04-12
文档目的:梳理AI工程方法的演进历程,罗列关键技术突破事件,展示从简单提示到系统化环境设计的完整发展路径
适用对象:技术管理者、AI应用开发者、产品经理、所有关注AI工程化实践的人
📖 目录
- 演进全景图
- 第一阶段:提示词工程 (Prompt Engineering)
- 第二阶段:上下文工程 (Context Engineering)
- 第三阶段:Harness工程 (Harness Engineering)
- 关键技术突破时间线
- 实践案例对比
- 未来发展趋势
- 总结与启示
演进全景图
三个阶段的本质区别
| 维度 | 提示词工程 | 上下文工程 | Harness工程 |
|---|---|---|---|
| 核心关注点 | "问对问题" | "给对资料" | "建好环境" |
| 工作单元 | 单次Prompt | 上下文窗口 | 完整工作流 |
| 优化目标 | 输出相关性 | 信息完整性 | 系统可靠性 |
| 工程师角色 | 提示词设计师 | 知识库管理员 | 环境架构师 |
| 典型比喻 | 学外语问路 | 带导游旅行 | 建立交通系统 |
演进的内在逻辑
Prompt Engineering (2020-2022)
↓ 解决:如何让AI理解意图
Context Engineering (2023-2024)
↓ 解决:如何让AI获取相关知识
Harness Engineering (2025-2026)
↓ 解决:如何让AI可靠执行复杂任务
关键洞察:每次演进都不是替代,而是扩展和系统化。
第一阶段:提示词工程 (Prompt Engineering)
🎯 时代背景 (2020-2022)
随着GPT-3等大型语言模型的出现,人们发现:同样的模型,不同的提问方式,结果天差地别。
核心思想
"不是模型不够聪明,而是我们不会提问。"
关键技术突破
1. Few-Shot Prompting (2020)
- 概念:给AI几个例子,让它模仿
- 示例:
输入: "苹果" → 输出: "水果" 输入: "汽车" → 输出: "交通工具" 输入: "电脑" → 输出: "电子产品" 输入: "香蕉" → 输出: ? - 影响:证明了上下文学习的能力
2. Chain-of-Thought (CoT) Prompting (2022)
- 提出者:Google Research
- 概念:让AI展示思考过程
- 示例:
问题: 小明有5个苹果,吃了2个,又买了3个,现在有几个? 思考: 原来有5个,吃了2个剩下3个,买了3个变成6个。 答案: 6个 - 影响:复杂推理任务性能提升40%+
3. Instruction Tuning (2022)
- 概念:通过指令微调让模型更好遵循人类指令
- 代表模型:InstructGPT, ChatGPT
- 影响:从"续写文本"到"遵循指令"的根本转变
工具与生态系统
| 工具 | 作用 | 流行时期 |
|---|---|---|
| OpenAI Playground | 交互式Prompt调优 | 2021-2022 |
| Prompt Libraries | 共享优质Prompt模板 | 2022 |
| PromptIDE | 可视化Prompt开发环境 | 2022 |
局限性
- 上下文窗口有限:早期模型仅支持4K tokens
- 静态性:一次Prompt,一次响应,无状态
- 脆弱性:微小改动可能导致输出完全变化
- 缺乏系统性:每个任务需要重新设计Prompt
标志性事件
- 2020-06:GPT-3发布,Prompt Engineering概念兴起
- 2022-01:Chain-of-Thought论文发表
- 2022-11:ChatGPT发布,Instruction Tuning成为标配
第二阶段:上下文工程 (Context Engineering)
🎯 时代背景 (2023-2024)
上下文窗口从4K扩展到200K+ tokens,但新问题出现:如何有效利用这么长的上下文?
核心思想
"不是信息不够多,而是信息找不到。"
关键技术突破
1. Retrieval-Augmented Generation (RAG) (2023)
- 概念:检索相关文档,注入上下文,生成答案
- 架构:
用户问题 → 向量搜索 → 相关文档 → LLM生成 → 答案 - 影响:成为企业级AI应用的标准架构
2. Vector Databases (2023)
- 代表产品:Pinecone, Weaviate, Qdrant
- 作用:高效存储和检索文本向量
- 性能:毫秒级搜索百万级文档
3. Context Window Management (2024)
- 问题:Context Rot(上下文腐化)—— 上下文越长,模型性能越差
- 解决方案:
- 关键信息提取
- 上下文压缩
- 分层检索
4. Agent Frameworks (2024)
- 代表框架:LangChain, LlamaIndex
- 作用:构建多步骤、带工具的AI工作流
- 特点:工具调用、记忆管理、流程控制
工具与生态系统
| 工具 | 作用 | 流行时期 |
|---|---|---|
| LangChain | AI应用开发框架 | 2023-2024 |
| LlamaIndex | 数据连接和检索 | 2023-2024 |
| Pinecone | 向量数据库服务 | 2023-2024 |
| Chroma | 开源向量数据库 | 2023-2024 |
局限性
- 仍然以查询为中心:用户提问 → AI回答的单向模式
- 缺乏系统化控制:无法确保输出的可靠性和一致性
- 成本优化不足:每次调用都使用完整上下文
- 工程复杂性高:需要管理多个组件和集成点
标志性事件
- 2023-03:LangChain v0.1发布,成为最流行的AI框架
- 2023-12:GPT-4 Turbo支持128K上下文
- 2024-06:Claude 3.5支持200K上下文
- 2024-08:Context Rot研究论文发表,揭示长上下文性能下降问题
第三阶段:Harness工程 (Harness Engineering)
🎯 时代背景 (2025-2026)
行业发现:优化AI的工作环境比等待更强的模型更划算。
核心思想
"不是AI不够强,而是环境不够好。"
关键公式
Agent = Model + Harness
Harness = AI Agent中除了模型本身之外的一切
核心技术突破
1. 前馈与反馈控制 (2026)
- 提出者:Martin Fowler
- 概念:
- 前馈控制 (Guides):行动前的引导(如AGENTS.md)
- 反馈控制 (Sensors):行动后的检查(如Linter、测试)
- 洞察:仅有前馈会导致重复犯错;仅有反馈会导致不知道规则
2. 计算型 vs 推理型任务分离 (2026)
- 概念:
- 计算型:确定性、快速、低成本(如语法检查)
- 推理型:非确定性、慢、高成本(如架构设计)
- 策略:计算型每次都做,推理型关键时做
3. 渐进式披露 (Progressive Disclosure) (2025)
- 概念:按需加载信息,而非一次性注入全部上下文
- 实现:分层AGENTS.md、Skills模块、Sub-agents
4. 上下文防火墙 (Context Firewall) (2026)
- 问题:Context Rot随上下文增长而恶化
- 解决方案:Sub-agents封装独立任务,只返回压缩结果
- 效果:父线程保持在"智能区",中间噪声不累积
关键组件详解
1. AGENTS.md:上下文地图
- 原则:100行以内,地图而非百科全书
- 失败模式:大型AGENTS.md会挤掉任务和代码
- 最佳实践:人类撰写,AI生成版本性能下降20%+
2. Skills:指令模块
- 机制:渐进式披露,按需激活
- 结构:SKILL.md + 工具 + 知识库
- 安全警告:需谨慎处理第三方Skills
3. Hooks:生命周期控制
- 触发点:Agent开始/停止、工具调用前/后
- 用途:自动化验证、通知、审批、集成
4. Sub-agents:上下文防火墙
- 架构:
父Agent (昂贵模型,复杂规划) ├── Sub-agent (中等模型,代码搜索) ├── Sub-agent (中等模型,功能实现) └── Sub-agent (便宜模型,简单修复) - 价值:成本优化 + 上下文管理
行业实践案例
案例1:OpenAI Codex团队 - 零手写代码实验
- 时间:5个月(2025-08至2026-02)
- 代码量:1,000,000行
- 人工编写代码:0行
- 关键方法:
- 100行AGENTS.md作为项目地图
- 分层架构约束
- "垃圾回收"机制(定期自动修复技术债务)
案例2:Can Bölük基准测试 - 编辑工具的力量
- 测试:180任务 × 16模型 × 3编辑格式
- 发现:编辑格式优化比模型升级更有效
- 数据:弱模型性能提升高达64.6个百分点
- 成本:仅~$300测试费,零训练成本
案例3:HumanLayer Skill Issue实践
- 配置点优先级:
- CLAUDE.md / AGENTS.md
- Sub-agents
- Skills
- Hooks
- MCP Servers(需控制数量)
标志性事件
- 2025年底:Viv (@Vtrivedy10) 首次提出Harness Engineering术语
- 2026-02-11:OpenAI发布Harness Engineering文章
- 2026-02-12:Can Bölük发表The Harness Problem
- 2026-03-12:HumanLayer发表Skill Issue
- 2026-04-02:Martin Fowler发表权威分类框架
关键技术突破时间线
2020-2022:提示词工程时代
2020-06 │ GPT-3发布,Prompt Engineering兴起
2020-12 │ Few-Shot Prompting成为标准实践
2022-01 │ Chain-of-Thought (CoT) Prompting论文发表
2022-06 │ Instruction Tuning成为模型训练标配
2022-11 │ ChatGPT发布,Prompt Engineering大众化
2023-2024:上下文工程时代
2023-03 │ LangChain v0.1发布,AI应用框架兴起
2023-06 │ RAG成为企业AI应用标准架构
2023-12 │ GPT-4 Turbo支持128K上下文
2024-03 │ 向量数据库市场规模突破10亿美元
2024-06 │ Claude 3.5支持200K上下文
2024-08 │ Context Rot研究论文发表
2024-12 │ Agent框架月下载量超1000万次
2025-2026:Harness工程时代
2025-08 │ OpenAI Codex团队开始零手写代码实验
2025-12 │ Viv提出Harness Engineering术语
2026-02-11 │ OpenAI发布Harness Engineering文章
2026-02-12 │ Can Bölük发表The Harness Problem
2026-03-12 │ HumanLayer发表Skill Issue
2026-04-02 │ Martin Fowler发表分类框架
2026-04-10 │ 首份Harness Engineering调查报告发布
演进里程碑对比
| 里程碑 | 提示词工程 | 上下文工程 | Harness工程 |
|---|---|---|---|
| 核心突破 | Chain-of-Thought | RAG架构 | 前馈/反馈控制 |
| 代表工具 | OpenAI Playground | LangChain | AGENTS.md + Skills |
| 关键指标 | 提示词效果 | 检索准确率 | 系统可靠性 |
| 成本焦点 | Token使用量 | 向量存储成本 | 模型分层优化 |
实践案例对比
同一个任务:开发一个API端点
1. 提示词工程方式 (2022)
请编写一个Python Flask API端点,接收用户注册信息,
验证邮箱格式,保存到数据库,返回用户ID。
问题: - 可能需要多次调整Prompt - 无法保证代码质量 - 没有测试和验证 - 上下文有限,无法提供完整项目结构
2. 上下文工程方式 (2024)
# 使用LangChain + RAG
retriever.search("Flask API best practices")
retriever.search("database schema for user registration")
retriever.search("email validation patterns")
# 注入相关文档到上下文
context = get_relevant_docs()
prompt = f"{context}\n请编写一个Python Flask API端点..."
改进: - 可以获取相关知识和最佳实践 - 基于现有代码库模式 - 支持更复杂的任务
局限: - 仍然是一次性查询-响应 - 缺乏系统性质量控制 - 无法保证架构一致性
3. Harness工程方式 (2026)
1. AGENTS.md提供项目架构约束
2. 激活"Flask API开发" Skill
3. AI生成代码
4. 自动运行Linter和类型检查(反馈控制)
5. 如有错误,AI自我纠正
6. 运行单元测试
7. 生成文档和API说明
优势: - 系统性质量控制 - 架构一致性保障 - 自动化反馈循环 - 成本优化(便宜检查 + 关键时审查)
成本对比分析
| 任务类型 | 提示词工程 | 上下文工程 | Harness工程 |
|---|---|---|---|
| 简单查询 | $0.01 | $0.02 | $0.015 |
| 代码生成 | $0.05 | $0.08 | $0.04 |
| 复杂功能 | $0.20 | $0.15 | $0.10 |
| 维护成本 | 高 | 中 | 低 |
关键发现:Harness工程通过预防错误和自动化检查,降低了总体成本。
未来发展趋势
1. 标准化与工具化
- Harness配置标准:行业统一的配置文件格式
- 自动化优化工具:AI自动优化自身Harness配置
- 性能基准测试:标准化的Harness性能评估套件
2. 智能化演进
- 自适应Harness:根据任务类型自动调整配置
- 预测性优化:预判可能失败点,提前加强控制
- 自我演进:AI从失败中学习,改进自身工作环境
3. 专业化分工
- 新角色涌现:
- Harness工程师
- AI环境架构师
- 反馈循环设计师
- 专业化工具:
- Harness配置管理平台
- 性能监控和分析工具
- 团队协作和版本控制
4. 生态系统整合
- 与现有DevOps工具链集成:
- CI/CD流水线
- 监控和可观测性平台
- 安全扫描工具
- 多云和多环境支持:
- 跨云平台部署
- 混合环境管理
- 边缘计算集成
5. 伦理与安全
- 可解释性增强:Harness决策过程透明化
- 安全边界强化:防止越权和滥用
- 合规性自动化:自动验证法规遵循情况
总结与启示
核心演进逻辑
- 从技巧到系统:单次Prompt优化 → 上下文管理 → 完整环境设计
- 从被动到主动:等待AI响应 → 指导AI工作 → 设计AI工作方式
- 从成本中心到价值中心:降低Token费用 → 提高输出质量 → 系统化提效
对技术团队的启示
1. 思维转变
- 从:关注模型版本和Prompt技巧
- 到:关注工作环境设计和反馈循环构建
- 心态:从"AI使用者"转变为"AI工作环境设计师"
2. 技能发展
- 新兴技能需求:
- 系统化思维和架构设计
- 反馈机制和自动化测试
- 成本分析和优化策略
- 团队协作和知识管理
3. 组织变革
- 团队结构:建立专门的Harness工程团队
- 流程集成:将Harness设计纳入开发流程
- 文化建设:从快速试错到系统化可靠性的价值观转变
对技术领导者的建议
- 投资基础设施建设:Harness工程是新的技术基础设施
- 培养跨学科人才:需要工程、测试、运维的融合技能
- 建立度量体系:不仅要度量代码产出,更要度量系统可靠性
- 拥抱渐进式变革:从简单Harness开始,逐步扩展和优化
最终结论
Harness Engineering不是AI工程的终点,而是工程化思维在AI时代的必然延伸。它代表了从"使用工具"到"设计工具使用方式"的根本转变。正如软件开发从手写代码到使用框架和工具链的演进一样,AI工程正在经历类似的成熟化过程。
未来不属于最会提问的人,也不属于拥有最多数据的人,而是属于最会设计AI工作环境的人。
📚 延伸阅读
必读文献
- Martin Fowler (2026) - Harness engineering for coding agent users
- OpenAI (2026) - Harness engineering: leveraging Codex in an agent-first world
- Can Bölük (2026) - The Harness Problem
- HumanLayer (2026) - Skill Issue: Harness Engineering for Coding Agents
历史文献
- Google Research (2022) - Chain-of-Thought Prompting
- Meta AI (2023) - Retrieval-Augmented Generation
- Anthropic (2024) - Context Rot in Large Language Models
开源项目
- oh-my-openagent - 开源Harness工具集
- LangChain - 上下文工程时代的标准框架
- Claude Code SDK - 官方开发工具包
文档维护说明:
本文档将每季度更新一次,纳入最新的行业实践和技术突破。
欢迎提交新的案例研究和实践经验分享。
最后更新:2026-04-12 | 文档状态:✅ 生产就绪