AI工程演进：从提示词工程到上下文工程再到Harness工程

文档版本：1.0 | 更新日期：2026-04-12
文档目的：梳理AI工程方法的演进历程，罗列关键技术突破事件，展示从简单提示到系统化环境设计的完整发展路径
适用对象：技术管理者、AI应用开发者、产品经理、所有关注AI工程化实践的人

📖 目录

演进全景图
第一阶段：提示词工程 (Prompt Engineering)
第二阶段：上下文工程 (Context Engineering)
第三阶段：Harness工程 (Harness Engineering)
关键技术突破时间线
实践案例对比
未来发展趋势
总结与启示

演进全景图

三个阶段的本质区别

维度	提示词工程	上下文工程	Harness工程
核心关注点	"问对问题"	"给对资料"	"建好环境"
工作单元	单次Prompt	上下文窗口	完整工作流
优化目标	输出相关性	信息完整性	系统可靠性
工程师角色	提示词设计师	知识库管理员	环境架构师
典型比喻	学外语问路	带导游旅行	建立交通系统

演进的内在逻辑

Prompt Engineering (2020-2022)
↓ 解决：如何让AI理解意图
Context Engineering (2023-2024)  
↓ 解决：如何让AI获取相关知识
Harness Engineering (2025-2026)
↓ 解决：如何让AI可靠执行复杂任务

关键洞察：每次演进都不是替代，而是扩展和系统化。

第一阶段：提示词工程 (Prompt Engineering)

🎯 时代背景 (2020-2022)

随着GPT-3等大型语言模型的出现，人们发现：同样的模型，不同的提问方式，结果天差地别。

核心思想

"不是模型不够聪明，而是我们不会提问。"

关键技术突破

1. Few-Shot Prompting (2020)

概念：给AI几个例子，让它模仿
示例： 输入: "苹果" → 输出: "水果" 输入: "汽车" → 输出: "交通工具" 输入: "电脑" → 输出: "电子产品" 输入: "香蕉" → 输出: ?
影响：证明了上下文学习的能力

2. Chain-of-Thought (CoT) Prompting (2022)

提出者：Google Research
概念：让AI展示思考过程
示例： 问题: 小明有5个苹果，吃了2个，又买了3个，现在有几个？思考: 原来有5个，吃了2个剩下3个，买了3个变成6个。答案: 6个
影响：复杂推理任务性能提升40%+

3. Instruction Tuning (2022)

概念：通过指令微调让模型更好遵循人类指令
代表模型：InstructGPT, ChatGPT
影响：从"续写文本"到"遵循指令"的根本转变

工具与生态系统

工具	作用	流行时期
OpenAI Playground	交互式Prompt调优	2021-2022
Prompt Libraries	共享优质Prompt模板	2022
PromptIDE	可视化Prompt开发环境	2022

局限性

上下文窗口有限：早期模型仅支持4K tokens
静态性：一次Prompt，一次响应，无状态
脆弱性：微小改动可能导致输出完全变化
缺乏系统性：每个任务需要重新设计Prompt

标志性事件

2020-06：GPT-3发布，Prompt Engineering概念兴起
2022-01：Chain-of-Thought论文发表
2022-11：ChatGPT发布，Instruction Tuning成为标配

第二阶段：上下文工程 (Context Engineering)

🎯 时代背景 (2023-2024)

上下文窗口从4K扩展到200K+ tokens，但新问题出现：如何有效利用这么长的上下文？

核心思想

"不是信息不够多，而是信息找不到。"

关键技术突破

1. Retrieval-Augmented Generation (RAG) (2023)

概念：检索相关文档，注入上下文，生成答案
架构： 用户问题 → 向量搜索 → 相关文档 → LLM生成 → 答案
影响：成为企业级AI应用的标准架构

2. Vector Databases (2023)

代表产品：Pinecone, Weaviate, Qdrant
作用：高效存储和检索文本向量
性能：毫秒级搜索百万级文档

3. Context Window Management (2024)

问题：Context Rot（上下文腐化）—— 上下文越长，模型性能越差
解决方案：
关键信息提取
上下文压缩
分层检索

4. Agent Frameworks (2024)

代表框架：LangChain, LlamaIndex
作用：构建多步骤、带工具的AI工作流
特点：工具调用、记忆管理、流程控制

工具与生态系统

工具	作用	流行时期
LangChain	AI应用开发框架	2023-2024
LlamaIndex	数据连接和检索	2023-2024
Pinecone	向量数据库服务	2023-2024
Chroma	开源向量数据库	2023-2024

局限性

仍然以查询为中心：用户提问 → AI回答的单向模式
缺乏系统化控制：无法确保输出的可靠性和一致性
成本优化不足：每次调用都使用完整上下文
工程复杂性高：需要管理多个组件和集成点

标志性事件

2023-03：LangChain v0.1发布，成为最流行的AI框架
2023-12：GPT-4 Turbo支持128K上下文
2024-06：Claude 3.5支持200K上下文
2024-08：Context Rot研究论文发表，揭示长上下文性能下降问题

第三阶段：Harness工程 (Harness Engineering)

🎯 时代背景 (2025-2026)

行业发现：优化AI的工作环境比等待更强的模型更划算。

核心思想

"不是AI不够强，而是环境不够好。"

关键公式

Agent = Model + Harness

Harness = AI Agent中除了模型本身之外的一切

核心技术突破

1. 前馈与反馈控制 (2026)

提出者：Martin Fowler
概念：
前馈控制 (Guides)：行动前的引导（如AGENTS.md）
反馈控制 (Sensors)：行动后的检查（如Linter、测试）
洞察：仅有前馈会导致重复犯错；仅有反馈会导致不知道规则

2. 计算型 vs 推理型任务分离 (2026)

概念：
计算型：确定性、快速、低成本（如语法检查）
推理型：非确定性、慢、高成本（如架构设计）
策略：计算型每次都做，推理型关键时做

3. 渐进式披露 (Progressive Disclosure) (2025)

概念：按需加载信息，而非一次性注入全部上下文
实现：分层AGENTS.md、Skills模块、Sub-agents

4. 上下文防火墙 (Context Firewall) (2026)

问题：Context Rot随上下文增长而恶化
解决方案：Sub-agents封装独立任务，只返回压缩结果
效果：父线程保持在"智能区"，中间噪声不累积

关键组件详解

1. AGENTS.md：上下文地图

原则：100行以内，地图而非百科全书
失败模式：大型AGENTS.md会挤掉任务和代码
最佳实践：人类撰写，AI生成版本性能下降20%+

2. Skills：指令模块

机制：渐进式披露，按需激活
结构：SKILL.md + 工具 + 知识库
安全警告：需谨慎处理第三方Skills

3. Hooks：生命周期控制

触发点：Agent开始/停止、工具调用前/后
用途：自动化验证、通知、审批、集成

4. Sub-agents：上下文防火墙

架构： 父Agent (昂贵模型，复杂规划) ├── Sub-agent (中等模型，代码搜索) ├── Sub-agent (中等模型，功能实现) └── Sub-agent (便宜模型，简单修复)
价值：成本优化 + 上下文管理

行业实践案例

案例1：OpenAI Codex团队 - 零手写代码实验

时间：5个月（2025-08至2026-02）
代码量：1,000,000行
人工编写代码：0行
关键方法：
100行AGENTS.md作为项目地图
分层架构约束
"垃圾回收"机制（定期自动修复技术债务）

案例2：Can Bölük基准测试 - 编辑工具的力量

测试：180任务 × 16模型 × 3编辑格式
发现：编辑格式优化比模型升级更有效
数据：弱模型性能提升高达64.6个百分点
成本：仅~$300测试费，零训练成本

案例3：HumanLayer Skill Issue实践

配置点优先级：
CLAUDE.md / AGENTS.md
Sub-agents
Skills
Hooks
MCP Servers（需控制数量）

标志性事件

2025年底：Viv (@Vtrivedy10) 首次提出Harness Engineering术语
2026-02-11：OpenAI发布Harness Engineering文章
2026-02-12：Can Bölük发表The Harness Problem
2026-03-12：HumanLayer发表Skill Issue
2026-04-02：Martin Fowler发表权威分类框架

关键技术突破时间线

2020-2022：提示词工程时代

2020-06 │ GPT-3发布，Prompt Engineering兴起
2020-12 │ Few-Shot Prompting成为标准实践
2022-01 │ Chain-of-Thought (CoT) Prompting论文发表
2022-06 │ Instruction Tuning成为模型训练标配
2022-11 │ ChatGPT发布，Prompt Engineering大众化

2023-2024：上下文工程时代

2023-03 │ LangChain v0.1发布，AI应用框架兴起
2023-06 │ RAG成为企业AI应用标准架构
2023-12 │ GPT-4 Turbo支持128K上下文
2024-03 │ 向量数据库市场规模突破10亿美元
2024-06 │ Claude 3.5支持200K上下文
2024-08 │ Context Rot研究论文发表
2024-12 │ Agent框架月下载量超1000万次

2025-2026：Harness工程时代

2025-08 │ OpenAI Codex团队开始零手写代码实验
2025-12 │ Viv提出Harness Engineering术语
2026-02-11 │ OpenAI发布Harness Engineering文章
2026-02-12 │ Can Bölük发表The Harness Problem
2026-03-12 │ HumanLayer发表Skill Issue
2026-04-02 │ Martin Fowler发表分类框架
2026-04-10 │ 首份Harness Engineering调查报告发布

演进里程碑对比

里程碑	提示词工程	上下文工程	Harness工程
核心突破	Chain-of-Thought	RAG架构	前馈/反馈控制
代表工具	OpenAI Playground	LangChain	AGENTS.md + Skills
关键指标	提示词效果	检索准确率	系统可靠性
成本焦点	Token使用量	向量存储成本	模型分层优化

实践案例对比

同一个任务：开发一个API端点

1. 提示词工程方式 (2022)

请编写一个Python Flask API端点，接收用户注册信息，
验证邮箱格式，保存到数据库，返回用户ID。

问题： - 可能需要多次调整Prompt - 无法保证代码质量 - 没有测试和验证 - 上下文有限，无法提供完整项目结构

2. 上下文工程方式 (2024)

# 使用LangChain + RAG
retriever.search("Flask API best practices")
retriever.search("database schema for user registration")
retriever.search("email validation patterns")

# 注入相关文档到上下文
context = get_relevant_docs()
prompt = f"{context}\n请编写一个Python Flask API端点..."

改进： - 可以获取相关知识和最佳实践 - 基于现有代码库模式 - 支持更复杂的任务

局限： - 仍然是一次性查询-响应 - 缺乏系统性质量控制 - 无法保证架构一致性

3. Harness工程方式 (2026)

1. AGENTS.md提供项目架构约束
2. 激活"Flask API开发" Skill
3. AI生成代码
4. 自动运行Linter和类型检查（反馈控制）
5. 如有错误，AI自我纠正
6. 运行单元测试
7. 生成文档和API说明

优势： - 系统性质量控制 - 架构一致性保障 - 自动化反馈循环 - 成本优化（便宜检查 + 关键时审查）

成本对比分析

任务类型	提示词工程	上下文工程	Harness工程
简单查询	$0.01	$0.02	$0.015
代码生成	$0.05	$0.08	$0.04
复杂功能	$0.20	$0.15	$0.10
维护成本	高	中	低

关键发现：Harness工程通过预防错误和自动化检查，降低了总体成本。

未来发展趋势

1. 标准化与工具化

Harness配置标准：行业统一的配置文件格式
自动化优化工具：AI自动优化自身Harness配置
性能基准测试：标准化的Harness性能评估套件

2. 智能化演进

自适应Harness：根据任务类型自动调整配置
预测性优化：预判可能失败点，提前加强控制
自我演进：AI从失败中学习，改进自身工作环境

3. 专业化分工

新角色涌现：
Harness工程师
AI环境架构师
反馈循环设计师
专业化工具：
Harness配置管理平台
性能监控和分析工具
团队协作和版本控制

4. 生态系统整合

与现有DevOps工具链集成：
CI/CD流水线
监控和可观测性平台
安全扫描工具
多云和多环境支持：
跨云平台部署
混合环境管理
边缘计算集成

5. 伦理与安全

可解释性增强：Harness决策过程透明化
安全边界强化：防止越权和滥用
合规性自动化：自动验证法规遵循情况

总结与启示

核心演进逻辑

从技巧到系统：单次Prompt优化 → 上下文管理 → 完整环境设计
从被动到主动：等待AI响应 → 指导AI工作 → 设计AI工作方式
从成本中心到价值中心：降低Token费用 → 提高输出质量 → 系统化提效

对技术团队的启示

1. 思维转变

从：关注模型版本和Prompt技巧
到：关注工作环境设计和反馈循环构建
心态：从"AI使用者"转变为"AI工作环境设计师"

2. 技能发展

新兴技能需求：
系统化思维和架构设计
反馈机制和自动化测试
成本分析和优化策略
团队协作和知识管理

3. 组织变革

团队结构：建立专门的Harness工程团队
流程集成：将Harness设计纳入开发流程
文化建设：从快速试错到系统化可靠性的价值观转变

对技术领导者的建议

投资基础设施建设：Harness工程是新的技术基础设施
培养跨学科人才：需要工程、测试、运维的融合技能
建立度量体系：不仅要度量代码产出，更要度量系统可靠性
拥抱渐进式变革：从简单Harness开始，逐步扩展和优化

最终结论

Harness Engineering不是AI工程的终点，而是工程化思维在AI时代的必然延伸。它代表了从"使用工具"到"设计工具使用方式"的根本转变。正如软件开发从手写代码到使用框架和工具链的演进一样，AI工程正在经历类似的成熟化过程。

未来不属于最会提问的人，也不属于拥有最多数据的人，而是属于最会设计AI工作环境的人。

📚 延伸阅读

必读文献

Martin Fowler (2026) - Harness engineering for coding agent users
OpenAI (2026) - Harness engineering: leveraging Codex in an agent-first world
Can Bölük (2026) - The Harness Problem
HumanLayer (2026) - Skill Issue: Harness Engineering for Coding Agents

历史文献

Google Research (2022) - Chain-of-Thought Prompting
Meta AI (2023) - Retrieval-Augmented Generation
Anthropic (2024) - Context Rot in Large Language Models

开源项目

oh-my-openagent - 开源Harness工具集
LangChain - 上下文工程时代的标准框架
Claude Code SDK - 官方开发工具包

文档维护说明：
本文档将每季度更新一次，纳入最新的行业实践和技术突破。
欢迎提交新的案例研究和实践经验分享。

最后更新：2026-04-12 | 文档状态：✅ 生产就绪