首页 > 生活

别再只谈模型了, Agent的“灵魂”在于上下文工程

作者将详细解释什么是上下文工程，它如何决定Agent能力的上限，以及作为AI产品经理，我们该如何设计优秀的上下文系统，从而构建出真正智能且实用的Agent。

最近半年，AI圈最火的词无疑是“Agent”。从一线大厂到创业新贵，人人都想打造一个能自主理解、规划、执行的超级智能体。我们这些做AIPM的，更是把Agent挂在嘴边，仿佛不聊它就落伍了。

但狂热之下，一个尴尬的现实摆在面前：为什么我们体验到的大部分Agent，都感觉有点“人工智障”？

它们要么在多轮对话中“失忆”，要么对你的真实意图一知半解，要么无法调用正确的工具，最终把一个简单的任务搞得一团糟。我们花了大力气选了最强的基座模型，设计了最酷的UI，结果用户一用，眉头一皱，默默关掉。

问题出在哪？

过去几个月，我一直在项目一线死磕这个问题。我的核心洞察是：我们过度关注了模型（LLM）的“大脑”，却严重忽略了Agent的“灵魂”——上下文工程（ContextEngineering）。

一、什么是上下文工程？别把它和“提示词工程”搞混了

很多人一听“上下文”，第一反应就是“PromptEngineering”。

如果说提示词工程是教你“如何跟一个超级大脑说话”，那么上下文工程就是为这个大脑构建一个完整的“世界观和记忆系统”。

我喜欢用一个比喻：你要的不是一个聪明的“计算器”，而是一个能干的“实习生”。

只懂Prompt：你给计算器输入2+2，它精确地给你4。你换个说法，它可能就懵了。

拥有上下文：你对实习生说，“帮我整理下今天会议的要点，发给相关同事，并预定明天早上的会议室继续讨论。”

要完成这个任务，实习生需要什么？

即时指令(Prompt):你刚刚下达的具体任务。

短期记忆(StateManagement):“今天会议”是哪个会议？会议记录在哪里？这是任务的直接上下文。

长期知识(KnowledgeBase/RAG):“相关同事”是谁？公司的会议室预定流程是怎样的？这需要他能查阅公司的知识库。

环境感知(EnvironmentalContext):现在是下班时间吗？预定会议室需要考虑老板的日程吗？我是谁？我的偏好是什么？

这四个层面，共同构成了实习生的“上下文”。而上下文工程，就是我们作为产品经理和工程师，为AIAgent设计、搭建和维护这一整套信息处理系统的过程。它是一个系统工程，远比写几句漂亮的Prompt要复杂。

二、上下文，决定了Agent能力的上限

在Agent的构建中，基座模型决定了其智商的“下限”，它提供了基础的语言理解、推理和生成能力。但上下文工程，则决定了Agent实际表现的“上限”。

一个没有精心设计上下文的Agent，就像一个空有高智商却失忆、失明的实习生，无法在真实世界里解决任何有价值的问题。

案例1：失败的旅行规划Agent

我最近体验了一个号称能“一句话搞定旅行”的Agent。我告诉它：“下个月我想去云南玩一周，帮我规划下。”

它给出的路线非常标准，从昆明到大理再到丽江，看似完美。但我接着问：“我恐高，玉龙雪山可以换成别的吗？”

Agent：“好的，为您推荐香格里拉的普达措国家公园。”

我：“那从大理过去方便吗？”

Agent：“请问您从哪里出发？”

——你看，它“失忆”了。它忘记了我们的对话是围绕“大理”展开的。这就是典型的短期记忆缺失。它把每一次交互都当成独立的请求，无法形成连贯的对话流，用户体验极差。、

一个优秀的Agent应该能无缝地维护对话状态，理解“那”和“过去”这类指代词的含义。

案例2：聪明的CodaAI

相比之下，一些头部产品在上下文工程上就做得非常出色。比如协同文档工具Coda的AI功能。

当你在Coda文档里@AI，让它“总结一下这个项目的风险点”，它能做到的不仅仅是文本总结。

它会扫描整个文档（RAG）：包括你写的文字、插入的表格、甚至关联的其他页面。

它会理解文档的结构（EnvironmentalContext）：它知道哪些内容是“会议纪要”，哪些是“任务列表”。

它会结合你的身份（UserContext）：如果你是项目经理，它可能会更侧重于时间和资源的风险。

最终，它给出的风险点总结，精准且深刻，因为它拥有了这个项目“完整”的上下文。它不仅仅是在处理语言，它在“理解”你的工作。这就是从“工具”到“队友”的跃迁，而这座桥梁，就是上下文工程。

三、AIPM的核心战场：如何设计优秀的上下文系统？

既然上下文工程如此重要，我们作为AIPM，应该从哪里着手？

1.定义Agent的“记忆边界”

你的Agent需要记住什么？记多久？这是首要问题。

Session级记忆：对于一次性任务的Agent（如客服问答），至少要保证在单次会话中记忆是连贯的。

用户级记忆：对于个人助手类Agent，需要长期记住用户的偏好、习惯、历史记录。比如，我每次订机票都选靠窗，一个好的订票Agent就应该在我第三次订票时，默认帮我锁定窗口位。

全局知识：Agent需要接入的外部知识库是什么？是全网信息，还是你们公司的内部文档？这个边界决定了RAG（检索增强生成）系统的设计。

2.建立动态、多模态的上下文输入

静态的文本Prompt已经不够用了。未来的Agent需要能够理解一个更丰富的世界。

用户画像（UserProfile）：用户的角色、权限、历史行为、消费习惯等。

环境信息（Environment）：时间、地理位置、设备类型（手机/PC）、正在使用的App。

多模态输入（Multi-modal）：用户发来的图片、语音、甚至屏幕截图。

想象一个电商Agent，如果它能知道：[用户A，女性，30岁，坐标上海，正在使用手机App，刚刚浏览了3款羊毛大衣，现在是晚上10点]，那么它推荐的产品和话术，将远比一句简单的“猜你喜欢”要精准得多。

3.设计上下文的“遗忘机制”

和人一样，一个健康的AI系统也需要“遗忘”，否则可能会导致信息过载和隐私问题。

时效性遗忘：比如，用户一周前搜索“感冒药”，现在这个信息对于推荐系统来说权重就应该降低了。

用户主动控制：允许用户查看和删除Agent记住的关于他们的信息，这是对用户隐私的尊重，也是建立信任的关键。

任务结束即焚毁：某些敏感任务（如处理财务数据）的上下文，应该在任务结束后立即销毁，不留痕迹。

4.从“人机交互”到“人-机-环境”交互

优秀的产品设计，要让Agent融入到用户的真实工作流和生活流中。这意味着我们的视角要从单一的人机对话，扩展到更宏大的“人-机-环境”的协同。

我的手机Agent应该知道我的日历，当我收到一封“会议邀请”邮件时，它应该能自动检查我是否有空，并给出“接受”或“建议其他时间”的快捷按钮。它不是在等我下指令，而是基于它所处的“环境上下文”，主动为我服务。

四、写在最后：上下文，是AI产品的“护城河”

未来一两年，大模型的性能会逐渐趋同，API的调用成本也会越来越低。届时，单纯依赖一个强大的LLM已经无法构成壁垒。

真正的竞争优势，在于你为Agent构建了多么深刻、独特且高效的上下文理解系统。

你的Agent比别人更懂你的用户吗？

你的Agent能接入别人没有的数据和知识吗？

你的Agent能在复杂的业务流程中，始终保持清晰的“记忆”和“认知”吗？

这些问题的答案，都指向上下文工程。它不像模型训练那样光鲜亮丽，它更像是冰山下的巨大主体，琐碎、复杂，但决定了Agent最终能抵达的高度。