一文讲透模型边界, AI落地第一课: 别用AI

AI落地需明确模型边界,存在“能用AI就用”与“能不用就不用”两种路径,核心在于把握可观测性,通过处理错误、建立反馈闭环持续优化,数据工程是其演进的关键驱动力。

最近常说的一句话是:做AI应用一定要了解模型边界!这里所谓模型边界涉及了AI应用的两个流派:能用AI就用AI;能不用AI就不用AI;

就简单的三句话还涉及了很多隐性知识,包括RAG技术的最初开创者之一DouweKiela的一些观点:关注可观测性,而非仅仅准确性。

AI项目的可观测性比准确率更重要。在保证基础准确率后,重点要转向归因追溯、审计追踪和错误分析,然后,建立反馈闭环监控系统,确保合规并持续改进。

在AI项目中,达到100%的准确性几乎是不可能的。即使能达到90%或95%的准确率,企业现在更关心的是如何处理那缺失的5%或10%——即不准确的部分。当出现错误时该如何应对?

除了基本的准确性要求外,关键在于如何处理不准确性,这就需要可观测性。需要仔细评估系统表现,并确保有适当的审计追踪,尤其是在受监管行业。

而这里所谓的可观测性,只在能不用AI就不用AI的模式下可行,他的背后体现的是模型的边界认知:追求完美准确率不现实,关键是要知道错在哪、为什么错、怎么改!并且能证明技术框架是闭环可重复的!

今天我们就用一个简单案例来解释解释什么是能用AI就用AI,什么是能不用AI就不用AI,什么又是AI项目的可观测性。

模型边界

之前AI课的时候学员过多,需要一个排班系统,大概的需求是:

学员在微信群打出自己每天的空余时间,AI会主动统计大家都有空的时间,如果满足条件就预约会议,学员在群里的聊天信息如下:

A:20.00-22.00有空

B:18-20点没空,其他都可以

C:二十点后可以;

D:下午4点前没空;

E:我随便了,都行;

当然,实际功能会有很多提醒、少数服从多数,协调学员调整时间等功能,但主体需求就是一个时间算法。

非常简单的需求,但就是这么一个简单的系统就能聊清楚什么是模型边界。

首先是能用AI就AI的技术路径:

1.能用AI就AI

全部用AI就很简单了,直接一股脑丢给模型加一句“请问今天我该安排什么时间上课”就行:

GPT的回答:

DeepSeek的回答:

如果在简单场景下,能用AI就AI其实是最优解,包括很多智能体如Manus在简单任务里面的表现是非常不错的。

随后就是,能不用AI就不用AI:

2.最小化AI应用

所谓最小化AI应用,就是只在不得不使用AI的地方使用,比如这里不得不使用的地方就是提取关键词,也就是语义识别每个学员的空闲时间:

A:空闲时间段为20:00-22:00(即晚上8点到10点)。

B:18:00-20:00没空,其他时间空闲(即00:00-18:00和20:00-24:00)。

C:二十点后可以,即20:00-24:00空闲。

D:下午4点前没空,即16:00-24:00空闲(下午4点为16:00)。

E:所有时间都空闲(即00:00-24:00)。

拿到空闲时间后,再自己用算法去做实现,这里马上就涉及了另一个问题了:在最小化AI应用的场景里,什么时候需要用AI?

3.泛化能力

答案很简单,在充满泛化场景的时候需要,比如上面ABCDE的回答,你很难用正则的方法给他匹配出来,类似这种关键词(关键知识)的提取只能依靠AI;

类似的场景是,我要求学员的昵称必须是学号-昵称-城市的格式,但学员一定会做得五花八门,比如就有学号_昵称_城市、城市_学号_昵称、学号昵称@城市等等莫名其妙的排布方式。

这种在学员自己设置后,也只有AI能快速帮他们做更正。

所有类似这种泛化要求较高的往往都必须AI出场,并且AI在这个领域做得挺好的!

那么,什么又是模型能力可观测性呢?

4.可观测性

答案也非常简单:如果出现了AI识别不了的情况,能很快识别并解决!

比如现在出现一个F,他给的答案比较另类:戌亥之时,余有暇。

类似于这种回答,模型很可能识别不了,那么排班系统就会出问题,这个在能不用AI就不用AI的模式下就可以被识别并优化。

这里的可以被识别且优化就是我们所谓的模型能力可观测。

最后一个问题:如何优化?

5.如何优化?

如果发现问题要优化就很简单了,最简单的做法是将戌亥之时,余有暇。对应的时间当放到提示词,做一个古文时间与现在时间的映射。

如果要泛化能力强一点就可以启动后训练,可以是微调也可以是RL,都一样。

以上整个就是所谓模型边界最简单的描述,真实场景当然会复杂太多!

演进逻辑

其实眼尖的同学已经发现了,所谓最大化模型使用与最小化模型使用在这个案例里面其实没有明显的界限,以最小化模型使用优化后的模型(训练过)来说,他是完全可以被最大化模型使用所利用的。

只不过差别是:是否建立了这套观测机制,而观测机制对应的最终多半都是数据工程…

AI应用的终局,都是数据工程,数据如何配合最小化模型应用把准确率做到99%,在这个基础上就可以切换至最大化模型使用增加整体的AI应用泛化能力。

学员排班系统当然很简单,但他背后体现出来的模型边界、能用/不用AI、可观测性优先的理念,却是构建可靠生产级别AI应用的基石!

这套逻辑在教育、法律、金融、医疗等对准确性、合规性、可解释性要求极高的领域,尤为重要,而其演进的核心驱动力,正是数据工程。

举个例子:

AI边界与数据飞轮

合同审批对于稍微大点的公司都是头疼的事情,文本冗杂、法规多变、零容错等都是挑战…

最小化模型应用

这个场景对模型最核心的诉求是高确定性动作:

精准抽取关键字段(金额、法律适用地等),F1值≥0.98;

规则引擎比对白名单条款,覆盖率≥95%;

异常即熔断:遇未知条款自动转人工,日缺失率≤0.5%。

最大化模型应用

当基础链路稳定(>99%精度),解锁高阶能力:

生成风险摘要(改写建议+法条链接);

智能追踪多版本差异;

自动草拟谈判邮件;

有了以上基础就可以实现数据飞轮:

飞轮系统

这里的应用可观测性的结果是各种错误数据收集:

错误样本:解析失败条款→标注→微调模型;

指标实时监控:字段缺失率超0.5%触发警报,AI与规则结论冲突超0.1%启动双检;

实现上跟上面的排班系统理念类似,只不过复杂度高了不少,具体来说就四个点:

错误转化链:人工修正→自动生成训练对→对抗样本增强

精准训练:按错误类型分库+小模块微调

闭环验证:历史错误测试/影子模式/业务指标监控

溯源机制:追踪码贯穿数据-模型-决策全链路

系统自动捕获合同审核中的AI错误(如条款误判、引用失效),触发人工复核流程。法务人员在专用界面修正错误时,同步生成〈错误样本-正确答案〉数据对,并标注错误类型。

捕获的数据进入自动化处理管道:首先清洗无效样本,随后生成对抗性变体(例如将误判条款改写为不同表述)。处理后的数据按类型归档至专项训练库,例如“赔偿条款库”或“数据跨境库”。

模型更新采用靶向训练策略:每周选取特定错误类型的专库数据,对基础模型进行轻量化微调。新模型上线前至少要确定在历史错误样本上测试复发率…

其他,大家再自己去理解吧,说再多就要露底了…

结语

当前AI行业受Manus类智能体思维影响严重,总是想要一口气吃个大胖子,各种宣导模型即所有,这种其实是不对的。

真正可落地的AI应用,并不是一股脑交给模型或完全依赖规则的二选一,而是在最小化与最大化模型使用之间建立一条以可观测性为核心的演进曲线:

先用小而精的AI能力解决泛化难点,配合明确的监控指标、可追溯链路和数据飞轮,不断把错误转化为增量资产;当基础链路稳定到99%以上,再逐步释放大模型的创造性与泛化力。