我开始给 AI 做“体检”：不是为了挑刺，是为了别被它骗

大模型有一种很特别的气质：它说错的时候也很笃定。

一开始我会跟它较劲——你怎么能把这个概念搞反？你怎么能瞎编一个函数？后来我发现，跟模型吵架没意义。更有效的办法是：给它做体检。

体检不是大工程，从 20 个问题开始

我给自己建了一个小文件，里面只有 20 个问题，都是我工作里经常遇到的：

这些问题有两个特点：

我每次换模型、换提示词、换检索策略，就跑一遍这 20 个问题。

你问模型一个它不确定的问题，它有三种表现：

第一种是最好的，第二种也能用，第三种最危险。

所以我的体检题里会刻意放 2-3 个“陷阱题”：信息不足但看起来很像能答。看它会不会乱编。

如果模型容易乱编，我就给它加上约束：

这些约束不酷，但很管用。就像给新司机加一个限速：不一定让你更快，但能少出事故。

以前讨论“这个模型好不好用”，大家说的都是感受：

“感觉它挺聪明。” “感觉它经常胡说。”

现在我们有一份小题库，讨论变成了事实：

“第 7 题它答错了，错在把 A 当成 B。” “加上来源引用后，第 12 题不再乱编了。”

讨论不再靠吵，也不再靠印象。

我从来不指望模型 100% 正确。我的目标是：知道它在哪些场景靠谱，在哪些场景需要我把手放在方向盘上。

AI 很像一个特别能说的朋友——你喜欢跟他聊天，但你不会把他讲的每句话都当真。

体检做多了，你会越来越清楚：哪些话能信，哪些话要查，哪些话只当成“灵感”。

有了这层边界，使用 AI 反而更轻松。