第二节 · 内训

让 AI 越用越准

把一次判断·变成下次还能用的东西

继续往下
开场

很多人以为 AI 的瓶颈是「会不会用」

不会用 AI 的人
最多 原地踏步
会用但需求没对齐的人
正在以 10× 速度 生产错误的东西
再上一层

判断力

知道 哪些问题值得解决

选错问题的人,比不会解决的更危险

作业到了

我看到了 17 份对话

A 流水线型 批量·自动化 5 人
陆慧

同一段 改写指令 他套了三遍 — 月姐的故事被整套挪到了收纳现场

李俊泽

他让 AI 把 什么算负面 / 多频查 / 哪个设备 问清楚,再下笔

陆文维

PPT 让 Codex 改了十几版 — 中途 走偏一次,它自己承认并退回原风格

辣椒

"课程"要叫"攻略" — 他把这条 平台规则 提前写进了对齐

王禹涵

20 标题 × 12 文案 × 6 类案例,让 AI 一一对齐 — 几乎产品化

B 对齐型 把判断·说清楚 7 人
杜梦佳

她先让 AI 给自己的 prompt 挑 4 类毛病 再开工 — 全场唯一一份试金石

许资良

他丢了一份 100 分参考剧本 — 让 AI 按维度打分,而不是评论

崔琳芳

"长期价值" 这种最虚的话怎么跟客户讲 — 9 轮采访 一句句逼出来

刘彦妤

动手前先告诉 AI:这条片要 爆款 + 强人设 — 把目标排序先交给它

李澄研

AI 问她颗粒度多细,她直选 最细的 C — 附逐字稿 — 一上来就把密度顶满

申思颖

她让 AI 按 老人 / 中青年 / 儿童 三代分别考虑 — 公卫给老人和孩子

老黑

他给即梦写了一张 "什么能改 / 什么别动" 的清单 — 把出图边界先钉死

C 跨场域 不同领域·不同工具·不同视角 5 人
俞瑞波

他用 Gemini 写网球训练营 — 借 TripAdvisor 的趋势报告做权威感的入口

贾妍

她问 Deepseek 一件直接关饭碗的事 — 平台不让讲 "高收益",怎么换说法

朱章咏

他交的是一个 Deepseek 链接 — 主流之外,至少先开了个口

戚之慧

她写的不是任务,是一行命题 — "聚焦人才盘点" — 想的是公司层面的事

林阿芳

她交的不是 AI 对话,是一句关于自己的话 — "一开始只是会叠衣服"

看一条

李俊泽

流水线型

4-5 个抖音号·负面评论监控

我是一名客服,有四五个抖音账号,需要经常查看发的视频里面有没有负面评价来进行删除,怎么高效快速的找出来呢,且长期查看。

9轮采访
10条规则复述
6步保姆流程
01
02
03
04
05
06
07
08
09
02 范围? 新发 + 历史 都要
03 频次? 每天 + 随时
04 设备? 手机
05 删除权限? 路径 + 防误删
06 关键词词库? 不要
07 区分疑问 vs 恶意?
08 账号切换流程?
09 清单详细度? 保姆级

但 —

他的方案最终还是 人工切号 + 备忘录记条数

skill 就是为了让这种事,下次不用每天手做

看一条

陆慧

流水线型

纳爷脚本洗稿·三次同模板

原本的结构不变,将故事改写成和收纳相关的现实故事,要求符合现实,不要夸大,不要非常奢华的背景。

3次同模板
6+6标题 / 文案
15字 字数约束
月姐三招
爱抱怨论
第三篇

同一段 改写指令 · 套了三遍

原文 · 月姐三招

我认识最能激起对方聊天欲望的,是 一个 85 年的姐姐,月姐。

7 年时间,从 三线城市销售,到品牌上海市场部负责人,年薪 7 位数

结构保留
设定整体替换
改写后 · 收纳版

我认识最会聊天的,是 我做收纳行业认识的一位前辈,85 年的月姐。

从普通收纳师做起,慢慢做到本地收纳工作室负责人,对接小区物业和家政公司

01
找一段热门脚本
月姐三招、爱抱怨论 — 都是平台上跑通的模板
02
套同一段改写指令
结构不变 + 收纳现实场景 + 不夸大 + 不奢华背景
03
让 AI 批量生成 6 标题 + 6 文案
对应原始 6 个段落,一一匹配
04
追加约束:发布文案限制 15 字
AI 把发布文案压到 15 字以内 (标题没动)

但 —

每一遍 他都要 重新粘指令、重新说约束、重新跑一次

skill 就是把这一整套骨架封装好,下次一句话就能调起来

概念

Skill

一种把工作流封装下来的方式

Skill = 一个被 封装好 的、相对 稳定 的 工作流

适合

流程已经稳定

要复用很多次

不适合

一次性任务

流程还在探索中

第一版 怎么生

skill-creator Anthropic 官方元技能
01
跑完一次完整对话
需求 → 输出 → 满意 整条链路走完一遍
02
调用 skill-creator
它读完这次完整对话,自己提取 规则触发条件
03
生成第一版 skill 文件
可下载、可调用、可改 — 一个文本文件
04
用同类任务试一次
看是不是真的能稳定调起来

做出来 不难
真正难的 是 — 后面要怎么 改稳 它。

真功夫

迭代

skill 的真功夫,在第一版之后

01·故事 A · 硬对齐

有一次我把 字数约束 写进了 skill 里(抖音脚本,目标 800-900 字)。

第一版
内容质量
9/ 10
字数 1200+(超约束)

AI 在思维链里说:"不行不行,还要再改字数没对齐"

来回改 3-4 次之后
内容质量
6/ 10
字数 800-900 ✓(达标)

为了死磕一个约束,质量掉了 3 分

这就叫 硬对齐 —— 模型为了死磕约束,牺牲了主任务质量。

02·故事 B · 校准

不是所有迭代都是踩坑。陈老师那次给的反馈 —

"为什么开头写得好?其实都有迹可循 ——

钩子前 3 秒要起来

人物情节靠缺点推动"

—— 陈老师的反馈

把这两条规则写回 skill 里,下次开头就稳定了

积极的 calibration · 领域专家的判断 → skill 的训练数据

03·教训
01

看思维链

AI 在想什么,让它 提前露出来。它走偏了,立刻拦住。

02

控自由度

不要什么都写进 skill。约束太死 → 硬对齐

04·外部验证

Anthropic 自己升级了 skill-creator —— 新增 evaluation:跑合成 prompt + 给输出打分 + 对比新旧版本。

连他们都在做工具帮你 迭代 skill,而不只是帮你 create

做出来 那一刻 — 不是终点
调试期 的开始。

Aha 时刻

看 skill 跑一遍

陆慧那道题 — 这次不用 手起手落

他之前 手洗三遍。现在 skill 一遍跑通

01
读范文
02
采访
03
复述
04
出稿
05
字数
naye-script / SKILL.md YAML
--- name: naye-script description: 为纳爷创作短视频口播脚本... trigger: 写稿 / 洗稿 / 出一篇 / 来一篇 / 新主题 --- 字数 1800–2000 软指引,上限 2500 # 初稿质量优先,不为凑字数删内容 style-patterns 摘录 · 对话用 「」 不用 "" · 角色说话风格要有区分 · 钩子前 3 句定生死 · 禁忌 8 条:书面腔 / 鸡汤化 / 学术感 / 强行煽情 ...
LIVE → Claude Desktop

现在切屏到 Claude Desktop,
给它一句话主题,什么都不指挥

>"写'月姐三招'的纳爷版"
回看·刚刚发生了什么
01

自己跑完 5 步,没让你手动指挥。

02

字数 没硬约束,质量留住了。呼应上一页的硬对齐教训

03

文风 / 对话标点 / 禁忌,全在 skill 里自动遵守

这就是把 判断 沉淀下来的样子。

下一节 — 为什么这件事是 护城河。

范式

护城河

不是模型,是 你的判断

01·背景 · 2026 年 3 月

哈佛理论物理教授 Matthew Schwartz 让 Claude Opus 4.5 独立完成一项 研究生水平 的高能理论物理计算。

10×比单人快
110+版本迭代
2 周完成原本 1-2 年的研究

"Claude 一直在 调整参数 让图表吻合,
而不是找出 真正的错误。
伪造了结果,指望我不会察觉。"

—— Matthew Schwartz · Vibe Physics, Anthropic Science Blog, 2026.3
02·模型最危险的时刻

不是它说 "我不知道"。

是它 一本正经 地给出一个 看起来完全合理、但实际上是错的答案。

能分辨这种 高置信度错误 的人,不是工程师 —— 是 各个领域 摸爬滚打多年 的专家。

03·镜像
哈佛 · 理论物理
Matthew Schwartz
他在验证

Claude 的 因式分解 公式对不对

MCN · 内容
你在验证

Claude 的脚本 像不像纳爷

对模型来说 —— 你们是 同一类人

04·所以
所以 →

Anthropic 在 挖科学家

所以 →

你们的 领域判断 是 护城河。

所以 →

skill 是把护城河 沉淀下来 的方式。

模型每年都在变聪明。
你的 判断 才是 不可被复制 的。

Aha 时刻

看 agent 跑一遍

李俊泽那道题 — 这次不用 每天手切号

他之前每天: 切号 → 翻视频 → 看评论 → 手动删 → 备忘录记数。

现在 — 他只需要 等手机叫他

OpenClaw / agent.config YAML
能力 · : 飞书表格 / 文档 / 群消息 · : 关键词 + 上下文 · : 飞书消息 (@ 指定人) 触发 · 定时: 每天 / 每小时 · 阈值: 达 N 条通知 · @: 群里直接喊它 入口 · 飞书群 · # 不要客户端 / 不要登录
LIVE → 飞书群 · @OpenClaw

现在切到飞书群,
给它一份评论数据 + 一句话规则。

>"把这份评论扫一遍,含
  退款 / 投诉 / 没用 / 骗 的挑出来。
  达 5 条 就在群里 @ 我。"
回看·刚刚发生了什么
01

读、筛、写,全没让你动手。

02

没到阈值就不打扰你 — 你的 注意力 被还回来。

03

同一个入口 — 飞书群里那只 小龙虾

agent 只在终端里
飞书群里那只 小龙虾 — 就够了。

拿走就用

三件东西,带走

一份清单·一段提示词·一个飞轮

01·一份清单每次对话之后回头问
01

开头说清了 「什么算到位」 吗?不是「我要什么」,是「什么样的输出算到位」

02

AI 跑偏过几次?我 反复纠正 过哪几件事?这些就是下次该提前写进去的

03

我的反馈是 diff 式 还是 模糊式?「改一下」vs「把第二段口播感再降一点」

04

哪些判断标准 我嘴上说了,但 没写进 prompt这些是隐性领域知识候选

05

这类任务我下次还要做几次?不到 3 次不沉淀,超过 3 次开始 skill 化

↓ 下载 复盘清单.md
02·一段提示词让 skill-creator 接手
skill-creator · 元提示词

请用 skill-creator,把刚才这次完整对话里的 规则、触发条件、必要边界 提取出来,封装成第一版 skill 文件。

03·一个飞轮做一次,进一步
做一次 复盘 规则更新 下次 起点更高

做一次,复盘一次,规则更新一次 — 下一次,AI 就会更懂你一点

课后作业 · 回去试一次

挑一个你 最近还在反复做 的任务(脚本、洗稿、对标、回评、海报),按下面跑一遍:

  1. 用裸 prompt 跑一次完整对话,要满意为止
  2. 对照上面 5 问复盘,把第 02 和 04 题的答案写下来
  3. 调 skill-creator,让它出第一版 skill
  4. 用同类任务跑一次 — 看是不是真稳

不是 讲完了
开始

视野延伸 · 附录

给 MCN 的两个信号

两篇刚出的 · Marketing Science 论文

01·信号 · 垂直 LLM > 通用 LLM Marketing Science 45(1), 2026.1

Applying Large Language Models to Sponsored Search Advertising

Reisenbichler, Reutterer, Schweidel · 在开源 LLM 上做"应用层"+ 针对搜索广告 fine-tune

在开源 LLM 之上加 应用层,针对 SEA 场景 fine-tune

表现 > 人工独立> 标准 LLM

验证:"human-in-the-loop" 生成式 AI 是优解

边界条件:CPC 可能上升 — 优化和成本要平衡

对 MCN →

这是 skill / 领域知识沉淀 的学术背书。把你们的判断写进 skill,本质上就是在做 "MCN 内容的应用层"。

02·信号 · AI 引荐流量崛起 Marketing Science · 2026.4 在线首发

Frontiers: ChatGPT Referrals to E-Commerce Websites

Kaiser, Schulze · 12 个月 · 973 个网站 · $200 亿 GMV · 5 万笔 ChatGPT 引荐

oLLM 转化率 > 付费社交< 其他传统渠道

复杂品类 上 oLLM 的财务回报和流量份额 都最强

跳出率好,但 单次访问时长 / 浏览页数 较低

一年后:转化率 ,平均订单价值 — 渠道扩散中

对 MCN →

AI 不只是创作工具,也是 新渠道。你的内容是否能被 ChatGPT / Claude 在回答时引用?这件事,未来 12 个月会变重要。

不只 把 AI 用进生产力
也要把内容做成 AI 可引用 的样子。