第二节 · 内训

让 AI 越用越准

把一次判断·变成下次还能用的东西

继续往下 ⌄

开场

很多人以为 AI 的瓶颈是「会不会用」

不会用 AI 的人

最多原地踏步

会用但需求没对齐的人

正在以 10× 速度生产错误的东西

再上一层

是判断力

知道哪些问题值得解决

选错问题的人，比不会解决的更危险

A 流水线型批量·自动化 5 人

陆慧

同一段改写指令他套了三遍 — 月姐的故事被整套挪到了收纳现场

李俊泽

他让 AI 把什么算负面 / 多频查 / 哪个设备问清楚，再下笔

陆文维

PPT 让 Codex 改了十几版 — 中途走偏一次，它自己承认并退回原风格

辣椒

"课程"要叫"攻略" — 他把这条平台规则提前写进了对齐

王禹涵

20 标题 × 12 文案 × 6 类案例，让 AI 一一对齐 — 几乎产品化

B 对齐型把判断·说清楚 7 人

杜梦佳

她先让 AI 给自己的 prompt 挑 4 类毛病再开工 — 全场唯一一份试金石

许资良

他丢了一份 100 分参考剧本 — 让 AI 按维度打分，而不是评论

崔琳芳

"长期价值" 这种最虚的话怎么跟客户讲 — 9 轮采访一句句逼出来

刘彦妤

动手前先告诉 AI:这条片要爆款 + 强人设 — 把目标排序先交给它

李澄研

AI 问她颗粒度多细，她直选最细的 C — 附逐字稿 — 一上来就把密度顶满

申思颖

她让 AI 按老人 / 中青年 / 儿童三代分别考虑 — 公卫给老人和孩子

老黑

他给即梦写了一张 "什么能改 / 什么别动" 的清单 — 把出图边界先钉死

C 跨场域不同领域·不同工具·不同视角 5 人

俞瑞波

他用 Gemini 写网球训练营 — 借 TripAdvisor 的趋势报告做权威感的入口

贾妍

她问 Deepseek 一件直接关饭碗的事 — 平台不让讲 "高收益"，怎么换说法

朱章咏

他交的是一个 Deepseek 链接 — 主流之外，至少先开了个口

戚之慧

她写的不是任务，是一行命题 — "聚焦人才盘点" — 想的是公司层面的事

林阿芳

她交的不是 AI 对话，是一句关于自己的话 — "一开始只是会叠衣服"

看一条

李俊泽

流水线型

4-5 个抖音号·负面评论监控

我是一名客服，有四五个抖音账号，需要经常查看发的视频里面有没有负面评价来进行删除，怎么高效快速的找出来呢，且长期查看。

9轮采访

10条规则复述

6步保姆流程

01

02

03

04

05

06

07

08

09

轮问答

01 负面的定义？ C：退 / 退款 / 退费 / 学费 / 投诉 / 禁言 + 课程负面

02 范围？新发 + 历史都要

03 频次？每天 + 随时

04 设备？手机

05 删除权限？路径 + 防误删

06 关键词词库？不要

07 区分疑问 vs 恶意？要

08 账号切换流程？要

09 清单详细度？保姆级

但 —

他的方案最终还是人工切号 + 备忘录记条数。

skill 就是为了让这种事，下次不用每天手做。

看一条

陆慧

流水线型

纳爷脚本洗稿·三次同模板

原本的结构不变，将故事改写成和收纳相关的现实故事，要求符合现实，不要夸大，不要非常奢华的背景。

3次同模板

6+6标题 / 文案

15字字数约束

月姐三招

爱抱怨论

第三篇

同一段改写指令 · 套了三遍

原文 · 月姐三招

我认识最能激起对方聊天欲望的，是一个 85 年的姐姐，月姐。

7 年时间，从三线城市销售，到品牌上海市场部负责人，年薪 7 位数。

→ 结构保留
设定整体替换

改写后 · 收纳版

我认识最会聊天的，是我做收纳行业认识的一位前辈，85 年的月姐。

她从普通收纳师做起，慢慢做到本地收纳工作室负责人，对接小区物业和家政公司。

01

找一段热门脚本

月姐三招、爱抱怨论 — 都是平台上跑通的模板

02

套同一段改写指令

结构不变 + 收纳现实场景 + 不夸大 + 不奢华背景

03

让 AI 批量生成 6 标题 + 6 文案

对应原始 6 个段落，一一匹配

04

追加约束：发布文案限制 15 字

AI 把发布文案压到 15 字以内（标题没动）

但 —

每一遍他都要重新粘指令、重新说约束、重新跑一次。

skill 就是把这一整套骨架封装好，下次一句话就能调起来。

概念

Skill

一种把工作流封装下来的方式

Skill = 一个被封装好的、相对稳定的工作流

适合

流程已经稳定

要复用很多次

不适合

一次性任务

流程还在探索中

第一版怎么生？

skill-creator Anthropic 官方元技能

01

跑完一次完整对话

需求 → 输出 → 满意整条链路走完一遍

02

调用 skill-creator

它读完这次完整对话，自己提取规则和触发条件

03

生成第一版 skill 文件

可下载、可调用、可改 — 一个文本文件

04

用同类任务试一次

看是不是真的能稳定调起来

做出来不难。
真正难的是 — 后面要怎么改稳它。

真功夫

迭代

skill 的真功夫，在第一版之后

01·故事 A · 硬对齐

有一次我把字数约束写进了 skill 里（抖音脚本，目标 800-900 字）。

第一版

内容质量

9/ 10

字数 1200+（超约束）

AI 在思维链里说："不行不行，还要再改字数没对齐"

→

来回改 3-4 次之后

内容质量

6/ 10

字数 800-900 ✓（达标）

为了死磕一个约束，质量掉了 3 分

这就叫硬对齐 —— 模型为了死磕约束，牺牲了主任务质量。

02·故事 B · 校准

不是所有迭代都是踩坑。陈老师那次给的反馈 —

"为什么开头写得好？其实都有迹可循 ——

钩子前 3 秒要起来

人物情节靠缺点推动"
—— 陈老师的反馈

把这两条规则写回 skill 里，下次开头就稳定了。

积极的 calibration · 领域专家的判断 → skill 的训练数据

03·教训

01

看思维链

AI 在想什么，让它提前露出来。它走偏了，立刻拦住。

02

控自由度

不要什么都写进 skill。约束太死 → 硬对齐。

04·外部验证

Anthropic 自己升级了 skill-creator —— 新增 evaluation：跑合成 prompt + 给输出打分 + 对比新旧版本。

连他们都在做工具帮你迭代 skill，而不只是帮你 create

做出来那一刻 — 不是终点。
是调试期的开始。

Aha 时刻

看 skill 跑一遍

陆慧那道题 — 这次不用手起手落

他之前手洗三遍。现在 skill 一遍跑通。

01

读范文

02

采访

03

复述

04

出稿

05

字数

          
          naye-script / SKILL.md
          YAML
        
---
          name: naye-script
          description: 为纳爷创作短视频口播脚本...
          trigger: 写稿 / 洗稿 / 出一篇 / 来一篇 / 新主题
          ---

          字数
          1800–2000 软指引，上限 2500
          # 初稿质量优先，不为凑字数删内容

          style-patterns 摘录
          · 对话用 「」 不用 ""
          · 角色说话风格要有区分
          · 钩子前 3 句定生死
          · 禁忌 8 条：书面腔 / 鸡汤化 / 学术感 / 强行煽情 ...
        

          ↓ 下载 naye-script.skill
        

LIVE → Claude Desktop

现在切屏到 Claude Desktop，
给它一句话主题，什么都不指挥。

>"写'月姐三招'的纳爷版"

回看·刚刚发生了什么

01

它自己跑完 5 步，没让你手动指挥。

02

字数没硬约束，质量留住了。呼应上一页的硬对齐教训

03

文风 / 对话标点 / 禁忌，全在 skill 里自动遵守。

这就是把判断沉淀下来的样子。

下一节 — 为什么这件事是护城河。

范式

护城河

不是模型，是你的判断

01·背景 · 2026 年 3 月

哈佛理论物理教授 Matthew Schwartz 让 Claude Opus 4.5 独立完成一项研究生水平的高能理论物理计算。

10×比单人快

110+版本迭代

2 周完成原本 1-2 年的研究

"Claude 一直在调整参数让图表吻合，
而不是找出真正的错误。
它伪造了结果，指望我不会察觉。"
—— Matthew Schwartz · Vibe Physics, Anthropic Science Blog, 2026.3

02·模型最危险的时刻

不是它说 "我不知道"。

是它一本正经地给出一个看起来完全合理、但实际上是错的答案。

能分辨这种高置信度错误的人，不是工程师 —— 是各个领域摸爬滚打多年的专家。

03·镜像

哈佛 · 理论物理

Matthew Schwartz

他在验证

Claude 的因式分解公式对不对

≈

MCN · 内容

你

你在验证

Claude 的脚本像不像纳爷

对模型来说 —— 你们是同一类人

04·所以

所以 →

Anthropic 在挖科学家。

所以 →

你们的领域判断是护城河。

所以 →

skill 是把护城河沉淀下来的方式。

模型每年都在变聪明。
你的判断才是不可被复制的。

Aha 时刻

看 agent 跑一遍

李俊泽那道题 — 这次不用每天手切号

他之前每天: 切号 → 翻视频 → 看评论 → 手动删 → 备忘录记数。

现在 — 他只需要等手机叫他。

          
          OpenClaw / agent.config
          YAML
        
能力 · 读: 飞书表格 / 文档 / 群消息
          · 筛: 关键词 + 上下文
          · 写: 飞书消息 (@ 指定人)

          触发 · 定时: 每天 / 每小时
          · 阈值: 达 N 条通知
          · @: 群里直接喊它

          入口 · 飞书群
          · # 不要客户端 / 不要登录
        

          OpenClaw · Hermes wrapper for Claude
        

LIVE → 飞书群 · @OpenClaw

现在切到飞书群，
给它一份评论数据 + 一句话规则。

>"把这份评论扫一遍，含
退款 / 投诉 / 没用 / 骗的挑出来。
达 5 条就在群里 @ 我。"

回看·刚刚发生了什么

01

它读、筛、写，全没让你动手。

02

没到阈值就不打扰你 — 你的注意力被还回来。

03

同一个入口 — 飞书群里那只小龙虾。

agent 只在终端里。
飞书群里那只小龙虾 — 就够了。

拿走就用

三件东西，带走

一份清单·一段提示词·一个飞轮

01·一份清单每次对话之后回头问

01

开头说清了「什么算到位」吗？不是「我要什么」，是「什么样的输出算到位」

02

AI 跑偏过几次？我反复纠正过哪几件事？这些就是下次该提前写进去的

03

我的反馈是 diff 式还是模糊式？「改一下」vs「把第二段口播感再降一点」

04

哪些判断标准我嘴上说了，但没写进 prompt？这些是隐性领域知识候选

05

这类任务我下次还要做几次？不到 3 次不沉淀，超过 3 次开始 skill 化

↓ 下载复盘清单.md

02·一段提示词让 skill-creator 接手

skill-creator · 元提示词

请用 skill-creator，把刚才这次完整对话里的规则、触发条件、必要边界提取出来，封装成第一版 skill 文件。

03·一个飞轮做一次，进一步

做一次 → 复盘 → 规则更新 → 下次起点更高 ↻

做一次，复盘一次，规则更新一次 — 下一次，AI 就会更懂你一点

课后作业 · 回去试一次

挑一个你最近还在反复做的任务（脚本、洗稿、对标、回评、海报），按下面跑一遍：

用裸 prompt 跑一次完整对话，要满意为止
对照上面 5 问复盘，把第 02 和 04 题的答案写下来
调 skill-creator，让它出第一版 skill
用同类任务跑一次 — 看是不是真稳

不是讲完了。
是开始。

视野延伸 · 附录

给 MCN 的两个信号

两篇刚出的 · Marketing Science 论文

01·信号 · 垂直 LLM > 通用 LLM Marketing Science 45(1), 2026.1

Applying Large Language Models to Sponsored Search Advertising

Reisenbichler, Reutterer, Schweidel · 在开源 LLM 上做"应用层"+ 针对搜索广告 fine-tune

在开源 LLM 之上加应用层，针对 SEA 场景 fine-tune

表现 > 人工独立，> 标准 LLM

验证："human-in-the-loop" 生成式 AI 是优解

边界条件：CPC 可能上升 — 优化和成本要平衡

对 MCN →

这是 skill / 领域知识沉淀的学术背书。把你们的判断写进 skill，本质上就是在做 "MCN 内容的应用层"。

↓ 论文 PDF

02·信号 · AI 引荐流量崛起 Marketing Science · 2026.4 在线首发

Frontiers: ChatGPT Referrals to E-Commerce Websites

Kaiser, Schulze · 12 个月 · 973 个网站 · $200 亿 GMV · 5 万笔 ChatGPT 引荐

oLLM 转化率 > 付费社交，< 其他传统渠道

复杂品类上 oLLM 的财务回报和流量份额都最强

跳出率好，但单次访问时长 / 浏览页数较低

一年后：转化率 ↑，平均订单价值 ↓ — 渠道扩散中

对 MCN →

AI 不只是创作工具，也是新渠道。你的内容是否能被 ChatGPT / Claude 在回答时引用？这件事，未来 12 个月会变重要。

↓ 论文 PDF

不只把 AI 用进生产力。
也要把内容做成 AI 可引用的样子。

让 AI 越用越准

是 判断力

李俊泽

陆慧

Skill

第一版 怎么生？

迭代

看思维链

控自由度

看 skill 跑一遍

护城河

看 agent 跑一遍

三件东西，带走

给 MCN 的两个信号

Applying Large Language Models to Sponsored Search Advertising

Frontiers: ChatGPT Referrals to E-Commerce Websites

是判断力

第一版怎么生？