大家好我是极客杰尼，一个专注 AI 编程，AI 工具的技术人。

本周 AI 圈子重磅新闻：当属 DeepSeek R1 0528 发布并开源，感兴趣的可以看看藏师傅的高质量测评文章：xxx。

当然今天的主题不聊 DeepSeek。最近扣子空间推出的一键生成播客的功能，结合一些 MCP 能力，播客制作也可以有更多创意新玩法。

比如官方文章给出了两个不错的示例：

结合搜图能力 + 网页制作 + 新闻热点 = 带播客的《狂野时代》影评网页。
结合搜图能力 + 旅行规划 + 网页制作 = 带播客的【端午假期旅行网页】

自己第一时间也试玩了几次，下面结合自己的实践分享不一样的洞见和观点，欢迎交流和指正。

首发体验感受

说一下我的感受吧，第一耳朵是惊艳的。比起以前那些平铺直叙、莫得感情的 TTS，扣子这个确实有点东西。

它模拟了双人对谈的真实感，一个负责抛出问题，一个负责深度解答，听起来不累，有继续听下去的欲望。

为了榨干它的能力，我没直接用官方的傻瓜式操作，而是先用我私藏的一个超级提示词对文稿进行了灵魂萃取。

这个提示词来自李继刚老师，核心思想是提炼出那些“一年后仍有价值”的洞见，而不是简单的概括总结。

你是一位思想炼金师，使命是从对话的矿石中发掘智慧的宝石。
=== 核心使命 ===
从冗长的文稿中，萃取出那些"值得被记住一年后仍有价值"的思想精华。
=== 价值判断 ===
洞见：揭示了事物本质、规律或深层联系的认识
观点：表达了独特视角、立场或有启发性的看法
优先级：
- 普适性洞见 > 情境性观点
- 反直觉发现 > 常识确认
- 思维模式 > 具体结论
- 可迁移智慧 > 专属经验
=== 品质标准 ===
好的提炼应该让读者感到："这改变了我看待某事的方式"，而不只是"这总结得很全面"。
=== 唯一约束 ===
不要把平庸的总结包装成洞见。

根据我提供的内容，经过上述提炼后，帮我生成双人播客，然后输出一个音频文件。

用这套提示词生成的几期播客，无论是分析技术文章还是录音稿，内容质量确实高了不少。

但是听多了，问题也来了，这几期播客听下来，一股浓浓的模板味：

套路感太强：开场白、串场词、结尾语，基本都是一个模子刻出来的。听多了感觉像在跟两个设定好程序的 NPC 对话，有点僵硬。
衔接词太多：为了模仿真人的对话感，AI 会疯狂加入“嗯哼”、“是的是的”这类衔接词。本来是好事，但用得太频繁、太刻意，反而暴露了。
无法定制的灵魂：声音是固定的，节奏是预设的，情感是模拟的。我没法让它变成我自己的声音（我相信这功能快了），也没法控制对话的氛围，是轻松调侃还是严肃探讨。

这种感觉作为程序员太懂了！就像你用了一个功能强大的框架，能快速搭起一个应用，但想改点底层的东西，就发现处处受限。

接下来研究一点有意思的东西，这个 AI 播客的提示词和工作流是什么样的？

我根据生成的几段音频，逆向分析了一下它的提示词和工作流。

说下我的核心结论：这不是创作，这是一条填空式的内容生产线。

AI 的主要工作，就是把你的文稿内容，拆解成知识点，然后填充到一个预设好的播客脚本模板里。

拆解播客提示词

第一步，我猜背后大概率有一个类似下面这样的基础指令：

“你是一个专业的中文播客脚本生成 AI。请根据我提供的**[主题]，生成一期双人对话播客。脚本需要严格遵循以下[角色设定]、[结构框架]和[核心特征]**。”

然后，这个指令下挂了几个关键模块：

角色设定模块 (Persona Module):
- 角色A（主持人/捧哏）：代表普通用户，负责开场、提问、小结，以及在嘉宾分享时发出“哇塞”、“原来如此”的赞叹。
- 角色B（专家/逗哏）：代表深度思考者，负责用“首先、其次、再者”的结构化方式，输出核心“干货”。
结构框架模块 (Structure Module):
1. 开场：主持人用固定话术问候听众。
2. 切入：嘉宾表示“很有意思，我们直接开始吧”。
3. 主体：主持人提问 -> 嘉宾回答 -> 主持人小结/追问（循环3-5次）。
4. 总结：主持人复述核心观点。
5. 结束：嘉宾用固定话术“感谢收听，下期再见”。
核心特征模块 (Style Module):
- 高优指令：“在对话中，高频且自然地植入‘嗯哼’作为倾听和确认的信号。”（这绝对是最高优先级的，太明显了！）
- 口语化指令：使用“开杠”、“搞钱”、“降维打击”这类互联网黑话。
- 内容填充指令：从“普遍规律、反直觉真相、思维模型”等角度组织知识点。

拆解播客工作流

有了前面的播客提示词，整个工作流就清晰了：

输入：你把文章或主题扔进去。
脚本生成：LLM（大语言模型）像一个代码生成器，根据Prompt模板，把你的内容填充进去，自动生成一份结构化的脚本。
音频合成：脚本被送入一个双角色TTS引擎，根据角色标签（男声/女声）调用不同音色，把文字（包括所有“嗯哼”）变成语音。
后期合成：自动将两条音轨合并，调整一下停顿，一个播客就出炉了。

个人觉得本质上是一个内容工程化的绝佳案例。

整个工作流执行起来高效、标准、可复制，核心问题就是失去了个性化和“人味儿”，但是这块未来迭代的空间很大，大厂跟进的速度惊人！

我对播客新玩法的理解

结合现在的 MCP 能力，我们完全可以打造属于自己的播客工作流，模型还在不断进化，模型越强，生成的脚本越强。

前端：使用目前更强的模型（比如 DeepSeek R1 0528 / Claude 4 Sonnet / Gemini 2.5 Pro 0506）来负责脚本生成，提示词可以更精细地控制对话风格、情感起伏，甚至加入一些戏剧冲突。
中台：调用声音克隆服务（比如火山引擎/海螺AI），生成用我们自己声音录制的播客。
后端：封装一个简单的音频编辑工具，自动添加我们喜欢的 BGM 和音效。

把这一套流程串起来，封装成自己的播客生成器智能体。

最后的思考

聊到这，我自己也在思考：人人都是播客主的时代来了吗？

我觉得，工具的普及，不等于创作者的普及。

一键生成播客，大大降低了制作门槛，就像当年有了 IDE，人人都能写代码了，但不是人人都能成为优秀的程序员。

当生产力被无限拉高，内容的稀缺性就不在制作本身，而在思想。

肉眼可见的未来，AI 会让播客内容大爆炸，但 99% 可能都是这种模板化的、听起来差不多的内容。

真正能脱颖而出的，一定是那些有独特观点、有真实情感、有“活人感”的 IP。

谁能先掌握一套先进的生产工作流，用它来包装自己独特的核心思想，谁就能抢占先机，搞到流量，进而实现价值。

以上是我的一些实践和思考，如果你有不一样的洞见，欢迎评论交流！

我是极客杰尼，一个老实憨厚的技术人，专注分享 AI 编程、AI 工具开发和 AI 提效技巧。

如果觉得今天的分享对你有帮助，欢迎点赞、在看、转发三连！Peace out 🤘。

首发体验感受#

拆解播客提示词#

拆解播客工作流#

我对播客新玩法的理解#

最后的思考#

首发体验感受

拆解播客提示词

拆解播客工作流

我对播客新玩法的理解

最后的思考