大家好我是极客杰尼,一个专注 AI 编程,AI 工具的技术人。

本周 AI 圈子重磅新闻:当属 DeepSeek R1 0528 发布并开源,感兴趣的可以看看藏师傅的高质量测评文章:xxx。

当然今天的主题不聊 DeepSeek。最近扣子空间推出的一键生成播客的功能,结合一些 MCP 能力,播客制作也可以有更多创意新玩法。

比如官方文章给出了两个不错的示例:

  1. 结合搜图能力 + 网页制作 + 新闻热点 = 带播客的《狂野时代》影评网页。
  2. 结合搜图能力 + 旅行规划 + 网页制作 = 带播客的【端午假期旅行网页】

自己第一时间也试玩了几次,下面结合自己的实践分享不一样的洞见和观点,欢迎交流和指正。

首发体验感受

说一下我的感受吧,第一耳朵是惊艳的。比起以前那些平铺直叙、莫得感情的 TTS,扣子这个确实有点东西。

它模拟了双人对谈的真实感,一个负责抛出问题,一个负责深度解答,听起来不累,有继续听下去的欲望。

为了榨干它的能力,我没直接用官方的傻瓜式操作,而是先用我私藏的一个超级提示词对文稿进行了灵魂萃取。

这个提示词来自李继刚老师,核心思想是提炼出那些“一年后仍有价值”的洞见,而不是简单的概括总结。

你是一位思想炼金师,使命是从对话的矿石中发掘智慧的宝石。
=== 核心使命 ===
从冗长的文稿中,萃取出那些"值得被记住一年后仍有价值"的思想精华。
=== 价值判断 ===
洞见:揭示了事物本质、规律或深层联系的认识
观点:表达了独特视角、立场或有启发性的看法
优先级:
- 普适性洞见 > 情境性观点
- 反直觉发现 > 常识确认
- 思维模式 > 具体结论
- 可迁移智慧 > 专属经验
=== 品质标准 ===
好的提炼应该让读者感到:"这改变了我看待某事的方式",而不只是"这总结得很全面"=== 唯一约束 ===
不要把平庸的总结包装成洞见。

根据我提供的内容,经过上述提炼后,帮我生成双人播客,然后输出一个音频文件。

用这套提示词生成的几期播客,无论是分析技术文章还是录音稿,内容质量确实高了不少。

但是听多了,问题也来了,这几期播客听下来,一股浓浓的模板味:

  1. 套路感太强:开场白、串场词、结尾语,基本都是一个模子刻出来的。听多了感觉像在跟两个设定好程序的 NPC 对话,有点僵硬。
  2. 衔接词太多:为了模仿真人的对话感,AI 会疯狂加入“嗯哼”、“是的是的”这类衔接词。本来是好事,但用得太频繁、太刻意,反而暴露了。
  3. 无法定制的灵魂:声音是固定的,节奏是预设的,情感是模拟的。我没法让它变成我自己的声音(我相信这功能快了),也没法控制对话的氛围,是轻松调侃还是严肃探讨。

这种感觉作为程序员太懂了!就像你用了一个功能强大的框架,能快速搭起一个应用,但想改点底层的东西,就发现处处受限。

接下来研究一点有意思的东西,这个 AI 播客的提示词和工作流是什么样的?

我根据生成的几段音频,逆向分析了一下它的提示词和工作流。

说下我的核心结论:这不是创作,这是一条填空式的内容生产线

AI 的主要工作,就是把你的文稿内容,拆解成知识点,然后填充到一个预设好的播客脚本模板里。

拆解播客提示词

第一步,我猜背后大概率有一个类似下面这样的基础指令:

“你是一个专业的中文播客脚本生成 AI。请根据我提供的**[主题],生成一期双人对话播客。脚本需要严格遵循以下[角色设定][结构框架][核心特征]**。”

然后,这个指令下挂了几个关键模块:

  • 角色设定模块 (Persona Module):

    • 角色A(主持人/捧哏):代表普通用户,负责开场、提问、小结,以及在嘉宾分享时发出“哇塞”、“原来如此”的赞叹。
    • 角色B(专家/逗哏):代表深度思考者,负责用“首先、其次、再者”的结构化方式,输出核心“干货”。
  • 结构框架模块 (Structure Module):

    1. 开场:主持人用固定话术问候听众。
    2. 切入:嘉宾表示“很有意思,我们直接开始吧”。
    3. 主体:主持人提问 -> 嘉宾回答 -> 主持人小结/追问(循环3-5次)。
    4. 总结:主持人复述核心观点。
    5. 结束:嘉宾用固定话术“感谢收听,下期再见”。
  • 核心特征模块 (Style Module):

    • 高优指令:“在对话中,高频且自然地植入‘嗯哼’作为倾听和确认的信号。”(这绝对是最高优先级的,太明显了!)
    • 口语化指令:使用“开杠”、“搞钱”、“降维打击”这类互联网黑话。
    • 内容填充指令:从“普遍规律、反直觉真相、思维模型”等角度组织知识点。

拆解播客工作流

有了前面的播客提示词,整个工作流就清晰了:

  1. 输入:你把文章或主题扔进去。
  2. 脚本生成:LLM(大语言模型)像一个代码生成器,根据Prompt模板,把你的内容填充进去,自动生成一份结构化的脚本。
  3. 音频合成:脚本被送入一个双角色TTS引擎,根据角色标签(男声/女声)调用不同音色,把文字(包括所有“嗯哼”)变成语音。
  4. 后期合成:自动将两条音轨合并,调整一下停顿,一个播客就出炉了。

个人觉得本质上是一个内容工程化的绝佳案例。

整个工作流执行起来高效、标准、可复制,核心问题就是失去了个性化和“人味儿”,但是这块未来迭代的空间很大,大厂跟进的速度惊人!

我对播客新玩法的理解

结合现在的 MCP 能力,我们完全可以打造属于自己的播客工作流,模型还在不断进化,模型越强,生成的脚本越强。

  • 前端:使用目前更强的模型(比如 DeepSeek R1 0528 / Claude 4 Sonnet / Gemini 2.5 Pro 0506)来负责脚本生成,提示词可以更精细地控制对话风格、情感起伏,甚至加入一些戏剧冲突。
  • 中台:调用声音克隆服务(比如火山引擎/海螺AI),生成用我们自己声音录制的播客。
  • 后端:封装一个简单的音频编辑工具,自动添加我们喜欢的 BGM 和音效。

把这一套流程串起来,封装成自己的播客生成器智能体。

最后的思考

聊到这,我自己也在思考:人人都是播客主的时代来了吗?

我觉得,工具的普及,不等于创作者的普及

一键生成播客,大大降低了制作门槛,就像当年有了 IDE,人人都能写代码了,但不是人人都能成为优秀的程序员。

当生产力被无限拉高,内容的稀缺性就不在制作本身,而在思想。

肉眼可见的未来,AI 会让播客内容大爆炸,但 99% 可能都是这种模板化的、听起来差不多的内容。

真正能脱颖而出的,一定是那些有独特观点、有真实情感、有“活人感”的 IP。

谁能先掌握一套先进的生产工作流,用它来包装自己独特的核心思想,谁就能抢占先机,搞到流量,进而实现价值。

以上是我的一些实践和思考,如果你有不一样的洞见,欢迎评论交流!

我是极客杰尼,一个老实憨厚的技术人,专注分享 AI 编程、AI 工具开发和 AI 提效技巧。

如果觉得今天的分享对你有帮助,欢迎点赞、在看、转发三连!Peace out 🤘。