在今天这篇文章开始之前,有必要先了解一下 Descript 这款产品。
对于不熟悉视频剪辑的开发者和产品经理来说,Descript 解决了一个长久以来的痛点:时间轴剪辑的反直觉性。
传统的视频剪辑软件(如 Premiere、CapCut)要求用户在复杂的时间轴上切割音视频轨道。Descript 和他们不同的点则是将视频编辑文本化。
它通过高精度的语音识别技术将视频转换为文本,用户只需像编辑 Word 文档一样删除、修改文字,对应的视频片段就会自动完成剪辑。
这种”文本即视频”的架构为后续的 AI 功能集成打下了完美的底层基础。比如它的杀手级功能 Overdub,允许用户直接打字来修正视频中说错的单词,AI 会自动修正人物口型、使用用户自己的声音合成替换。
新任 CEO Laura Burkhauser(在最近给客户的一封邮件中写道:”Descript 不是一台抽卡老虎机,我们也不希望它变成那样。”这句话直指当前 AI 工具生态的核心矛盾:当生成内容的边际成本趋近于零时,产品设计究竟是在鼓励真正的创意,还是在纵容”Slop”(低质量内容)?
Laura 在产品管理、模型评估和商业化策略上的思考,对我们社区中每一个正在构建 AI 应用的开发者来说,都是一份极其稀缺的实战指南。这不仅仅是 Descript 的故事,更是我们社区如何在 AI 时代保持产品初心的故事。
创业磨坊 Startup Grind
沪帮沪创,磨坊相伴 Give First, Make Friends, Help Others
105篇原创内容
公众号
主持人:现在有了AI,我能做到以前想都不敢想的事。比如我最近在用 AI 生成 YouTube 的封面图,自己玩得挺开心,也挺喜欢那种视觉效果。但评论区的人几乎清一色反对我用 AI。这让我想到一个问题:创作者对 AI 的探索,在什么情况下就变成了”Slop“?
Laura:好问题。我对”Slop”的定义可能和很多人不太一样。我不认为它是一个单纯的质量问题。
在我看来,”Slop”本质上是一种内容套利。你发现了市场上的空子,然后靠批量制造内容来赚钱。具体来说,你可以用极低的成本生产大量内容,这些内容可能没什么人互动,也没几个订阅者,但只要能为你带来足够的收入或流量,这笔买卖就是划算的。
世界上有很多糟糕的艺术作品,但我其实是支持”糟糕艺术”的。我认为这是通往优秀艺术的必经之路。想想你第一次学画画,坐在画布前涂鸦,肯定画得不怎么样。你还没找到自己的 style,没形成审美,你甚至还没摸透颜料的特性。
“Slop”是什么呢?是为了榨取算法的流量。比如你发现冥想视频还没烂大街时,就在 YouTube 上批量生成一堆虚拟人冥想视频,目的就是快速赚点广告费。而如果一个人只是觉得”也许我能在YouTube 上当个冥想大师”,然后笨拙地做了一个虚拟人视频,虽然结果看起来差不多,但这不叫”Slop”,这只是一个不怎么高明的主意。
主持人:那你的意思是,我现在用 AI 生成封面图,只要我不是为了批量生产内容来套利,那就不是”Slop”?
Laura:完全是这样。AI 是一种全新的媒介。我们通过”玩乐”的方式去尝试这种新媒介,最终才能创造出好东西。随着你不断尝试,你会开始形成自己的判断——”我不喜欢这个”,或者”这个效果不错,这个提示词更好”。这和你学画画时培养绘画风格的过程是一模一样的。
正因为这是一个非常新的技术,我们大多数人都还处在”大量制造糟糕作品”的阶段。但我非常坚信,用生成式 AI 创造出真正令人惊叹的作品是完全可能的。但达到那个境界的唯一途径,就是先创造大量糟糕的作品。
主持人:但我们确实看到了大量糟糕的AI 内容在网上。这是怎么回事?
首先,对普通创作者来说,现在的 AI 工具门槛太高了。你需要对模型有极大的投入才能获得良好的体验。而我们在铺天盖地的炒作中很少谈论这一点。这让人们觉得他们被兜售了一个美好的未来,但实际使用时却会怀疑人生。
其次是舆论环境的问题。你会看到很多这样的声音:”Sora 把枪顶在了好莱坞的头上,然后扣动了扳机。”如果你用这种方式来推销技术,那些被你”用枪顶着头”的人,怎么可能会兴奋地去使用它呢?
我不是这样看待这些技术的。我不认为这会终结传统电影,也不认为它会让所有传统媒体从业者失业。这只是一个新工具,就像电影在当年也是新工具一样。我们本该带着玩乐、好奇的心态去尝试它,但由于周围的舆论导向,它被视为充满威胁的东西。
主持人:那从产品的角度,你们怎么决定把哪些生成式模型放进 Descript?市面上有这么多模型,各有优劣,价格也各不相同。这些东西非常难做基准测试。你们是凭直觉(Vibes),还是有一套更科学的方法?
第一,这个模型是否应该在 Descript 中提供?
第二,我们是否应该将其设为默认模型?因为大多数用户是不会去修改默认模型的。这很重要,因为默认选择会直接影响用户的行为。
如果你是一个深度的AI 用户,你可能会觉得:”为什么不提供一个模型选择器?显然 Nano Banana 2 Pro 在照片级逼真换脸方面是最好的,但如果是另一个场景,就应该用 Cling。”但普通用户并没有这种程度的认知,他们也不想要这么复杂的操作。
老实说,决定哪个模型进来,确实有一点凭直觉。我们不可能去评估市面上的每一个模型。通常的情况是,我们需要它能通过我们的供应商 Fal 接入。如果你不在 Fal 的生态里,你就进不了 Descript。我们不想为每个模型都单独开发一个接口,除非你真的是业界最强。但那意味着要重新签署数据许可协议,太麻烦了。
在 Fal 提供的模型中,我们会挑选那些感觉最好、或者在行业排行榜上表现突出的模型。你会看到总是那几个实验室在榜单前列,所以我们尽量确保每个实验室都有代表性的模型在我们的平台里,因为你永远不知道哪个实验室下周又会发布一个最强模型。
至于默认模型,我们会参考外部的评估,同时也会针对客户常见的用例进行我们自己的内部评估。比如现在我们的图像生成默认模型是Nano Banana Pro。
我们会将它与现有的默认模型进行 A/B 测试,确保 A/B 测试的结果与我们的内部评估相符。如果相符,那它就会成为我们新的默认模型。
主持人:当你们进行内部评估时,是有一个受信任的专家小组在对输出结果进行打分吗?
主持人:这很有意思。审美评估确实很难自动化。我曾经和 Midjourney 的CEO 吃过一次饭,他说:”我们之所以在图像生成的美学上保持领先,是因为我把自己的审美强加了进去。而 Google 则让某种民主的小组或自动化程序来决定什么是最好的图像,结果最好的图像永远是某个千篇一律的漂亮金发女郎。”这说明在审美评估中,”直觉”的重要性不容小觑。
Laura:绝对如此。我们最初开发 Studio Sound 时,它是由一位非常有听觉天赋的大提琴手打造的。他所做的工作就是我们现在所说的”评估”——他会听不同的模型,然后凭直觉判断”这个更好,那个更好”。后来他离开了,我们不得不采用一种更加详细、理智的评估标准:列出 37 项指标来判断一种背景降噪为什么比另一种更好。
但老实说,那份标准永远不会和一个有品味的人的判断一样好。所以我们的结论是:对于这种主要依赖审美判断的事情,我们需要一个我们认可其品味的人类来做决定。而且我们可能会一直这么做下去。这不是一个可以完全自动化的问题。
主持人:你能否简要概述一下你所看到的前沿模型生态?特别是在视频生成领域,普通用户应该如何在这个模型生态中定位自己的选择?
Descript:一家真正的 AI native Company
Laura:我可能不是回答这个问题的最佳人选,但我可以分享一下我们的看法。目前我们的默认模型是 Nano Banana Pro 和 Google 的Veo,我们也在考虑用可灵(Kling)替换 Veo。
特别是在视频生成领域,我不认为会出现一个”赢家通吃”的局面,因为视频生成的用例差异太大了。同一个模型很难既能做出奥斯卡级别的特效,又能以极低的成本为亚马逊上的所有商品详情页生成足够高质量的视频。
有些模型非常适合大规模批量生成,这些场景对时间连贯性、声音或语音的一致性要求不高,它们主打的是”量大管饱”。而另一些模型,如果质量真的足够好,你甚至愿意为一次生成支付数千美元。
对于大多数产品来说,了解你的核心客户和核心用例至关重要。比如,如果你想要一个非常有主见、会自动为你做很多艺术决策的视频,那某个特定的模型可能很棒。
但如果你只是想生成一些 B-roll(空镜头/素材画面)来补充你的主干视频(A-roll),那么那些过于炫酷、抢戏的模型反而会分散观众的注意力。B-roll 应该是不那么引人注目的,观众的注意力应该集中在 A-roll 上。
这就是一个很典型的例子。我们有时会纠结:”我们应该把这个画质极高的模型设为默认吗?”一方面,它的质量确实很好;但另一方面,对于典型的B-roll 用例来说,它可能太贵了,而且太抢戏了。这就是我们在实际产品决策中需要权衡的细节。
主持人:这很有启发。三年前我还能自己尝试所有的新模型,但现在模型出得太快了,我只能依靠人脉网络来帮我梳理。所以这种细节的分享很宝贵。
Laura:这也是为什么编排智能体(Orchestrator Agents)是未来的核心能力之一,就是理解在众多生成式模型中,应该调用哪一个。它们需要根据用户正在处理的视频或项目的上下文,判断出:”考虑到成本、质量和用例的综合平衡,这很可能是最适合使用的模型。”
主持人:我想聊一下 Underlord API。这是你们最近推出的功能,我自己也在用。它是一个自然语言的编辑助手,用户可以用文字指令来编辑视频。这个产品的设计理念是什么?
Laura:Underlord 是我们对 AI 编辑助手的一个不同的思考方式。很多人在想象 AI 编辑的未来时,会想到一个完全自主的AI 代理,你给它一个视频和一个目标,它就自动完成所有的编辑工作。
但我们的想法不太一样。我们认为 AI 编辑助手应该能做人类用户能做的所有事情,反之亦然。换句话说,如果有一个编辑操作是人类可以在 Descript 中做的,那么 Underlord 也应该能做。这给了我们一个很清晰的设计原则。
Underlord 不是一个黑盒子。用户可以看到它在做什么,可以修改它的指令,可以调整结果。这样的话,AI 和人类就是在合作,而不是 AI 在替代人类。
主持人:说到可靠性,你们怎么确保 Underlord 做的编辑是正确的?
Laura:这确实是个大难题。Underlord 需要理解三个层面的东西。
首先是用户的意图。用户可能会说”让这个视频更快”,但”更快”意味着什么?是加快所有的片段?还是只加快某些片段?还是删除一些不必要的部分?这本身就很模糊。
其次是视频的内容。它需要知道哪些部分是重要的,哪些部分可以删除或调整。这涉及到多模态理解——不仅要理解视频的视觉内容,还要理解音频、字幕,甚至用户的编辑历史。
第三是编辑的美学。不同的编辑风格会产生不同的效果。我们需要确保 Underlord 的编辑符合用户的审美偏好。
Laura:是的。目前我们主要依赖前沿的模型,比如 GPT-4 Vision。但我们也在训练我们自己的模型,因为我们在视频编辑领域有大量的专有数据。
对于一般的自然语言理解,我们会用前沿的模型。但对于特定的视频编辑任务,比如自动生成字幕或自动调整音量,我们会训练自己的模型。这样既能获得前沿模型的通用能力,又能在我们的专业领域保持竞争优势。
主持人:我想聊一下定价。当你有一个 AI 功能,用户一个按钮就能调用,但这个按钮点击可能花掉数百美元的API 成本时,你怎么处理这个问题?
Laura:这确实是个很现实的问题。如果我们直接把 API 成本转嫁给用户,那么用户会很快意识到,一个看似简单的操作可能花掉他们很多钱。这会导致很多问题。
首先,用户会变得非常谨慎,甚至害怕使用这些功能。其次,这会创造一个非常糟糕的用户体验。用户不想在每次点击按钮前都计算成本。
所以我们的方法是,我们吸收一部分成本,并通过订阅模式来平衡。但这也意味着我们需要非常谨慎地选择哪些功能是免费的,哪些是付费的。
Laura:确实很难。我们需要考虑用户的期望、成本结构、以及我们想要鼓励什么样的行为。比如,如果我们让某个功能完全免费,用户可能会过度使用它,导致我们的成本爆炸。但如果我们让它太贵,用户就不会使用它。
我们的方法是不断地测试和调整。我们会看用户的行为,看他们是否在过度使用某些功能,然后相应地调整定价。
主持人:最后,我想问一个更大的问题。有人担心,AI 会导致内容的”无限Slop”时代。你怎么看这个问题?
Laura:从经济逻辑的角度,确实有可能出现”无限Slop”的时代。如果生成内容的成本接近零,那么从经济角度,生产大量低质量内容是有意义的。
但我认为这不是最终的结果。历史告诉我们,艺术家总是能够找到新的方式来适应新技术。当摄影被发明时,人们说绘画已经死了。但绘画没有死,它只是进化了。艺术家们找到了新的方式来使用摄影,或者创造摄影无法做到的东西。
我觉得 AI 也会是这样。是的,会有大量的 Slop。但同时,也会有艺术家和创作者找到新的方式来使用 AI,创造出真正令人惊叹的东西。
官网:https://soloship.club/
https://mp.weixin.qq.com/s/j0Unhm9fn9cTNFN2osEdVg