Higgs Audio：最佳多扬声器对话式人工智能就在这里

没有付费专区，没有等待名单，没有锁定在 API 后面的半生不熟的预览。您可以下载该模型，检查它，如果您便宜，可以在 Jetson Orin Nano 上运行它，或者如果您想要完整的 4090B 参数版本，则使用完整的 RTX 3。但是尝试生成一个 20 分钟的播客或一个完整的故事，你就会开始听到漂移，声音发生变化，节奏减弱，情绪变得平淡。像是有脉搏的东西播客、语音代理、音频剧、语言学习工具，也许

gis数据迷

144人浏览 · 2025-07-30 08:05:59

gis数据迷 · 2025-07-30 08:05:59 发布

哎呀，2025 年将是音频人工智能之年。几乎每周我们都会在音频空间领域获得突破性的模型。而这次我们又有了另一个类似于芝麻CSM 1B的对话式AI模型。那就是希格斯音频。

Higgs Audio V2 则不同。而不是以“下一代人工智能革命”的方式。这是不同的，因为这一次，它感觉就像在说话之前就在听。

这东西有深度。不仅体现在数据上，还体现在它如何传递情感、在对话中做出反应以及进行对话而不听起来像是在等待哔哔声。这就是为什么它很重要。

我关于模型上下文协议的第二本书已经出版

模型上下文协议：面向初学者的高级 AI 代理（生成式 AI 书籍）

Amazon.com：模型上下文协议：面向初学者的高级 AI 代理（生成式 AI 书籍）电子书：Gupta、Mehul、Sen...

训练了 1000 万小时：

大多数模型都使用抓取的 YouTube 字幕、播客等进行训练。Higgs Audio V2 获得了 1000 万小时的过滤、注释和处理音频。没有被人类贴上标签。他们构建了一个管道，使用内部模型自动标记音调、声音事件（如笑声或音乐）和语义含义。

该管道制作了他们称之为 AudioVerse 的东西，不是一个流行词，只是一堆数据的名称。而且那堆不仅仅是大。它很干净。这比规模更重要。你可以将噪音塞进模型中，它就会学会自信地喊垃圾。

Higgs-Audio 是情感的

无需再次训练。无需插入单独的“情绪模型”。。

它知道如何说某事，而不仅仅是该说什么。

你问一个问题吗？这听起来很奇怪。

你写了一句悲伤的台词？听起来好像有人刚刚离开了。

你想要旁白吗？5分钟后它不会倒塌。

他们称之为“零样本表达性演讲”。我称之为它首先应该发挥作用。

多发言者对话

这是一个游戏规则的改变者。大多数多扬声器 TTS 听起来像是复制粘贴的声音轮流朗读。他们没有回应对方。Higgs Audio V2 不仅可以切换声音，还可以匹配能量，同步说话者之间的情绪，并在需要时调整句子中间。

是的，它可以进行语音克隆。给它一个剪辑，它就会像那个人一样说话。给它两个剪辑，它会保持完整的对话。不给它任何剪辑，它仍然分配可信的声音。

长格式音频

大多数型号都可以为您提供听起来不错的 10 秒演示。但是尝试生成一个 20 分钟的播客或一个完整的故事，你就会开始听到漂移，声音发生变化，节奏减弱，情绪变得平淡。

您可以使用参考音频（为了一致性）来调节 Higgs-Audio，或者用说明提示它（为了音调）。它记得它是如何开始的。它使声音保持一致。听起来好像在 15 分钟时有人仍然在麦克风前醒着。

24kHz 的高保真声音

早期版本和大多数开放 TTS 型号以 16kHz 运行。它适用于手机或低档扬声器，但对于任何严肃的事情来说却不适用。

Higgs Audio V2 的输出频率为 24kHz，这是您佩戴实际耳机时耳朵想要的。更好的清晰度、更丰富的高音、更少的数字伪影。区别很微妙，但一旦你听到了，你就无法忘记它。

像语言模型一样构建

将显示缩放图像

这不仅仅是在句子之上扩展的音频。Higgs Audio V2 的接线方式类似于 LLM，它理解它所说内容的上下文。

核心是一个大型语言模型，与音频分词器配对，它不仅可以切碎单词，还可以处理语义（所说的内容）和声学（听起来如何）。两者使用双 FFN 架构并行处理。这只是意味着它不必在聪明和听起来不错之间做出选择。它可以做到这两点。

基准

将显示缩放图像

以下是它的叠加方式：

情感演讲胜率75.7%超过GPT-4o-mini-tts
55.7% 的问题语调胜率
在多项测试（Seed-TTS Eval、Emotional Speech Dataset）中优于 ElevenLabs、Deepgram 和 Qwen 2.5

在多说话人对话基准测试中，它比其他任何开源产品都具有更低的单词错误率和更好的语音分离。

它甚至可以唱歌

有一个演示，它用克隆的声音哼唱旋律。不是歌剧级别，但它可以在不说话的情况下保持音调和语气，甚至不说话，这是......以一种好的方式令人不安。

此外：它可以同时生成语音和背景音乐。想想旁白 + 环境配乐。没有缝合。只需一次通过。

它是免费的。

更重要的是：它是开源的。没有付费专区，没有等待名单，没有锁定在 API 后面的半生不熟的预览。您可以下载该模型，检查它，如果您便宜，可以在 Jetson Orin Nano 上运行它，或者如果您想要完整的 4090B 参数版本，则使用完整的 RTX 3。

该模型可以在下面免费测试

Higgs 音频演示 - smola 的拥抱面部空间

Higgs 音频演示

- smola 的 A Hugging Face Space 希格斯音频 Demohuggingface.co

要使用的模型权重和代码如下

bosonai/higgs-audio-v2-generation-3B-base ·拥抱脸

我们正在通过开源和开放科学推进人工智能并实现人工智能民主化。

最后的思考

Higgs Audio V2 是我见过的第一个开源语音模型，它不仅能说得好，而且能说出真正的话。它有音调、时间、语调变化，感觉就像它意识到它所处的时刻。

你想构建一些听起来像是有脉搏的东西播客、语音代理、音频剧、语言学习工具，也许只是一个人工智能角色，可以开一个玩笑，就像它是认真的一样，这就是要搞砸的那个。

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

cover

国内低代码平台：2025 年国内主流平台盘点

EazyDevelop社区

cover

5分钟搞定！MySQL/PostgreSQL 到 Elasticsearch 的实时同步

EazyDevelop社区

cover

从零开始搭建个人RAG知识库：RAGFlow+DeepSeek保姆级教程！

EazyDevelop社区

所有评论(0)

查看更多评论

gis数据迷

已为社区贡献1条内容