盘前机会前瞻|字节推出实时语音大模型，AI应用场景有望爆发，这几家公司已有多款产品接入豆包大模型（附概念股）

资讯
2025-01-21 10:14:05
8

1月20日，豆包实时语音大模型上线豆包App。这是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，这款模型在语音表现力、控制力、情绪承接方面有较好表现，并具备低时延、对话中可随时打断等特性，呈现出接近真人的语音表达水准。

【机会前瞻】

1月20日，字节跳动旗下的豆包团队正式发布了其最新的实时语音大模型——豆包实时语音大模型。该大模型运用语音交互技术在自然度、情感表达和实时性方面取得了显著突破，有望在多个领域带来变革性的用户体验。

豆包实时语音大模型是一款语音理解和生成一体化的模型，实现了端到端的语音对话。与传统的级联模式相比，该模型在语音表现力、控制力、情绪承接方面表现出色，具备低时延、对话中可随时打断等特性。这些特性使得模型在实际应用中更加灵活和高效，能够更好地满足用户在不同场景下的需求。

在架构方面，豆包团队研发了端到端的框架，深度融合语音与文本模态，面向语音生成和理解进行统一联合建模，实现多模态输入和输出效果。模型支持多种模式，包括语音到语音（S2S）、语音到文本（S2T）、文本到语音（T2S）、文本到文本（T2T）等。在声音控制方面，模型不仅能依照基础指令输出，还可遵循复杂的指令，展现出较强的声音控制能力。在声音扮演方面，模型能够模仿多种方言和口音。

此外，豆包实时语音大模型还支持实时联网功能，能够根据问题动态获取最新信息，确保问题回答的时效性。从测评结果来看，豆包实时语音大模型在情绪理解和情感表达方面具有显著优势。在整体满意度方面，豆包实时语音大模型的评分为4.36，而GPT-4o的评分为3.18。目前，豆包App全新实时语音通话功能已全量上线。

豆包实时语音大模型的推出不仅贴合中国用户的实际需求，还在用户体验和市场应用方面展现出巨大潜力。

自2024年5月字节跳动正式发布豆包大模型以来，引发了资本市场的强烈反应，相关概念股表现活跃，股价普遍上涨。随后在半年多的时间里，豆包推出了多项成果，包括Doubao-pro、Seed-TTS、Seed-ASR、Seed-Music、视频生成模型和视觉理解模型等，显著提升了模型在语言能力、多模态理解与生成、模型推理、代码生成等方面的表现。