
Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
使用掩码生成编解码器转换器的 Zero-Shot Text-to-Speech
Abstract The recent large-scale text-to-speech (TTS) systems are usually grouped as autoregressive and non-autoregressive systems. The autoregressive systems implicitly model duration but exhibit certain deficiencies in robustness and lack of duration controllability. Non-autoregressive systems require explicit alignment information between text and speech during training and predict durations for linguistic units (e.g. phone), which may compromise their naturalness. In this paper, we introduce Masked Generative Codec Transformer (MaskGCT), a fully non-autoregressive TTS model that eliminates the need for explicit alignment information between text and speech supervision, as well as phone-level duration prediction. MaskGCT is a two-stage model: in the first stage, the model uses text to predict semantic tokens extracted from a speech self-supervised learning (SSL) model, and in the second stage, the model predicts acoustic tokens conditioned on these semantic tokens. MaskGCT follows the mask-and-predict learning paradigm. During training, MaskGCT learns to predict masked semantic or acoustic tokens based on given conditions and prompts. During inference, the model generates tokens of a specified length in a parallel manner. Experiments with 100K hours of in-the-wild speech demonstrate that MaskGCT outperforms the current state-of-the-art zero-shot TTS systems in terms of quality, similarity, and intelligibility.
抽象最近的大规模文本转语音 (TTS) 系统通常分为自回归和非自回归系统。自回归系统隐式地模拟了持续时间,但在稳健性和缺乏持续时间可控性方面表现出一定的缺陷。非自回归系统在训练期间需要文本和语音之间的显式对齐信息,并预测语言单位(例如电话)的持续时间,这可能会损害它们的自然性。在本文中,我们介绍了 Masked Generative Codec Transformer (MaskGCT),这是一种完全非自回归的 TTS 模型,无需在文本和语音监督之间提供明确的对齐信息,也无需电话级别的持续时间预测。MaskGCT 是一个两阶段模型:在第一阶段,模型使用文本来预测从语音自我监督学习 (SSL) 模型中提取的语义标记,在第二阶段,模型预测以这些语义标记为条件的声学标记。MaskGCT 遵循掩码和预测学习范式。在训练过程中,MaskGCT 学习根据给定的条件和提示预测掩蔽的语义或声学标记。在推理过程中,模型以并行方式生成指定长度的 Token。对 100K 小时野外语音的实验表明,MaskGCT 在质量、相似性和可理解性方面优于当前最先进的零样本 TTS 系统。
System Overview 系统概述
Figure 1. An overview of our MaskGCT system. MaskGCT consists of four main parts: (1) a speech semantic representation codec converts speech to semantic tokens; (2) a text-to-semantic model predicts semantic tokens with text and prompt semantic tokens; (3) a semantic-to-acoustic model predicts acoustic tokens conditioned on semantic tokens; (4) a speech acoustic codec reconstructs speech waveform from acoustic tokens.
图 1.我们的 MaskGCT 系统概述。MaskGCT 由四个主要部分组成:
(1) 语音语义表示编解码器将语音转换为语义标记;
(2) 文本到语义模型使用文本和提示语义标记预测语义标记;
(3) 语义到声学模型预测以语义标记为条件的声学标记;
(4) 语音声学编解码器从声学标记重建语音波形。
Zero-shot In-context Learning
零样本上下文学习
The first four prompt audios are from the demo page of Seed-TTS.
数据统计
数据评估
关于MaskGCT特别声明
本站默惠工业品提供的MaskGCT都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由默惠工业品实际控制,在2024-12-26 上午11:01收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,默惠工业品不承担任何责任。
相关导航

一种 AI 语音功能,可将文本转换为逼真的语音。生成自然发音的应用和服务。通过自定义真实 AI 语音生成器让你的品牌独具特色,并使用具有不同说话风格和情感语调的语音来搭配你的用例(从文本阅读器和讲述者到客户支持聊天机器人)。

呱呱有声
配音神器官网_文字转语音神器_配音神器pro_语音合成软件_专业配音神器_AI配音神器

Text To Speech
构建自然说话的应用和服务,从 147 种语言和变体中选择 456 种语音

AnyVoice
AnyVoice 是一款领先的AI语音生成器,能够将文本转换为自然、逼真的语音。它支持多种语言,并提供即时声音克隆技术,帮助用户创建与人类无法区分的语音内容。

大饼
大饼AI变声器,自然人声效果,千种音色选择,全场景接入支持

魔音工坊
魔音工坊是一款可以在线将文字转成语音的智能配音产品。提供不同性别、不同口音的真人声音,在你输入文字后直接配音。你可快速对短视频等需要配音的内容进行配音。是一款功能强大AI语音合成神器。

逗哥配音
逗哥配音是一款500w+达人热推的的AI配音软件,独有的AI智能配音技术,更专业,更完美贴近真人配音。内置丰富的短视频创作工具,文案提取、人声分离等短视频必备功能,逗哥配音是你短视频创作不二的选择!

酷音
酷音网是一个真人配音与AI配音、视频拍摄与制作、音乐作词与谱曲、视频策划与创意等领域的创作、交易、推广运营于一体的音视频交易服务平台,致力于打造专注音视频领域的商业生态圈
暂无评论...













