语音大模型「MaskGCT」正式开源，为短剧、游戏、数字人等产品提供服务

学术指导 2025-01-15 10:08:34 17

10月24日，趣丸科技宣布与香港中文大学（深圳）联合研发的语音大模型「MaskGCT」正式在Amphion系统中开源，面向全球用户开放使用。区别于传统TTS模型，MaskGCT采用掩码生成模型与语音表征解耦编码技术，在声音克隆、跨语种合成、语音控制等任务环节中能够快速落地。

据了解，相较于现有的TTS大模型，MaskGCT在语音的相似度、质量和稳定性上进一步突破，在三个TTS基准数据集上都达到了SOTA效果。其显著特点如下：

秒级超逼真的声音克隆：提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色，且能完整复刻语调、风格和情感。

更精细可控的语音生成：可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的高度一致。

高质量多语种语音数据集：训练于香港中文大学（深圳）和趣丸科技等机构联合推出的10万小时数据集Emilia，是全球最大且最为多样的高质量多语种语音数据集之一，实现中英日韩法德6种语言的跨语种合成。

MaskGCT的研发工作由港中大（深圳）、趣丸科技人工智能联合实验室成员完成。作为一个大规模的零样本TTS模型，MaskGCT采用非自回归掩码生成Transformer，无需文本与语音的对齐监督和音素级持续时间预测，其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。

根据官方实验表明，MaskGCT在语音质量、相似度和可理解性方面优于当前绝大部分的TTS模型，并且在模型规模和训练数据量增加时表现更佳，同时能够控制生成语音的总时长。

MaskGCT已在香港中文大学（深圳）与上海人工智能实验室联合开发的开源系统Amphion发布

值得一提的是，MaskGCT是一个两阶段模型。在第一阶段，模型使用文本预测从语音自监督学习（SSL）模型中提取的语义标记；在第二阶段，模型基于这些语义标记预测声学标记（遵循掩码预测学习范式）。

在训练过程中，MaskGCT学习根据给定的条件和提示预测掩码的语义或声学标记。在推理过程中，模型以并行方式生成指定长度的标记。通过对10万小时的自然语音进行实验，结果表明MaskGCT在质量、相似度和可理解性方面优于其他现有的零样本TTS系统。

《2024年短剧出海白皮书》显示，2023年海外市场规模高达650亿美元，约为国内市场的12倍，短剧出海正成为蓝海新赛道。基于MaskGCT的趣丸千音，有机会帮助国产短剧以更低成本、更快捷的方式“走出去”，提升中国文化内容的出海效率。

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

二战考生到底该不该冲击名校？（Day50）

2025年高考英语易错题分类汇总：易错点27 读后续写

美国留学必须学会的“看病”英语

母亲节（Mother's Day）

澎湃思想周报｜罗琳与跨性别群体之争；以色列吞并西岸计划

浙江湖州援疆指挥部开展送医下乡活动[中国网.援建新疆]浙江

新疆人的一天 | 为民节约20万的何曲夫妇

关于中国风，我有一句妈卖批必须要讲

友情链接

本站的部分内容来源于互联网，如不慎侵犯到您的权益，请联系我们，我们会在36小时内删除。