Seed-VC 支持人声和歌曲的零样本声音转换模型实现音质与音色的高保真转换

更新时间：2024-10-07 19:32 浏览量：35

seed-vc 是一个基于 SEED-TTS 架构的开源的声音转换模型，能够实现零样本的声音转换，

即无需任何训练，它能够根据 1~30 秒的参考语音来克隆声音。

该技术在音频质量和音色相似性方面表现出色，且具有很高的研究和应用价值。

大家可在GitHub上找到该项目，并下载到本地部署使用。

今天我们就基于Huggingface空间的演示，来实质性操作体验一下这款模型。

我们在左侧分别上传源音频以及参考音频，注意参考音频的时长要控制在25秒内，

如果大于25秒则会自动裁剪至此长度。

源音频就是拿它作为一个样本，下面的参考音频则是以源音频为参考对象，把它克隆到这个源音频上面。

接下来我们来看它的参数设置。上方的扩散步数默认是25，但是一般把它调到50为最佳。

语速默认为1，属于正常语速不用调整。CFG默认0.7也不用动。

如果你是以声音为对象来克隆的话，下面的码本数量参数设置为1，其他保持不变。

如果以歌声为参考克隆，那么就需要把码本数量参数值调整为最大，而且需要勾选F0输入选项。

该项目完全无需训练，而且对资源的占用率不是太高，4G就可以跑。转换速度也非常快。

seed-vc 适合语音技术研究者、声音合成工程师、以及对声音转换技术感兴趣的开发者。

它可以帮助他们进行声音转换技术的研究和开发，或者在语音合成、声音识别等领域进行应用。

对此模型感兴趣的小伙伴，可自行下载到本地部署或在线体验。

GitHub仓库:

HuggingFace在线地址: https://huggingface.co/spaces/Plachta/Seed-VC

Seed-VC 支持人声和歌曲的零样本声音转换模型 实现音质与音色的高保真转换