🔗 想要微调自己的说话人? 请访问 RIFT-SVC GitHub 仓库 获取完整的训练和微调指南。
🎤 数据来源说明: 该demo数据来源为b站上快速爬取的约30分钟七海唱歌片段,直接分离人声后进行训练,没有额外筛选。
📝 注意: 为获得最佳效果,请使用背景噪音较少的干净音频。最大音频长度为5分钟。建议用较短的音频测试避免平台意外中断任务。
更低的值 = 更快但质量较低,更高的值 = 更慢但质量更好
0=无,1=轻度过滤,2=强力过滤(有助于解决断音/破音问题)
更高的值可以改善内容保留和咬字清晰度。过高会用力过猛。
更高的值可以增强说话人相似度。过高可能导致音色失真。
增强指定层的特征渲染。效果取决于目标层的功能。
目标增强层下标
约束整体引导强度。当引导效果过于强烈时使用调高该值,减少失真和噪音。
更高的值(可能)可以提高内容清晰度。
静音检测阈值
最小片段长度
分割片段的最小间隔
片段检测窗口大小
保留在每个片段边缘的最大静音长度
✅ 模型加载成功!可用说话人: 七海