记录一些关于近期学习的ai项目的部署使用方法和细节(主要为开源本地项目)
AI音频
FunAudioLLM
这是阿里的一个有关语音识别与合成的项目
项目介绍:https://fun-audio-llm.github.io
具体分为两个项目:SenseVoice和CosyVoice(类似于Gpt-sovits)
目前只学习了Sensevoice(ASR语音识别)
学习视频:https://www.bilibili.com/video/BV1Mi421a7Wm
学习笔记:https://note.youdao.com/s/Q1uvbi5Y
api4sensevoice
伪实时语音识别
在项目文件server_wss.py最后一行配置端口地址
1 | uvicorn.run(app, host="127.0.0.1", port=7860) |
配置启动.bat文件
1 | @echo off |
Gpt-sovits
这个项目可以将一段正常说话的语音按文字切分提取出来
可以实现文字转模拟音色语音的效果(文字生成语音)
缺点是声音情感较弱,大量运用于人机视频配音
主要是b站花儿不哭大佬研发
项目地址:https://github.com/RVC-Boss/GPT-SoVITS
教程视频:https://www.bilibili.com/video/BV12g4y1m7Uw
教程文档:www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
不会编程的可以使用训练推理整合包:
https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi
https://drive.uc.cn/s/a1fd91ae0a4f4
推理时用到的
SVC项目
Singing Voice Conversion(歌声转换)
常见的开源的SVC项目大概有So-VITS-SVC,RVC,DDSP-SVC,Diffusion-SVC,Diff-SVC,ReFlow-VAE-SVC
项目性能比较
主观效果评级(质量中等,时长超过 1h 的唱歌数据,推理源较好的情况下):
SOV > ReFlow > DDSP6.0
主观效果评级(高质量,时长超过 1h 的说话数据,推理源较好的情况下):
DDSP6.0 > ReFlow >>>>> SOV
训练速度(由快到慢):
DDSP ≈ ReFlow > SOV
省流助手
高配置,高质量数据集,首选 sovits;
一般配置,数据集较短,首选 ReFlow;
低配置,或者语音数据集,你没得选 (˃̶͈̀௰˂̶͈́) ddsp 欢迎您
RVC
这个项目可用于快速训练他人声线
实时推理模仿他人声线(变声器)
由于变声器这个特点,被大量制作成套皮变声器骗钱,也有拿训练模型高价卖钱的
配置要求较低,需要有一段原始声音以进行模仿
也是花儿不哭大佬研发
教程文档:https://www.yuque.com/baicaigongchang1145haoyuangong/imh23d
项目地址:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
RVC模型训练
so-vits-svc(万物之源)
这是一个提取声线翻唱的项目,原作者删库,不学了
教程文档:https://www.yuque.com/baicaigongchang1145haoyuangong/np18f4
voicemeeter
教程:https://docs.qq.com/doc/DUkJ2QU96Z3VlUGFU
AI图像&视频
stable-diffusion
这是一个AI绘画项目
AI文本
本地模型:
ollama
图形化界面:
SillyTavern小酒馆:
角色卡
云部署