记录一些关于近期学习的ai项目的部署使用方法和细节(主要为开源本地项目)

AI音频

FunAudioLLM

这是阿里的一个有关语音识别与合成的项目
项目介绍:https://fun-audio-llm.github.io
具体分为两个项目:SenseVoice和CosyVoice(类似于Gpt-sovits)
目前只学习了Sensevoice(ASR语音识别)
学习视频:https://www.bilibili.com/video/BV1Mi421a7Wm
学习笔记:https://note.youdao.com/s/Q1uvbi5Y

api4sensevoice

伪实时语音识别

在项目文件server_wss.py最后一行配置端口地址

1
uvicorn.run(app, host="127.0.0.1", port=7860)

配置启动.bat文件

1
2
3
4
@echo off
call conda activate api4sensevoice
start python server_wss.py && start "" "*\api4sensevoice\client_wss.html"
pause

Gpt-sovits

这个项目可以将一段正常说话的语音按文字切分提取出来

可以实现文字转模拟音色语音的效果(文字生成语音)

缺点是声音情感较弱,大量运用于人机视频配音

主要是b站花儿不哭大佬研发

项目地址:https://github.com/RVC-Boss/GPT-SoVITS

教程视频:https://www.bilibili.com/video/BV12g4y1m7Uw

教程文档:www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

不会编程的可以使用训练推理整合包:
https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi
https://drive.uc.cn/s/a1fd91ae0a4f4

推理时用到的

SVC项目

Singing Voice Conversion(歌声转换)

常见的开源的SVC项目大概有So-VITS-SVC,RVC,DDSP-SVC,Diffusion-SVC,Diff-SVC,ReFlow-VAE-SVC

项目性能比较

主观效果评级(质量中等,时长超过 1h 的唱歌数据,推理源较好的情况下):

SOV > ReFlow > DDSP6.0

主观效果评级(高质量,时长超过 1h 的说话数据,推理源较好的情况下):

DDSP6.0 > ReFlow >>>>> SOV

训练速度(由快到慢):

DDSP ≈ ReFlow > SOV

省流助手

高配置,高质量数据集,首选 sovits;

一般配置,数据集较短,首选 ReFlow;

低配置,或者语音数据集,你没得选 (˃̶͈̀௰˂̶͈́) ddsp 欢迎您

RVC

这个项目可用于快速训练他人声线

实时推理模仿他人声线(变声器)

由于变声器这个特点,被大量制作成套皮变声器骗钱,也有拿训练模型高价卖钱的

配置要求较低,需要有一段原始声音以进行模仿

也是花儿不哭大佬研发

教程文档:https://www.yuque.com/baicaigongchang1145haoyuangong/imh23d

项目地址:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

RVC模型训练

so-vits-svc(万物之源)

这是一个提取声线翻唱的项目,原作者删库,不学了

教程文档:https://www.yuque.com/baicaigongchang1145haoyuangong/np18f4

voicemeeter

教程:https://docs.qq.com/doc/DUkJ2QU96Z3VlUGFU

AI图像&视频

stable-diffusion

这是一个AI绘画项目

AI文本

本地模型:

ollama

图形化界面:

SillyTavern小酒馆:

角色卡

云部署

Dify知识库:

GIzHz9NbUAAa8_X