AI项目部署

记录一些关于近期学习的ai项目的部署使用方法和细节（主要为开源本地项目）

AI音频

FunAudioLLM

这是阿里的一个有关语音识别与合成的项目
项目介绍：https://fun-audio-llm.github.io
具体分为两个项目：SenseVoice和CosyVoice（类似于Gpt-sovits）
目前只学习了Sensevoice（ASR语音识别）
学习视频：https://www.bilibili.com/video/BV1Mi421a7Wm
学习笔记：https://note.youdao.com/s/Q1uvbi5Y

api4sensevoice

伪实时语音识别

在项目文件server_wss.py最后一行配置端口地址

1	uvicorn.run(app, host="127.0.0.1", port=7860)

配置启动.bat文件

@echo off
call conda activate api4sensevoice
start python server_wss.py && start "" "*\api4sensevoice\client_wss.html"
pause

Gpt-sovits

这个项目可以将一段正常说话的语音按文字切分提取出来

可以实现文字转模拟音色语音的效果（文字生成语音）

缺点是声音情感较弱，大量运用于人机视频配音

主要是b站花儿不哭大佬研发

项目地址：https://github.com/RVC-Boss/GPT-SoVITS

教程视频：https://www.bilibili.com/video/BV12g4y1m7Uw

教程文档：www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

不会编程的可以使用训练推理整合包：
https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi
https://drive.uc.cn/s/a1fd91ae0a4f4

推理时用到的

SVC项目

Singing Voice Conversion（歌声转换）

常见的开源的SVC项目大概有So-VITS-SVC，RVC，DDSP-SVC，Diffusion-SVC，Diff-SVC，ReFlow-VAE-SVC

项目性能比较

主观效果评级（质量中等，时长超过 1h 的唱歌数据，推理源较好的情况下）：

SOV > ReFlow > DDSP6.0

主观效果评级（高质量，时长超过 1h 的说话数据，推理源较好的情况下）：

DDSP6.0 > ReFlow >>>>> SOV

训练速度（由快到慢）：

DDSP ≈ ReFlow > SOV

省流助手

高配置，高质量数据集，首选 sovits；

一般配置，数据集较短，首选 ReFlow；

低配置，或者语音数据集，你没得选 (˃̶͈̀௰˂̶͈́) ddsp 欢迎您

RVC

这个项目可用于快速训练他人声线

实时推理模仿他人声线（变声器）

由于变声器这个特点，被大量制作成套皮变声器骗钱，也有拿训练模型高价卖钱的

配置要求较低，需要有一段原始声音以进行模仿

也是花儿不哭大佬研发

教程文档：https://www.yuque.com/baicaigongchang1145haoyuangong/imh23d

项目地址：https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

RVC模型训练

so-vits-svc(万物之源)

这是一个提取声线翻唱的项目，原作者删库，不学了

教程文档：https://www.yuque.com/baicaigongchang1145haoyuangong/np18f4

voicemeeter

教程：https://docs.qq.com/doc/DUkJ2QU96Z3VlUGFU

AI图像&视频

stable-diffusion

这是一个AI绘画项目

AI文本

本地模型：

ollama

图形化界面：

SillyTavern小酒馆：

角色卡

云部署

Dify知识库：

GIzHz9NbUAAa8_X

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。