这个使用gpu加速的话一般短句的十几个字的这种。一句话多久合成好呢？ about vits-simple-api HOT 20 CLOSED

Lemondogdog commented on July 21, 2024

这个使用gpu加速的话一般短句的十几个字的这种。一句话多久合成好呢？

from vits-simple-api.

Comments (20)

Artrajz commented on July 21, 2024 1

1060显卡，20个字的短句0.3s左右

from vits-simple-api.

Lemondogdog commented on July 21, 2024

1060显卡，20个字的短句0.3s左右

你好，请问下。如果下载了windows快速部署包是不是只需添加自己下载的vits模型进去就行了。就可以发送API请求合成了不需要在安装其它的环境依赖了吗？

from vits-simple-api.

Artrajz commented on July 21, 2024

是的，除了使用GPU推理需要另外安装cuda

from vits-simple-api.

Lemondogdog commented on July 21, 2024

我已经把VITS模型下载放入windows快速部署包内了，这样的文件内G:\vits-simple-api-windows\vits-simple-api\Model\Nene_Nanami_Rong_Tang 里面就是这两个文件config.json和1374_epochs.pth 然后我直接启动项目主目录下的start.bat。它里面显示是这样的如下：INFO:vits-simple-api:torch:2.0.1+cu117 cuda_available:True
INFO:vits-simple-api:device:cuda device.type:cuda
INFO:vits-simple-api:0 speakers in total
WARNING:vits-simple-api:No model was loaded
INFO:apscheduler.scheduler:Added job "clean_task" to job store "default"
DEBUG:apscheduler.scheduler:Looking for jobs to run
DEBUG:apscheduler.scheduler:Next wakeup is due at 2023-07-02 06:28:00.126055+08:00 (in 3599.999000 seconds)

Serving Flask app 'app'
Debug mode: off
INFO:werkzeug:WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.
Running on all addresses (0.0.0.0)
Running on http://127.0.0.1:23456
Running on http://192.168.1.2:23456
INFO:werkzeug:Press CTRL+C to quit

这些显示是正常吗好像是有警告问题是部署模型没加载上？

from vits-simple-api.

Artrajz commented on July 21, 2024

需要修改config.py中加载的模型路径

from vits-simple-api.

Lemondogdog commented on July 21, 2024

需要修改config.py中加载的模型路径

原来我以为原先有设置好相对路径了。现在改了config.py中加载的模型路径后。加载成功GPU加速确实很快。牛，感觉就是毫秒级别合成好。

from vits-simple-api.

Lemondogdog commented on July 21, 2024

需要修改config.py中加载的模型路径

现在发现如果使用久了，那个start.bat打开的服务器窗口会积累很多历史信息，有办法自定义控制发送指令来清空Vits这个窗口的历史信息吗？

from vits-simple-api.

Artrajz commented on July 21, 2024

后台日志一般是无法清空的，如果不想输出太多日志，可以尝试在config.py中提高日志级别

from vits-simple-api.

Lemondogdog commented on July 21, 2024

后台日志一般是无法清空的，如果不想输出太多日志，可以尝试在config.py中提高日志级别

使用 VITS-fast-fine-tuning 这个微调训练自己的模型能够成导入这个API里面来使用吗？

from vits-simple-api.

Artrajz commented on July 21, 2024

可以的，但是要把config.json里的speakers从字典改成列表格式

from vits-simple-api.

Lemondogdog commented on July 21, 2024

可以的，但是要把config.json里的speakers从字典改成列表格式

W2V2 VITS / emotional-vits维度情感模型像这个有情感的参数效果调整是所有模型都能使用吗？这是不是得另外添加相关的情感识别文件到modle里面放入才可以使用？

from vits-simple-api.

Artrajz commented on July 21, 2024

并不是所有模型都能用，需要经过情感项目训练过的模型才行。使用也需要另外下载存放了情感向量的npy文件，或者使用情感项目提取出的向量文件，并在config.py中配置路径。

from vits-simple-api.

Lemondogdog commented on July 21, 2024

并不是所有模型都能用，需要经过情感项目训练过的模型才行。使用也需要另外下载存放了情感向量的npy文件，或者使用情感项目提取出的向量文件，并在config.py中配置路径。

那我看见model里面有个现成的npy文件里面有个all_emotions.npy。这个能用在派萌这个语言模型上吗？还是说我们的拿这个派萌的模型去情感项目训练过得到它的npy文件再来导入使用才有效果？

from vits-simple-api.

Artrajz commented on July 21, 2024

要把模型拿去训练过才有效果，具体训练方法要看训练项目的介绍。然后npy是用训练用的音频样本提取得到的，用现成也行，只是效果可能没那么好。

from vits-simple-api.

Lemondogdog commented on July 21, 2024

可以的，但是要把config.json里的speakers从字典改成列表格式

我使用VITS-fast-fine-tuning训练了模型只选择了CJE模式但是我训练完模型后导入责怪api里面它为什么会多出来一个语言呢它会变成['zh','ja','ko','en'] 就这里面多了个KO 的语言好像是韩语。然后我中文的拜拜这两个字它始终自动帮我识别成了韩语会变成这个DEBUG:langid.langid:restricting languages to: ['zh', 'ja', 'ko', 'en']
DEBUG:vits-simple-api:[KO]拜拜[KO] 这种情况我要怎么修改呢？

from vits-simple-api.

Artrajz commented on July 21, 2024

因为他这个模型用的是cjke_cleaners2实际上有四种语言，可以在config.py中修改LANGUAGE_AUTOMATIC_DETECT = []为LANGUAGE_AUTOMATIC_DETECT = ['zh','ja','en']来限制识别语言的范围。或者更新一下代码 6331d20，直接把模型的config.json里的cleaner修改为cje_cleaners2

from vits-simple-api.

Lemondogdog commented on July 21, 2024

1060显卡，20个字的短句0.3s左右

有办法修改减少每句话合成后它的末尾的空白没音频的时间吗我的每句合成后面它空白间隔时间有1秒多。我们有办法减少这个每句话合成后末尾的空白时长吗？以及音量的分贝大小。我微调训练后的模型来通过这项目调用会音量偏小声和结尾空白时间偏长。

from vits-simple-api.

Artrajz commented on July 21, 2024

间隔是模型推理决定的不好改，除非把文本拆开来推理再加入自定义的间隔。音量应该也只能在推理后处理一下。

from vits-simple-api.

Lemondogdog commented on July 21, 2024

间隔是模型推理决定的不好改，除非把文本拆开来推理再加入自定义的间隔。音量应该也只能在推理后处理一下。

这种情况是不是我自己源数据集的短音频末尾没有切除干净才这样？我使用了其他人训练的比如派萌的哪个声音就不会出现每句话末尾静音太长的问题。

from vits-simple-api.

Artrajz commented on July 21, 2024

有这个可能，我训练模型比较少，可以咨询有经验的人

from vits-simple-api.

这个使用gpu加速的话一般短句的十几个字的这种。一句话多久合成好呢？ about vits-simple-api HOT 20 CLOSED

Comments (20)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent