Code Monkey home page Code Monkey logo

voice-changer's Introduction

VC Client

English Korean

What's New!

  • VCClientは version.2として開発が進められています. こちらを参照  一応Mac版もリリースしました。

  • v.1.5.3.18a

    • Bugfix: FCPE
  • v.1.5.3.18 (removed.)

    • New Feature: FCPE
    • Easy-VC (experimental)
  • v.1.5.3.17b

  • v.1.5.3.17a

  • v.1.5.3.17

    • New Features:
      • Added similarity graph for Beatrice speaker selection
    • Bug Fixes:
      • Fixed crossfade issue with Beatrice speaker
  • v.1.5.3.16a

    • Bug fix:
      • Lazy load Beatrice.
  • v.1.5.3.16 (Only for Windows, CPU dependent)

    • New Feature:
      • Beatrice is supported(experimental)
  • v.1.5.3.15

    • Improve:
      • new rmvpe checkpoint for rvc (torch, onnx)
      • Mac: upgrade torch version 2.1.0

VC Client とは

  1. 各種音声変換 AI(VC, Voice Conversion)を用いてリアルタイム音声変換を行うためのクライアントソフトウェアです。サポートしている音声変換 AI は次のものになります。
  1. 本ソフトウェアは、ネットワークを介した利用も可能であり、ゲームなどの高負荷なアプリケーションと同時に使用する場合などに音声変換処理の負荷を外部にオフロードすることができます。

image

  1. 複数のプラットフォームに対応しています。
  • Windows, Mac(M1), Linux, Google Colab (MMVC のみ)

使用方法

大きく 2 つの方法でご利用できます。難易度順に次の通りです。

  • 事前ビルド済みの Binary での利用
  • Docker や Anaconda など環境構築を行った上での利用

本ソフトウェアや MMVC になじみの薄い方は上から徐々に慣れていくとよいと思います。

(1) 事前ビルド済みの Binary での利用

  • Windows 版と Mac 版を提供しています。

    • Windows かつ Nvidia の GPU をご使用の方は、ONNX(cpu,cuda), PyTorch(cpu,cuda)をダウンロードしてください。
    • Windows かつ AMD/Intel の GPU をご使用の方は、ONNX(cpu,DirectML), PyTorch(cpu,cuda)をダウンロードしてください。AMD/Intel の GPU は onnx のモデルを使用する場合のみ有効になります。
    • いずれの GPU のサポート状況についても、PyTorch、Onnxruntime がサポートしている場合のみ有効になります。
    • Windows で GPU をご使用にならない方は、ONNX(cpu,cuda), PyTorch(cpu,cuda)をダウンロードしてください。
  • Windows 版は、ダウンロードした zip ファイルを解凍して、start_http.batを実行してください。

  • Mac 版はダウンロードファイルを解凍したのちに、startHttp.commandを実行してください。開発元を検証できない旨が示される場合は、再度コントロールキーを押してクリックして実行してください(or 右クリックから実行してください)。

  • 初回起動時は各種データをダウンロードします。ダウンロードに時間がかかる可能性があります。ダウンロードが完了すると、ブラウザが立ち上がります。

  • リモートから接続する場合は、.batファイル(win)、.commandファイル(mac)の http が https に置き換わっているものを使用してください。

  • DDPS-SVC の encoder は hubert-soft のみ対応です。

  • ダウンロードはこちらから。

Version OS フレームワーク link サポート VC サイズ
v.1.5.3.18a mac ONNX(cpu), PyTorch(cpu,mps) N/A MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC 797MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC, DDSP-SVC, Diffusion-SVC, Beatrice 3240MB
win ONNX(cpu,DirectML), PyTorch(cpu,cuda) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC, DDSP-SVC, Diffusion-SVC, Beatrice 3125MB
v.1.5.3.17b mac ONNX(cpu), PyTorch(cpu,mps) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC 797MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC, DDSP-SVC, Diffusion-SVC, Beatrice 3240MB
win ONNX(cpu,DirectML), PyTorch(cpu,cuda) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC, DDSP-SVC, Diffusion-SVC, Beatrice 3125MB
v.1.5.3.16a mac ONNX(cpu), PyTorch(cpu,mps) N/A MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC 797MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC, DDSP-SVC, Diffusion-SVC, Beatrice 3240MB
win ONNX(cpu,DirectML), PyTorch(cpu,cuda) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC, DDSP-SVC, Diffusion-SVC, Beatrice 3125MB
v.1.5.3.15 mac ONNX(cpu), PyTorch(cpu,mps) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC 797MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC, DDSP-SVC, Diffusion-SVC 3240MB
win ONNX(cpu,DirectML), PyTorch(cpu,cuda) hugging face MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC, DDSP-SVC, Diffusion-SVC 3125MB

(*1) Google Drive からダウンロードできない方はhugging_faceからダウンロードしてみてください (*2) 開発者が AMD のグラフィックボードを持っていないので動作確認していません。onnxruntime-directml を同梱しただけのものです。 (*3) 解凍や起動が遅い場合、ウィルス対策ソフトのチェックが走っている可能性があります。ファイルやフォルダを対象外にして実行してみてください。(自己責任です)

https://huggingface.co/wok000/vcclient000/resolve/main/MMVCServerSIO_win_onnxgpu-cuda_v.1.5.3.18.zip?download=true

(2) Docker や Anaconda など環境構築を行った上での利用

本リポジトリをクローンして利用します。Windows では WSL2 の環境構築が必須になります。また、WSL2 上で Docker もしくは Anaconda などの仮想環境の構築が必要となります。Mac では Anaconda などの Python の仮想環境の構築が必要となります。事前準備が必要となりますが、多くの環境においてこの方法が一番高速で動きます。 GPU が無くてもそこそこ新しい CPU であれば十分動く可能性があります (下記のリアルタイム性の節を参照)

WSL2 と Docker のインストールの解説動画

WSL2 と Anaconda のインストールの解説動画

Docker での実行は、Docker を使用するを参考にサーバを起動してください。

Anaconda の仮想環境上での実行は、サーバ開発者向けのページを参考にサーバを起動してください。

トラブルシュート

リアルタイム性(MMVC)

GPU を使用するとほとんどタイムラグなく変換可能です。

https://twitter.com/DannadoriYellow/status/1613483372579545088?s=20&t=7CLD79h1F3dfKiTb7M8RUQ

CPU でも最近のであればそれなりの速度で変換可能。

https://twitter.com/DannadoriYellow/status/1613553862773997569?s=20&t=7CLD79h1F3dfKiTb7M8RUQ

古い CPU( i7-4770)だと、1000msec くらいかかってしまう。

開発者の署名について

本ソフトウェアは開発元の署名しておりません。下記のように警告が出ますが、コントロールキーを押しながらアイコンをクリックすると実行できるようになります。これは Apple のセキュリティポリシーによるものです。実行は自己責任となります。

image

Acknowledgments

  本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。
  ■つくよみちゃんコーパス(CV.夢前黎)
  https://tyc.rei-yumesaki.net/material/corpus/
  © Rei Yumesaki

利用規約

  • リアルタイムボイスチェンジャーつくよみちゃんについては、つくよみちゃんコーパスの利用規約に準じ、次の目的で変換後の音声を使用することを禁止します。

■人を批判・攻撃すること。(「批判・攻撃」の定義は、つくよみちゃんキャラクターライセンスに準じます)

■特定の政治的立場・宗教・**への賛同または反対を呼びかけること。

■刺激の強い表現をゾーニングなしで公開すること。

■他者に対して二次利用(素材としての利用)を許可する形で公開すること。
※鑑賞用の作品として配布・販売していただくことは問題ございません。
  • リアルタイムボイスチェンジャーあみたろについては、あみたろの声素材工房様の次の利用規約に準じます。詳細はこちらです。
あみたろの声素材やコーパス読み上げ音声を使って音声モデルを作ったり、ボイスチェンジャーや声質変換などを使用して、自分の声をあみたろの声に変換して使うのもOKです。

ただしその場合は絶対に、あみたろ(もしくは小春音アミ)の声に声質変換していることを明記し、あみたろ(および小春音アミ)が話しているわけではないことが誰でもわかるようにしてください。
また、あみたろの声で話す内容は声素材の利用規約の範囲内のみとし、センシティブな発言などはしないでください。
  • リアルタイムボイスチェンジャー黄琴まひろについては、れぷりかどーるの利用規約に準じます。詳細はこちらです。

免責事項

本ソフトウェアの使用または使用不能により生じたいかなる直接損害・間接損害・波及的損害・結果的損害 または特別損害についても、一切責任を負いません。

(1) レコーダー(トレーニング用音声録音アプリ)

MMVC トレーニング用の音声を簡単に録音できるアプリです。 Github Pages 上で実行できるため、ブラウザのみあれば様々なプラットフォームからご利用可能です。 録音したデータは、ブラウザ上に保存されます。外部に漏れることはありません。

録音アプリ on Github Pages

解説動画

過去バージョン

Version OS フレームワーク link サポート VC サイズ
v.1.5.2.9e mac ONNX(cpu), PyTorch(cpu,mps) normal *1 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC 796MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) normal *1 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC, DDSP-SVC 2872MB
v.1.5.3.1 mac ONNX(cpu), PyTorch(cpu,mps) normal *1 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC 796MB
win ONNX(cpu,cuda), PyTorch(cpu,cuda) normal *1 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC, DDSP-SVC 2872MB

For Contributor

このリポジトリはCLAを設定しています。

voice-changer's People

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

voice-changer's Issues

fairseq is missing in v.1.5.1.8.

v.1.5.1.8(ONNX(cpu,DirectML), PyTorch(cpu,cuda)) is missing fairseq so GUI is not activated in this version.
In ONNX(cpu,cuda), PyTorch(cpu,cuda), I have confirmed that GUI is running and fairseq is included.
Here is the error code.

Traceback (most recent call last):
  File "multiprocessing\process.py", line 314, in _bootstrap
  File "multiprocessing\process.py", line 108, in run
  File "MMVCServerSIO.py", line 112, in localServer
  File "uvicorn\main.py", line 569, in run
  File "uvicorn\server.py", line 60, in run
  File "asyncio\runners.py", line 44, in run
  File "asyncio\base_events.py", line 649, in run_until_complete
  File "uvicorn\server.py", line 67, in serve
  File "uvicorn\config.py", line 477, in load
  File "uvicorn\importer.py", line 24, in import_from_string
  File "uvicorn\importer.py", line 21, in import_from_string
  File "importlib\__init__.py", line 126, in import_module
  File "<frozen importlib._bootstrap>", line 1050, in _gcd_import
  File "<frozen importlib._bootstrap>", line 1027, in _find_and_load
  File "<frozen importlib._bootstrap>", line 1006, in _find_and_load_unlocked
  File "<frozen importlib._bootstrap>", line 688, in _load_unlocked
  File "PyInstaller\loader\pyimod02_importers.py", line 352, in exec_module
  File "MMVCServerSIO.py", line 125, in <module>
  File "voice_changer\VoiceChangerManager.py", line 10, in get_instance
  File "voice_changer\VoiceChanger.py", line 59, in __init__
  File "PyInstaller\loader\pyimod02_importers.py", line 352, in exec_module
  File "voice_changer\SoVitsSvc40v2\SoVitsSvc40v2.py", line 24, in <module>
ModuleNotFoundError: No module named 'fairseq'

MMVC使用時のspeakerID

100~103まではプルダウンで選べるが自分で学習させた上記以外のidにすることが出来るのか。
わからないので質問しました。

RuntimeError: "slow_conv2d_cpu" not implemented for 'Half'

v.1.5.1.15b の macOS 用のバイナリを使用したところ以下のエラーが出力されて動作しません。
startHttps_RVC.command を Mac で実行してローカルネットワーク上の Windows10 から利用しようとしています。
Windows10 上の Chrome で UI を表示し RVC のモデルをアップロードするところまでは正常に動作しているようです。
どのように解決すればよいか教えていただけると幸いです。

macOS Monterey 12.2.1
Apple M1 Max

VC PROCESSING!!!! EXCEPTION!!! "slow_conv2d_cpu" not implemented for 'Half'
Traceback (most recent call last):
  File "voice_changer/VoiceChanger.py", line 197, in on_request
  File "voice_changer/RVC/RVC.py", line 277, in inference
  File "voice_changer/RVC/RVC.py", line 267, in _pyTorch_inference
  File "voice_changer/RVC/custom_vc_infer_pipeline.py", line 149, in pipeline
  File "voice_changer/RVC/custom_vc_infer_pipeline.py", line 86, in vc
  File "fairseq/models/hubert/hubert.py", line 535, in extract_features
    res = self.forward(
  File "fairseq/models/hubert/hubert.py", line 437, in forward
    features = self.forward_features(source)
  File "fairseq/models/hubert/hubert.py", line 392, in forward_features
    features = self.feature_extractor(source)
  File "torch/nn/modules/module.py", line 1194, in _call_impl
    return forward_call(*input, **kwargs)
  File "fairseq/models/wav2vec/wav2vec2.py", line 895, in forward
    x = conv(x)
  File "torch/nn/modules/module.py", line 1194, in _call_impl
    return forward_call(*input, **kwargs)
  File "torch/nn/modules/container.py", line 204, in forward
    input = module(input)
  File "torch/nn/modules/module.py", line 1194, in _call_impl
    return forward_call(*input, **kwargs)
  File "torch/nn/modules/conv.py", line 313, in forward
    return self._conv_forward(input, self.weight, self.bias)
  File "torch/nn/modules/conv.py", line 309, in _conv_forward
    return F.conv1d(input, weight, bias, self.stride,
RuntimeError: "slow_conv2d_cpu" not implemented for 'Half'

v.1.5.1.9 onnxExecutionProvider is not mutalbe variable or unknown variable

MMVCServerSIO_win_onnxdirectML_cuda_v.1.5.1.9
MMVCServerSIO_win_onnxgpu_cuda_v.1.5.1.9

tested both versions above
Using ONNX to report an error when the GUI starts

Device: RTX3090 driver version 528.02
System: win11

start_https_so-vits-svc_40v2.bat

post_update_setteings framework ONNX
post_update_setteings onnxExecutionProvider CUDAExecutionProvider
onnxExecutionProvider is not mutalbe variable or unknown variable!

Failed to execute script 'pyi_rth_win32comgenpy' due to unhandled exception!

タイトルの内容のエラーが発生しています。
ログなどのわかっていることとこちらで試したものを列挙しましたが、改善には至らなかったので何かわかることがあれば修正していただけると助かります。

[環境]
MMVCServerSIO_win_onnxgpu-cuda_v.1.5.2.3a
Windows10 64bit 21H2(OSビルド 19044.2846)
64bit:Python 3.10.7 (tags/v3.10.7:6cc6b13, Sep 5 2022, 14:08:36) [MSC v.1933 64 bit (AMD64)] on win32
32bit:Python 3.11.3 (tags/v3.11.3:f3909b8, Apr 4 2023, 23:34:50) [MSC v.1934 32 bit (Intel)] on win32

[問題発生手順]
start_http.batを実行すると、下記のエラーが発生する。
内容はimport win32apiの失敗によるエラー。

D:\MMVCServerSIO>MMVCServerSIO.exe --https off -p 18888 --hubert hubert_base.pt --hubertSoftPt hubert-soft-0d54a1f4.pt --enhancerPt nsf_hifigan/model
Traceback (most recent call last):
File "Lib\site-packages\PyInstaller\hooks\rthooks\pyi_rth_win32comgenpy.py", line 40, in
File "PyInstaller\loader\pyimod02_importers.py", line 352, in exec_module
File "win32com_init_.py", line 5, in
ImportError: DLL load failed while importing win32api: 指定されたモジュールが見つかりません。
[14016] Failed to execute script 'pyi_rth_win32comgenpy' due to unhandled exception!

[改善試行]
pip install pywin32を実行したが改善せず。
python64bit版のみのインストールだったため、32bit版が必要かと思いインストールしたが改善せず。

下記の記事から Pythonのインストール時に「for all users」でインストールしていないと発生すると考えたが、再インストールで「for all users」にしても改善せず。
「python Scripts/pywin32_postinstall.py -install -destination %CD%\site-packages」の手順も試みたが改善せず。
参考:https://seesaawiki.jp/w/kou1okada/d/20201117%3A%20Microsoft%20Store%20%C8%C7%20Python%20%A4%C7%20win32api%20%A4%AC%20import%20%BD%D0%CD%E8%A4%CA%A4%A4

Tuningの調整に直接文字を打ち込めるようにして欲しいです

いつもお世話になっております。

表題の件につきまして、チューニング時にマウスで左右にスライドさせているのですが
微調整がとても困難になることが多々あり、文字入力や矢印キーなどで1づつ上げ下げ出来る仕様をご検討いただけますと幸いです。

When I use real-time translation

image
When I use real-time translation, the volume keeps increasing indefinitely. What could be causing this problem?

[15832:0324/150711.482:ERROR:gpu_init.cc(523)] Passthrough is not supported, GL is disabled, ANGLE is
[2023-03-24 15:07:14] connet sid : NwFCE8EsrCe1K0tmAAAH
post request handler error
Traceback (most recent call last):
File "engineio\asyncio_server.py", line 289, in handle_request
File "engineio\asyncio_socket.py", line 109, in handle_post_request
File "engineio\payload.py", line 13, in init
File "engineio\payload.py", line 44, in decode
ValueError: Too many packets in payload
ERROR:engineio.server:post request handler error
Traceback (most recent call last):
File "engineio\asyncio_server.py", line 289, in handle_request
File "engineio\asyncio_socket.py", line 109, in handle_post_request
File "engineio\payload.py", line 13, in init
File "engineio\payload.py", line 44, in decode
ValueError: Too many packets in payload

Conda installation instructions outdated

Hi. I've been trying to install through Conda but the video became outdated after a refactor.
I found a requirements.txt inside the server folder, but after installing them there are still missing dependencies and is not possible to run the server.

Is it possible to get an updated requirements.txt or some short instructions on the voice-changer installation? (assuming conda has already been setup).

Thanks!

Improve the sound quality of real-time voice changer with better stitching algorithm

I noticed that the crossfades used by the project now is the classic OLA (overlap-add) method. However, this method has the problem of fundamental harmonic breakage, because if the phase difference of the two harmonics to be spliced is very large, cross-fading will introduce beat frequency, resulting in unstable amplitude.

Now, the built-in gui of DDSP-SVC and RVC both use a so-called SOLA (synchronized-overlap-add) algorithm, and it is found through experiments that it can solve the above fundamental harmonic breakage problem. Its core idea is to slide the stitching position (generally less than one fundamental harmonic period) and calculate the autocorrelation, and then cross-fade at the position of the maximum autocorrelation.

SOLA can use torch's conv1d function to accelerate autocorrelation calculations using gpu, and it has been tested to cause almost no additional delay (on the order of 1ms). Relevant codes have been implemented in the above two guis. I expect this project can also use SOLA or even more advanced stitching algorithms.

v.1.5.1.15bにてDestination Speaker id が空となる

環境

  • OS : windows10 Home(22H2)
  • CPU : Corei5 4670(無印)
  • RAM : 16GB
  • GPU : GTX 1070 (VRAM 8GB)
  • Version : v.1.5.1.15b
  • ONNX(cpu,cuda), PyTorch(cpu,cuda)版及びONNX(cpu,DirectML), PyTorch(cpu) 版の両方で発生します

詳細

start_http_RVC.batを起動後表示されたVC Client画面→
Speaker Settingエリア→Destination Speaker id のプルダウンが空のままとなっています。
グレーアウトはされておらず選択は可能なのですがプルダウンリストが空のため
選択できるスピーカーが存在しません。
この状態のままModel SettingからPytorch(.pth)からmodelを選択uploadし
Server ControlにてStartを押下すると下記エラーメッセージ表示されボイスチェンジャーが動作しません。

v.1.5.1.15aでは当該プルダウンにはdefault(0)がデフォルトで選択済みで
正常にボイスチェンジャーが動作していることを確認しております。

>MMVCServerSIO.exe --https off -p 18888 --modelType RVC --hubert hubert_base.pt
    Booting PHASE :__main__
    Voice Changerを起動しています。
    -- 設定 --
    CONFIG:None, MODEL:None ONNX_MODEL:None
    Internal_Port:18888
    protocol: HTTP
    -- ---- --
    ブラウザで次のURLを開いてください.
    http://<IP>:<PORT>/
    多くの場合は次のいずれかのURLにアクセスすると起動します。
    http://localhost:18888/?modelType=RVC

    Booting PHASE :__main__
    Booting PHASE :MMVCServerSIO
[VoiceChanger] activate model type: RVC
没有发现支持的N卡, 使用CPU进行推理
RVC initialization:  {'hubert': 'hubert_base.pt', 'useHubertOnnx': False}
VoiceChanger Initialized (GPU_NUM:0, mps_enabled:False)
[2023-04-09 23:56:47] connet sid : Q-YbisX5-xZGzGp9AAAC
[2023-04-09 23:56:47] connet sid : QcKv6Onx2DLKkGurAAAD
post_update_setteings crossFadeOffsetRate 0.1
post_update_setteings crossFadeEndRate 0.8
post_update_setteings crossFadeOverlapSize 1024
post_update_setteings framework PyTorch
post_update_setteings onnxExecutionProvider CPUExecutionProvider
Onnx is not enabled. Please load model.
post_update_setteings f0Detector harvest
onnxExecutionProvider is not mutable variable or unknown variable!
post_update_setteings tran 14
post_update_setteings noiceScale 0.3
post_update_setteings predictF0 1
post_update_setteings extraConvertSize 32768
post_update_setteings silentThreshold 0.00001
post_update_setteings clusterInferRatio 0.1
clusterInferRatio is not mutable variable or unknown variable!
post_update_setteings inputSampleRate 24000
[2023-04-09 23:57:38] connet sid : bBPFOedDav9aik81AAAF
[2023-04-09 23:57:38] connet sid : A8EhrdVeT1WKtgv2AAAH
post_update_setteings crossFadeOffsetRate 0.1
post_update_setteings crossFadeOverlapSize 1024
post_update_setteings crossFadeEndRate 0.8
post_update_setteings framework PyTorch
post_update_setteings onnxExecutionProvider CPUExecutionProvider
Onnx is not enabled. Please load model.
onnxExecutionProvider is not mutable variable or unknown variable!
post_update_setteings f0Factor 1
f0Factor is not mutable variable or unknown variable!
post_update_setteings f0Detector harvest
post_update_setteings tran 10
post_update_setteings noiceScale 0.3
post_update_setteings silentThreshold 0.00001
post_update_setteings extraConvertSize 32768
post_update_setteings clusterInferRatio 0.1
clusterInferRatio is not mutable variable or unknown variable!
post_update_setteings modelSamplingRate 48000
post_update_setteings inputSampleRate 48000
EXCEPTION during loading hubert/contentvec model Model file not found: hubert_base.pt
gin_channels: 256 self.spk_embed_dim: 109
Generated Strengths: for prev:(1024,), for cur:(1024,)
VC PROCESSING!!!! EXCEPTION!!! 'RVC' object has no attribute 'hubert_model'
Traceback (most recent call last):
  File "voice_changer\VoiceChanger.py", line 197, in on_request
  File "voice_changer\RVC\RVC.py", line 277, in inference
  File "voice_changer\RVC\RVC.py", line 242, in _pyTorch_inference
AttributeError: 'RVC' object has no attribute 'hubert_model'

VC PROCESSING!!!! EXCEPTION!!! 'RVC' object has no attribute 'hubert_model'
Traceback (most recent call last):
  File "voice_changer\VoiceChanger.py", line 197, in on_request
  File "voice_changer\RVC\RVC.py", line 277, in inference
  File "voice_changer\RVC\RVC.py", line 242, in _pyTorch_inference
AttributeError: 'RVC' object has no attribute 'hubert_model'

v.1.5.2.2windowsにてso-vits-SVC4.0のモデルのアップロードが不能

エラーメッセージ
EXCEPTION during loading hubert/contentvec model 'NoneType' object has no attribute 'replace'
load
INFO:root:Loaded checkpoint 'D:\Temp\tmpvzuq0yqv\upload_dir\G_64000.pth' (iteration 942)

ファイル配置は正しく行われているはず
D:\me\MMVCServerSIO\MMVCServerSIO.exe
D:\me\MMVCServerSIO\checkpoint_best_legacy_500.pt
‪D:\me\MMVCServerSIO\hubert_base.pt
D:\me\MMVCServerSIO\file\vits\G_64000.pth
D:\me\MMVCServerSIO\file\vits\config.json

AttributeError: 'RVC' object has no attribute 'hubert_model'

VC PROCESSING!!!! EXCEPTION!!! 'RVC' object has no attribute 'hubert_model'
Traceback (most recent call last):
File "voice_changer\VoiceChanger.py", line 236, in on_request_sola
File "voice_changer\RVC\RVC.py", line 291, in inference
File "voice_changer\RVC\RVC.py", line 251, in _pyTorch_inference
AttributeError: 'RVC' object has no attribute 'hubert_model'

windows v.1.5.2.3aのRVC(Retrieval-based-Voice-Conversion)での操作でのエラーです。
pthファイルのアップロードはできているのですが
startを押すとこのようなエラーが出てしまいます。

Unable to load RVC models

I am running a WSL2 conda environment on Windows and the model upload always stops at 99% and gives me this error.

[Voice Changer] RVC loading... slot: 0
EXCEPTION during loading hubert/contentvec model Model file not found: weights/hubert_base.pt
[Voice Changer] Model Load Error! Check your model is valid. 'config'

This is my weights directory
image

Launch command:

python3 MMVCServerSIO.py -p 18888 --https true   --content_vec_500 weights/checkpoint_best_legacy_500.pt   --hubert_base weights/hubert_base.pt   --hubert_soft weights/hubert-soft-0d54a1f4.pt   --nsf_hifigan weights/nsf_hifigan/model 

Speed up DDSP-SVC when extracting f0 or using enhancer

Thanks for supporting DDSP-SVC, I found that you did not set the 'silence_front' parameter to speed up both f0 extraction (F0_Extractor.extract function) and vocoder enhancement (Enhancer.enhance function)

You can try to set it as follows:
silence_front = self.settings.extraConvertSize / self.sampling_rate

The principle of this acceleration is that DDSP-SVC will treat the extraConvertSize part of the audio as silence, so as not to perform f0 extraction and vocoder enhancement. After all, it is the result of "extra" sampling points that do not affect the final real-time sound change.

However, these extra sampling points are not useless, it will be used to extract hubert features (very fast with a graphics card), because hubert needs sufficient length (greater than 1s) to obtain the most accurate semantic information.

There are also some small suggestions, such as the 'adaptive_key' of the Enhancer.enhance function can be set to 'auto' (recently updated code), so that there is no need to adjust it. Also, if the speedup trick above is used, it is actually possible to use slow but better f0 extraction algorithms such as 'harvest' and 'crepe' while maintaining low latency.

All of the above are implemented in the built-in GUI of DDSP-SVC. I recently communicated with the developers of So-VITS-SVC and RVC how to do calculation acceleration. It is very likely that these models will also support similar technologies in the future: the extra sampling points are only used to extract semantic information, not to participate in other synthesis pipeline. Maybe in the future we will have the opportunity to work together to promote more advanced AI voice changer technology.

Tsukuyomi-chan version not working on Windows 10

MMVCServerSIO_win_onnxgpu_nocuda_tsukuyomi_v.1.5.1.8\MMVCServerSIO>MMVCServerSIO.exe --https off -p 18888 --modelType so-vits-svc-40v2_tsukuyomi -c model_so-vits-svc-40v2_tsukuyomi/config.json -o model_so-vits-svc-40v2_tsukuyomi/G_11000.onnx --cluster model_so-vits-svc-40v2_tsukuyomi/kmeans_10000.pth --hubert checkpoint_best_legacy_500.pt
    Booting PHASE :__main__
    Voice Changerを起動しています。
    -- 設定 --
    CONFIG:model_so-vits-svc-40v2_tsukuyomi/config.json, MODEL:None ONNX_MODEL:model_so-vits-svc-40v2_tsukuyomi/G_11000.onnx
    Internal_Port:18888
    protocol: HTTP
    -- ---- --
    ブラウザで次のURLを開いてください.
    http://<IP>:<PORT>/
    多くの場合は次のいずれかのURLにアクセスすると起動します。
    http://localhost:18888/

    Booting PHASE :__main__
    Booting PHASE :MMVCServerSIO
[VoiceChanger] activate model type: so-vits-svc-40v2_tsukuyomi
did-fail-load
(node:40836) electron: Failed to load URL: http://localhost:18888/ with error: ERR_CONNECTION_REFUSED
(Use `voice-changer-native-client --trace-warnings ...` to show where the warning was created)
so-vits-svc 40v2 initialization: {'hubert': 'checkpoint_best_legacy_500.pt'}
VoiceChanger Initialized (GPU_NUM:0, mps_enabled:False)
onnxruntime\capi\onnxruntime_inference_collection.py:54: UserWarning: Specified provider 'OpenVINOExecutionProvider' is not in available provider names.Available providers: 'TensorrtExecutionProvider, CUDAExecutionProvider, CPUExecutionProvider'
onnxruntime\capi\onnxruntime_inference_collection.py:54: UserWarning: Specified provider 'DmlExecutionProvider' is not in available provider names.Available providers: 'TensorrtExecutionProvider, CUDAExecutionProvider, CPUExecutionProvider'
did-fail-load
(node:40836) electron: Failed to load URL: http://localhost:18888/ with error: ERR_CONNECTION_REFUSED
[2023-03-22 00:48:44] connet sid : te0ztddPR0UH06s5AAAC
[2023-03-22 00:48:44] connet sid : 17wld5WK4bky90gSAAAD
post_update_setteings crossFadeOffsetRate 0.1
post_update_setteings crossFadeEndRate 1
post_update_setteings crossFadeOverlapSize 1024
post_update_setteings framework ONNX
post_update_setteings tran 10
post_update_setteings f0Detector dio
post_update_setteings noiceScale 0.3
post_update_setteings extraConvertSize 32768
post_update_setteings silentThreshold 0.00001
post_update_setteings clusterInferRatio 0.1
post_update_setteings inputSampleRate 24000
[2023-03-22 00:48:56] connet sid : dV0AxZgM3Wj6pP3-AAAG
[2023-03-22 00:48:56] connet sid : qB9dzdJsdejKpCo5AAAH
post_update_setteings crossFadeOffsetRate 0.1
post_update_setteings crossFadeEndRate 1
post_update_setteings crossFadeOverlapSize 1024
post_update_setteings framework ONNX
post_update_setteings f0Detector dio
post_update_setteings tran 10
post_update_setteings noiceScale 0.3
post_update_setteings silentThreshold 0.00001
post_update_setteings extraConvertSize 32768
post_update_setteings clusterInferRatio 0.1
post_update_setteings inputSampleRate 24000
Generated Strengths: for prev:(1024,), for cur:(1024,)
 !!! !!! !!! wav size not multiple of hopsize: 29.3984375
Could not locate zlibwapi.dll. Please make sure it is in your library path!

Unable to successfully upload RVC's pth file

The RVC .pth file upload process gets stuck midway and cannot be successfully uploaded.

Screenshot: https://s1.locimg.com/2023/04/09/434d527dae290.png

The log information is as follows:

D:\AI\MMVCServerSIO>MMVCServerSIO.exe --https off -p 18888 --modelType RVC --hubert hubert_base.pt
Booting PHASE :main
Voice Changerを起動しています。
-- 設定 --
CONFIG:None, MODEL:None ONNX_MODEL:None
Internal_Port:18888
protocol: HTTP
-- ---- --
ブラウザで次のURLを開いてください.
http://:/
多くの場合は次のいずれかのURLにアクセスすると起動します。
http://localhost:18888/?modelType=RVC

Booting PHASE :__main__
Booting PHASE :MMVCServerSIO

[VoiceChanger] activate model type: RVC
没有发现支持的N卡, 使用CPU进行推理
RVC initialization: {'hubert': 'hubert_base.pt', 'useHubertOnnx': False}
VoiceChanger Initialized (GPU_NUM:0, mps_enabled:False)
[2023-04-09 11:35:34] connet sid : 7U2XZMopcnDApjvwAAAC
[2023-04-09 11:35:34] connet sid : rzvaozOuLSno25tUAAAD
post_update_setteings crossFadeOffsetRate 0.1
post_update_setteings crossFadeEndRate 0.8
post_update_setteings crossFadeOverlapSize 1024
post_update_setteings framework PyTorch
post_update_setteings onnxExecutionProvider CPUExecutionProvider
Onnx is not enabled. Please load model.
onnxExecutionProvider is not mutable variable or unknown variable!
post_update_setteings f0Detector harvest
post_update_setteings tran 10
post_update_setteings noiceScale 0.3
post_update_setteings silentThreshold 0.00001
post_update_setteings extraConvertSize 32768
post_update_setteings clusterInferRatio 0.1
clusterInferRatio is not mutable variable or unknown variable!
post_update_setteings modelSamplingRate 48000
post_update_setteings inputSampleRate 48000
[13692:0409/113716.999:ERROR:gpu_init.cc(523)] Passthrough is not supported, GL is disabled, ANGLE is
ERROR: Exception in ASGI application
Traceback (most recent call last):
File "uvicorn\protocols\http\h11_impl.py", line 407, in run_asgi
File "uvicorn\middleware\proxy_headers.py", line 78, in call
File "engineio\async_drivers\asgi.py", line 67, in call
File "fastapi\applications.py", line 270, in call
File "starlette\applications.py", line 124, in call
File "starlette\middleware\errors.py", line 184, in call
File "starlette\middleware\errors.py", line 162, in call
File "starlette\middleware\cors.py", line 92, in call
File "starlette\middleware\cors.py", line 147, in simple_response
File "starlette\middleware\exceptions.py", line 79, in call
File "starlette\middleware\exceptions.py", line 68, in call
File "fastapi\middleware\asyncexitstack.py", line 21, in call
File "fastapi\middleware\asyncexitstack.py", line 18, in call
File "starlette\routing.py", line 706, in call
File "starlette\routing.py", line 276, in handle
File "starlette\routing.py", line 66, in app
File "fastapi\routing.py", line 235, in app
File "fastapi\routing.py", line 163, in run_endpoint_function
File "starlette\concurrency.py", line 41, in run_in_threadpool
File "anyio\to_thread.py", line 31, in run_sync
File "anyio_backends_asyncio.py", line 937, in run_sync_in_worker_thread
File "anyio_backends_asyncio.py", line 867, in run
File "restapi\MMVC_Rest_Fileuploader.py", line 69, in post_load_model
File "voice_changer\VoiceChangerManager.py", line 14, in loadModel
File "voice_changer\VoiceChanger.py", line 86, in loadModel
File "voice_changer\RVC\RVC.py", line 105, in loadModel
KeyError: 'config'
File "starlette\middleware\errors.py", line 184, in call
File "starlette\middleware\errors.py", line 162, in call
File "starlette\middleware\cors.py", line 92, in call
File "starlette\middleware\cors.py", line 147, in simple_response
File "starlette\middleware\exceptions.py", line 79, in call
File "starlette\middleware\exceptions.py", line 68, in call
File "fastapi\middleware\asyncexitstack.py", line 21, in call
File "fastapi\middleware\asyncexitstack.py", line 18, in call
File "starlette\routing.py", line 706, in call
File "starlette\routing.py", line 276, in handle
File "starlette\routing.py", line 66, in app
File "fastapi\routing.py", line 235, in app
File "fastapi\routing.py", line 163, in run_endpoint_function
File "starlette\concurrency.py", line 41, in run_in_threadpool
File "anyio\to_thread.py", line 31, in run_sync
File "anyio_backends_asyncio.py", line 937, in run_sync_in_worker_thread
File "anyio_backends_asyncio.py", line 867, in run
File "restapi\MMVC_Rest_Fileuploader.py", line 69, in post_load_model
File "voice_changer\VoiceChangerManager.py", line 14, in loadModel
File "voice_changer\VoiceChanger.py", line 86, in loadModel
File "voice_changer\RVC\RVC.py", line 105, in loadModel
KeyError: 'config'

音がガビルんだけどーー

サンプリングレートがおかしくなっている可能性があります。

Advanced SettingのSending Sample Rateをポチポチやってみてください。

ModuleNotFoundError: No module named 'fairseq'

Process p:
Traceback (most recent call last):
File "multiprocessing\process.py", line 314, in bootstrap
File "multiprocessing\process.py", line 108, in run
File "MMVCServerSIO.py", line 112, in localServer
File "uvicorn\main.py", line 569, in run
File "uvicorn\server.py", line 60, in run
File "asyncio\runners.py", line 44, in run
File "asyncio\base_events.py", line 649, in run_until_complete
File "uvicorn\server.py", line 67, in serve
File "uvicorn\config.py", line 477, in load
File "uvicorn\importer.py", line 24, in import_from_string
File "uvicorn\importer.py", line 21, in import_from_string
File "importlib_init
.py", line 126, in import_module
File "", line 1050, in _gcd_import
File "", line 1027, in _find_and_load
File "", line 1006, in _find_and_load_unlocked
File "", line 688, in _load_unlocked
File "PyInstaller\loader\pyimod02_importers.py", line 352, in exec_module
File "MMVCServerSIO.py", line 125, in
File "voice_changer\VoiceChangerManager.py", line 10, in get_instance
File "voice_changer\VoiceChanger.py", line 62, in init
File "PyInstaller\loader\pyimod02_importers.py", line 352, in exec_module
File "voice_changer\SoVitsSvc40\SoVitsSvc40.py", line 24, in
ModuleNotFoundError: No module named 'fairseq'
did-fail-load
(node:7444) electron: Failed to load URL: http://localhost:18888/ with error: ERR_CONNECTION_REFUSED

CPU/GPU選択の初期値バグ

CPU/GPU選択の初期値バグ

知ってたけど、面倒なので放置していたバグ。
近いうちに直したいが、とりあえず、GUIをぽちぽちやってもらう方向で回避。

Model Load Error

Envirment: Ubuntu 22.04.2
Python: 3.10.10
My start_command:
python3 MMVCServerSIO.py -p 18888 --https true --modelType so-vits-svc-40 --hubert ./checkpoint_best_legacy_500.pt

error happens when I upload so-vits-model to GUI
[Voice Changer] Model Load Error! Check your model is valid. SynthesizerTrn.init() missing 17 required positional arguments: 'segment_size', 'inter_channels', 'hidden_channels', 'filter_channels', 'n_heads', 'n_layers', 'kernel_size', 'p_dropout', 'resblock', 'resblock_kernel_sizes', 'resblock_dilation_sizes', 'upsample_rates', 'upsample_initial_channel', 'upsample_kernel_sizes', 'gin_channels', 'ssl_dim', and 'n_speakers'

this is my config.json

{
"train": {
"log_interval": 200,
"eval_interval": 800,
"seed": 1234,
"epochs": 8000,
"learning_rate": 0.0001,
"betas": [
0.8,
0.99
],
"eps": 1e-09,
"batch_size": 15,
"fp16_run": false,
"lr_decay": 0.999875,
"segment_size": 10240,
"init_lr_ratio": 1,
"warmup_epochs": 0,
"c_mel": 45,
"c_kl": 1.0,
"use_sr": true,
"max_speclen": 512,
"port": "8001",
"keep_ckpts": 3,
"all_in_mem": true
},
"data": {
"training_files": "filelists/train.txt",
"validation_files": "filelists/val.txt",
"max_wav_value": 32768.0,
"sampling_rate": 44100,
"filter_length": 2048,
"hop_length": 512,
"win_length": 2048,
"n_mel_channels": 80,
"mel_fmin": 0.0,
"mel_fmax": 22050
},
"model": {
"inter_channels": 192,
"hidden_channels": 192,
"filter_channels": 768,
"n_heads": 2,
"n_layers": 6,
"kernel_size": 3,
"p_dropout": 0.1,
"resblock": "1",
"resblock_kernel_sizes": [
3,
7,
11
],
"resblock_dilation_sizes": [
[
1,
3,
5
],
[
1,
3,
5
],
[
1,
3,
5
]
],
"upsample_rates": [
8,
8,
2,
2,
2
],
"upsample_initial_channel": 512,
"upsample_kernel_sizes": [
16,
16,
4,
4,
4
],
"n_layers_q": 3,
"use_spectral_norm": false,
"gin_channels": 256,
"ssl_dim": 256,
"n_speakers": 1
},
"spk": {
"meilina": 0
}
}

But it works when I use it in Windows with this command
MMVCServerSIO.exe --https off -p 18888 --modelType so-vits-svc-40 --hubert checkpoint_best_legacy_500.pt

RVCの音声信号処理についての質問

VClientのRVCでの信号処理について、コードを拝読し、気になる点が2つありましたので本issueにて質問させていただきます。
見当違いな考察などございましたら何卒ご容赦ください。

1:pyworld.harvestの引数
server/voice_changer/RVC/custom_vc_infer_pipeline.py
内の記述で、
https://github.com/w-okada/voice-changer/blob/master/server/voice_changer/RVC/custom_vc_infer_pipeline.py#L41

       f0, t = pyworld.harvest(
           x.astype(np.double),
           fs=self.sr,
           f0_ceil=f0_max,
           frame_period=10,
       )

f0_floorが指定されていないようなのですが、これは何か意図があるものなのですか。
直前の変数、

f0_min = 50

を指定するものかとてっきり思っていたのですが、pyworld.harvestのf0_floorのデフォルト(=71.0)
で動いているように見えます。

2:推論前の音声信号の前処理

RVC本家のvc_infer_pipeline.pyでは(https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI/blob/main/vc_infer_pipeline.py)、
信号の前処理として48Hzカットオフ周波数のハイパスフィルター処理が入っています。

bh, ah = signal.butter(N=5, Wn=48, btype='high', fs=16000)
...
audio = signal.filtfilt(bh, ah, audio)

これはどういう方針でオミットされたのですか。
一般的に、pyworldのf0推定において、前段での低周波成分の除去は出力結果の精度を高めうるはずなのですが。

scipy.signal.filtfiltはゼロ位相フィルタであり、pre-ringingノイズが発生してしまうことを懸念されておられるのであれば、
scipy.signal.lfilterを使ってみてもいいのかと思いました。位相が遅れるというデメリットもありますが、これなら「トランジェント(音の立ち上がり・立ち下げり)でpre-ringingノイズが発生し、例えば子音で推論結果が劣化してしまう」というシチュエーションなどは避けられるかと思います。

お手隙の際にご回答いただけますと幸いです。
よろしくお願いいたします。

AttributeError: 'HParams' object has no attribute 'n_speakers'

PORT:16961, LOG_FILE:LOG_FILE_16961, model_param: -m /content/drive/MyDrive/VoiceChanger/mika/G_24000.pth
VoiceChanger Initialized (GPU_NUM:1, mps_enabled:False)
Traceback (most recent call last):
  File "/content/voice-changer/server/MMVCServerSIO.py", line 104, in <module>
    voiceChangerManager.loadModel(CONFIG, MODEL, ONNX_MODEL)
  File "/content/voice-changer/server/voice_changer/VoiceChangerManager.py", line 14, in loadModel
    info = self.voiceChanger.loadModel(config, model, onnx_model)
  File "/content/voice-changer/server/voice_changer/VoiceChanger.py", line 72, in loadModel
    n_speakers=self.hps.data.n_speakers,
AttributeError: 'HParams' object has no attribute 'n_speakers'

バージョンの確認をアプリケーション上で行えるようにしてほしいです

いつもお世話になっております。

表題の件につきまして、例えばGUI上の何処かに記載頂くことは可能でしょうか。
精力的にバージョンアップをされておられますので、ユーザーが確認する方法をご用意頂けますと幸いです。

余談にはなりますが、v.1.5.2.2が一番安定して利用できておりますので愛用しております。

マージしたモデルのアップロードが途中で停止する

https://rentry.co/ozmm3
上記記載の方法でマージしたモデルを MMVCServerSIO_win_onnxgpu-cuda_v.1.5.1.15b にて使用しようとしたところ、uploading... 92.0% で停止してしまい以下のエラーが出力されました。

ERROR:    Exception in ASGI application
Traceback (most recent call last):
  File "uvicorn\protocols\http\h11_impl.py", line 407, in run_asgi
  File "uvicorn\middleware\proxy_headers.py", line 78, in __call__
  File "engineio\async_drivers\asgi.py", line 67, in __call__
  File "fastapi\applications.py", line 270, in __call__
  File "starlette\applications.py", line 124, in __call__
  File "starlette\middleware\errors.py", line 184, in __call__
  File "starlette\middleware\errors.py", line 162, in __call__
  File "starlette\middleware\cors.py", line 92, in __call__
  File "starlette\middleware\cors.py", line 147, in simple_response
  File "starlette\middleware\exceptions.py", line 79, in __call__
  File "starlette\middleware\exceptions.py", line 68, in __call__
  File "fastapi\middleware\asyncexitstack.py", line 21, in __call__
  File "fastapi\middleware\asyncexitstack.py", line 18, in __call__
  File "starlette\routing.py", line 706, in __call__
  File "starlette\routing.py", line 276, in handle
  File "starlette\routing.py", line 66, in app
  File "fastapi\routing.py", line 235, in app
  File "fastapi\routing.py", line 163, in run_endpoint_function
  File "starlette\concurrency.py", line 41, in run_in_threadpool
  File "anyio\to_thread.py", line 31, in run_sync
  File "anyio\_backends\_asyncio.py", line 937, in run_sync_in_worker_thread
  File "anyio\_backends\_asyncio.py", line 867, in run
  File "restapi\MMVC_Rest_Fileuploader.py", line 69, in post_load_model
  File "voice_changer\VoiceChangerManager.py", line 14, in loadModel
  File "voice_changer\VoiceChanger.py", line 86, in loadModel
  File "voice_changer\RVC\RVC.py", line 108, in loadModel
  File "torch\nn\modules\module.py", line 1671, in load_state_dict
    raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format(
RuntimeError: Error(s) in loading state_dict for SynthesizerTrnMs256NSFsid:
        size mismatch for dec.conv_post.weight: copying a param with shape torch.Size([1, 16, 7]) from checkpoint, the shape in current model is torch.Size([1, 32, 7]).
[24728:0413/022820.935:ERROR:gpu_init.cc(523)] Passthrough is not supported, GL is disabled, ANGLE is

今回、サンプリングレート 48k で生成した 2 つのモデル (epoch:400 のモデルと epoch:150 のモデル) をマージしたモデルを使用したところ上記のエラーが出力されました。マージする際の目標サンプリングレートを 48k にした場合と 40k にした場合を試しましたが、変化はありませんでした。
以前、サンプリングレート 40k で生成した 2 つのモデル(epoch:60 のモデルと epoch:60 のモデル)をマージしたモデルを使用した時は上記のエラーは発生せず正常に使えていましたので、マージしたモデルに原因があるのかもしれません。

(モデルをマージする際は学習回数が同じモデル同士でなければならないのかもしれないとも考えました。実際、epoch:60のモデル(40k) と epoch:100のモデル(40k) をマージしようとしたところ Fail to merge the models. The model architectures are not the same. と表示されマージできないケースもありました。
ところが、今回 epoch:400のモデル(48k) と epoch:150のモデル(48k)をマージした際は、正常にマージモデルが出力されました。ですので、マージできる条件も正直よく分かっていない状態です。)

また、MMVCServerSIO_win_onnxgpu-cuda_v.1.5.2.1 を使用した場合も同様に uploading... 92.0% で停止してしまいますが、上記のエラーは出力されませんでした。

モデルの問題かもしれませんが、上記のエラーを見て何か分かりましたら教えていただけると幸いです。

ちなみに、最終行の

[24728:0413/022820.935:ERROR:gpu_init.cc(523)] Passthrough is not supported, GL is disabled, ANGLE is

は正常に動作している時にも出力されていることがあるので、今回の問題には関係無いかもしれません。

solaが機能しない?

コマンドラインに「no sola buffer」と表示され音がブツブツ途切れる現象が起きています。
オーディオインターフェイスのサンプリングレートやinput chunk numなど試してみましたが改善されません。
これは友達の環境で起こっているもので、私の環境では「no sola buffer」とは表示されず、ブツブツ切れることもありません。
なぜ「no sola buffer」が表示されるのかと、解決法があれば教えていただけますか。

What is causing this, and how can I fix this error?AttributeError: 'SoVitsSvc40' object has no attribute 'hps'

AttributeError: 'SoVitsSvc40' object has no attribute 'hps'
ERROR:asyncio:Task exception was never retrieved
future: <Task finished name='Task-92' coro=<AsyncServer._handle_event_internal() done, defined at socketio\asyncio_server.py:522> exception=AttributeError("'SoVitsSvc40' object has no attribute 'hps'")>
Traceback (most recent call last):
File "socketio\asyncio_server.py", line 524, in _handle_event_internal
File "socketio\asyncio_server.py", line 569, in _trigger_event
File "socketio\asyncio_namespace.py", line 37, in trigger_event
File "sio\MMVC_Namespace.py", line 34, in on_request_message
File "voice_changer\VoiceChangerManager.py", line 36, in changeVoice
File "voice_changer\VoiceChanger.py", line 156, in on_request
File "voice_changer\SoVitsSvc40\SoVitsSvc40.py", line 168, in get_processing_sampling_rate
AttributeError: 'SoVitsSvc40' object has no attribute 'hps'
ERROR:asyncio:Task exception was never retrieved
future: <Task finished name='Task-95' coro=<AsyncServer._handle_event_internal() done, defined at socketio\asyncio_server.py:522> exception=AttributeError("'SoVitsSvc40' object has no attribute 'hps'")>
Traceback (most recent call last):
File "socketio\asyncio_server.py", line 524, in _handle_event_internal
File "socketio\asyncio_server.py", line 569, in _trigger_event
File "socketio\asyncio_namespace.py", line 37, in trigger_event
File "sio\MMVC_Namespace.py", line 34, in on_request_message
File "voice_changer\VoiceChangerManager.py", line 36, in changeVoice
File "voice_changer\VoiceChanger.py", line 156, in on_request
File "voice_changer\SoVitsSvc40\SoVitsSvc40.py", line 168, in get_processing_sampling_rate
AttributeError: 'SoVitsSvc40' object has no attribute 'hps'
Hubert: -

where can i get the trained model and config file on your video?

The program says that it needs config file and he model but I can't find it on the repository.
Where can I get the G_326000.onnx and config.json file on your video?
and i'd like to know where i can get other models for RVC.
or do i need to train it myself?
thank you

Windows AMD GPU

Will anytime this be compatible with Windows using a AMD GPU?

Conversion for so-vits-svc 4.0 v1 not working in v 1.5.1.8 on Windows 10

ERROR:asyncio:Task exception was never retrieved
future: <Task finished name='Task-980' coro=<AsyncServer._handle_event_internal() done, defined at socketio\asyncio_server.py:522> exception=AttributeError("'SoVitsSvc40' object has no attribute 'hps'")>
Traceback (most recent call last):
  File "socketio\asyncio_server.py", line 524, in _handle_event_internal
  File "socketio\asyncio_server.py", line 569, in _trigger_event
  File "socketio\asyncio_namespace.py", line 37, in trigger_event
  File "sio\MMVC_Namespace.py", line 34, in on_request_message
  File "voice_changer\VoiceChangerManager.py", line 36, in changeVoice
  File "voice_changer\VoiceChanger.py", line 156, in on_request
  File "voice_changer\SoVitsSvc40\SoVitsSvc40.py", line 168, in get_processing_sampling_rate
AttributeError: 'SoVitsSvc40' object has no attribute 'hps'

このエラーを修正するにはどうすればよいですか?

エラーログは以下に記載されています:

ERROR:asyncio:Task exception was never retrieved
future: <Task finished name='Task-861' coro=<AsyncServer._handle_event_internal() done, defined at socketio\asyncio_server.py:522> exception=AttributeError("'SoVitsSvc40' object has no attribute 'hubert_model'")>
Traceback (most recent call last):
  File "socketio\asyncio_server.py", line 524, in _handle_event_internal
  File "socketio\asyncio_server.py", line 569, in _trigger_event
  File "socketio\asyncio_namespace.py", line 37, in trigger_event
  File "sio\MMVC_Namespace.py", line 34, in on_request_message
  File "voice_changer\VoiceChangerManager.py", line 36, in changeVoice
  File "voice_changer\VoiceChanger.py", line 185, in on_request
  File "voice_changer\SoVitsSvc40\SoVitsSvc40.py", line 240, in generate_input
  File "voice_changer\SoVitsSvc40\SoVitsSvc40.py", line 199, in get_unit_f0
AttributeError: 'SoVitsSvc40' object has no attribute 'hubert_model'

[Help] wav size not multiple of hopsize / Passthrough is not supported, GL is disabled, ANGLE is

OS Version: W10 22H2

GPU: RTX 3090 531.41 Cuda 12.1

Python version: 3.10.9

PyTorch version: 1.13.1+cu117

When trying to start the program, I get this error:

INFO:root:Loaded checkpoint 'C:\Users\xxxx\AppData\Local\Temp\tmppp1pr5vh\upload_dir\G_63200.pth' (iteration 1037)
Generated Strengths: for prev:(1024,), for cur:(1024,)
 !!! !!! !!! wav size not multiple of hopsize: 29.3984375
 !!! !!! !!! wav size not multiple of hopsize: 58.796875
 !!! !!! !!! wav size not multiple of hopsize: 88.1953125
[8928:0401/003325.817:ERROR:gpu_init.cc(523)] Passthrough is not supported, GL is disabled, ANGLE is

I m not sure what I m doing wrong, I tried multiple different models and the result is the same. I m suspecting input samplerate but I tried changing them and nothing.

周期的にブツッブツッと切れた音声が出力される

はじめまして。
RVCを使用しているのですが、周期的にブツッブツッと切れた音声が出力されてしまいます。

マイク→オーディオインターフェイス→VC Client→VoiceMeeter Banana→Audacity
という流れで録音した音声が以下となります。
(VoiceMeeterを使わずスピーカーに直接出力しても同じような出力になります)
【文章を読み上げたサンプル】
https://user-images.githubusercontent.com/15606184/230758825-264a8bcc-46d4-4569-8ed9-f96265501f4a.mp4

【伸ばした音のサンプル】
https://user-images.githubusercontent.com/15606184/230758838-3499e5cc-a8bc-4b11-9f0d-917e0b7e6e0e.mp4

また、これはVC ClientのDevice Setting→output record機能を使用すると発生しません。
【文章を読み上げたサンプル】
https://user-images.githubusercontent.com/15606184/230758850-55b386c6-2591-499f-ba04-95975834084e.mp4

【伸ばした音のサンプル】
https://user-images.githubusercontent.com/15606184/230758856-105353f6-99d3-4176-baf7-0a942cf38587.mp4

こちら解決する方法はありますでしょうか?

よろしくお願いします。

【環境】
使用方法:
事前ビルド済みBinary v.1.5.1.15b win ONNX(cpu,cuda), PyTorch(cpu,cuda)
start_http_RVC.bat

OS: Windows 11 Pro 22H2
CPU: i9-10850K
GPU: GeForce RTX 3080
RAM: 32GB

Webページへのアクセス時に常にエラーが発生します

Webベージ上でほとんどの操作(ボタンを押した場合など)にエラーが出力されます
環境:windows11、v.1.5.2.1
HTTP・HTTPS両方でエラーが発生
exeをダウンロードしたものを実行した場合と、wsl上にてpythonで実行した場合両方とも発生
(エラーはHTTPSで実行した時のみ出力されるログから)

"POST /model_type HTTP/1.1" 500 Internal Server Error
このエラーが常に発生します。

また、wsl上で実行している時は
"GET /socket.io/?EIO=4&transport=websocket&sid=34WZQS9uBQ9HCJtXAAAB HTTP/1.1" 500 Internal Server Error
"GET /socket.io/?EIO=4&transport=websocket&sid=Cb0uqkceL5WBkBnIAAAA HTTP/1.1" 500 Internal Server Error

こちらのエラーも発生しています。
なお、ファイアウォール等のセキュリティソフトは全て切ってあります。
原因と対応としては何が考えられますでしょうか。

How can I train a voice in a different language?

Hi, I want to have fun with voice-conversion technology.
Your project seems to be the easiest one to set up.
However I don't understand how I could "train" a voice.
Can I use ~20 minutes of recording in a different language to actually get a good result with this tool?

Sorry for my ignorance, I'm a simple developer with no AI knowledge. There are some closed-source real-time conversion tools, but I want to use an open source one.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.