Code Monkey home page Code Monkey logo

voice_converter's Introduction

voice_converter

概要

Pytorchによる、ScycloneVocoderの2つを用いた音声変換器です。
詳しい解説と音声変換例はこちら

想定環境

Ubuntu20.04
python 3.8.5
torch==1.9.1+cu111
torchaudio==0.9.1
torchvision==0.10.1+cu111
ライブラリの詳細はrequirements.txtを参照。

プログラム

VocoderとScycloneの学習はそれぞれ別々に行います。

Vocoder

  • Vocoder_train.pyはVocoderの学習を実行、学習の過程と学習済みモデルを出力するプログラムです。
  • Vocoder_inference.pyVocoder_train.pyによって出力された学習済みVocoderを読み込み、推論(スペクトログラムから音声波形の生成)を実行、結果を出力するプログラムです。

Scyclone

  • Scyclone_train.pyはScycloneの学習を実行、学習の過程と学習済みモデルを出力するプログラムです。
  • Scyclone_inference.pyVocoder_train.pyによって出力された学習済みVocoderと、Scyclone_train.pyによって出力された学習済みGeneratorの2つを読み込み、.wavファイルに対し推論(ドメインA(変換元)からドメインB(変換先)への変換)を実行し結果を出力するプログラムです。

データセットに関する注意点

データセットはサンプリングレート16000[Hz]、長さ約1.5秒以上の.wav形式のファイル群を想定しています。
また、データセットサイズはドメインA(変換元)、ドメインB(変換先)それぞれで少なくとも5000以上とすることを強く推奨します。

使い方(Vocoder)

学習の実行

  1. Vocoder_train.pyの32行目付近の変数dataset_pathで音声ファイル群のパスの形式を指定します。
  2. Vocoder_train.pyの35行目付近の変数sample_audio_pathで、学習過程を見るための、サンプルとなる音声ファイルのパスを指定します。
  3. Vocoder_train.pyの置いてあるディレクトリでpython Vocoder_train.pyを実行することで学習を実行します。
    • 学習の過程が./output/vocoder/train/以下に出力されます。
    • 学習済みVocoderが./output/vocoder/train/iteration150000/vocoder_trained_model_cpu.pthなどという形で5000イテレーション毎に出力されます。

推論の実行

  1. Vocoder_inference.pyの33行目付近の変数audio_pathで対象とする.wavファイルのパスを指定します。
  2. Vocoder_inference.pyの35行目付近の変数vocoder_trained_model_pathで学習済みVocoderへのパス(例えば./output/vocoder/train/iteration150000/vocoder_trained_model_cpu.pthなど)を指定します。
  3. Vocoder_inference.pyの置いてあるディレクトリでpython Vocoder_inference.pyを実行して、audio_pathで指定した.wavファイルに対し推論を行います。
    • 「音声波形(.wav)→スペクトログラム→音声波形」と実行され、結果が./output/vocoder/inference/以下に出力されます。

使い方(Scyclone)

以下ではドメインA(変換元)、ドメインB(変換先)をそれぞれ単にA、Bと呼称します。

学習の実行

  1. Scyclone_train.pyの34行目付近の変数dataset_path_AでAに属する、dataset_path_BでBに属する音声ファイル群のパスの形式を指定します。
  2. Scyclone_train.pyの置いてあるディレクトリでpython Scyclone_train.pyを実行することで「A⇄B」の変換ができるよう学習を実行します。
    • 学習の過程が./output/scyclone/train/以下に出力されます。
    • 学習済みGeneratorが./output/scyclone/train/iteration380000/generator_A2B_trained_model_cpu.pthなどという形で5000イテレーション毎に出力されます。

推論の実行

  1. Scyclone_inference.pyの34行目付近の変数audio_pathで変換対象とする.wavファイルのパスを指定します。
  2. Scyclone_inference.pyの36行目付近の変数scyclone_trained_model_pathで学習済みGeneratorへのパスを指定します。
  3. Scyclone_inference.pyの38行目付近の変数vocoder_trained_model_pathで学習済みVocoderへのパスを指定します。
  4. Scyclone_inference.pyの置いてあるディレクトリでpython Scyclone_inference.pyを実行して、audio_pathで指定した.wavファイルに対し推論を行います。
    • .wavファイルに対し「A→B」と実行され、結果が./output/scyclone/inference/以下に出力されます。

参考

Reimplmentation of voice conversion system "Scyclone" with PyTorch
Recurrent Neural Network based Neural Vocoders

voice_converter's People

Contributors

zassou65535 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.