PITS(44100Hz 日本語対応版)

PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS

このリポジトリは、 44100Hzの日本語音声を学習および出力できるように編集したPITSです。初期状態ではベクトル量子化処理無しのPITS(A+D)版ですが、models.pyのfor Q optionと記載されている部分のコードを数行変更すれば、PITS(A+D+Q)版へと変更が可能です。

1. 環境構築

Anacondaによる実行環境構築を想定します。

Anacondaで"PITS"という名前の仮想環境を作成する。[y]or nを聞かれたら[y]を入力する。
```
conda create -n PITS python=3.8     
```
仮想環境を有効化する。
```
conda activate PITS 
```

このリポジトリをクローンする（もしくはDownload Zipでダウンロードする）

git clone https://github.com/tonnetonne814/PITS-44100-Ja.git
cd PITS-44100-Ja # フォルダ移動

PyTorch.orgより、自分の環境に合わせてPyTorchをインストールする
```
# OS=Linux, CUDA=11.7 の例
pip3 install torch torchvision torchaudio 
```
その他、必要なパッケージをインストールする。
```
pip install -r requirements.txt 
```

Monotonoic Alignment Searchをビルドする。

cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace

2. データセットの準備

JVSコーパスによる、parallel100(話者間で共通する読み上げ音声 100 発話)、及びnonpara30(話者間で全く異なる読み上げ音声 30 発話)の学習を想定します。

こちらからJVSコーパスをダウンロード&解凍する。
発話音声ファイルのサンプリングレートを44100Hzに変更する。path/to/〜となっている部分は適宜変更する。
```
python3 ./dataset/preprocess.py --folder_path path/to/jvs_ver1/ --sampling_rate 44100
```
⚠path/to/jvs_ver1/ には、jvsコーパスの各話者の発話フォルダ[jvs001,jvs002, ... ,jvs100]が格納されているフォルダパスを指定する。

3. configsフォルダ内のjsonを編集

主要なパラメータを下表に記載します。

分類	パラメータ名	説明
train	log_interval	指定ステップ毎にロスを算出し記録する
train	eval_interval	指定ステップ毎にモデル評価を行う
train	save_interval	指定ステップ毎にモデル保存を行う
train	epochs	学習データ全体の学習回数
train	batch_size	一回のパラメータ更新に使用する学習データの数
data	data_path	jvs話者フォルダが格納されているフォルダパス（preprocess.pyで使用したpath/to/jvs_ver1/の値）
data	training_files	学習用filelistのテキストパス
data	validation_files	検証用filelistのテキストパス
data	speakers	話者名のリスト

config_ja_44100.yaml内の、data部分のdata_pathの値を、「2. データセットの準備」部分のpreprocess.pyに使用したjvsフォルダパスに書き換えます。

4. 学習

44100HzでのPITS(A+D)版の学習を想定します。Terminalに以下を入力し、学習を開始する。path/to/〜となっている部分は適宜変更する。

python3 train.py --config ./configs/config_ja_44100.yaml --model PITS_A+D 
# 途中から学習を開始する場合は、--resume path/to/checkpoint.pt を追加する

このとき、nonpara30について、書き起こし文(transcripts_utf8.txt)と実際に格納されているwavファイルが一致しないものは除外する処理が入っています。

学習経過はターミナルにも表示されるが、tensorboardを用いて確認することで、生成音声の視聴や、スペクトログラムやYingramや各ロス遷移を目視で確認することができる。

tensorboard --logdir ./logs/PITS_A+D/

5. 推論

推論を行う場合は、Terminalに以下を入力する。path/to/〜となっている部分は適宜変更する。

python3 inference.py --config path/to/config.yaml --model PITS_A+D --model_path path/to/checkpoint.pth

Terminalにて、話者名や、読み上げテキスト、ピッチシフト数（整数）を入力することで、音声が生成さされます。音声は自動的に再生され、infer_logsフォルダ（存在しない場合は自動作成）に保存されます。

6.ファインチューニング

ファインチューニング用のfilelist等を作成する必要があります。 ./filelist/*.txtの中身を参考に作成してください。形式としては、以下のようになっています。
```
話者フォルダからwavファイルまでのパス　|　発話テキスト　|　話者名
```
config.yaml内のtraining_filesと、validation_filesのパスを、作成したリストに書き換えます。
config.yaml内のspeakers部分に、話者名を記載（追加でも変更でも良い）する。
Terminalに以下を入力し、ファインチューニングを実行する。path/to/〜となっている部分は適宜変更する。
```
python3 train.py --config path/to/config.yaml --model PITS_A+D_finetune --force_resume path/to/checkpoint.pt
```

事前学習モデル

JVSコーパスを22050Hz版は150Epoch、44100Hz版は250Epoch程度学習した程度のモデルです。喋ったりピッチを変更する程度には問題ないとは思いますが、学習不足であることに注意して使用してください。

ダウンロード : PITS(A+D)22050Hz版 PITS(A+D)44100版

付録(Yingramの可視化)

Yingram, an acoustic feature inspired by YIN algorithm [22] that captures pitch information including harmonics.Yingram is designed to address the limitations of extracting f0, which is not well-defined in some cases [23], and the Yingram-based model shows better preference than the f0-based model [16].

DeepL : Yingramは、YINアルゴリズム[22]にインスパイアされた音響特徴で、倍音を含むピッチ情報を捉えます。Yingramは、場合によってはうまく定義できないf0を抽出する限界に対処するために設計され[23]、Yingramベースのモデルはf0ベースのモデルよりも優れた選好性を示します[16]。

参考文献

Official PITS Implementation; https://github.com/anonymous-pits/pits
Official VITS Implementation: https://github.com/jaywalnut310/vits
NANSY Implementation from dhchoi99: https://github.com/dhchoi99/NANSY
Official Avocodo Implementation: https://github.com/ncsoft/avocodo
Official PhaseAug Implementation: https://github.com/mindslab-ai/phaseaug
Tacotron Implementation from keithito: https://github.com/keithito/tacotron
CSTR VCTK Corpus (version 0.92): https://datashare.ed.ac.uk/handle/10283/3443
G2P for demo, g2p_en from Kyubyong: https://github.com/Kyubyong/g2p
ESPNet:end-to-end speech processing toolkit: https://github.com/espnet/espnet

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

PITS(44100Hz 日本語対応版)

1. 環境構築

2. データセットの準備

3. configsフォルダ内のjsonを編集

4. 学習

5. 推論

6.ファインチューニング

事前学習モデル

付録(Yingramの可視化)

参考文献

Files

README.md

Latest commit

History

README.md

File metadata and controls

PITS(44100Hz 日本語対応版)

1. 環境構築

2. データセットの準備

3. configsフォルダ内のjsonを編集

4. 学習

5. 推論

6.ファインチューニング

事前学習モデル

付録(Yingramの可視化)

参考文献