Skip to content

Как вручную установить модель преобразования текста в речь

Wladislav Radchenko edited this page Sep 11, 2023 · 4 revisions

Если автоматическая установка моделей по каким-либо причинам вам не подходит, вы всегда можете скачать и установить их вручную.

Установка NTLK

  1. Переход в нужную директорию:
    Перейдите в директорию ~/.wunjo на Unix-подобных системах или %USERPROFILE%/.wunjo на Windows. Доступ к этой директории можно также получить из приложения, нажав на значок папки в левой части экрана.

    скрин 1

  2. Работа с директорией rtvc:
    В этой директории хранятся голосовые модели для клонирования голоса и NTLK. Она также содержит файл с ссылками для скачивания определённых моделей.

    Screenshot from 2023-09-11 17-11-13

  3. Скачивание NTLK punkt:
    В директории nltk_data, должна быть создана папка tokenizers. В tokenizers необходимо скачать https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt.zip и распаковать:

    Screenshot from 2023-09-11 17-13-33

P.S. Обратите внимание, что директория до файлов NTLK punkt: .wunjo/rtvc/nltk_data/tokenizers/punkt/

Установка моделей RTVC

  1. Переход в нужную директорию:
    Перейдите в директорию ~/.wunjo на Unix-подобных системах или %USERPROFILE%/.wunjo на Windows. Доступ к этой директории можно также получить из приложения, нажав на значок папки в левой части экрана.

    скрин 1

  2. Работа с директорией rtvc:
    В этой директории хранятся голосовые модели для клонирования голоса и NTLK. Она также содержит файл с ссылками для скачивания определённых моделей.

    Screenshot from 2023-09-11 17-11-13

  3. Скачивание моделей RTVC: Откройте файл rtvc.json, внутри вы найдете ссылки на скачивание rtvc моделей. Например:

"en": {
    "encoder": "https://wladradchenko.ru/static/wunjo.wladradchenko.ru/rtvc/encoder/english_encoder.pt",
    "synthesizer": "https://wladradchenko.ru/static/wunjo.wladradchenko.ru/rtvc/synthesizer/synthesizer.pt",
    "vocoder": "https://wladradchenko.ru/static/wunjo.wladradchenko.ru/rtvc/vocoder/english_vocoder.pt"
}

Означает, что вам необходимо создать директорию .wunjo/rtvc/en и скачать файлы english_encoder.pt, synthesizer.pt и english_vocoder.pt. Далее переименовать english_encoder.pt в encoder.pt, synthesizer.pt должен называться synthesizer.pt, english_vocoder.pt должен называться vocoder.pt. Аналогично для других языков.

Установка моделей TTS

  1. Переход в нужную директорию:
    Перейдите в директорию ~/.wunjo на Unix-подобных системах или %USERPROFILE%/.wunjo на Windows. Доступ к этой директории можно также получить из приложения, нажав на значок папки в левой части экрана.

    скрин 1

  2. Работа с директорией voice:
    В этой директории хранятся голосовые модели. Она также содержит файл с ссылками для скачивания определённых моделей.

    скрин 2

  3. Содержание директории:
    В каждой поддиректории находятся две модели: Encoder и Vocoder.

    скрин 3

  4. Изучение файла voice.json:
    Откройте файл voice.json и обратите внимание на структуру. В качестве примера рассмотрим голос "Russian man".

Пример конфигурации:

{
  "Russian man": {
    "avatar_download": "https://wladradchenko.ru/static/wunjo.wladradchenko.ru/avatar/Man.png",
    "checkpoint_download":  "https://wladradchenko.ru/static/wunjo.wladradchenko.ru/tacotron2/checkpoint_man",
    "waveglow_download":  "https://wladradchenko.ru/static/wunjo.wladradchenko.ru/waveglows/waveglow.pt",
    "voice_control_cfg": {
      "psola": {
        "max_hz": 2100,
        "min_hz": 30,
        "analysis_win_ms": 40,
        "max_change": 2.955,
        "min_change": 0.795
      },
      "phase": {
        "nfft": 256,
        "hop": 64
      }
    },
    "user_dict": null,
    "text_handler": {
      "config": "ru",
      "out_max_length": 200
    },
    "modules": {
      "engine": "tacotron2",
      "vocoder": "waveglow"
    },
    "engine": {
      "tacotron2": {
        "model_path": "voice/man/checkpoint_man",
        "hparams_path": null,
        "options": {
          "steps_per_symbol": 10,
          "gate_threshold": 0.5
        }
      }
    },
    "vocoder": {
      "waveglow": {
        "model_path": "voice/man/waveglow_man.pt",
        "options": {
          "sigma": 0.666,
          "strength": 0.1
        }
      }
    }
  }
}
  1. Ссылки для скачивания моделей:
    В конфигурационном файле вы найдёте ссылки для скачивания моделей.

    • Encoder: "checkpoint_download": "https://wladradchenko.ru/static/wunjo.wladradchenko.ru/tacotron2/checkpoint_man"
    • Vocoder: "waveglow_download": "https://wladradchenko.ru/static/wunjo.wladradchenko.ru/waveglows/waveglow.pt"
  2. Скачивание и расположение файлов:
    Скачайте модели и разместите их в соответствующих директориях. Учтите, что файлы должны быть в исходном формате, не распакованными. Если Windows автоматически преобразует файлы в папки, верните их в исходное состояние (например, архивировав и переименовав расширение).

    • Для модели checkpoint_man, видно по пути, что необходимо создайть поддиректорию man и поместите туда файл с названием checkpoint_man.
"model_path": "voice/man/checkpoint_man"
  • Для модели waveglow.pt, видно по пути, что нужно создать поддиректорию man, но перед размещением переименовать файл в waveglow_man.pt.
"model_path": "voice/man/waveglow_man.pt"

Аналогично вы можете работать и с другими голосами. Теперь вы знаете, как вручную установить голосовые модели.

Navigation

Clone this wiki locally