17.02.2024
статья
Как сделать ИИ модель голоса кого угодно за 10 шагов

1. Вступление



Многие из вас знакомы с таким термином, как AI Cover - музыкальный кавер, созданный с помощью нейросети. Вы наверняка слышали, как Куплинов поёт "Сектор газа" или Картман из "Южного парка" наслаждается пением зарубежной попсы. Нет ничего сложного в создании ИИ каверов известных личностей, так как готовые модели их голосов публично выложены на Discord сервер "AIHub". Но что, если вы захотели услышать, как ваш друг поёт Мэйби Бэйби или читает рэп, как Инстасамка? В дисике не найти такое золото, как голос вашего друга, поэтому в этой статье я расскажу, как с нуля создать собственную голосовую модель.

2. ПЛАТФОРМА ДЛЯ ТРЕНИРОВКИ ИИ

Голосовые модели создаются и тренируются с помощью среды для разработки Google Colab по этой ссылке https://colab.research.google.com/drive/1r4IRL0UA7JEoZ0ZK8PKfMyTIBHKpyhcw?usp=sharing. Перейдя по ней, вы увидите сложный с виду интерфейс, но не пугайтесь. На деле всё куда проще. Итак, переходим к созданию голосовой модели.

3. Скачиваем RVC на Гугл Диск

Вы должны нажать на круглую кнопку со значком "Play" под первым пунктом "Install RVC". Google Colab установит RVC самостоятельно, а от вас требуется лишь нажать на кнопку и дать программе доступ к Гугл диску. Обязательно проверьте, достаточно ли на нём места.
После успешной установки RVC вы должны нажать на значок папки в левой части экрана. Вы увидите новоиспечённые папки  с кличками "dataset" и "drive", которые в скором времени нам понадобятся.

4. Предобработка данных

Вторым шагом после запуска программы вы должны дать своей голосовой модели имя под пунктом "Preprocess Data", заключив его в кавычки. Изначально пример названия голоса выглядит как "My-Voice". Вы должны изменить этот параметр и дать определённое название. Далее вам следует загрузить в папку "dataset" примеры голоса вашей жертвы, поскольку ваша нейросеть должна на чём-то обучаться. Алгоритм прост: если вы делаете ИИ модель голоса вашего друга, то попросите его записать вам длинное голосовое сообщение, где он рассказывает о своей жизни. Друг будет думать, что вам на него не всё равно, а вы используете его откровения для того, чтобы заставить его петь позорные песни. Подло? Подло! Но мы злобные гении, так что продолжаем!
Так же можно собрать все ГС жертвы в кучу и свести их в любой программе для монтажа. Желательно добиться хотя бы 7-15 минут голоса, иначе результат может вас не удовлетворить.
Когда название для модели придумано, а материал для её тренировки загружен в папку dataset, нажимаем на круглую кнопку "play", как и в первом пункте. Вы должны нажимать на эту кнопку каждый раз после заполнения шага, так что повторять о ней больше не буду.

5. Метод извлечения

Не особо важный пункт. Многие рекомендуют "harvest" и "rmvpe", а так как проще прислушаться к мнению большинства, чем разобраться самому, то выбирайте один из предложенных вариантов. Лично я выбираю harvest, потому что это слово переводится, как "урожай". Ну, наш ИИ кавер явно будет слаще любой картошки!

6. Тренировка индекса

Просто нажмите на кнопку. Я серьёзно.

7. Тренировка модели

Тут вы выбираете параметры для тренировки голосовой модели, такие как эпохи. Пусть каждые 50 эпох будет происходить сохранение результата (save_frequency: 50), а всего эпох будет 200 (epochs: 200). Не забываем ввести название нашей модели в ячейке "model-name". В случае, если материал голоса в датасете длится дольше 10 минут, ставим галочку в ячейке cache (cache: ✔). Запускаем процесс тренировки и ждём от 15 до 25 минут.

8. ZIP-папка с .pth и .index

Тренировка модели завершена, и вам осталось лишь сохранить файлы .pth и .index в отдельную папку. Где их искать? Сейчас расскажу!
Чтобы найти файл .pth необходимо вновь тыкнуть на значок проводника в левой части экрана. Далее открываем папку drive > MyDrive > assets > weights и находим там файл {названиевашеймодели}.pth. Скачиваем его и сохраняем в папку вашей модели.


Чтобы найти файл .index открываем папку drive > MyDrive > logs > {названиевашеймодели} и ищем там файл с расширением .index. Обычно он находится в самом низу папки и начинается со слова "trained".
Кстати, у меня бывало так, что все эти файлы хранились в папке "RVC".
Далее преобразовываем pth и index файлы в одну сжатую ZIP-папку для дальнейшего использования, которую следом перекидываем на свой Гугл диск.

9. Создание ИИ кавера

Наконец мы готовы разыграть нашу жертву! Для начала вам потребуется фантазия для придумывания песни, идеально подходящей её голосовому диапазону. Затем эту песню мы закидываем на сайт vocalremover, где скачиваем акапеллу. Потом регистрируемся на сайте Huggingface и переходим по следующей ссылке: https://huggingface.co/Politrees. Кликаем на надпись "RVC V2" и переходим в "конструктор" ИИ кавера.
Копируем адрес ZIP-папки с Гугл диска (ОБЯЗАТЕЛЬНО предварительно настраиваем ссылку для публичного доступа). Вставляем эту ссылку во вкладке Download model > Enter the URL to the Model. Не забываем вбить название модели в ячейке "Name your model". Нажимаем "Скачать" и ждём надписи "Succes".
Теперь переходим во вкладку "Inference / Интерфейс". В первом пункте нажимаем "Обновить" и выбираем название нашей модели. Настройку индекса рекомендую поставить на 0, а дополнительные настройки созданы на ваш персональный выбор.
Всё остальное понятно интуитивно. Перекидываем файл с акапеллой, нажимаем "конвертировать" и ждём.
Когда акапелла ИИ кавера готова, нам остаётся нанести последние штрихи. Скачиваем программу для сведения музыки (например, FL Studio) и объединяем вокал с инструменталом. Так же это можно сделать в CapCut.

10. Наслаждаемся результатом!

Ну и, конечно, реакцией жертвы. Главное не использовать голосовые модели в мошеннических целях, потому что лучше посмеяться над ИИ кавером вместе с друзьями, чем попасть за решётку.
Надеюсь, моя статья была вам полезна! Если у вас что-то не работает или же появились вопросы, не стесняйтесь сообщать обо всём в комментариях.

#нейросети #искусственный_интеллект #программирование_python

Комментарии (1)
Полезно, смогу теперь пранковать друга, спасибо за информацию. 🙃