Kokoro TTS: лучшая бесплатная open source нейросеть преобразования текста в речь для коммерческого использования

В технологии преобразования текста в речьь (Text-to-Speech, TTS) модель Kokoro TTS стала ведущим бесплатным и коммерчески доступным TTS-решением. Построенная на основе популярного открытого фреймворка StyleTTS, Kokoro TTS предлагает непревзойденную гибкость и функциональность для различных сценариев использования. Давайте рассмотрим, что делает эту модель особенной, её функции и как извлечь из неё максимальную пользу.
Что такое TTS?
TTS, или преобразование текста в речь — это технология, которая преобразует письменный текст в устную речь. Она широко используется в таких приложениях, как:
- Взаимодействие с языковыми моделями (LLM).
- Озвучивание аудиокниг.
- Преобразование письменного контента в подкасты.
TTS-модели имеют значительные практические применения, повышая доступность и удобство использования.

Почему Kokoro TTS является прорывом?
Kokoro TTS выделяется как ведущая бесплатная модель TTS с открытым исходным кодом для коммерческого использования. Вот почему:
- Открытый исходный код и лицензия: Kokoro TTS распространяется под лицензией Apache 2.0, позволяющей неограниченное использование в коммерческих целях. Это делает её по-настоящему открытым решением.
- Рейтинг Hugging Face: Kokoro TTS занимает третье место в рейтинге TTS Arena на платформе Hugging Face. Хотя другие модели, такие как Play.HT и ElevenLabs, могут занимать более высокие позиции, они недоступны для коммерческого использования, что даёт Kokoro TTS преимущество.

Основные функции
- Уникальные голосовые пакеты: Предлагает разнообразные варианты голосов, включая мужские и женские голоса.
- Многоязычная поддержка: Поддерживает такие языки, как американский и британский английский, французский, японский, корейский и китайский.
- Версия ONNX: Предоставляет легковесный вариант развертывания, не зависящий от GPU, идеально подходящий для случаев использования в реальном времени.

Ключевые преимущества для разработчиков
Kokoro TTS является мощным инструментом для разработчиков, желающих интегрировать функциональность TTS в свои приложения. Её совместимость с ONNX обеспечивает:
- Безупречный self-hosting: Развертывание на персональных серверах или в облачных средах.
- Приложения реального времени: Идеально подходит для веб-систем коммуникации в реальном времени.
- Масштабируемые сценарии использования: Обработка крупномасштабного производства без сильной зависимости от GPU.
Как начать работу с Kokoro TTS
Модели доступны для скачивания.
# 1 Установка зависимостей в тихом режиме
!git lfs install
!git clone https://huggingface.co/hexgrad/Kokoro-82M
%cd Kokoro-82M
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
!pip install -q phonemizer torch transformers scipy munch
# 2 Сборка модели и загрузка голосового пакета по умолчанию
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = [
'af', # Голос по умолчанию — это 50-50 микс Bella и Sarah
'af_bella', 'af_sarah', 'am_adam', 'am_michael',
'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis',
'af_nicole', 'af_sky',
][0]
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
# 3 Вызов generate, который возвращает аудио 24кГц и использованные фонемы
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
# Язык определяется первой буквой VOICE_NAME:
# 🇺🇸 'a' => Американский английский => en-us
# 🇬🇧 'b' => Британский английский => en-gb
# 4 Отображение аудио 24кГц и вывод фонем
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
print(out_ps)
Kokoro TTS — это шаг вперед для сообщества TTS. Благодаря лицензии с открытым исходным кодом, разнообразным вариантам голосов и впечатляющей производительности, это отличный выбор как для разработчиков, так и для бизнеса. Независимо от того, озвучиваете ли вы аудиокниги, создаете подкасты или повышаете доступность в своих приложениях, Kokoro TTS предлагает надежное, масштабируемое и экономически эффективное решение.
Попробуйте Kokoro TTS сегодня и ощутите будущее технологии преобразования текста в речь.