Kokoro TTS: лучшая бесплатная open source нейросеть преобразования текста в речь для коммерческого использования

20 января 2025

В технологии преобразования текста в речьь (Text-to-Speech, TTS) модель Kokoro TTS стала ведущим бесплатным и коммерчески доступным TTS-решением. Построенная на основе популярного открытого фреймворка StyleTTS, Kokoro TTS предлагает непревзойденную гибкость и функциональность для различных сценариев использования. Давайте рассмотрим, что делает эту модель особенной, её функции и как извлечь из неё максимальную пользу.

Что такое TTS?

TTS, или преобразование текста в речь — это технология, которая преобразует письменный текст в устную речь. Она широко используется в таких приложениях, как:

Взаимодействие с языковыми моделями (LLM).
Озвучивание аудиокниг.
Преобразование письменного контента в подкасты.

TTS-модели имеют значительные практические применения, повышая доступность и удобство использования.

Почему Kokoro TTS является прорывом?

Kokoro TTS выделяется как ведущая бесплатная модель TTS с открытым исходным кодом для коммерческого использования. Вот почему:

Открытый исходный код и лицензия: Kokoro TTS распространяется под лицензией Apache 2.0, позволяющей неограниченное использование в коммерческих целях. Это делает её по-настоящему открытым решением.
Рейтинг Hugging Face: Kokoro TTS занимает третье место в рейтинге TTS Arena на платформе Hugging Face. Хотя другие модели, такие как Play.HT и ElevenLabs, могут занимать более высокие позиции, они недоступны для коммерческого использования, что даёт Kokoro TTS преимущество.

Основные функции

Уникальные голосовые пакеты: Предлагает разнообразные варианты голосов, включая мужские и женские голоса.
Многоязычная поддержка: Поддерживает такие языки, как американский и британский английский, французский, японский, корейский и китайский.
Версия ONNX: Предоставляет легковесный вариант развертывания, не зависящий от GPU, идеально подходящий для случаев использования в реальном времени.

Ключевые преимущества для разработчиков

Kokoro TTS является мощным инструментом для разработчиков, желающих интегрировать функциональность TTS в свои приложения. Её совместимость с ONNX обеспечивает:

Безупречный self-hosting: Развертывание на персональных серверах или в облачных средах.
Приложения реального времени: Идеально подходит для веб-систем коммуникации в реальном времени.
Масштабируемые сценарии использования: Обработка крупномасштабного производства без сильной зависимости от GPU.

Как начать работу с Kokoro TTS

Модели доступны для скачивания.

# 1 Установка зависимостей в тихом режиме
!git lfs install
!git clone https://huggingface.co/hexgrad/Kokoro-82M
%cd Kokoro-82M
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
!pip install -q phonemizer torch transformers scipy munch

# 2 Сборка модели и загрузка голосового пакета по умолчанию
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = [
    'af', # Голос по умолчанию — это 50-50 микс Bella и Sarah
    'af_bella', 'af_sarah', 'am_adam', 'am_michael',
    'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis',
    'af_nicole', 'af_sky',
][0]
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

# 3 Вызов generate, который возвращает аудио 24кГц и использованные фонемы
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
# Язык определяется первой буквой VOICE_NAME:
# 🇺🇸 'a' => Американский английский => en-us
# 🇬🇧 'b' => Британский английский => en-gb

# 4 Отображение аудио 24кГц и вывод фонем
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
print(out_ps)

Kokoro TTS — это шаг вперед для сообщества TTS. Благодаря лицензии с открытым исходным кодом, разнообразным вариантам голосов и впечатляющей производительности, это отличный выбор как для разработчиков, так и для бизнеса. Независимо от того, озвучиваете ли вы аудиокниги, создаете подкасты или повышаете доступность в своих приложениях, Kokoro TTS предлагает надежное, масштабируемое и экономически эффективное решение.

Попробуйте Kokoro TTS сегодня и ощутите будущее технологии преобразования текста в речь.

Все нейросети для генерации голоса

#Текст в речь