YandexGPT 2 улучшает взаимодействие с "Алисой" на 67%

"Яндекс" анонсировал выпуск обновленной версии своей языковой модели YandexGPT 2, которая теперь поддерживается голосовым помощником "Алиса". По результатам тестирования, новая версия модели обеспечивает более точные и уместные ответы на запросы пользователей в 67% случаев по сравнению с предыдущей версией.
Исследование качества работы обеих моделей было проведено на основе 500 разнообразных пользовательских заданий. В результате сравнения выявлено, что YandexGPT 2 превзошла предыдущую модель по следующим категориям:
- Генерация текста: новая модель показала лучший результат в 69% заданий;
- Пересказ и анализ текста: улучшение составило 68%;
- Генерация идей: новая модель была лучше в 66% случаев;
- Стилизация текста под аудиторию или конкретного пользователя: улучшение на 62%;
- Ответы на вопросы: также 62% преимущество перед старой моделью.
Обучение нейросетей проходит в два этапа: претрейнинг и файнтюнинг. Претрейнинг отвечает за сбор фактической информации, в то время как файнтюнинг настраивает формат и стиль ответов. Улучшения на этапе претрейнинга имеют ключевое значение, так как именно здесь ИИ "поглощает" информацию для последующего использования.
Разработчики столкнулись с проблемой необходимости обновления датасетов, что является ресурсоемким процессом. Они решили эту задачу, автоматизировав процесс обучения с помощью тестирования небольших моделей, которые затем сравниваются по качеству работы. В дополнение к этому, были внедрены инструменты для улучшения качества датасетов:
- Классификатор некачественного текста выявляет кодировочные ошибки, лишние HTML-теги и повторы предложений;
- Классификатор полезного текста определяет, насколько материал отвечает на вопрос пользователя;
- Увеличена доля текстов с высокой цитируемостью;
- Сокращена доля дубликатов до менее 0,5%;
- Запущен инструмент для оценки фактовой полноты, обученный отвечать на 80% фактовых запросов, с которыми справляется поисковик "Яндекса".
YandexGPT 2 уже интегрирована в различные продукты "Яндекса", включая "Яндекс Станции", умные телевизоры, мобильное приложение и "Яндекс Браузер". Разработчики планируют продолжить усовершенствование датасетов и внедрение методов обучения, таких как обучение с подкреплением от человека (RLHF), а также расширение применения модели в других сервисах компании.