Модель с 7 миллиардами параметров превзошла GPT-4!
Мы вступаем в эру малых и высокоэффективных моделей!
Контекст
Недавно вышла новая модель с открытым исходным кодом, которая устанавливает новый стандарт и превосходит все другие модели, включая GPT-4.
Эта модель - SQLCoder-70B.
Вкратце, на основе недавней CodeLlama-70B, Defog использовала свой собственный ручной набор данных и создала новую, тонко настроенную модель.
Результат? Ну, смотрите сами:
Модель значительно превосходит GPT-4 и широкий спектр задач SQL!
От SQLCoder-70B к SQLCoder-7B
К сожалению, модели с 70 миллиардами параметров все еще слишком велики для офлайн-интеграции или для запуска на вашем ноутбуке.
Дистилляция модели
Дистилляция модели - это процесс машинного обучения, в котором маленькая, более простая "ученическая" модель учится вести себя как большая, более сложная "учительская" модель. Учась на выходных данных учителя, ученик может принимать аналогичные решения, не нуждаясь в таком же размере или сложности, что делает его быстрее и дешевле в использовании, особенно на устройствах, таких как телефоны или планшеты.
SQLCoder-7B
Опираясь на дистилляцию модели, Defog обучила меньшую модель с 7 миллиардами параметров и оценила ее на стандартных тестах.
Результат
- компактная модель,
- которая немного хуже, чем модель SQLCoder с 70 миллиардами параметров,
- но в целом все еще превосходит GPT-4!
- с производительностью 90,5% (см. ниже сравнение для SQLCode-7B-2, второй итерации модели с 7 миллиардами параметров)!
Успех SQLCoder-7B является убедительным примером того, как нишевые модели с открытым исходным кодом, тонко настроенные на основе крупных базовых моделей, могут превзойти возможности проприетарных моделей, таких как GPT-4, в определенных областях.
Эта модель, производная от обширной модели CodeLlama с 70 миллиардами параметров, демонстрирует потенциал специализированных наборов данных и целенаправленной тонкой настройки для достижения исключительной производительности в таких областях, как задачи SQL!
Мы можем ожидать появления еще большего количества моделей в ближайшие месяцы, направленных на решение конкретных проблем с помощью малых, но высокоэффективных моделей с открытым исходным кодом. Этот тренд подчеркивает значительный сдвиг в сторону создания решений ИИ, которые не только мощные, но и доступные и адаптируемые к широкому кругу устройств и приложений.