в

Модель с 7 миллиардами параметров превзошла GPT-4!

10 марта 2024
Модель с 7 миллиардами параметров превзошла GPT-4!

Мы вступаем в эру малых и высокоэффективных моделей!

Контекст

Недавно вышла новая модель с открытым исходным кодом, которая устанавливает новый стандарт и превосходит все другие модели, включая GPT-4.

Эта модель - SQLCoder-70B.

Вкратце, на основе недавней CodeLlama-70B, Defog использовала свой собственный ручной набор данных и создала новую, тонко настроенную модель.

Результат? Ну, смотрите сами:

Сравнение SQLCoder с GPT-4
Сравнение SQLCoder с GPT-4

Модель значительно превосходит GPT-4 и широкий спектр задач SQL!

От SQLCoder-70B к SQLCoder-7B

К сожалению, модели с 70 миллиардами параметров все еще слишком велики для офлайн-интеграции или для запуска на вашем ноутбуке.

Дистилляция модели

Дистилляция модели - это процесс машинного обучения, в котором маленькая, более простая "ученическая" модель учится вести себя как большая, более сложная "учительская" модель. Учась на выходных данных учителя, ученик может принимать аналогичные решения, не нуждаясь в таком же размере или сложности, что делает его быстрее и дешевле в использовании, особенно на устройствах, таких как телефоны или планшеты.

SQLCoder-7B

Опираясь на дистилляцию модели, Defog обучила меньшую модель с 7 миллиардами параметров и оценила ее на стандартных тестах.

Результат

  • компактная модель,
  • которая немного хуже, чем модель SQLCoder с 70 миллиардами параметров,
  • но в целом все еще превосходит GPT-4!
  • с производительностью 90,5% (см. ниже сравнение для SQLCode-7B-2, второй итерации модели с 7 миллиардами параметров)!

Успех SQLCoder-7B является убедительным примером того, как нишевые модели с открытым исходным кодом, тонко настроенные на основе крупных базовых моделей, могут превзойти возможности проприетарных моделей, таких как GPT-4, в определенных областях.

Эта модель, производная от обширной модели CodeLlama с 70 миллиардами параметров, демонстрирует потенциал специализированных наборов данных и целенаправленной тонкой настройки для достижения исключительной производительности в таких областях, как задачи SQL!

Мы можем ожидать появления еще большего количества моделей в ближайшие месяцы, направленных на решение конкретных проблем с помощью малых, но высокоэффективных моделей с открытым исходным кодом. Этот тренд подчеркивает значительный сдвиг в сторону создания решений ИИ, которые не только мощные, но и доступные и адаптируемые к широкому кругу устройств и приложений.

Теги: