Qwen3 – новый конкурент DeepSeek и ChatGPT

Большинство из нас ожидало, что Deepseek представит что-то новое, но сюжет неожиданно повернулся. Перед нами еще одна китайская ИИ модель с открытым исходным кодом, которая на удивление хороша.
Флагманская модель — Qwen3–235B-A22B. Qwen3 — это семейство моделей, где 235B обозначает общее количество параметров. Это модель смеси экспертов, где только около 22B параметров активируются для любого конкретного запроса.
Главная новость?
Эта модель конкурирует с моделями, такими как DeepSeek R1, o3 Mini, Grok 3 и Gemini 2.5 Pro.
В Qwen3 вы можете переключаться между режимом расширенного рассуждения и обычным режимом.

Судя по бенчмаркам, Qwen3 превосходит o3 Mini и вплотную приближается к Gemini 2.5 Pro в тесте ArenaHard. На тестах AIME 24 и 25 она находится между Gemini 2.5 Pro и o3 Mini. В тестах LiveCodeBench и CodeForces она фактически превосходит Gemini 2.5 Pro. Весьма впечатляюще!
Alibaba также выпускают шесть моделей (не смеси экспертов), в диапазоне от 32B до 6B параметров.

Все модели будут доступны на платформах HuggingFace, ModelScope и Kaggle.
Один из разработчиков сообщил, что в Qwen 3 есть «интригующие функции, не указанные в карточках моделей», которые откроют новые возможности для исследований и продуктов.
Ключевые особенности – режимы мышления, так и режимы без мышления с эффективным контролем бюджета мышления — чем больше токенов модель использует для мышления, тем выше ее производительность.
Qwen3 поддерживает 119 языков и обладает улучшенными возможностями кодирования и агентными возможностями.
Набор данных огромен — почти вдвое больше 18 триллионов токенов, использованных для Qwen 2.5.
Интересно, что они использовали Qwen 2.5VL для извлечения текста из документов и Qwen 2.5 для улучшения этого содержания. Они также использовали Quen 2.5 Math и Coder для генерации синтетических данных, показывая, как каждое поколение помогает создавать следующее.
Обучение включало три этапа предварительного обучения:
Базовый языковой этап на 30T токенах, наукоемкие данные для знаний на дополнительных 5T токенах и увеличение длины контекста до 32Т токенов.
После обучения было четыре этапа, включая длинную цепочку рассуждений, обучение с подкреплением, слияние режимов мышления и общее обучение с подкреплением.

Для легких моделей они использовали дистилляцию от больших моделей. Это создает маленькие, быстрые модели, сохраняющие большинство возможностей, при этом подходящие для периферийных устройств (edge devices) и телефонов.
Все модели работают под лицензией Apache 2.0 — это полностью открытый исходный код для коммерческого использования. Вы можете создавать на ее основе продукты, производные работы и продавать их с соответствующим указанием авторства.
В заключение они сказали: «Мы считаем, что переходим от эпохи, ориентированной на обучение моделей, к эпохе, ориентированной на обучение агентов».
Скорее всего, DeepSeek также представит свою новую модель в ближайшее время.