Зустрічайте Qwen 3: нова модель ШІ, яка обіцяє думати глибше і діяти швидше
29 Квітня 11:37
Китайська технологічна компанія Alibaba 29 квітня представила нову лінійку мовних моделей Qwen3. За словами розробників, нове покоління штучного інтелекту від Qwen значно покращену у порівнянні з попередніми версіями, повідомляє «Комерсант Український».
Що особливого в Qwen3
Флагманська модель Qwen3-235B-A22B має вражаючі 235 мільярдів параметрів, з яких активно використовується 22 мільярди. Вона, за задумом, має успішно конкурувати з такими гігантами індустрії, як DeepSeek-R1, o1, o3-mini, Grok-3 та Gemini-2.5-Pro. Навіть маленька модель Qwen3-4B демонструє результати на рівні попереднього покоління Qwen2.5-72B-Instruct, що демонструє ефективність нових підходів у розробці.
Два режими мислення
Найцікавішою особливістю нової лінійки є впровадження гібридних режимів мислення:
- Режим мислення (Thinking Mode) — модель детально обмірковує завдання крок за кроком перед видачею відповіді, що ідеально підходить для складних проблем.
- Режим швидкої відповіді (Non-Thinking Mode) — забезпечує практично миттєві відповіді для простіших запитань.
Користувачі можуть перемикатися між цими режимами за допомогою команд /think
та /no_think
, контролюючи баланс між швидкістю та глибиною мислення моделі.
Багатомовність у новому масштабі
Qwen3 підтримує 119 мов та діалектів, включаючи мови індоєвропейської, сино-тибетської, афро-азіатської та багатьох інших мовних сімей. Це робить модель доступною для користувачів з різних куточків світу та відкриває нові можливості для міжнародного застосування.
Українською ШІ також говорить.
Читайте нас у Telegram: головні новини коротко
Серія моделей для різних потреб
Розробники випустили цілу лінійку моделей різного розміру:
- Дві MoE-моделі: Qwen3-235B-A22B (найпотужніша) та Qwen3-30B-A3B.
- Шість щільних моделей: від Qwen3-32B до Qwen3-0.6B.
Всі моделі доступні з відкритими вагами під ліцензією Apache 2.0, що дозволяє використовувати їх як для досліджень, так і для комерційних проєктів.
Покращена розробка та навчання
Процес створення Qwen3 включав навчання на 36 трильйонах токенів — майже вдвічі більше, ніж у попередньому поколінні. Навчання проходило в три етапи з поступовим ускладненням даних та збільшенням контекстного вікна до 128 тисяч токенів.
Потужні агентні можливості
Особливу увагу розробники приділили інтеграції з інструментами та агентними функціями. Модель чудово працює з фреймворком Qwen-Agent, що спрощує створення ШІ-асистентів, здатних взаємодіяти з різними сервісами та виконувати складні завдання.
Майбутні перспективи
Команда Qwen розглядає випуск Qwen3 як важливий крок на шляху до створення штучного загального інтелекту (AGI) та надрозумного ШІ (ASI). У майбутньому вони планують вдосконалювати архітектуру моделей, збільшувати обсяги даних та розміри моделей, розширювати контекстне вікно та розвивати навчання з підкріпленням.
Qwen3 вже доступна для використання через Qwen Chat Web (chat.qwen.ai) та мобільний додаток, а також на платформах Hugging Face, ModelScope та Kaggle.
Ця нова серія моделей поповнює екосистему інструментів для роботи з природною мовою і надає розробникам додаткові можливості для створення різноманітних застосунків.
Читайте нас у Telegram: головні новини коротко