Qwen 2.5 и Qwen 2.5 Coder - перспективная коллекция LLM для систем агентов
Разработчикам приложений Generative AI стоит обратить внимание на новую коллекцию моделей Qwen 2.5 и Qwen 2.5 Coder. С сентября 2024 года эти модели привлекают внимание разработчиков благодаря своей эффективности.
Во-первых, веса Qwen 2.5 доступны в версиях от 0.5B параметров — это очень легковесная модель — до 72B. Посередине есть 3, 7, 14 и 32B, каждую из которых вполне можно запускать локально, если у вас есть, например RTX 3080 с 16ГБ видеопамяти. В этом поможет квантизация (особенно в случае с 32B). Квантованные веса в форматах GGUF, GPTQ, AWQ есть в официальном репозитории.
Для более быстрого инференса и файнтюнинга Qwen 2.5 можно арендовать облачный GPU и работать с этой моделью так же, как с привычной нам Llama. Я показывал примеры файнтюнинга последней в предыдущих статьях, используя облачные видеокарты и стек Huggingface Transformers (код Qwen 2.5 добавлен в одну из последних версий transformers).
Есть базовая модель и версия Instruct, вы можете пробовать файнтюнить обе и смотреть, какой результат вам лучше подходит. Но если вы хотите взять готовую модель для инференса, то лучше конечно Instruct. Благодаря разнообразию размеров и форматов, Qwen может быть полезен для разных типов приложений - клиент-серверных, или десктопных, и даже на мобильных - вот как это выглядит:
Изображение взято из треда про адаптацию Квен под мобильные платформы:
Но по-настоящему Qwen 2.5 привлек внимание разработчиков, когда вышла коллекция Qwen 2.5 Coder. Бенчмарки показали, что 32 B версия этой модели может конкурировать с GPT-4o по написанию кода, а это очень интересно, притом что 32 миллиарда параметров вполне можно запустить на средней мощности видеокарте, и получить хорошую скорость генерации токенов.
Вообще какие приложения можно создавать с помощью новых моделей Qwen? Это конечно различные чатботы, но не только.
Разработчики говорят, что Qwen хорош для систем агентов.
Вот что написал недавно в Reddit один из них:
Я длительное время использовал кастомный Chain-of-thoughts фреймворк с GPT-4, затем 4o. Сегодня я развернул Qwen 2.5 14B и обнаружил, что его возможности вызова функций, Chain of Thoughts и следования инструкциям фантастические. Я бы даже сказал, лучше чем GPT 4/4o - для моих задач, во всяком случае
Кажется интересным не только то, что разработчик получил такую высокую производительность для сложных задач, требующих продвинутой логики, на открытой LLM. Интересно и то, что для этого ему потребовались сравнительно небольшие мощности — ведь речь идёт о квантованной 14B модели:
Я использую одну видеокарту A40 для надёжности системы и высокой скорости генерации. Я выполнил установку через Ollama, взяв дефолтный квантованный Qwen 2.5 14B. A40 нужна для более высокой скорости, но я могу представить, что вам подойдёт и намного меньшая видеокарта для ваших задач
Мне нравится идея разработки агентских систем с помощью открытой модели на 14B параметров, для работы которой достаточно экономичной видеокарты A40 или даже менее мощной модели.
Агенты, вспомним, это GenAI приложения которые могут оперировать компьютером пользователя, взаимодействовать с другими программными компонентами. Для этого очень важна способность интегрироваться с разными API, вызов функций и логическое мышление модели.
По поводу логического мышления, традиционный подход — это Chain of Thoughts, особая стратегия промптинга. Она побуждает LLM строить пошаговые рассуждения, более эффективные для решения задачи и самовалидации решения на каждом шаге. Некоторые модели специально обучены для работы с таким промптом, например, GPT-4o1. Непонятно, обучали ли Qwen строить цепочки мыслей, но, как видим, разработчики указывают на высокую производительность модели в этом отношении.
Если вы занимаетесь рендерингом, ИИ или просто любите играть, подписывайтесь на наш Telegram-канал. В нем мы проводим интересные активности, делимся новостями компании и разыгрываем призы
Читать также:
Я не верю тому, что они говорят, и вы тоже не должны верить. А если быть последовательным, то и вы не должны доверять моим словам. Но я докажу свои слова фактами и доказательствами.
Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого чел…
С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацие…
Хочу начать с того, что сейчас во всем контенте есть некий тренд на естественность, возможно, вы это заметили. Появилось такое направление в контенте, обнимательное. Когда тебе не давят по болям, а разделяют их с тобой и подсказывают пути решения. Это даже не похоже на прямую продажу.
Хотите использовать мощный ИИ, но не хватает ресурсов для запуска гигантских моделей? Познакомьтесь с QwQ-32B — компактной, но невероятно эффективной нейросетью, которая превосходит модели в 20 раз больше её размера. В этой статье — полное руководство по революционной модели для бизнеса, разработчиков и энтузиастов.
Qwen2.5 — это мощная нейросеть с открытым исходным кодом, разработанная компанией Alibaba. Она построена на базе большой языковой модели (LLM) и поддерживает несколько языков, включая русский. Исходный код модели доступен на GitHub, что позволяет разработчикам использовать её в собственных проектах.
Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.
OpenAI только что анонсировала новую модель o3-mini, и хотя она доступна бесплатно, это не значит, что все смогут ей пользоваться без ограничений. Пока что лимиты для бесплатных пользователей не совсем ясны, но для Pro подписчиков доступ без лимитов. Team и Plus пользователи смогут отправлять по 150 сообщений в день.
Необычное время выхода Qwen 2.5-Max — в первый день Лунного Нового года, когда большинство китайцев отдыхают и проводят время с семьями, — указывает на то, что стремительный рост китайского стартапа DeepSeek за последние три недели оказал давление не только на зарубежных конкурентов, но и на местных.