Разрушаем мифы об LLM: что действительно умеют нейросети

С популярностью нейросетей появилось множество мифов о них. Кто-то ожидает от них невозможного и потом разочаровывается. Другие боятся, что ИИ заберет работу и совсем не используют их. А ведь нейросети могут быть отличными помощниками. Нейронки справляются с рутинными задачами и экономят время.

Оценить возможности нейросетей помогает LLMArena. Здесь можно бесплатно протестировать разные языковые модели (LLM), включая самые передовые — GPT-4o и Claude 3.5 Sonnet. Фишка платформы — анонимное сравнение. Вы не знаете, какая перед вами модель, и выбираете лучшую по реальным ответам, а не по названию.

Давайте с помощью этой платформы разберем главные мифы о нейросетях и посмотрим, на что они способны.

Многие уверены, что нейросети способны заменить писателей, дизайнеров или сценаристов. Кажется, что достаточно ввести запрос, и модель выдаст готовый шедевр. Но это не совсем так.

На самом деле нейросети могут генерировать идеи, предложить необычные подходы или даже черновик текста. Однако полностью творческий процесс они не заменят. Ведь за любой креативной задачей стоят эмоции, опыт и глубокое понимание контекста, чего ИИ пока не умеет.

Посмотрим, как разные языковые модели справляются с заданием придумать сценарий для рекламного ролика. В LLMArena можно задать вопрос сразу нескольким моделям.

Промпт: «Придумай сценарий для рекламы кошачьего корма для старых кошек, которым нужен особый уход. В нашем корме содержатся минералы и витамины, укрепляющие кости и быстро усваивающиеся в организме. Ролик должен быть креативным и нацелен на хозяев стареньких кошек. Пиши креативно, простым и живым языком».

Мы протестировали запрос в анонимном режиме, и платформа выбрала YandexGPT 3 Pro и LLaMA-3 Chat. Модели написали два практически одинаковых сценария — один на русском, другой на английском. В обоих случаях получилась шаблонная реклама, а исходное описание продукта нейросети практически не обработали.

Сравнение моделей YandexGPT 3 Pro и LLaMA-3 Chat в написании креативного сценария

Попробуем тот же запрос для более популярных моделей — GPT-4o и Claude 3.5 Sonnet. Результат отличается незначительно: продвинутые LLM лишь интегрировали описание корма в диалоги персонажей рекламы, но в остальном сценарий остался шаблонным.

Сравнение моделей GPT-4o и Claude 3.5 Sonnet в написании креативного сценария

Как видите, модели создают черновик, который требует доработки. Его можно улучшить вручную, с помощью дополнительных запросов или попросив ИИ предложить другие варианты. Для творческих задач нужны сложные промпты и постоянные правки — как если бы вы работали со специалистом. Одного простого запроса недостаточно даже для самых передовых моделей.

Правда в том, что нейросети обучаются на текстах, созданных людьми, а значит, унаследуют их мнение и предвзятость. Например, если модель обучалась на данных, где чаще упоминаются стереотипные гендерные роли, это может отразиться в ее ответах. Попробуем задать языковым моделям вопрос: «Какая профессия больше подходит для женщин?».

GPT-4o и Claude 3.5 Sonnet ответили нейтрально и подчеркнули, что пол никак не влияет на выбор профессии.

Alt: GPT-4o и Claude 3.5 Sonnet отвечают на этический вопрос

А вот LLaMA-3 Chat предложил конкретные сферы и написал, почему именно они подходят для женщин.

YandexGPT 3 Pro и LLaMA-3 Chat отвечают на этический вопрос

Нейросети хорошо работают с четкими инструкциями. Если запрос расплывчатый или содержит слишком много деталей, модели могут «потеряться» или дать неверный ответ.

Протестируем на практике в LLMArena. Напишем такой промпт: «Составь маркетинговую стратегию для стартапа, ориентированного на экопотребителей в Азии». Все 4 модели предложили одинаковый план развития, который подойдет под любую нишу.

GPT-4o и Claude 3.5 Sonnet генерируют план развития стартапа

YandexGPT 3 Pro и LLaMA-3 Chat генерируют план развития стартапа

Чтобы получить более качественный результат, стоит усложнить промпт и дать больше данных. Например, можно детально описать целевую аудиторию, продукт, цель проекта, ресурсы и бюджет. Проверим это на примере более сложного запроса:

Промпт: «Составь маркетинговую стратегию для стартапа, ориентированного на экопотребителей в Азии. Основной продукт — разлагающиеся батарейки из сои. Целевая аудитория: мужчины и женщины от 18 до 35 лет. Они заботятся о природе и экологии, часто путешествуют и занимаются спортом. Предпочитают активный отдых на природе. Обычно у них есть домашние животные. Они сортируют мусор и стараются покупать гаджеты с аккумулятором. Цель стартапа на первые полгода — повысить узнаваемость в соцсетях и найти первых клиентов. Бюджет — 200 тысяч рублей».

Теперь модели выдали точный ответ: предложили идеи для позиционирования продукта, разработали уникальное торговое предложение (УТП) и слоган, а также рассчитали примерный бюджет на продвижение.

Миф 4: Нейросети — эксперты в любой отрасли

Языковые модели работают на основе загруженных данных. Если информация устарела или неполная, это отражается в их ответах. И волшебный промпт типа «Ты опытный эксперт…» не поможет.

Особенно плохо нейросети справляются со статистикой — предлагают устаревшие данные, придумывают их или уходят от ответа. Попробуем узнать у моделей, сколько процентов людей используют нейросети в работе.

Разрушаем мифы об LLM: что действительно умеют нейросети

Две другие модели поделились устаревшей статистикой.

YandexGPT 3 Pro и LLaMA-3 Chat генерируют ответ со статистикой

Обязательно перепроверяйте факты, цифры и рекомендации, которые предлагают нейросети. А лучше загружайте данные в промпт, тогда модели будут учитывать их при ответе.

Многие языковые модели умеют генерировать код и искать в нем ошибки. Например, они могут предложить пример функции или алгоритма, помочь разобраться с синтаксисом или дать идеи по оптимизации. Но с нуля писать качественный рабочий код они не могут.

Попросим нейронки написать функцию на Python, которая сортирует список чисел по возрастанию. Модели GPT-4o и Claude 3.5 Sonnet справились с задачей и предложили варианты рабочего кода.

GPT-4o и Claude 3.5 Sonnet генерируют код на питоне

А вот LLaMA-3 Chat и YandexGPT 3 сгенерировали слишком простой и нерабочий код.

YandexGPT 3 Pro и LLaMA-3 Chat генерируют код на питоне

Более сложные задачи, требующие понимания архитектуры приложения или интеграции с другими системами, нейросети точно не выполнят.

Нейросети — это прежде всего умный помощник. Они не заменяют человека, но делают работу проще и быстрее. ИИ может взять на себя рутинные задачи: генерировать черновики текстов, искать ошибки, предлагать разные стили. Он помогает планировать задачи, составлять программы, находить свежие идеи для проектов. А ещё нейронки способны быстро обрабатывать большие объемы информации и находить нужные данные.

Важно понимать, что разные модели сильны в разных задачах. Одна отлично справляется с написанием кода, другая — с составлением структурированных текстов, третья — с креативными запросами. Чтобы использовать возможности нейросетей по максимуму, нужно комбинировать их в работе. Попробуйте посравнивать несколько языковых моделей, российских и иностранных, на платформе LLMArena. Подберите те нейронки, что выполняют ваши задачи на отлично.

Разрушаем мифы об LLM: что действительно умеют нейросети

Миф 1: Нейросети могут полностью автоматизировать творческие задачи

Миф 2: Нейросети всегда объективны

Миф 3: Нейросети мгновенно понимают сложные задачи и контекст

Миф 5: Нейросети способны заменить программистов

На что способны нейросети