Потратил $2000 на LLM за год и вот что понял: DeepSeek R1 врет, ChatGPT скучный, а Claude — техническая машина
Спойлер: одна модель оказалась настолько плохой, что придумывала несуществующие компании с финансовыми показателями
🔥 Почему эта статья изменит ваш взгляд на ИИ
Год назад я поставил себе цель — протестировать все топовые LLM в реальных задачах. Потратил больше $2000, прогнал сотни запросов и получил несколько болезненных уроков.
Главное открытие: популярность модели ≠ ее реальная эффективность в работе.
Рассказываю про свежие модели каждой компании, которые успел "пощупать" на реальных проектах.
DeepSeek R1: Многословный врун с дешевым API
Статус: Нашумевшая "думающая" модель
Цена: Очень дешево
Реальность: Галлюцинирует как сумасшедший
Самый яркий кейс. Попросил найти конкурентов для своей ниши. DeepSeek выдал список из 5 компаний с подробным описанием:
- Плюсы и минусы каждой
- Финансовые показатели
- Стратегии развития
Проблема: Ни одной из этих компаний не существует!
Когда я ткнул модель носом в Google, она спокойно призналась: "Извините, придумал все, потому что не смог ничего найти".
Вердикт: Подходит только для простого кодинга и создания ботов. Плюс — работает без VPN и часто хватает бесплатных лимитов.
Grok 3: "Убийца ChatGPT", который никого не убил
Статус: Флагман от xAI Маска
Цена: Есть бесплатная версия
Реальность: Слабая модель с крутой фишкой
Модель разочаровала по всем фронтам, но есть один жирный плюс — бесплатный DeepSearch (3 запроса в сутки).
Для мелких исследований сойдет — модель шустро бегает по интернету и собирает информацию. Глубины не ждите, но для поверхностного анализа хватит.
Вердикт: Использую только ради бесплатного поиска. Покупать подписку смысла нет.
ChatGPT: Мейнстрим, который разочаровывает
Статус: Самая известная модель в мире
Цена: От базовой до дорогой Pro
Реальность: Топовые думающие модели (o3), но...
Модели типа o3 действительно мощные, но есть критичные недостатки:
Проблема #1: Непредсказуемость ответов на одинаковые промпты Проблема #2: Скудные ответы в IT-сфере и исследованиях
Проблема #3: Странный подход к коду
Вердикт: Мейнстримно и скучно для серьезной работы. Кодит тоже как-то странно.
Gemini 2.5 Pro: Мощно, но дорого
Статус: Флагман Google
Цена: Дорогая
Реальность: Крутая модель с ограничениями
Пока использовал мало, но впечатления положительные. Мощная и быстрая модель, но:
- В Cursor показывает себя плохо
- Цена кусается
- Нужно правильно интегрировать
Вердикт: Потенциал огромный, но нужно найти правильное применение.
Claude Sonnet 4: Техническая машина для профи
Статус: Мой рабочий инструмент №1
Цена: Pro подписка обязательна
Реальность: Предсказуемая техническая модель
Это прямо технарь до мозга костей. С подключенными MCP превращается в машину для анализа ниш, рынков и конкурентов.
Почему работает:
- Предсказуемые ответы
- Отличное качество кода при правильном ТЗ
- Projects делают работу намного продуктивнее
Минусы:
- Небольшой контекст
- Жесткие лимиты даже на Pro
- Без подписки Pro бесполезен
Вердикт: Рабочая лошадка для серьезных задач. Если вы техник — ваш выбор.
💡 Главные выводы после года экспериментов
- Не верьте хайпу — популярная ≠ лучшая для ваших задач
- Тестируйте на реальных проектах — синтетические бенчмарки врут
- Считайте общую стоимость — не только API, но и время на настройку
- Выбирайте под задачи — универсальных решений нет
Моя текущая связка:
- Claude Sonnet 4 для серьезной работы
- DeepSeek R1 для простых задач
- Grok 3 для быстрого поиска
🚀 Хотите глубже в тему ИИ-инструментов?
В моем телеграм-канале я делюсь:
- Рабочими MCP для Claude
- Кейсами использования ИИ в реальных проектах
- Сравнениями новых моделей
- Лайфхаками по промптингу
Недавно выпустил новый пост про MCP, которые использую для ресерча конкурентов, ниш и идей для проектов (подписывайтесь):
P.S. У вас есть опыт работы с LLM? Пишите в комментариях — обсудим!