Утекла в сеть карточка с описанием и бенчмарками Gemini 3.0 Pro, и другие релизы ТОПовых моделей

На одну неделю выпала прямо таки гора апдейтов топовых моделей. Конкуренция между AI разработчиками накалена, как между IPhone и Samsung в лучше годы. Пробежимся галопом по Европам, чтобы быть в курсе.

Карточка модели Gemini 3.0 Pro с официального сайта Гугла (но пока публично не релизнутая)
1

Иллюзия на иллюзию иллюзии

Запасаемся попкорном

Вышел ответ на обвинения со стороны Apple в отсутствии у LLM рассуждающих способностей, и по слухам – ответ написан с участием самой LLM (Anthropic). Спор выходит далеко за пределы обсуждения методологии, и напрямую связан с вопросом: как быстро мы получим суперинтеллект?

🔥 Еще больше интересного в моем канале продуктовые штучки

Apple: современные LLM не способны рассуждать

Серьезный вердикт от Apple, который еще громче звучит с учетом того, что у Apple нет своих LLM. Расскажу, на основе чего Apple пришли к такому выводу (может, они тоже хайпуют?), что об этом думают в сообществе, и что с этим делать (если это так).

🔥 Еще больше интересного в моем канале продуктовые штучки

2

Новое исследование: LLM понимают, когда их оценивают

Это какие-то хитрые бестии! – скажете вы, и будете правы. На самом деле, этот вывод напрашивался из других недавних исследований. Из чего следует такой вывод и какое практическое значение имеет это значение? Читайте!

🔥 Еще больше интересного в моем канале продуктовые штучки

3

Google Gemini впервые успешно прошла Pokémon Blue. И это – большое достижение

Игра выпущена аж 30 лет назад, почему это тогда новость, да не просто в медиа, а уважаемых техно изданий? И почему в этом видят многообещающее явление?

🔥 Еще больше интересного в моем канале продуктовые штучки

4

🚀 Почему Claude и DeepSeek лучше своих конкурентов?

Сегодня я хочу по-рассуждать о 2-х кардинально отличающихся друг от друга по своему темпераменту ИИ-продуктах: DeepSeek и Claude. Первый "взорвал" рынок, а второй спокойно движется своим путем и не особенно отсвечивает. В попробуем понять, в чем ценность анализа их пути и сделаем полезные для нас с вами выводы.

📎 "Пулеметный обстрел" новыми…

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения…

Лучшие большие языковые модели в ноябре 2024 г

Лучшие большие языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

1
1

Сравнение бенчмарков LLM для разработки программного обеспечения

Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

1

Полный гид по бенчмаркам LLM

Полный гид по бенчмаркам LLM

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполн…