Бенчмарки: статьи и новости по теме

Утекла в сеть карточка с описанием и бенчмарками Gemini 3.0 Pro, и другие релизы ТОПовых моделей

На одну неделю выпала прямо таки гора апдейтов топовых моделей. Конкуренция между AI разработчиками накалена, как между IPhone и Samsung в лучше годы. Пробежимся галопом по Европам, чтобы быть в курсе.

Карточка модели Gemini 3.0 Pro с официального сайта Гугла (но пока публично не релизнутая)

Наташа Хазеева

26 июня

Иллюзия на иллюзию иллюзии

🔥 Еще больше интересного в моем канале продуктовые штучки

О чем это? Некоторое время назад Apple сделал громкое заявление, которое взбудоражило сообщества ИИ исследователей:…

Наташа Хазеева

15 июня

Запасаемся попкорном

Вышел ответ на обвинения со стороны Apple в отсутствии у LLM рассуждающих способностей, и по слухам – ответ написан с участием самой LLM (Anthropic). Спор выходит далеко за пределы обсуждения методологии, и напрямую связан с вопросом: как быстро мы получим суперинтеллект?

🔥 Еще больше интересного в моем канале продуктовые штучки

Наташа Хазеева

11 июня

Apple: современные LLM не способны рассуждать

Серьезный вердикт от Apple, который еще громче звучит с учетом того, что у Apple нет своих LLM. Расскажу, на основе чего Apple пришли к такому выводу (может, они тоже хайпуют?), что об этом думают в сообществе, и что с этим делать (если это так).

🔥 Еще больше интересного в моем канале продуктовые штучки

Наташа Хазеева

7 июня

Новое исследование: LLM понимают, когда их оценивают

Это какие-то хитрые бестии! – скажете вы, и будете правы. На самом деле, этот вывод напрашивался из других недавних исследований. Из чего следует такой вывод и какое практическое значение имеет это значение? Читайте!

🔥 Еще больше интересного в моем канале продуктовые штучки

Наташа Хазеева

4 мая

Google Gemini впервые успешно прошла Pokémon Blue. И это – большое достижение

Игра выпущена аж 30 лет назад, почему это тогда новость, да не просто в медиа, а уважаемых техно изданий? И почему в этом видят многообещающее явление?

🔥 Еще больше интересного в моем канале продуктовые штучки

Роман Куцев

5 февр

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Фото <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2F%40neon845b%3Futm_content%3DcreditCopyText%26amp%3Butm_medium%3Dreferral%26amp%3Butm_source%3Dunsplash&postId=1792656" rel="nofollow noreferrer noopener" target="_blank">Яни Каасинен</a> на <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2Fphotos%2Fbrown-chess-pieces-on-brown-wooden-chess-board-7VGzV09YnvA%3Futm_content%3DcreditCopyText%26amp%3Butm_medium%3Dreferral%26amp%3Butm_source%3Dunsplash&postId=1792656" rel="nofollow noreferrer noopener" target="_blank">Unsplash</a>.

Аскер Аскеров

6 февр

🚀 Почему Claude и DeepSeek лучше своих конкурентов?

Сегодня я хочу по-рассуждать о 2-х кардинально отличающихся друг от друга по своему темпераменту ИИ-продуктах: DeepSeek и Claude. Первый "взорвал" рынок, а второй спокойно движется своим путем и не особенно отсвечивает. В попробуем понять, в чем ценность анализа их пути и сделаем полезные для нас с вами выводы.

Роман Куцев

22 янв

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения…

Роман Куцев

17.12.2024

Лучшие большие языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Роман Куцев

23.11.2024

Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

Роман Куцев

20.11.2024

Полный гид по бенчмаркам LLM

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполн…

Бенчмарки

📎 "Пулеметный обстрел" новыми…