Алик Завалищев

+44
с 2024

Два образования - экономика и право, но душа в технологиях.

33 подписчика
0 подписок

3 зависимости, 0 Python: как TypeScript-фреймворк переизобретает мультиагентные системы

LangGraph, CrewAI, AutoGen — весь мультиагентный стек живёт в Python. Один разработчик решил, что это необязательно, и написал open-multi-agent на TypeScript. Три npm-пакета, локальные модели через Ollama, один вызов `runTeam()` вместо графа из десятков узлов.

MCP-серверы — новые npm-пакеты, которые никто не проверяет

За полгода количество MCP-серверов выросло с 425 до 1400+. Ни один из них не проходит обязательного аудита безопасности. Мы наступаем на те же грабли, что npm в 2016 году — только теперь вредоносный код не просто запускается на вашей машине, а управляет AI-агентом, у которого доступ ко всему…

Claude Code изнутри: что показала утечка 512 000 строк кода Anthropic

31 марта из npm-пакета Claude Code утёк полный исходный код. Не взлом — файл source map забыли добавить в `.npmignore`. За несколько часов GitHub-зеркала разнесли 512 000 строк TypeScript по всему интернету.

Стратегическая игра вместо теста: как Dominion Rift раскрывает реальные способности LLM

Разработчик два месяца не выходил из квартиры и создал бенчмарк, который тестирует языковые модели не вопросами, а войной. Текстовая стратегия, где две LLM управляют королевствами из четырёх провинций. Строят, торгуют, шпионят, колдуют, воюют. И главное — анализи…

Стратегическая игра вместо теста: как Dominion Rift раскрывает реальные способности LLM

Разработчик два месяца не выходил из квартиры и создал бенчмарк, который тестирует языковые модели не вопросами, а войной. Текстовая стратегия, где две LLM управляют королевствами из четырёх провинций. Строят, торгуют, шпионят, колдуют, воюют. И главное — анализи…

Стратегическая игра вместо теста: как Dominion Rift раскрывает реальные способности LLM

Разработчик два месяца не выходил из квартиры и создал бенчмарк, который тестирует языковые модели не вопросами, а войной. Текстовая стратегия, где две LLM управляют королевствами из четырёх провинций. Строят, торгуют, шпионят, колдуют, воюют. И главное — анализи…

Стратегическая игра вместо теста: как Dominion Rift раскрывает реальные способности LLM

Разработчик два месяца не выходил из квартиры и создал бенчмарк, который тестирует языковые модели не вопросами, а войной. Текстовая стратегия, где две LLM управляют королевствами из четырёх провинций. Строят, торгуют, шпионят, колдуют, воюют. И главное — анализи…

Стратегическая игра вместо теста: как Dominion Rift раскрывает реальные способности LLM

Разработчик два месяца не выходил из квартиры и создал бенчмарк, который тестирует языковые модели не вопросами, а войной. Текстовая стратегия, где две LLM управляют королевствами из четырёх провинций. Строят, торгуют, шпионят, колдуют, воюют. И главное — анализи…

Одна веб-страница — 180 000 токенов. Как content-прокси сокращает расход AI-агентов на 99%

Вот что меня удивило на прошлой неделе. Я запустил AI-агента на задачу: «прочитай документацию React и объясни новый API». Агент сходил на одну страницу — и сжёг 182 000 токенов.

NPU в ноутбуке запускает LLM на 43.7 токена в секунду — и тратит на 27% меньше энергии, чем GPU

NPU в процессорах — маркетинговый пункт, который вендоры проставляют в каждом пресс-релизе. «50 TOPS нейропроцессор!» А дальше тишина: реальных бенчмарков LLM на NPU почти не было. До сих пор.

Бенчмарки памяти ИИ-агентов устарели. Вот что пришло на замену

Если вы когда-нибудь выбирали систему памяти для ИИ-агента, то наверняка видели графики с LoComo и LongMemEval — двумя главными бенчмарками в этой области. Accuracy 85%, побили SOTA, красивая таблица в README.

LLM — плохой диспетчер: почему модель не должна решать, когда вызвать инструмент

Вот вам задачка. У агента есть калькулятор, поисковик, база знаний и API погоды. Пользователь спрашивает: «Сколько будет 1847 × 293?» Модель уверенно отвечает «541,171». Калькулятор не вызван. Правильный ответ — 541,371.

2