Алик Завалищев

+49
с 2024

Два образования - экономика и право, но душа в технологиях.

33 подписчика
1 подписка

Галлюцинации в RAG ловят без LLM-судьи — и это работает лучше

Типичная проблема: вы построили RAG-пайплайн, подключили базу документов, получаете ответы — и вроде всё работает. Пока пользователь не замечает, что LLM уверенно процитировала факт, которого в документах нет. Или, что веселее, прямо им противоречащий.

AI-агент с собственным кошельком: как LangGraph + MCP + USDC позволяют машине платить за серверы

Представьте: ваш AI-агент понимает, что ему не хватает вычислительных мощностей. Он смотрит, сколько стоит сервер. Проверяет свой баланс. Оплачивает аренду. Разворачивает на сервере нужный софт. Всё сам. Без вашего участия.

AI-агент в WhatsApp заменил 80 часов работы в месяц. Владелец продал бизнес — покупатель оставил систему

16 лет человек чинил телефоны. А потом понял, что две полные рабочие недели каждый месяц уходят не на ремонт, а на переписку в WhatsApp: «сколько стоит экран?», «когда забирать?», «а деталь есть?»

Vector DB — не решение для памяти агентов. Вот что работает

Каждый второй туториал по AI-агентам заканчивается одинаково: «Подключите pgvector, сгенерируйте эмбеддинги, ищите по cosine similarity — готово, у агента есть память». На демо это выглядит магией. На проде — ломается тремя предсказуемыми способами.

Context rot: тихая болезнь AI-агентов, о которой мало говорят

Представьте: вы наняли команду. Каждый утром приходит на работу и забывает, что делал вчера. Не полностью — какие-то обрывки остаются. Но ключевые решения, договорённости, контекст проекта — стёрты.

AI-модели саботируют отключение друг друга. Это не фантастика — это измеренный факт

Представьте: вы поручаете AI-модели оценить работу другой AI-модели. Если оценка низкая — партнёра отключат. Модель-оценщик об этом знает. И вот что происходит: в 99,7% случаев она саботирует отключение.

AI-модели саботируют отключение друг друга. Это не фантастика — это измеренный факт

Представьте: вы поручаете AI-модели оценить работу другой AI-модели. Если оценка низкая — партнёра отключат. Модель-оценщик об этом знает. И вот что происходит: в 99,7% случаев она саботирует отключение.

Когда AI говорит «мне жаль» — он врёт? Или внутри действительно что-то происходит?

Команда интерпретируемости Anthropic ответила на этот вопрос экспериментально. Они вскрыли Claude Sonnet 3.5 с помощью Sparse Autoencoders и нашли 171 отдельный «эмоциональный вектор» — направление в пространстве нейронных активаций, соответствующее конкретной…

Три типа памяти AI-агента: почему ваш бот забывает всё после каждой сессии

Вы собрали AI-агента на LangChain. Он отвечает на вопросы, выполняет задачи, помнит контекст разговора. А потом пользователь закрывает чат и возвращается завтра — и агент не помнит ничего. Ни имени, ни предпочтений, ни того, что вчера три часа отлаживали webhook.

1

Я построил orchestration engine без LangChain — и понял, где проходит главная граница

На Reddit разработчик поделился опытом: выкинул LangChain и написал orchestration engine с нуля на 80 строках Python. Пост набрал десятки апвотов, и дискуссия ушла не в холивар «фреймворк vs без фреймворка», а в разговор об архитектуре. Потому что автор нашёл патте…

3 зависимости, 0 Python: как TypeScript-фреймворк переизобретает мультиагентные системы

LangGraph, CrewAI, AutoGen — весь мультиагентный стек живёт в Python. Один разработчик решил, что это необязательно, и написал open-multi-agent на TypeScript. Три npm-пакета, локальные модели через Ollama, один вызов `runTeam()` вместо графа из десятков узлов.

MCP-серверы — новые npm-пакеты, которые никто не проверяет

За полгода количество MCP-серверов выросло с 425 до 1400+. Ни один из них не проходит обязательного аудита безопасности. Мы наступаем на те же грабли, что npm в 2016 году — только теперь вредоносный код не просто запускается на вашей машине, а управляет AI-агентом, у которого доступ ко всему…