Потратила 100+ часов на arxiv — 10 статей по ML которые реально стоят времени

Я ML-исследователь и PhD-кандидат. Каждую неделю читаю десятки статей. Большинство — мусор. Собрала те что реально изменили мышление.

Привет, я Лора. Я ML-исследователь, PhD-кандидат, стажируюсь в DeepMind. У меня есть телеграм-канал где я разбираю статьи и делюсь жизнью в ML — @lora_neuro.

Каждую неделю я трачу минимум 10-15 часов на чтение arxiv. Большинство статей можно описать формулой: «взяли X, добавили attention, получили +0.3% на бенчмарке». Но иногда попадается что-то, от чего хочется пересмотреть свой подход к исследованиям.

За последние два месяца я прочитала 200+ статей. Вот 10 которые я бы рекомендовала прочитать каждому кто работает с ML.

1. Compression Favors Consistency, Not Truth

Почему LLM иногда «предпочитают» правду? Автор предлагает элегантную идею: при обучении модель оптимизирует сжатие данных. Правильные утверждения «дешевле» для кодирования, потому что ложь обычно непоследовательна. Но — и это ключевое — это работает только когда ошибки случайные. Систематическая ложь (пропаганда, конспирологии) сжимается так же хорошо как правда.

Почему важно: меняет понимание того, откуда берётся «truthfulness» в LLM. Это не магия и не alignment — это свойство компрессии. И оно хрупкое.

2. Semantic Invariance in Agentic AI

Перефразируешь задачу для LLM-агента — получаешь другой ответ. Авторы проверили 7 моделей и обнаружили, что маленький Qwen3-30B оказался стабильнее гигантов. Scale ≠ robustness.

Почему важно: если вы строите продукт на LLM-агентах — ваш агент может вести себя непредсказуемо в зависимости от формулировки. Это не теоретическая проблема, это production issue.

3. Attention Is Off By One

Классический off-by-one баг в реализации softmax. Звучит как мелочь, но на длинных контекстах влияет заметно. Статья 2023 года, но переоткрыли в 2026 в контексте длинных контекстов.

Почему важно: напоминание что даже в основополагающих компонентах могут быть баги которые годами никто не замечает.

4. Ring Attention (UC Berkeley)

Как обрабатывать миллион+ токенов без миллиарда на GPU. Распределённый attention по кольцу устройств. Каждое устройство обрабатывает свой чанк и передаёт KV-cache дальше по кольцу.

Почему важно: длинные контексты — одна из ключевых проблем 2025-2026. Ring Attention — один из самых элегантных подходов к её решению.

5. Mixture-of-Depths

Не все токены одинаково важны. Пусть модель сама решает на какие тратить compute. Токены «проскакивают» слои если модель считает что они не требуют обработки.

Почему важно: потенциально революционный подход к эффективности inference. Вместо MoE (mixture of experts) — MoD (mixture of depths).

6. KAN: Kolmogorov-Arnold Networks

Замена MLP на функции Колмогорова-Арнольда на рёбрах графа. Математически красиво. На практике пока нишево — работает лучше всего на научных задачах с физическими закономерностями.

Почему важно: показывает что MLP — не единственный вариант. Направление для исследований, не для прода.

7. Constitutional AI (Anthropic)

Как сделать модель безопасной без армии аннотаторов. RLAIF — модель сама оценивает свои ответы по набору принципов.

Почему важно: RLHF стоит дорого и плохо масштабируется. Constitutional AI показал что можно получить сравнимое качество дешевле.

8. Textbooks Are All You Need (Microsoft/Phi)

Маленькая модель + высококачественные данные > большая модель + интернет-мусор. Phi доказала что data quality — это не buzzword.

Почему важно: изменило индустрию. После Phi все стали серьёзнее относиться к данным вместо тупого скейлинга.

9. LoRA: Low-Rank Adaptation

Да, она 2021 года. Но если вы ещё не читали оригинал — прочитайте. Там элегантнее чем в любом туториале. Идея простая: заморозить веса, обучить low-rank матрицы поверх.

Почему важно: фундамент для fine-tuning в 2025-2026. Без LoRA большинство практических применений LLM были бы невозможны.

10. Flash Attention 2 (Tri Dao)

IO-aware алгоритм вычисления attention. Все используют, мало кто понимает как работает. На уровне SRAM/HBM memory hierarchy.

Почему важно: ускорение обучения и inference в 2-4x. Если вы обучаете трансформеры и не используете Flash Attention — вы буквально жжёте деньги.

Половина этих статей изменила то как я думаю о ML. Другая половина — как я пишу код.

Если хотите получать такие разборы регулярно — у меня есть телеграм-канал @lora_neuro где я каждую неделю разбираю свежие статьи, делюсь мемами из жизни ML-инженера и рассказываю как мой кот Баес мешает мне дописать диссертацию.

Лора Нейронова, ML researcher, PhD candidate @ DeepMind