Потратила 100+ часов на arxiv — 10 статей по ML которые реально стоят времени
Я ML-исследователь и PhD-кандидат. Каждую неделю читаю десятки статей. Большинство — мусор. Собрала те что реально изменили мышление.
Привет, я Лора. Я ML-исследователь, PhD-кандидат, стажируюсь в DeepMind. У меня есть телеграм-канал где я разбираю статьи и делюсь жизнью в ML — @lora_neuro.
Каждую неделю я трачу минимум 10-15 часов на чтение arxiv. Большинство статей можно описать формулой: «взяли X, добавили attention, получили +0.3% на бенчмарке». Но иногда попадается что-то, от чего хочется пересмотреть свой подход к исследованиям.
За последние два месяца я прочитала 200+ статей. Вот 10 которые я бы рекомендовала прочитать каждому кто работает с ML.
1. Compression Favors Consistency, Not Truth
Почему LLM иногда «предпочитают» правду? Автор предлагает элегантную идею: при обучении модель оптимизирует сжатие данных. Правильные утверждения «дешевле» для кодирования, потому что ложь обычно непоследовательна. Но — и это ключевое — это работает только когда ошибки случайные. Систематическая ложь (пропаганда, конспирологии) сжимается так же хорошо как правда.
Почему важно: меняет понимание того, откуда берётся «truthfulness» в LLM. Это не магия и не alignment — это свойство компрессии. И оно хрупкое.
2. Semantic Invariance in Agentic AI
Перефразируешь задачу для LLM-агента — получаешь другой ответ. Авторы проверили 7 моделей и обнаружили, что маленький Qwen3-30B оказался стабильнее гигантов. Scale ≠ robustness.
Почему важно: если вы строите продукт на LLM-агентах — ваш агент может вести себя непредсказуемо в зависимости от формулировки. Это не теоретическая проблема, это production issue.
3. Attention Is Off By One
Классический off-by-one баг в реализации softmax. Звучит как мелочь, но на длинных контекстах влияет заметно. Статья 2023 года, но переоткрыли в 2026 в контексте длинных контекстов.
Почему важно: напоминание что даже в основополагающих компонентах могут быть баги которые годами никто не замечает.
4. Ring Attention (UC Berkeley)
Как обрабатывать миллион+ токенов без миллиарда на GPU. Распределённый attention по кольцу устройств. Каждое устройство обрабатывает свой чанк и передаёт KV-cache дальше по кольцу.
Почему важно: длинные контексты — одна из ключевых проблем 2025-2026. Ring Attention — один из самых элегантных подходов к её решению.
5. Mixture-of-Depths
Не все токены одинаково важны. Пусть модель сама решает на какие тратить compute. Токены «проскакивают» слои если модель считает что они не требуют обработки.
Почему важно: потенциально революционный подход к эффективности inference. Вместо MoE (mixture of experts) — MoD (mixture of depths).
6. KAN: Kolmogorov-Arnold Networks
Замена MLP на функции Колмогорова-Арнольда на рёбрах графа. Математически красиво. На практике пока нишево — работает лучше всего на научных задачах с физическими закономерностями.
Почему важно: показывает что MLP — не единственный вариант. Направление для исследований, не для прода.
7. Constitutional AI (Anthropic)
Как сделать модель безопасной без армии аннотаторов. RLAIF — модель сама оценивает свои ответы по набору принципов.
Почему важно: RLHF стоит дорого и плохо масштабируется. Constitutional AI показал что можно получить сравнимое качество дешевле.
8. Textbooks Are All You Need (Microsoft/Phi)
Маленькая модель + высококачественные данные > большая модель + интернет-мусор. Phi доказала что data quality — это не buzzword.
Почему важно: изменило индустрию. После Phi все стали серьёзнее относиться к данным вместо тупого скейлинга.
9. LoRA: Low-Rank Adaptation
Да, она 2021 года. Но если вы ещё не читали оригинал — прочитайте. Там элегантнее чем в любом туториале. Идея простая: заморозить веса, обучить low-rank матрицы поверх.
Почему важно: фундамент для fine-tuning в 2025-2026. Без LoRA большинство практических применений LLM были бы невозможны.
10. Flash Attention 2 (Tri Dao)
IO-aware алгоритм вычисления attention. Все используют, мало кто понимает как работает. На уровне SRAM/HBM memory hierarchy.
Почему важно: ускорение обучения и inference в 2-4x. Если вы обучаете трансформеры и не используете Flash Attention — вы буквально жжёте деньги.
Половина этих статей изменила то как я думаю о ML. Другая половина — как я пишу код.
Если хотите получать такие разборы регулярно — у меня есть телеграм-канал @lora_neuro где я каждую неделю разбираю свежие статьи, делюсь мемами из жизни ML-инженера и рассказываю как мой кот Баес мешает мне дописать диссертацию.
Лора Нейронова, ML researcher, PhD candidate @ DeepMind