Prompt Repetition: тупо копируешь промпт дважды — и модель отвечает точнее

Вот смотрите, есть техника — берёшь свой промпт, копируешь его и вставляешь два раза подряд. Отправляешь. Всё. Точность ответов растёт на 5-70% в зависимости от задачи.

Никакого кода, никаких настроек — работает прямо в чате.

LLM читают текст слева направо и не могут "вернуться" назад. Получается, порядок слов реально влияет на качество.

Вот типичная ситуация: скидываешь модели список из 50 имён, а в конце спрашиваешь "какое 25-е?". Модель читала весь этот список, не понимая зачем он ей нужен — вопрос-то в конце был.

Это как читать инструкцию по сборке мебели, не зная что собираешь. Детали не укладываются в систему, потому что непонятно на что обращать внимание.

Когда промпт идёт дважды — модель на втором проходе уже знает, что от неё хотят. Каждый токен "видит" всю картину целиком.

Ребята из Google Research погоняли это на 7 моделях (GPT-4o, Claude, Gemini, Deepseek) и 7 бенчмарках. Результат — 47 побед из 70 тестов, ни одного поражения.

Самое интересное — латентность не меняется. Повторение обрабатывается параллельно на входе, длина ответа та же. Модель не тупит дольше — просто думает лучше.

ШАГ 1: Берёшь свой промпт ШАГ 2: Копируешь целиком ШАГ 3: Вставляешь копию сразу после оригинала → отправляешь

Формат простой:

{твой промпт} {твой промпт}

Можно добавить связку между блоками:

{твой промпт} Повторю ещё раз: {твой промпт}

Для сложных задач — тройное повторение:

{твой промпт} Повторю ещё раз: {твой промпт} Повторю последний раз: {твой промпт}

Допустим, готовишь питч для инвестора. Написал 300 слов, а нужно ровно 150 — лимит слайда. Просишь модель сократить, сохранив ключевые тезисы.

Без повторения:

Вот текст питча: [300 слов про маркетплейс, метрики, команду] Сократи до 150 слов. Сохрани: суть продукта, ключевую метрику, запрос инвестиций.

С повторением:

Вот текст питча: [300 слов про маркетплейс, метрики, команду] Сократи до 150 слов. Сохрани: суть продукта, ключевую метрику, запрос инвестиций. Вот текст питча: [300 слов про маркетплейс, метрики, команду] Сократи до 150 слов. Сохрани: суть продукта, ключевую метрику, запрос инвестиций.

Получается, модель на втором проходе читает текст уже понимая, что важно — критерии сокращения. Результат ближе к 150 словам и точнее попадает в то, что нужно сохранить.

На кастомных задачах эффект был просто дикий. Gemini 2.0 Flash-Lite на задаче "найди 25-е имя из списка 50" — точность выросла с 21% до 97% при двойном повторении.

Кстати, чем хуже изначальный порядок информации в промпте (контекст сначала, вопрос потом) — тем сильнее помогает повторение. Логично: именно эту проблему оно и решает.

Есть несколько моментов, про которые честно:

Длинные промпты — если у тебя промпт под 100К токенов, повторение может не влезть или затормозить на входе. У Claude на очень длинных промптах латентность заметно выросла.

Reasoning-режим — когда модель и так думает пошагово (Chain-of-Thought), эффект почти нулевой. Она сама повторяет запрос в начале рассуждений — получается дублирование того, что уже происходит.

Простые задачи — если спрашиваешь "столица Франции?", повторение ничего не даст. Модель и так знает ответ с первого раза.

Тут штука в том, как устроен attention в LLM. Каждый токен "видит" только то, что было до него — это называется causal attention.

Когда промпт идёт дважды, на втором проходе каждый токен контекста уже "знает" про инструкцию из конца первого блока. Это как перечитать задачу после того, как узнал что именно нужно найти — детали становятся значимыми.

А латентность не растёт, потому что повторение обрабатывается на prefill-стадии — она параллельная. Модель генерирует столько же токенов на выходе, просто лучше понимает что от неё хотят.

Техника работает для всех протестированных моделей — это не баг какой-то одной архитектуры, а фундаментальное свойство того, как LLM читают текст.

Просто копируешь промпт дважды. Без кода, без настроек, прямо в чате. Точность растёт, скорость та же.

Вот в PDF выложил все подробное объяснение: