Ограничения LLM о которых должен знать ML Product Manager. Проблема близких логитов и недетерминированность.

Ограничения LLM о которых должен знать ML Product Manager. Проблема близких логитов и недетерминированность.

LLM работает с токенами. На каждом шаге генерации ответа модель выдает вектор логитов.

• Размер вектора - размер словаря токенизатора

• Логиты - ненормализованные числа. Чем выше значение, тем более предпочтителен токен.

Выбор токена определяется параметрами запроса. В первую очередь - температурой.

t = 1 -> максимальное разнообразие выхода

Логиты переводят в вероятности через softmax. Отбор токенов по top k / top p из словаря. Далее сэмплирование финального токена на основе вероятностей.

0 < t < 1 -> умеренное разнообразие выхода

Логиты делят на t. -> разница между ними увеличивается. Далее softmax, top k / p сэмплирование. Выход становится более предсказуемым.

t = 0 -> почти детерминированность

Специальный режим - greedy decoding. Выбор токена с самым большим логитом по argmax.

Но в реальной жизни если вы 100 раз подадите на вход модели один и тот же промт с t=0, вы можете получить отличающиеся ответы.(неидемпотентность)

Почему t=0 не гарантирует стабильность?

Источников потенциальной нестабильности ответов LLM много. Это железо (GPU), куда кернелы, режимы работы (динамический батчинг). Многими из них можно управлять.

Однако даже при максимально контролируемой конфигурации остается фундаментальный источник нестабильности:

Близкие (near-tie) логиты + неточность вычислений с fp

На выходе модели для некоторого входа могут появляться логиты с близкими значениями.

При повторных запусках небольная численная погрешность может изменить их порядок.

В результате

• выбирается другой токен

• меняется цепочка генерации

• меняется итоговый ответ

Почему это важно?

Например, в финтехе для кредитного скоринга воспроизводимость - обязательное требование. Расхождения между offline / batch / online скором считаются критическим багом, а отсутствие 100% повторяемости делает внедрение решений в пайплайны заказчика невозможным.

Помимо финтеха есть другие применения, где воспроизводимость результатов также является обязательным требованием.

Больше деталей о продуктовом менеджменте решений на основе AI/ML в моем телеграм-канале.