miteigi nemoto (@id224943) — Блог на vc.ru

13.07.2025

Ускорение инференса LLM через тензорный параллелизм (подробный обзор)

Использование Ollama или нативного HF инференса может порождать стереотипы о медленной скорости генерации ответа LLM при работе на нескольких GPU, об отсутствии какого-то заметного ускорения.

Достаточно долго мне не доводилось натыкаться на факты, когда с помощью второго GPU можно ускорить генерацию одного запроса. Множество опубликов…

miteigi nemoto

17.04.2025

Длинный контекст LLM в RAG-системах и не только (подробный обзор)

RAG представляет собой ключевую технологию повышения точности больших языковых моделей (LLM) за счет предоставления внешней информации. С появлением длинного контекста (LC) возрастает интерес к тому как хорошо он работает в задачах генерации, дополненной поиском (RAG). Надо ли RAG вообще? Лучше ли LC, чем RAG, или побеждает дружба? Ответы неоднозна…

miteigi nemoto

Разработка

22.07.2024

Обновление #3 в бенче ContextTrap : FractalGPT, T-lite, Gemma2, Mistral-Nemo, Claude Haiku, GLM4, GPT-4o-mini, DeepSeek-Coder-V2, GPT-3.5, Jamba-instruct, Nemotron-4-340b-instruct

Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом. Всего протестировано 46 моделей в разных конфигурациях. Ниже будут некоторые комментарии к новым моделям в списке.

miteigi nemoto

Разработка

03.07.2024

Откровение месяца: ансамбль из 8 отдельных моделей 7-9B в бенче ContextTrap достигают уровня Cloud 3 Opus

Результаты ContextTrap-4K v0.1 на 2024-07-03. % - это доля всех очков, полученная моделью. Желтым подсвечены новые модели.

Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом.

miteigi nemoto

20.06.2024

Сравнение производительности сервинга Llama 3 на vLLM, LMDeploy, MLC-LLM, TensorRT-LLM и TGI

Давно хотел встретить такое свежее сравнение. На днях команда BentoML провела сравнительное тестирование производительности сервинга модели Llama 3 с использованием бэкендов вывода

vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, и Hugging Face TGI Далее некоторые выдержки из публикации.

miteigi nemoto

19.06.2024

Тестирование H100 vs A100 в трейне и инференсе Llama 3, погружение в FP8 и пробы движка TensorRT-LLM

Прошло два года с момента первого анонса NVIDIA H100 в 2022 году. Появилось множество открытых LLM моделей и всевозможных ML-библиотек, а сама видеокарта стала более доступной в России. В последние пару месяцев я активно экспериментирую с fine-tuning LLama 3 и возникла потребность в ускорении процесса обучения на больших датасетах. Все это натолкну…

miteigi nemoto

02.06.2024

ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке

Результаты ContextTrap-4K v0.1 на 2024-05-31. % - это доля всех очков, полученная моделью.

В течение мая 2024 работал над созданием своего бенчмарка LLM и провел десятки тестирований моделей. Лидерборд на картинке выше. Подробное описание теста и инсайтов публикую в этой статьей.

miteigi nemoto

24.05.2024

Законы масштабирования знаний в LLM LLaMA

В поисках ответов, сколько большая языковая модель типа LLaMA в зависимости от веса может сохранить уникальных знаний наткнулся на интересное исследование: Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws.

miteigi nemoto

07.05.2024

Галлюцинации в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM)

arxiv.org

https://arxiv.org/pdf/2404.18930

Ключевые моменты в обзорной статье о галлюцинациях в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM):

miteigi nemoto

01.05.2024

Вопрос на засыпку мультимодалок: сколько людей на картинке

В процессе тестирования мультимодалки llava столкнулся с тем, что модель неправильно определила количество людей на картинке. Решил проверить, как обстоят дела у других MLLM моделей и слегка удивился их количеством.

Задавал вопрос: count how many people are in the picture, answer with few words.

miteigi nemoto

24.04.2024

Что лучше для качества обучения bnb_4bit_use_double_quant=False или bnb_4bit_use_double_quant=True

bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.bfloat16 )

Параметр bnb_4bit_use_double_quant в конфигурации BitsAndBytesConfig определяет, будет ли использоваться двойное квантование при 4-битной квантизации модели.

miteigi nemoto

20.04.2024

Вопрос на засыпку GPT: кто сыграл в роли Кэтрин Данлеви, в фильме "Восхождение Юпитер"

Еще в прошлом году случайно заметил, что GPTшки не знают ответ на этот вопрос или галлюцинируют. Спустя почти год решил проверить, какие модели исправились, включая новейшие Llama 3, WizardLM 2, Command R+ и Mixtral. Оказалось, что ситуация изменилась слабо.

На разных языках ответ отличается. Вероятно, это свидетельствует об ограничениях дата…