miteigi nemoto

+360
с 2018

Делюсь личным опытом эксплуатации GPU, внедрения и использования нейронных сетей.

67 подписчиков
31 подписка

Использование Ollama или нативного HF инференса может порождать стереотипы о медленной скорости генерации ответа LLM при работе на нескольких GPU, об отсутствии какого-то заметного ускорения.

Достаточно долго мне не доводилось натыкаться на факты, когда с помощью второго GPU можно ускорить генерацию одного запроса. Множество опубликов…

RAG представляет собой ключевую технологию повышения точности больших языковых моделей (LLM) за счет предоставления внешней информации. С появлением длинного контекста (LC) возрастает интерес к тому как хорошо он работает в задачах генерации, дополненной поиском (RAG). Надо ли RAG вообще? Лучше ли LC, чем RAG, или побеждает дружба? Ответы неоднозна…

4

Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом. Всего протестировано 46 моделей в разных конфигурациях. Ниже будут некоторые комментарии к новым моделям в списке.

2
1
Результаты ContextTrap-4K v0.1 на 2024-07-03. % - это доля всех очков, полученная моделью. Желтым подсвечены новые модели.

Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом.

1
1
1

Прошло два года с момента первого анонса NVIDIA H100 в 2022 году. Появилось множество открытых LLM моделей и всевозможных ML-библиотек, а сама видеокарта стала более доступной в России. В последние пару месяцев я активно экспериментирую с fine-tuning LLama 3 и возникла потребность в ускорении процесса обучения на больших датасетах. Все это натолкну…

Тестирование H100 vs A100 в трейне и инференсе Llama 3, погружение в FP8 и пробы движка TensorRT-LLM
9
Результаты ContextTrap-4K v0.1 на 2024-05-31. % - это доля всех очков, полученная моделью.

В течение мая 2024 работал над созданием своего бенчмарка LLM и провел десятки тестирований моделей. Лидерборд на картинке выше. Подробное описание теста и инсайтов публикую в этой статьей.

10

В поисках ответов, сколько большая языковая модель типа LLaMA в зависимости от веса может сохранить уникальных знаний наткнулся на интересное исследование: Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws.

1

В процессе тестирования мультимодалки llava столкнулся с тем, что модель неправильно определила количество людей на картинке. Решил проверить, как обстоят дела у других MLLM моделей и слегка удивился их количеством.

Задавал вопрос: count how many people are in the picture, answer with few words.

1
bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.bfloat16 )

Параметр bnb_4bit_use_double_quant в конфигурации BitsAndBytesConfig определяет, будет ли использоваться двойное квантование при 4-битной квантизации модели.

Еще в прошлом году случайно заметил, что GPTшки не знают ответ на этот вопрос или галлюцинируют. Спустя почти год решил проверить, какие модели исправились, включая новейшие Llama 3, WizardLM 2, Command R+ и Mixtral. Оказалось, что ситуация изменилась слабо.

На разных языках ответ отличается. Вероятно, это свидетельствует об ограничениях дата…

1