Еще в прошлом году случайно заметил, что GPTшки не знают ответ на этот вопрос или галлюцинируют. Спустя почти год решил проверить, какие модели исправились, включая новейшие Llama 3, WizardLM 2, Command R+ и Mixtral. Оказалось, что ситуация изменилась слабо.
Надоело использовать зоопарк из HF кода для тестирования моделек, как и мне? :-) Пришло время упростить этот процесс с помощью популярного инструмента ollama, полезного для разработчиков и исследователей. Здесь в статье будет упор про терминальное использование на linux, но есть множество разных вариантов GUI - изучайте.
Насколько квантизация влияет на конечный результат генерации? Вопрос непраздный. Если верить публичным бенчмаркам, то квантизация 4-бит вроде не сильно влияет, особенно для больших моделей от 13B и выше. Но кто разберет эти десятые доли разницы. Лучше всего смотреть на конкретных задачах, для которых выбирается LLM. Я выбрал для теста -…
Подборка современных решений определения языка по тексту, с уклоном на Python / CLI. Одна из проблем: чем короче фрагмент текста, тем сложнее точно определить язык. Поэтому добавлен комментарий по отношению к коротким сообщениям, когда известно.
Из-за огромного размера GPT-моделей даже для вывода требуется несколько производительных GPU. Для ускорения созданы разные методы квантизации (простыми словами - сжатия), которые существенно снижают требования к видеопамяти.
LLM модель типа LLaMA-2, вышедшая в июле 2023 года, умеет многое с помощью правильно составленного текстового запроса (промта) без дополнительного программирования. Одна из очень полезных возможностей это суммаризация текста, c помощью которой можно сделать краткую выдержку по большому тексту даже на русском языке.
Заметил неоднократно, что при train аудиклассификатора с большим датасетом видеопамять быстро заканчивается на этапе eval. Причем если train сжирает 10Гб, то на eval память жрется прыгая, и на какой-то из эпох или даже на первой выходит CUDA Out of memory.