miteigi nemoto (@id224943) — Блог на vc.ru

Обновление #3 в бенче ContextTrap : FractalGPT, T-lite, Gemma2, Mistral-Nemo, Claude Haiku, GLM4, GPT-4o-mini, DeepSeek-Coder-V2, GPT-3.5, Jamba-instruct, Nemotron-4-340b-instruct

Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом. Всего протестировано 46 моделей в разных конфигурациях. Ниже будут некоторые комментарии к новым моделям в списке.

Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.

miteigi nemoto

Разработка

3 июля

Откровение месяца: ансамбль из 8 отдельных моделей 7-9B в бенче ContextTrap достигают уровня Cloud 3 Opus

Результаты ContextTrap-4K v0.1 на 2024-07-03. % - это доля всех очков, полученная моделью. Желтым подсвечены новые модели.

За два месяца тестирования разных языковых моделей я заметил, что они ошибаются по-разному. Часто решают сложные задачи, но допускают ошибки в простых вопросах. Мне пришла идея: а что, если взять лучшее от каждой модели и подсчитать общий рейтинг ансамбля?

miteigi nemoto

20 июня

Сравнение производительности сервинга Llama 3 на vLLM, LMDeploy, MLC-LLM, TensorRT-LLM и TGI

Давно хотел встретить такое свежее сравнение. На днях команда BentoML провела сравнительное тестирование производительности сервинга модели Llama 3 с использованием бэкендов вывода

vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, и Hugging Face TGI Далее некоторые выдержки из публикации.

Llama 3 70B Q4: Token Generate Rate for Different Backends

miteigi nemoto

19 июня

Тестирование H100 vs A100 в трейне и инференсе Llama 3, погружение в FP8 и пробы движка TensorRT-LLM

Прошло два года с момента первого анонса NVIDIA H100 в 2022 году. Появилось множество открытых LLM моделей и всевозможных ML-библиотек, а сама видеокарта стала более доступной в России. В последние пару месяцев я активно экспериментирую с fine-tuning LLama 3 и возникла потребность в ускорении процесса обучения на больших датасетах. Все это натолкну…

miteigi nemoto

2 июня

ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке

Результаты ContextTrap-4K v0.1 на 2024-05-31. % - это доля всех очков, полученная моделью.

В течение мая 2024 работал над созданием своего бенчмарка LLM и провел десятки тестирований моделей. Лидерборд на картинке выше. Подробное описание теста и инсайтов публикую в этой статьей.

1010

miteigi nemoto

24 мая

Законы масштабирования знаний в LLM LLaMA

В поисках ответов, сколько большая языковая модель типа LLaMA в зависимости от веса может сохранить уникальных знаний наткнулся на интересное исследование: Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws.

miteigi nemoto

7 мая

Галлюцинации в мультимодальных больших языковых моделях (Multimodal Large Language Models, MLLM)

В целом, этот тщательный обзор подробно рассматривает феномен галлюцинаций в MLLM, охватывая причины, оценку, подходы к уменьшению и перспективы на будущее, чтобы продвинуть исследования по улучшению надёжности и устойчивости MLLM.

miteigi nemoto

1 мая

Вопрос на засыпку мультимодалок: сколько людей на картинке

В процессе тестирования мультимодалки llava столкнулся с тем, что модель неправильно определила количество людей на картинке. Решил проверить, как обстоят дела у других MLLM моделей и слегка удивился их количеством.

Сборка Третьего искусственного спутника. [1958 г.] Российский государственный архив научно-технической документации К244-01-028. Кадр кинохроники. 1 человек на картинке

miteigi nemoto

24 апр

Что лучше для качества обучения bnb_4bit_use_double_quant=False или bnb_4bit_use_double_quant=True

bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_use_double_quant=True, bnb_4bit_compute_dtype=torch.bfloat16 )

miteigi nemoto

20 апр

Вопрос на засыпку GPT: кто сыграл в роли Кэтрин Данлеви, в фильме "Восхождение Юпитер"

Еще в прошлом году случайно заметил, что GPTшки не знают ответ на этот вопрос или галлюцинируют. Спустя почти год решил проверить, какие модели исправились, включая новейшие Llama 3, WizardLM 2, Command R+ и Mixtral. Оказалось, что ситуация изменилась слабо.

miteigi nemoto

12 апр

Мое первое знакомство с ollama

Надоело использовать зоопарк из HF кода для тестирования моделек, как и мне? :-) Пришло время упростить этот процесс с помощью популярного инструмента ollama, полезного для разработчиков и исследователей. Здесь в статье будет упор про терминальное использование на linux, но есть множество разных вариантов GUI - изучайте.

miteigi nemoto

10 апр

Поиск ответа в документе на 26 тыс. слов через LLM Cloude / Mixtral / Command

Перефразирую классика - "Все умные LLM похожи друг на друга, каждая тупая LLM глупа по-своему." или "Все маленькие контексты схоже счастливы, каждый большой контекст несчастлив по-своему." 🙈
miteigi nemoto