Для сравнения, считается, что такой уровень производительности требует кластеров с примерно 16 тысячами GPU, а те, которые разрабатываются сегодня, используют около 100 тысяч GPU. Например, Llama 3 405B использовала 30,8 миллиона GPU-часов, в то время как DeepSeek-V3, судя по всему, является более мощной моделью, затратив всего 2,8 миллиона GPU-часов (примерно в 11 раз меньше вычислительных ресурсов). Если модель также пройдет проверку на практике (например, рейтинги на LLM Arena еще продолжаются, мои первые тесты прошли хорошо), это будет очень впечатляющим примером исследований и инженерных решений при ограниченных ресурсах.
Объёмы данных, на которых обучалась модель, действительно поражают своим количеством. Если эта модель настолько хороша, то вполне вероятно, что большое количество пользователей перейдёт на неё, вместо ChatGPT. Но я думаю, что есть один актуальный вопрос - что с галлюцинациями? Насколько они часто проявляются?