Компания Groq (не путать с чат-ботом Илона Маска Grok) выпустила новый чип LPU (Language Processing Unit), кастомный ASIC, который обеспечивает феноменально высокую скорость работы с большими языковыми моделями. Оценить производительность можно на сайте компании: чат-бот Groq, работающий на собственном железе, генерирует в среднем 500 токенов в секунду, в то время как ChatGPT-3.5 на GPU выдает не больше 40.