«Т-банк» открыл доступ к своей языковой модели T-lite

С её помощью можно создавать ИИ-решения для анализа данных, поиска или чат-ботов.

4444
1313

У Phi-3-mini-instruct от Микрософта 3.8 млрд параметров, обучали на 3.3 триллиона токенах данных оригинальных и синтетических, у нее хорошая результативность. Похоже многое зависит не от количества параметров а от стратегии обучения, качества данных, переобучения и оценщиков, которые модель переобучают.

Мне кажется, для русскоязычных моделей (именно те, которые обучаются на русском корпусе) проблема в данных, их не так много.