Даже Индия разрабатывает свою языковую модель
Индия присоединилась к числу стран, которые создают собственные большие языковые модели (LLM) — не для глобального рынка, а под свои культурные и языковые особенности.
Главная сложность — масштаб задачи при скромных ресурсах. В стране более 120 языков и почти 20 тысяч диалектов. Для многих из них нет крупных и качественных корпусов текста, а в некоторых письменность устроена так, что слова пишутся без пробелов, что затрудняет обработку. Финансирование тоже ограничено: в 2024 году американские AI-стартапы привлекли $97 млрд, европейские — $51 млрд, а индийские — менее $1 млрд.
Тем не менее правительство решило сделать ставку на собственные разработки. Программа IndiaAI Mission с бюджетом $1,2 млрд предусматривает не только финансирование стартапов, но и доступ к вычислительным ресурсам. Государство привлекло 19 тысяч GPU, включая 13 тысяч Nvidia H100, и в начале года объявило конкурс на создание базовых моделей.
Сейчас формируется сразу несколько проектов. Sarvam AI работает над мультиязычной моделью с 70 млрд параметров, Soket AI Labs — над 120 млрд, а Gnani.ai — над компактной, но с расширенными голосовыми функциями. Последнее важно в стране, где миллионы людей не читают и не пишут. Уже есть и первые результаты: CoRover.ai представила BharatGPT — мультимодальную модель на 12 языках, а затем компактную версию BharatGPT Mini.
Для Индии это попытка сократить технологический разрыв и создать ИИ, который будет понимать её реальности — от особенностей грамматики до культурного контекста. При этом разработчики вдохновляются опытом Китая, где крупная модель DeepSeek была создана с куда меньшими затратами, чем у западных лидеров.
В условиях, когда глобальные LLM не могут одинаково хорошо работать для всех, Индия показывает, что даже при ограниченных ресурсах можно двигаться к своим задачам — если опираться на локальные потребности и объединять усилия государства и частных компаний.