DeepSeek: китайский ИИ, о котором сейчас все говорят
Китайская компания DeepSeek потрясла всех на этой неделе, выпустив одноимённую модель искусственного интеллекта - или, как модно говорить, Большую Языковую Модель (LLM - Large Language Model) - DeepSeek R1, которая по качеству догнала флагманскую модель GPT-o1. Затем они показали нейросеть для генерации изображений, превосходящую DALL-E и Stable Diffusion. И вот так резко, словно ниоткуда, ворвался в мировые лидеры ИИ.
Заявленные преимущества и особенности
При этом если верить компании, обучение обошлось им примерно в 20 раз дешевле и происходило это намного быстрее. Исходный код они выложили в открытый доступ на GitHub. Разработчики утверждают, что модель R1 решает задачи по математике, программированию и логике лучше или так же, как модель GPT-o1 от OpenAI за $20 в месяц, обходясь пользователям значительно дешевле.
Особенностью их обучения было то, что инженеры отдавали модели только качественные данные на обучение, а не всё подряд. А если каких-то данных не было в быстром доступе, они вручную всё это собирали. Думаю, это также связано с региональной особенностью. Учитывая что на китайском языке информации намного меньше, чем на английском, отбор происходил более детальный.
Реальные показатели и ограничения
Однако детальный анализ показывает более сложную картину. По результатам последних бенчмарков, производительность DeepSeek R1 находится на уровне между моделями GPT-4o и GPT-4o-mini, что существенно ниже заявленных показателей. Хотя модель действительно демонстрирует способность к пространным рассуждениям и использует эту возможность довольно активно, в реальных бизнес-задачах это преимущество не является определяющим.
Анализ работы модели на платформе OpenRouter выявляет существенные ограничения в практическом применении:
- Крайне ограниченный контекст
- Низкая пропускная способность
- Проблемы с качеством обслуживания
Интересно отметить, что во многих случаях более эффективным решением может быть использование менее мощных моделей с правильным разделением задач на логические этапы. Такой подход не только экономичнее, но и может давать более качественные результаты в конкретных бизнес-сценариях.
Экономическое влияние и бизнес-модель
На фоне успеха DeepSeek уже обошел ChatGPT в рейтинге бесплатных приложений для iPhone, хотя сейчас сервис работает с перебоями из-за наплыва пользователей. Это событие существенно повлияло на технологический сектор:
- Акции NVIDIA упали на 16.55% (потеря более $500 млрд за день)
- Общее падение американского рынка на $1 трлн
- Снижение котировок других технологических гигантов: Broadcom (-18%), Oracle (-13.21%), Alphabet (-3.36%)
За впечатляющими цифрами и громкими заявлениями скрываются интересные нюансы, о которых редко упоминают в новостях. DeepSeek - это китайская лаборатория искусственного интеллекта, которая в значительной степени финансируется китайским хедж-фондом High-Flyer под управлением Лян Вэньфэна из Ханчжоу. Это финансирование определяет две ключевые особенности их бизнес-модели:
1. Компании не обязательно добиваться немедленной окупаемости своих моделей
2. Потенциальная прибыль может генерироваться за счет влияния новостей о компании на мировые рынки
Это объясняет, почему DeepSeek может позволить себе предлагать свои услуги по таким низким ценам, хотя долгосрочная устойчивость такой модели остается под вопросом.
Успех DeepSeek особенно примечателен в контексте текущего политического климата. В то время как США ужесточает экспортный контроль над чипами и технологиями ИИ, другой рукой запуская StarGate на $500 млрд, китайские компании демонстрируют способность создавать конкурентоспособные продукты, причем с заявленной экономией в 20 раз по сравнению с западными аналогами.
Открытость компании (публикация исходного кода на GitHub) может рассматриваться двояко:
- С одной стороны, это шаг к прозрачности и развитию открытого ИИ
- С другой стороны, это может быть частью более широкой стратегии по увеличению влияния китайских технологий на глобальном рынке
Важно отметить потенциальные риски безопасности:
1. Отсутствие прозрачности в обработке пользовательских данных
2. Неопределенность в отношении соблюдения международных стандартов конфиденциальности
3. Возможные скрытые уязвимости в открытом коде
Именно поэтому, при всей привлекательности низкой стоимости и высокой производительности, следует проявлять осторожность при использовании сервиса, особенно для обработки конфиденциальной информации. Впрочем, это относится ко всем сервисам. Ради Бога, не отдавайте сторонним сервисам свои чувствительные данные.
Выводы и перспективы
Появление DeepSeek демонстрирует несколько важных трендов в развитии искусственного интеллекта:
1. Децентрализация рынка ИИ
- Монополия западных компаний в сфере ИИ начинает разрушаться
- Появляются сильные игроки из других регионов, особенно из Азии
- Конкуренция может привести к снижению цен на ИИ-сервисы
2. Эволюция подходов к обучению моделей
- Фокус на качестве данных вместо их количества
- Более эффективное использование вычислительных ресурсов
- Возможность достигать сопоставимых результатов с меньшими затратами
3. Потенциальные риски и возможности
- Необходимость баланса между доступностью и безопасностью
- Важность международных стандартов и регулирования в сфере ИИ
- Возможное влияние на глобальный технологический ландшафт
Что ожидать дальше:
- Вероятно появление новых игроков на рынке ИИ
- Усиление конкуренции может привести к дальнейшему снижению цен
- Возможно ужесточение регулирования в сфере ИИ на международном уровне
- Растущее значение вопросов безопасности и конфиденциальности данных
В краткосрочной перспективе DeepSeek может стать серьезным конкурентом существующим решениям, особенно в сегменте бесплатных сервисов. Однако долгосрочный успех будет зависеть от способности компании поддерживать качество сервиса при растущем количестве пользователей и решать вопросы безопасности и доверия.
Спасибо за внимание
Этот текст зародился сперва в моём телеграм-канале Econet, который посвящен одноименному проекту, где я изучаю, размышляю и ищу лучшие решения проблем работы с данными и их оптимизации. Буду очень вашей критике и предложениям, ведь я сам пока только изучаю это поле и хочу поспособствовать улучшению нашего цифрового мира, где мы все прямо сейчас обитаем.