DeepSeek vs ChatGPT в прикладной задаче

За последний год чаты с LLM разрослись всякими фичами, а китайские нейронки хайпанули по всему миру.

Я решил посмотреть, как дела у китайской топовой reasoning модельки DeepSeek R1 и самое главное — как они справятся с боевым заданием?

Сравнивал R1 и 4o, так как они примерно на одном уровне по бенчмаркам.

Тестирование на примере резюме

Загрузил своё старое резюме и попросил обе модели дать советы по его улучшению с промптом: «Ты как эксперт в сфере HR - дай рекомендации по моему резюме».

Субъективные оценки:

  • ChatGPT: 8/10
  • DeepSeek: 8.5/10

Результаты: в конкретно этом случае обе модели указали на схожие недочёты и дали рекомендации по улучшению, но DeepSeek с режимом R1 дал чуть более детальный анализ (ответ в 2 раза длиннее). На русском языке модель работает вполне уверенно: за две недели тестов — была замечена всего одна ошибка.

Более подробно написал об этом сравнении в канале про функциональность и api, а ещё пишу как использую нейронки сам и не только:

Начать дискуссию