DeepSeek vs ChatGPT в прикладной задаче
За последний год чаты с LLM разрослись всякими фичами, а китайские нейронки хайпанули по всему миру.
Я решил посмотреть, как дела у китайской топовой reasoning модельки DeepSeek R1 и самое главное — как они справятся с боевым заданием?
Сравнивал R1 и 4o, так как они примерно на одном уровне по бенчмаркам.
Тестирование на примере резюме
Загрузил своё старое резюме и попросил обе модели дать советы по его улучшению с промптом: «Ты как эксперт в сфере HR - дай рекомендации по моему резюме».
Субъективные оценки:
- ChatGPT: 8/10
- DeepSeek: 8.5/10
Результаты: в конкретно этом случае обе модели указали на схожие недочёты и дали рекомендации по улучшению, но DeepSeek с режимом R1 дал чуть более детальный анализ (ответ в 2 раза длиннее). На русском языке модель работает вполне уверенно: за две недели тестов — была замечена всего одна ошибка.
Более подробно написал об этом сравнении в канале про функциональность и api, а ещё пишу как использую нейронки сам и не только: