Привет, мы релизим публичное демо нашего FractalMath агента - это бот, который научился решать математические задачи на арифметику со 100% точностью и стабильно. В этой статье мы сравним бота с ChatGPT и покажем, что мультиагентая система FractalGPT достигла SOTA качества в этой задаче и превзошла все prompt техники для LLM.
Бот доступен всем в Тел…
Виктор, а почему тестирование ChatGPT для сравнения проводится на слабой версии модели (GPT-3.5), а не на GPT-1 или GPT-2?
Понимаю всю глубину вопроса))
Если кратко - то ChatGPT это масс продукт, именно он нашумел в СМИ, он доступен бесплатно у OpenAi в интерфейсе и относительно дешев по API.
И я не соглашусь, что он слабый - смотря для каких задач.
Далее, можно сказать "ну взяли бы Claude 2, GPT4. И чего такие простые задачи взяли - вон GSM8k датасет есть с алгеброй, есть Math и тп".
Но это дорого и долго - у нас разработка наперед расписана далеко.
Учить и создавать агентов, которые будут решать более сложные мат задачи, по качеству сопосбные конкурировать с GPT4 и с техниками промтинга с написанием кода - реально дорого.
Мы стартап, а не Сбер или Яндекс)
Наша задача - показать что агенты в принципе побеждают промтинг. А на каких они делают это задачах - не так важно на текущий момент.
Кстати, когда мы зарелизили свой RAG тут же на Vc то у нас спрашивали а почему с GPT4 сравнивали - я взял и сравнил выборочно с ней, и там тоже не было существенного изменения в качестве.