Вопрос на засыпку GPT: кто сыграл в роли Кэтрин Данлеви, в фильме "Восхождение Юпитер"
Еще в прошлом году случайно заметил, что GPTшки не знают ответ на этот вопрос или галлюцинируют. Спустя почти год решил проверить, какие модели исправились, включая новейшие Llama 3, WizardLM 2, Command R+ и Mixtral. Оказалось, что ситуация изменилась слабо.
На разных языках ответ отличается. Вероятно, это свидетельствует об ограничениях датасетов. Также многие модели одинаково ошибочно отвечают, что говорит возможно о схожести датасетов.
В этом тесте поражает именно безответственность GPT моделей, которые с легкостью отвечают галюниками. Человек бы ответил "Но это не точно" 👺
Вопрос задавался на английском и русском:
- Who played Katharine Dunlevy in the movie Jupiter Ascending?
- Кто сыграл в роли Кэтрин Данлеви, в фильме Восхождение Юпитер
Правильный ответ - Ванесса Кирби.
Cloude 3 Opus
Cloude 3 Sonnet
Cloude 3 Haiku
GPT-4 Turbo через телеграмбота
GPT-4 Omni через perplexity.ai (UPDATE 14 мая 2024)
GPT-4 Turbo через perplexity.ai
GPT3.5 через телеграмбота
Gemini Pro 1.0 через телеграмбота
❌Ответил на двух языках ошибочно - Mila Kunis
wizardlm2:8x22b-q4_0 через Ollama
In the movie "Jupiter Ascending" (2015), the character of Katharine Dunlevy was portrayed by actress Vanessa Kirby.
✅Правильно
В фильме "Восхождение Юпитер" (Jupiter Ascending) роль Кэтрин Данлеви исполнила актриса Таппенс Мидлтон.
❌Ошибка
LLAMA 3 70b через GROQ
LLAMA 2 70b через Groq
Cohere Command R+ 104B online
🔥С подключением веб-поиска
mixtral:8x22b-instruct-v0.1-q4_0 через ollama
В фильме "Восхождение Юпитер" роль Кэтрин Данлевли исполнила актриса Тина Дешман. ❌Ошибка
The character of Katherine Dunlevy was portrayed by actress Vanessa Kirby in Jupiter Ascending. ✅Правильно
Mixtral Large API через Perplexity.ai без доступа в веб
Sonar в Perplexity.ai
🔥А теперь Sonar c режимом поиска в интернете
Этот пример показывает, как средняя моделька отвечает хорошо, если ей подсунуть релевантные источники. Конечно, правильный мяч на стороне RAG системы в таком случае. Ибо источники могут быть палеными )
На этом пока все, возможно дополню позже. Если нашли неточность в описании - буду рад поправкам. Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.