Релевантность – это степень соответствия текста статьи поисковому запросу. Она измеряется разными способами, но в нашем случае будет бинарной: статья либо соответствует запросу, либо нет, без полутонов.
Кроме того, во имя упрощения нашей работы (и непревращения этого поста в трехтомное собрание сочинений) мы будем определять релевантность с помощью наличия или отсутствия в статье некоторого набора терминов, относящегося к крокодилам. Набор терминов попросим сгенерировать GhatGPT.
Первый подход к генерации списка слов получился так себе: ассистент слишком буквально понял озвученную ранее постановку и наряду с терминами «Crocodile», «Alligator» и «Gharial» («крокодил», «аллигатор», «гавиал») предложил «Rivers» и «Poaching» («реки», «браконьерство»), то есть, термины, запрос по которым мог бы вернуть статьи про любых других животных, что нам не нужно. Кроме того, он предложил множество дублирующих терминов, например, «Crocodile leather» и «Crocodile anatomy» – «крокодиловая кожа» и «анатомия крокодилов». Несложно понять, что выдача по обоим словосочетаниям полностью входит в выдачу по слову «крокодил».
ChatGPT – это только один из инструментов, который может программистам - который может программистам освободить их рабочие места, и я к стати удивляюсь что сами программисты над этим активно и работают. Когда чат пытались пропихнуть в юриспруденцию, там такой хай поднялся что не скоро они это повторят, а вот программистам поф...
Если не пропихнут в существуюшую систему - будет создана новая, на ИИ, более конкурентная, и там будет еще меньше юристов, чем если бы интегрировали в существующую)
Я раньше к программисту обращался знакомому по мелким вопросам, теперь мне GPT пишет и исправляет как js так и php. А ещё он в Access на VBA пишет...))
Я малость в акуе даже!
Только я не понимаю, при чём тут ЧатГПТ. Тестирую бота бесплатного к VSC - отлично пока. То же, что пишут общие LLM типа ЧатГПТ и Claude - это треш и угар.
Да и в принципе надо понимать, в чём разница между реальным проектом и куском скрипта. Посмотрел бы я на реальное приложение, для создания которого хватит контекстного окна любой нынешней модели, доступной в паблике.
Фантазии это всё.
А кому будет писать QA во время проверки такого продукта? )
Сколько времени потратим, чтоб получить следующий результат лучше предыдущего и опять проверить?