Roman Ivanov

+1041
с 2014
23 подписчика
27 подписок

Если вы заходите на поиск из страны, где эти материалы доступы, то в поиске они тоже доступны

2

Так это не нейронка, которая из головы ответ пишет. Это нейронка, которая пишет ответ, целиком опираясь на найденные источники, что резко уменьшает вероятность выдуманных деталей и галлюцинаций.

5

На поток из навыка тоже выведем обязательно.

OpenAI требует регистрации и, в общем-то, даже денег. Алиса — не требует. Так что ваше сравнение не суперсправедливо :)

Доступ по голосу есть, достаточно сказать "Алиса, давай придумаем". На поток из навыка тоже выведем обязательно.

2

Раньше он отвечал только на последний запрос, без учета контекста предыдущих реплик.

2

Там прямо в начале чата сказано, что нить беседы вообще пока не поддерживается. Скоро допилим :)

А можете привести ссылки на ту теорию, на которую вы ссылаетесь? Потому что наша практика такая, что
(1) компьют стоит денег и тратить вычислительные мощности и время на обучение ерунде долго и дорого
(2) сеть актуальной архитектуры может стать не умнее, а глупее, если давать ей не осмысленные тексты.

1

Окей, я мог погорячиться с двачом. Дорвеи, дубликаты, сайты со списками номеров телефонов и более ничего etc.

На "гугол минус один" отвечает неплохо, где-то на 7-8 повторов из 10 выдавало нормальный ответ при тестировании.

1

Это какой-то старый скрин, ему года четыре. Попробуйте новую нейросеточку :)

1

Нет, плохие это не запрещенные, это просто неполезные потоки символов. Типа (простите) двача :)

1

Нет, их писали сотрудники Яндекса, AI-тренеры и работники краудсорсинговой платформы.

В последнее время стало понятно, что качество модели зависит в первую очередь не от количества параметров, а от размера и качества датасета, на котором она обучается.

YandexGPT мы обучали в два этапа. Сначала ей показали общедоступные тексты: материалы книг, сайтов и статей. Это позволило нейросети впитать знания о мире. Тексты были отобраны с помощью поисковых технологий Яндекса, которые позволяют находить среди миллиардов документов самые полезные. Благодаря этому нам удалось собрать датасет, который позволил добиться хорошего качества за небольшое время. Это называется "претрейн".

Затем нужно было научить нейросеть отвечать просто и понятно, как это сделал бы знающий человек. Для этого мы собрали сотни тысяч примеров содержательных и хорошо написанных ответов с помощью технологий краудсорсинга и команды AI-тренеров.

2