«Яндекс» добавил в «Алису» нейросеть YandexGPT, научив помощника писать тексты и предлагать идеи Статьи редакции

Пока технология тестируется.

  • Компания объявила, что внедрила YandexGPT в виртуального помощника. Протестировать её могут все пользователи приложения «Яндекса», «Яндекс Браузера» для мобильных устройств для Windows, «Станций» и «умных» телевизоров с «Алисой». Для этого нужно сказать «Алиса, давай придумаем» и поставить задачу.
  • Например, помощник может написать сценарий праздника, составить письмо или план путешествия. Разработчики отмечают, что технология тестируется, и ассистент может ошибаться в фактах.
Примеры работы помощника / «Яндекс»
  • Разработчики обучали YandexGPT на суперкомпьютерах «Яндекса» в два этапа. Сначала ей показали общедоступные тексты. Их отобрали с помощью поисковых технологий «Яндекса», которые позволяют находить «среди миллиардов документов наиболее полезные».
  • Затем нейросеть дообучили на «сотнях тысяч примеров содержательных и хорошо написанных ответов» — это отличает её от предыдущих языковых моделей. Для сбора и подготовки таких примеров компания использовала свои технологии краудсорсинга и команду ИИ-тренеров.
  • Поскольку нейросеть всё время обучается, «с каждым днём “Алиса” будет становиться умнее», говорят в компании. Например, в будущем помощник научится учитывать контекст разговора для составления ответа или обращаться к «Поиску» за фактами.
0
330 комментариев
Написать комментарий...

Комментарий удален модератором

Развернуть ветку
Roman Ivanov

Нет, это своя нейросеть, и даже обученная только на текстах, которые написали наши AI-тренеры, редактора и сотрудники (а не апи ChatGPT)

Ответить
Развернуть ветку
Domorost

Вот прям своя-своя? И даже если попросить рассказать про родину, не будет говорить про США, как рисункогенератор вашего производства делал?

Ответить
Развернуть ветку
Roman Ivanov

Ну она из претрейна знает про реалии многих стран, но в основном придерживается местных, а не заморских :)

Ответить
Развернуть ветку
Domorost

Вы молодцы. Хочется пожелать удачи и выхода до конкурентного уровня.
Тем не менее не могу гордится компнией как в былые времена, увы, нельзя усидеть на нескольких стулях сразу.
Быть народным, технологическим лидером и бессовестным монополистом сразу - явно получится плохо.

https://vc.ru/services/684780-poisk-kotoryy-zabolel

Ответить
Развернуть ветку
Виктор Н. (FractalGPT)

Чтобы не было проблем с фактами нужно другую технологию использовать, FractalGPT
https://skillbox.ru/media/code/viktor-nosko-my-sozdayem-rossiyskogo-konkurenta-chatgpt/

https://habr.com/ru/articles/728410/

Ответить
Развернуть ветку
Андрей Деревянко

Странный способ прорекламировать свою нейросеть

Ответить
Развернуть ветку
Виктор Н. (FractalGPT)

Странный? Вы никогда не видели в комментариях ссылок на другие проекты? Я думал это и есть лучший, нативный способ, тк люди в том числе в комментах ищут решение своих проблем

Ответить
Развернуть ветку
Император Нолимоций
Я думал это и есть лучший, нативный способ

Вы ошиблись. И у вас абсолютно точно не получилось ни полезно, ни нативно.

Ответить
Развернуть ветку
Андрей Деревянко

Видел, но обычно, если есть цель произвести положительное впечатление они не пишут в постах с презентацией какой то штуки что «нужно использовать не эту штуку, а другую»

Ответить
Развернуть ветку
Виктор Н. (FractalGPT)

Не всегда и не как замену, а только лишь в кейсе, когда трансформер как технология не подходит. Про галлюцинации их весь интернет знает. А слышали ли вы о том, как их исправить, какие это нейросети, подходы?
Многим людям, а особенно бизнесу это очень важно, особенно в критических отраслях типа медицины

Ответить
Развернуть ветку
Антон Антонов

YandexGPT это уровень GPT-3? Есть какие-то отличия от старой YaLM--100?

Ответить
Развернуть ветку
Roman Ivanov

Да, отличий очень много. Здесь гораздо меньше параметров, зато совсем другой претрейн, благодаря чему она на порядок умнее, и плюс добавился файнтьюн на инструкции и ответы на них.

Ответить
Развернуть ветку
Павел Маркович

Если это не секрет и не закрытая информация, какое здесь количество параметров?

Ответить
Развернуть ветку
Roman Ivanov

В последнее время стало понятно, что качество модели зависит в первую очередь не от количества параметров, а от размера и качества датасета, на котором она обучается.

YandexGPT мы обучали в два этапа. Сначала ей показали общедоступные тексты: материалы книг, сайтов и статей. Это позволило нейросети впитать знания о мире. Тексты были отобраны с помощью поисковых технологий Яндекса, которые позволяют находить среди миллиардов документов самые полезные. Благодаря этому нам удалось собрать датасет, который позволил добиться хорошего качества за небольшое время. Это называется "претрейн".

Затем нужно было научить нейросеть отвечать просто и понятно, как это сделал бы знающий человек. Для этого мы собрали сотни тысяч примеров содержательных и хорошо написанных ответов с помощью технологий краудсорсинга и команды AI-тренеров.

Ответить
Развернуть ветку
Valentin Budaev

И все же, сколько параметров? Интересно же с точки зрения того, что можно получить запуская сеть локально на средней пеке.

Ответить
Развернуть ветку
Антон Антонов

А API будет?

Если действительно хорошо апгрейднули, то ИМХО не стоило выкладывать в общий доступ, пока не подключены все фичи. Потому что в таком виде, когда она работает без учета контекста, впечатление возникает негативное.

Ответить
Развернуть ветку
Roman Ivanov

Да, непременно.

Ответить
Развернуть ветку
Andrey Gordeev

То есть датасет для обучения крайне ограниченный, если сравнивать с ChatGPT?

Ответить
Развернуть ветку
Roman Ivanov

Давайте не путать претрейн — все хорошие тексты из интернета и не только, и файнтьюн на примерах того, как выглядят инструкции (промпты) и ответы на них. Я говорил выше про второе.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Roman Ivanov

Нет, плохие это не запрещенные, это просто неполезные потоки символов. Типа (простите) двача :)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Roman Ivanov

Окей, я мог погорячиться с двачом. Дорвеи, дубликаты, сайты со списками номеров телефонов и более ничего etc.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Roman Ivanov

А можете привести ссылки на ту теорию, на которую вы ссылаетесь? Потому что наша практика такая, что
(1) компьют стоит денег и тратить вычислительные мощности и время на обучение ерунде долго и дорого
(2) сеть актуальной архитектуры может стать не умнее, а глупее, если давать ей не осмысленные тексты.

Ответить
Развернуть ветку
Valentin Budaev
В теории, надо скормить весь интернет

Если вы скормите сети весь интернет, то она на ваши запросы будет рассказывать как водила вашу маму в кино.

они догадались выпустить свои аббревиатуры(алгоритмы)

Какие это?

Признались бы просто, что chatgpt не догнать вам

Чатгпт не надо догонять. В том виде в котором оно есть - это мертвый продукт.
Будущее за небольшими специализированными эффективными сетками. Огромные сети общего назначения не нужны ни кому, это типичный медведь на велосипеде. Прикольно но бесполезно.

Ответить
Развернуть ветку
Владимир Бобков

скорее можно сказать критерий лояльности, если вы понимаете о чем я

Ответить
Развернуть ветку
327 комментариев
Раскрывать всегда