Искусственный Интеллект пишет контент на татарском языке: первый в мире релиз!

Корбан бәйрәме-аны гаиләсе һәм дуслары белән бәйрәм итү өчен вакыт. Бу-тормыштан китүчеләрне искә алу, үткән ел турында уйланырга вакыт. Барчагызга да изге Корбан бәйрәме уңаеннан котлыйбы! ** (Вступительный текст целиком и полностью написан нейросетью.)

Photo by <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2F%40betagamma%3Futm_source%3Dunsplash%26amp%3Butm_medium%3Dreferral%26amp%3Butm_content%3DcreditCopyText&postId=459458" rel="nofollow noreferrer noopener" target="_blank">Daniil Silantev</a> on <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2Fs%2Fphotos%2Fkazan%3Futm_source%3Dunsplash%26amp%3Butm_medium%3Dreferral%26amp%3Butm_content%3DcreditCopyText&postId=459458" rel="nofollow noreferrer noopener" target="_blank">Unsplash</a>
3737

Роман, очень впечатлен!

Подскажите, пожалуйста, некторые технические моменты.

1) Какая архитектура у сети? Свое обучение gpt-3 на датасетах с татарским или mGPT, уже обученная на татарском тексте?

2) как собирали для обучения текст - из интернетов? вездели текст оригинальный, или где-то он сгенерирован машинным переводом на татарский из английского и русского? Потому что сеть явно умеет писать и про то, о чем татарских текстов было мало.

3) если первое, то откуда сеть знает факты, про которые мало пишут на татарском, если второе - то как вместе с фактами не проскакивают артефакты машинного перевода?

4) или фактология и языковые обороты там разнесены, и каким-то образом переносом обучения татарский язык "натянут" на фактологию, которой модель обучилась еще на русском?

Ответить