Нейросеть «Яндекса» распознала 24 тысячи выпусков газеты «Советский спорт» для сервиса «Поиск по архивам» Статьи редакции

По сканам газеты можно искать информацию — например, упоминания конкретных людей или событий.

  • Нейросеть адаптировали под газетную вёрстку для работы с номерами «Советского спорта», рассказали в «Яндексе». Специалисты вручную обработали тысячи страниц и разметили их на блоки: от заголовков и колонок, до рекламы и надписей на форме спортсменов.
  • В сервисе можно найти интервью известного советского футболиста Игоря Нетто, статью о необычном подходе к трансферам в Бразилии в середине 20 века и заметку о конфликте австрийской футбольной ассоциации с игроками из-за причёсок в «стиле битлз».
  • «Яндекс» запустил «Поиск по архивам» в январе 2023 года. Это электронный каталог архивных документов и материалов от середины XVIII до конца XX века, в базе которого более 2,5 млн страниц документов, в том числе с дореволюционной орфографией. Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям.
0
83 комментария
Написать комментарий...
Вадим Д.

Больше впечатлило не то, что осилили распознавание, а то, что у Советского спорта было как минимум 24 000 выпусков.
Это действительно потрясающе 👍🏻

Ответить
Развернуть ветку
Юрий Б.

Газета-то ежедневная

Ответить
Развернуть ветку
16 комментариев
Не очень хороший человек

Больше впечатляет, как ты осиливаешь писать столько комментов. Это действительно потрясающе 👍🏻

Ответить
Развернуть ветку
Sergey Dyakonov

Теперь нейросеть убеждена что Советский спорт самый лучший и прогрессивный, а капиталистический - полный отстой. 24 тысячи газет не дадут соврать.

Ответить
Развернуть ветку
Гриша Н.

Неправильному её научили

Ответить
Развернуть ветку
Звенислав Николаевич

Непонятно откуда эти артефакты вылезли

Ответить
Развернуть ветку
Слегка Придурковатый

То есть так и не исправили эти баги: https://vc.ru/services/590965-yandeks-nauchil-neyroseti-rasshifrovyvat-arhivnye-zapisi-s-dorevolyucionnoy-orfografiey?comment=5429729&from=copylink

Нейронка у них, хуёнка. Нагнали толокеров - вот и вся их нейронка, лол.

Ответить
Развернуть ветку
Невероятный Блондин

Яндекс как всегда говно

Ответить
Развернуть ветку
Евгений Вилков

На айфон фоткали газету и с фотки текст копировали определенный айфоном

Ответить
Развернуть ветку
nomu momu

А где еще можно почитать старые газеты годов эдак 20-х прошлого века? Видела отдельные номера, но, возможно, где-то есть доступная и полная картотетка какой-нибудь "Правды"?

Ответить
Развернуть ветку
Юрий Б.

«Правду» можно почитать в библиотеке имени Ленина

Ответить
Развернуть ветку
6 комментариев
Иван

70 лет прошло, все книги, газеты, аудиозаписи, фильмы выпущенные до 1953 года не охраняются авторским правом. Вот бы Яндекс, ВК вместе с государством создали "национальный открытый архив". Как я понимаю, RSLru ленинская библиотека медленно переводит архивы книг в цифру. Есть еще проект prlib.ru - где много интересных старых книг. Есть еще несколько интересных источников.
Это кстати интересно и для машинного обучения, можно измерить градус агрессии в газетных публикациях (враги народа, вредители) как он менялся со временем, измерить тематику по отношению к странам и их лидерам, как менялось отношение к фашистскому режиму в Германии в газетных публикациях. И так далее...

Ответить
Развернуть ветку
Александр Ларин

по газетам не знаю, но в унивире активно пользовался ресурсом "прожито".
Там оцифрованные дневники известных и неизвестных людей из разных эпох. Есть поиск по датам, по ключ словам и т.д.

Сейчас глянул, база просто космос по объему

Ответить
Развернуть ветку
Поручик молчать

А в чем тут достижение? Что какой-то чел недельку у сканера постоял?

Ответить
Развернуть ветку
Андрей Вечерний

Расстрелять

Ответить
Развернуть ветку
Юрий Б.
разметили их на блоки: от заголовков и колонок, до рекламы и надписей на форме спортсменов.

Другое дело, что сколько из этих специалистов было олимпиадников - специалистов по структурам данных и алгоритмам

Ответить
Развернуть ветку
Станислав

Все уже было сделано до яндекса. Они просто пдф разбили на тексты.

Ответить
Развернуть ветку
4 комментария
Полина Тихомирова

довольно большая работа была проделана ,вы так не считаете как я понимаю

Ответить
Развернуть ветку
3 комментария
Сергей Я

Поручик, молчать!

Ответить
Развернуть ветку
Вишняковский

Всего неделю? Мне кажется, что гораздо дольше

Ответить
Развернуть ветку
Станислав

Да я лучше зайду сам "Советский Спорт" почитаю https://rusneb.ru/collections/1295_sovetskiy_sport/

Ответить
Развернуть ветку
ник

суть не только в том чтобы прочитать, а найти нужные события/фамилии среди всех выпусков

Ответить
Развернуть ветку
1 комментарий
Ilya Knyazev

Неплохо было бы найти и распознать приложение к АиФ "Есть идея!", очень крутой делали контент, но сейчас проблема найти материалы этого издания в любом виде(((

Ответить
Развернуть ветку
Юрий Б.

А «Скандалы недели»? Незаслуженно забытые, всеми отвергнутые

Ответить
Развернуть ветку
2 комментария
Bo.G

"наука и жизнь", "техника молодежи",, "юный техник", по журналу "юный художник" вообще можно было учиться рисовать самому.

Ответить
Развернуть ветку
Станислав

Эти еще с нулевых есть в онлайн библиотеках.

Ответить
Развернуть ветку
1 комментарий
Александр Жданов

А мне не может сделать краткую выжимку судебного акта на 13 страниц(

Ответить
Развернуть ветку
Артур Мороз

На такое он пока еще не способен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Евгений Вилков

А не могли обработать вручную что-то более полезное? Какие-нибудь архивы газет с историческими событиями или еще что. А не ежедневную спортивную газету

Ответить
Развернуть ветку
Невероятный Блондин

Это ж сколько данных цензурировать. С ума сойти.

Ответить
Развернуть ветку
Сергей Токарев

Если еще и обучить нейронку на советских газетах, получится...

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
1 комментарий
Алексей Шаповалов

пожалуй ,лучше этого не делать

Ответить
Развернуть ветку
Фёдор Павлов

"Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям."-вообще это довольно удобно сделано ,в особенности когда необходимо писать материал по научным статьям ,это довольно сильно облегчит поиск

Ответить
Развернуть ветку
Павел Шкутко

Научные статьи по газете Советский спорт? Оригинально

Ответить
Развернуть ветку
Евгений Вилков

Так нейросеть делала? Или специалисты вручную тысячи страниц обрабатывали😂

Ответить
Развернуть ветку
Раб корпорации

Специалисты=стажёры? Помню, как один из руководителей компании когда-то дал своё определение стажёру "голосовое обращение к принтеру". Как-то сразу жалко стало их...

Ответить
Развернуть ветку
Максим Лешманов

Вот и плюсы от нейросети!

Ответить
Развернуть ветку
Невероятный Блондин

Какие?

Ответить
Развернуть ветку
1 комментарий
Раб корпорации

«И — боже вас сохрани — не читайте до обеда советских газет»

Ответить
Развернуть ветку
Николай Глущенко

Я думаю ей ещё монографии дедушки Ленина стоит скормить)

Ответить
Развернуть ветку
Павел Шкутко

Контент современной России

Ответить
Развернуть ветку
Faith no More

Ну честно говоря, зная как работает нейросеть от Яндекса, тут можно поспорить с этими данными

Ответить
Развернуть ветку
Серж

Политрук врет!

Ответить
Развернуть ветку
A V

Оцифруйте журналы радио пожалуйста 🙂

Ответить
Развернуть ветку
Роза

Лох

Ответить
Развернуть ветку
Павел Шкутко

То есть других вопросов к Яндексу нет, только старые подшивки сканить. Шедеврально

Ответить
Развернуть ветку
80 комментариев
Раскрывать всегда