Нейросеть «Яндекса» распознала 24 тысячи выпусков газеты «Советский спорт» для сервиса «Поиск по архивам» Статьи редакции
По сканам газеты можно искать информацию — например, упоминания конкретных людей или событий.
- Нейросеть адаптировали под газетную вёрстку для работы с номерами «Советского спорта», рассказали в «Яндексе». Специалисты вручную обработали тысячи страниц и разметили их на блоки: от заголовков и колонок, до рекламы и надписей на форме спортсменов.
- В сервисе можно найти интервью известного советского футболиста Игоря Нетто, статью о необычном подходе к трансферам в Бразилии в середине 20 века и заметку о конфликте австрийской футбольной ассоциации с игроками из-за причёсок в «стиле битлз».
- «Яндекс» запустил «Поиск по архивам» в январе 2023 года. Это электронный каталог архивных документов и материалов от середины XVIII до конца XX века, в базе которого более 2,5 млн страниц документов, в том числе с дореволюционной орфографией. Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям.
12K
показов
4.7K
открытий
Больше впечатлило не то, что осилили распознавание, а то, что у Советского спорта было как минимум 24 000 выпусков.
Это действительно потрясающе 👍🏻
Газета-то ежедневная
Больше впечатляет, как ты осиливаешь писать столько комментов. Это действительно потрясающе 👍🏻
Теперь нейросеть убеждена что Советский спорт самый лучший и прогрессивный, а капиталистический - полный отстой. 24 тысячи газет не дадут соврать.
Неправильному её научили
Непонятно откуда эти артефакты вылезли
То есть так и не исправили эти баги: https://vc.ru/services/590965-yandeks-nauchil-neyroseti-rasshifrovyvat-arhivnye-zapisi-s-dorevolyucionnoy-orfografiey?comment=5429729&from=copylink
Нейронка у них, хуёнка. Нагнали толокеров - вот и вся их нейронка, лол.
Яндекс как всегда говно
На айфон фоткали газету и с фотки текст копировали определенный айфоном
А где еще можно почитать старые газеты годов эдак 20-х прошлого века? Видела отдельные номера, но, возможно, где-то есть доступная и полная картотетка какой-нибудь "Правды"?
«Правду» можно почитать в библиотеке имени Ленина
70 лет прошло, все книги, газеты, аудиозаписи, фильмы выпущенные до 1953 года не охраняются авторским правом. Вот бы Яндекс, ВК вместе с государством создали "национальный открытый архив". Как я понимаю, RSLru ленинская библиотека медленно переводит архивы книг в цифру. Есть еще проект prlib.ru - где много интересных старых книг. Есть еще несколько интересных источников.
Это кстати интересно и для машинного обучения, можно измерить градус агрессии в газетных публикациях (враги народа, вредители) как он менялся со временем, измерить тематику по отношению к странам и их лидерам, как менялось отношение к фашистскому режиму в Германии в газетных публикациях. И так далее...
по газетам не знаю, но в унивире активно пользовался ресурсом "прожито".
Там оцифрованные дневники известных и неизвестных людей из разных эпох. Есть поиск по датам, по ключ словам и т.д.
Сейчас глянул, база просто космос по объему
А в чем тут достижение? Что какой-то чел недельку у сканера постоял?
Расстрелять
Другое дело, что сколько из этих специалистов было олимпиадников - специалистов по структурам данных и алгоритмам
Все уже было сделано до яндекса. Они просто пдф разбили на тексты.
довольно большая работа была проделана ,вы так не считаете как я понимаю
Поручик, молчать!
Всего неделю? Мне кажется, что гораздо дольше
Да я лучше зайду сам "Советский Спорт" почитаю https://rusneb.ru/collections/1295_sovetskiy_sport/
суть не только в том чтобы прочитать, а найти нужные события/фамилии среди всех выпусков
Неплохо было бы найти и распознать приложение к АиФ "Есть идея!", очень крутой делали контент, но сейчас проблема найти материалы этого издания в любом виде(((
А «Скандалы недели»? Незаслуженно забытые, всеми отвергнутые
"наука и жизнь", "техника молодежи",, "юный техник", по журналу "юный художник" вообще можно было учиться рисовать самому.
Эти еще с нулевых есть в онлайн библиотеках.
А мне не может сделать краткую выжимку судебного акта на 13 страниц(
На такое он пока еще не способен
Комментарий недоступен
А не могли обработать вручную что-то более полезное? Какие-нибудь архивы газет с историческими событиями или еще что. А не ежедневную спортивную газету
Это ж сколько данных цензурировать. С ума сойти.
Если еще и обучить нейронку на советских газетах, получится...
Комментарий недоступен
пожалуй ,лучше этого не делать
"Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям."-вообще это довольно удобно сделано ,в особенности когда необходимо писать материал по научным статьям ,это довольно сильно облегчит поиск
Научные статьи по газете Советский спорт? Оригинально
Так нейросеть делала? Или специалисты вручную тысячи страниц обрабатывали😂
Специалисты=стажёры? Помню, как один из руководителей компании когда-то дал своё определение стажёру "голосовое обращение к принтеру". Как-то сразу жалко стало их...
Вот и плюсы от нейросети!
Какие?
«И — боже вас сохрани — не читайте до обеда советских газет»
Я думаю ей ещё монографии дедушки Ленина стоит скормить)
Контент современной России
Ну честно говоря, зная как работает нейросеть от Яндекса, тут можно поспорить с этими данными
Политрук врет!
Оцифруйте журналы радио пожалуйста 🙂
Лох
То есть других вопросов к Яндексу нет, только старые подшивки сканить. Шедеврально