Summly по-русски

Summly по-русски
Когда мы пишем про Summly, у наших читателей всегда возникает вопрос — когда же появится аналог, позволяющий подобным образом анализировать русскоязычные тексты? Отвечаем: намётки в этом направлении есть. Вот, например, сервис 2Long2Read помечает самые важные куски текста — либо при помощи веб-формы, либо на любом другом сайте при помощи расширения для браузера Chrome.

Мы задали ребятам пару вопросов, на что получили крайне исчерпывающие ответы.

Есть ли другие русскоязычные аналоги?


Ответ зависит от того, что называть русскоязычным, и что называть аналогом.

Если речь о некотором сервисе, позволяющем автоматически подсвечивать главное прямо на странице, то такого, насколько нам известно, нет. Если просто найти на странице текст и выделить в нём главное, то это позволяет плагин tldr. Он выводит во всплывающем окне сокращённый текст, оставив только наиболее важные предложения. Можно выбрать один из пяти вариантов длины текста. Очень хорошее решение, на наш взгляд, но есть несколько спорных моментов.

[caption id="" align="aligncenter" width="1374"] Работа с веб-формой[/caption]

Во-первых, 2long2read подкрашивает главное прямо в тексте, а tldr оставляет часть предложений. Пользователь лишается возможности обратиться к контексту, если ему это всё же понадобится. Мы пробовали оба варианта отображения результатов и пришли к выводу, что контекст неправильно прятать. Надо давать людям возможность осознанно делать выбор, читать «только желтое» или «желтые островки и вокруг них, когда нужно».

Кроме того, когда мы подсвечиваем главное прямо на странице, мы оставляем структуру страницы. Т.е. в статье на «Хабре» текст статьи останется текстом, а объемный комментарий — комментарием. В плагине tldr оба этих куска контента неразличимы при просмотре результатов.

Во-вторых, 2long2read даёт возможность регулировки количества главного в процентах плавной шкалой, а tldr даёт только пять дискретных уровней. Возможность плавной настройки количества выделяемых предложений и перевыделение их на лету перемещением ползунка позволяет лучше подбирать порог «важного/не важного» для текущего текста и для собственного стиля чтения. Я часто пользуюсь нашим плагином так: сначала выделяю совсем немного — 10-15%, затем, если мне захотелось прочесть больше, поднимаю порог до 30% и перехожу к следующему слою текста.

Команда tldr не из России, и работа с русским языком у них, насколько я понимаю, не тестируется. Просто работает что-то «из коробки» вместе с английским.



tldr — наиболее близкий аналог вообще в мире. Если же смотреть на то, что сделано у нас в стране, то уже давно существует десктопное решение Text Analyst от Megaputer Intelligence (такой швейцарский нож для анализа текстов) и некоторые библиотеки (например, было что-то для аннотирования от компании RCO). Первое — инструмент только для аналитиков (приложение, кстати, легендарное в среде тех, кто работает с текстами), а второе и вовсе смогут использовать только разработчики. И то, и другое не получится использовать бесплатно. Разве что скачать старую версию Text Analyst с сильным ограничением на длину текстов. О существовании простого и удобного «one button solution» (кроме нашего и tldr) нам неизвестно.

Сколько у вас человек в команде, кто они, как давно?


Команда состоит из восьми физтехов (студентов МФТИ). Все очень интересные ребята, ещё со школы — олимпиадники по информатике, один человек успешно выступал на международной олимпиаде по лингвистике. Я же полтора года преподаю машинное обучение на Физтехе (у большей части команды я вел семинары).

Первые наработки делались с конца февраля теперь уже прошлого года — тогда нас было ещё четверо. Где-то в марте был макет того, что хочется получить (еще с «рандомными» алгоритмами), а к лету — прототип вместе с алгоритмом. Но интенсивная разработка того решения, которое есть сейчас, велась в октябре и ноябре. Там  уже была работа сутками напролет, одержимость команды идеей и удачное завершение этого этапа разработки — начало открытого бета-теста. Поэтому, наверное, правильно считать, что проект разработан за эти два месяца, а до этого мы в свое удовольствие игрались с алгоритмами и без каких-то амбициозных планов смотрели, что получается.

[caption id="" align="aligncenter" width="700"] Ох уж этот МФТИ[/caption]

При этом нам почти всем удалось запустить проект, продолжив учиться на Физтехе. Это, конечно, повлияло на то время, которое ребята могли уделить разработке сервиса. В какой-то момент встал вопрос: «А не уйти ли нам всем заниматься проектом»? Меня очень порадовала решимость ребят, и, в принципе, нас остановило только беспокойство близких. Представьте, как реагируют родители на новость, что их чадо бросает учебу ради какой-то невероятной идеи. Но у нас в команде все с четвертого или шестого курса, через полгода одни заканчивают бакалавриат, другие — магистратуру. Все настроены дальше заниматься проектом, поэтому впереди у нас период еще большей концентрации на задаче.

Насколько это сложный алгоритм и во что его можно будет преобразовать (для каких целей использовать)? Может, продать какому-нибудь Evernote, чтобы они его в свой Clearly вставили, или что-то такое.


На основе статей мы реализовали четыре разных алгоритма аннотирования методами машинного обучения. Один из них — supervised алгоритм (требует обучающую выборку, которую мы постепенно будем расширять), все другие — unsupervised (в русской литературе говорят «обучение без учителя»). Причем supervised-решение позволит в будущем сделать персонализацию аннотаций. Т.е. вы размечаете десять текстов и аннотации подстраиваются под вас. Если не устраивает —размечаете больше. Это решит основную проблему сервисов по аннотированию — то, что разные люди считают главным в тексте, совершенно разное.

[caption id="" align="alignnone" width="1287"] Работа с расширением[/caption]

Из этих алгоритмов мы строили смесь — еще более сильный алгоритм. Получилось так, что в смеси преобладают алгоритмы на основе той же идеи, что и в Google Page Rank (алгоритм ранжирования поисковой выдачи), только ранжируем мы предложения по значимости. Здесь возникла интересная проблема: самый качественный алгоритм на текстах средней длины работал очень долго — около секунды. А нам никак не хотелось вызывать скоростью работы раздражение у пользователей. Тут сыграло роль наличие в команде программиста-олимпиадника с богатым опытом в ACM. Классический алгоритм, работающий за квадратичное время, он модифицировал так, что время получилось линейным и все начало «летать».

Причём любое машинное обучение это еще и доля шаманства — обязательно возникают эвристики вроде какого-то особого взвешивания каких-нибудь переменных в алгоритме. Так вот после перехода к быстрой реализации пришлось одну такую эвристику поменять. Качество работы из-за этого на несколько процентов понизилось, но огромный выигрыш в скорости это оправдывает. Мы были очень довольны, что смогли позаботиться о комфорте пользователей.

При этом само по себе аннотирование (как ранжирование предложений по значимости) — это только верхушка айсберга. На самом деле, когда вы нажимаете кнопку плагина на страничке, происходит много всего интересного. Сначала достается ее html-код и отправляется к нам на сервер, там запускается алгоритм отделения связного текста страницы от меню и элементов управления. Это тоже делается методами машинного обучения. Когда текст выделен, нужно разбить его на предложения, чтобы понять, что вообще можно выделять.



Здесь снова используется машинное обучение. Изначально мы реализовали решение, описанное Mail.Ru в их корпоративном блоге на Хабре, но потом снова уперлись во время работы и опять-таки пришлось оптимизировать. И уже только после разбиения на предложения начинает работать алгоритм аннотирования, и, наконец, предложения с оценкой их значимости отдаются обратно, а на их основе генерится страничка с подсветкой. Все это создавалось для того, чтобы в итоге пользователю было достаточно нажатия только лишь кнопки плагина.

Для каждого промежуточного этапа существуют сервисы (как минимум, для английского языка) с платным API, т.е. каждый этап обработки вполне мог бы быть самостоятельным коммерциализируемым проектом. Возможно в какой-то момент мы разовьём эту идею и дадим пользоваться всеми этапами обработки текста другим разработчикам, но пока это не основная задача. А основная задача — заниматься технологией, создавать максимально удобные решения на ее основе, и набирать пользователей, т.к. без пользователей не получится персонализации, улучшения качества аннотирования, да и не будет ясно, насколько технология в действительности нужна.

Встроить «обкатанные» алгоритмы в какой-нибудь продукт (тот же Clearly) вполне можно. Сейчас это даже кажется наиболее естественным развитием для проекта. С технологией можно будет поступить как захочется — хоть делать новостной дайджест и другие проекты, как Yahoo на основе Summly. Но мы несколько больше, чем просто технология — мы облекли наши алгоритмы в столь простую в использовании форму, что теперь не нужно быть аналитиком или разработчиком, чтобы оценить потенциал того, что мы делаем. В итоге получился сервис, доступный для всех людей, желающих уже сейчас прикоснуться к будущему. Мы очень дорожим этим, хоть и не забываем про алгоритмы :)

Рассказывал Виктор Кантор.

Yahoo запускает News Digest — первое приложение на основе Summly

Yahoo запускает News Digest — первое приложение на основе  Summly
Помните, мы писали про школьника, придумавшего сервис Summly, который анализирует текст новости и даёт вам краткую выжимку? Его ещё купила Yahoo, а потом всё затихло.



Выяснилось, что Yahoo всё же не кидает деньги в воздух, а использует полученные технологии. Они выпустили приложение  News Digest (только iOS, только американский отдел), которое помогает людям «быть в курсе», дважды в день формируя актуальный новостной дайджест.
Контент — модерируемая «смесь» информации из нескольких источников. Yahoo называет отдельные инфоповоды «атомами». Цель News Digest — давать пользователям «всеобъемлющую, лёгкую и полную» информцию о мире вокруг.

Указывается, что это лишь первый из серии продуктов на базе Summly.
Новый сервис соответствует новой политике Yahoo по созданию мобильных приложений, облегчающих рутинные задачи. News Digest разработан так, чтобы его использовали по крайней мере дважды в день, так что он может получить серьёзный резонанс у своей целевой аудитории.



В соответствии с новым вектором, ключевым продуктом Yahoo станут «цифровые журналы», в том числе и News Digest, и Yahoo Food, и Yahoo Tech, курируемые известейшим техножурналистом Дэвидом Поге, ранее работавшим в New York Times.

Yahoo! купила новостную читалку для хипстеров за $30 млн

Yahoo! купила новостную читалку для хипстеров за $30 млн
Yahoo! сегодня объявила, что слухи о приобретении стартапа Summly, появившиеся в конце прошлого года, слухами больше не являются. В блоге компании Summly представлен как мобильный продукт, созданный для того, чтобы упростить путь получения информации, сделать его более быстрым, простым и кратким.



Этот, по сути, агрегатор важных и интересных новостей, сделал житель Лондона, 15-летний (на тот момент) вундеркинд Ник Д'Алоизио. Придуманный Ником алгоритм собирает наиболее релевантную информацию из статей различных СМИ и показывает ее пользователям в виде коротких абзацев со ссылками на исходные статьи. Приложение началось с понимания, что нужен какой-то новый подход к новостям, простой и элегантный. А также с представления о том, какое важное место в жизни современного человека занимают мобильные девайсы - вплоть до появления поколения мобильных пользователей, которые хотят получать информацию "на ходу".

Всего за время своего существования стартап привлек около $1,5 млн, причем среди инвесторов — актер Эштон Катчер, вдова Леннона Йоко Оно, основатель AirBnb Брайан Чески и другие.

Сумма нынешней сделки, по слухам, приближается к $30 млн: большая часть суммы будет выплачена наличными, 10% Д'Алоизио получит в виде акций. Само приложение закроют, а технологию - используют в мобильных изысканиях Yahoo! Но молодой бизнесмен не намерен почивать на лаврах:
With over 90 million summaries read in just a few short months, this is just the beginning for our technology. As we move towards a more refined, liberated and intelligent mobile web, summaries will continue to help navigate through our ever expanding information universe.

***


Мы попросили комментария у Никиты Лихачева, основателя популярного российского агрегатора новостей из соцсетей TJournal.

О Summly

Я не эксперт в оценке проектов, но мне сумма в $30 млн, понятное дело, кажется огромной. Summly — хорошее приложение, но из-за неудобного интерфейса им нельзя пользоваться ежедневно. Вероятно, с новыми инвестициями им удастся решить эту проблему. Популярность и востребованность новостных агрегаторов растёт, и скептики будут посрамлены.

Проблемы роста

В отличие от Summly, мы пытаемся анализировать не только статьи СМИ, но и пользовательский контент в социальных сетях. Моя задумка сейчас упирается в основном в технические ограничения API. Для получения всей необходимой информации нам придётся заключать договор с западными компаниями, имеющими неограниченный доступ к данным Twitter. Для этого необходимо платить около $10 тысяч долларов в месяц, а таких денег у нас нет.

О посещаемости и инвестициях

Сейчас в месяц мы собираем чуть менее полумиллиона просмотров, но нигде не покупаем трафик и внимательно следим за показателями возврата посетителей на сайт. Последний раз продавали небольшую долю в проекте из оценки в $500 тысяч. Через месяц готовимся выпустить приложение для iPhone и спланировать запуск агрегатора в США и странах Латинской Америки. Возможно, это поможет нам повысить стоимость, привлечь второй раунд и избавиться от технологических ограничений.