Telegram объявил конкурс на разработку алгоритма для ранжирования новостей Материал редакции

Ранее Павел Дуров говорил о планах создать агрегатор новостей внутри мессенджера.

В закладки

Мессенджер Telegram объявил конкурс для разработчиков, которым предстоит создать алгоритм для ранжирования новостей. Условия конкурса и задачи на русском языке можно посмотреть на сайте конкурсов Telegram.

В частности, алгоритм должен будет уметь выделять англо- и русскоязычные тексты, оставлять в списке только новости, группировать новости по темам. Также среди задач — группировка похожих новостей в сюжеты и ранжирование сюжетов.

Участники должны выполнить и прислать задания боту @jobs_bot в Telegram до 2 декабря 2019 года. Авторы лучших работ разделят призовой фонд в размере $100 тысяч и смогут поучаствовать во втором этапе конкурса с фондом ещё на $100 тысяч.

Летом 2019 года основатель Telegram Павел Дуров пригласил в команду разработчиков «Яндекса», работающих над «Новостями» и другими сервисами рекомендаций контента. По его словам, компания сможет создать подобные сервисы рекомендаций новостей в глобальном масштабе. Дуров пообещал разработчикам отсутствие политической цензуры и зарплату выше, чем в «Яндексе» и Google.

{ "author_name": "Татьяна Боброва", "author_type": "editor", "tags": ["\u043d\u043e\u0432\u043e\u0441\u0442\u044c","\u043d\u043e\u0432\u043e\u0441\u0442\u0438","\u043a\u043e\u043d\u043a\u0443\u0440\u0441\u044b","telegram"], "comments": 36, "likes": 40, "favorites": 23, "is_advertisement": false, "subsite_label": "media", "id": 93341, "is_wide": true, "is_ugc": false, "date": "Tue, 19 Nov 2019 14:24:36 +0300", "is_special": false }
0
{ "id": 93341, "author_id": 283507, "diff_limit": 1000, "urls": {"diff":"\/comments\/93341\/get","add":"\/comments\/93341\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/93341"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199130, "last_count_and_date": null }
36 комментариев
Популярные
По порядку
Написать комментарий...
28

SELECT ... ORDER BY publication_date DESC

Лучше ничего не придумали еще. Где я могу забрать свои $100к?

Ответить
0

Вы скачали? Покажите, расскажите, что архив из себя представляет.

Ответить
3

С помощью комментариев накодишь победный алгоритм?

Ответить
1

Разумеется, что нет. На трубе инет еле ползет. Просто очень любопытно в каком виде исходные данные.

Ответить
0

html в папках на разных языках. 

Ответить
12

Для начала пусть добавят группировку чатов!

Я уже не знаю как это всё разгрести.

Ответить
4

Да не добавит он группировку чатов. Очевидно же, что группировка чатов будет удобна пользователям. Но также очевидно, что эта группировка неинтересна Telegram, потому что в этом случае пользователи намного реже будут заходить в раздел каналов, у тех, в свою очередь, снизятся охваты, что приведёт к потере интереса в этом направлении... И так далее, по цепочке. Ну не выгодно это Telegram, хотя выгодно пользователям этого мессенджера. А поэтому не ждите. Скорее - появится другой мессенджер-конкурент, который это сделает, чтобы выгодно выделиться.

Ответить
1

Будет в таком случае хороший ход сделать так, чтобы каждая группа каналов объединялась в новостную ленту и вуа-ля, я имею несколько новостных лент по категориям. И никто тогда не потеряет, а наоборот приобретет 

Ответить
0

Так а что из себя будут представлять эти новости? Думал как раз, что каналы (в большинстве своем информационные) мигрируют в новости, вот и разделение

Ответить
1

Я не про новости, а про возможность группировать сообщения. Например, группа каналов и группа сообщений от людей. Люди давно это просят, потому что им неудобно выискивать сообщения людей между сообщениями каналов.

Ответить
0

А я подумал, что новости это и просто новости и что если если в Телеграм запихнут новости, то обычные каналы лишатся аудиторий.

Ответить
0

А я представил как агрегатор постов из различных каналов по определённым темам. Шаг в сторону твитора, если хотите

Ответить
0

В принципе, требований к миру всего три:
1. Группировка чатов в телеге
2. Сменяемость власти в России
3. Тёмная тема на vc.ru

Ответить
3

Странные требования:
Использование внешних зависимостей рекомендуется свести к минимуму. Зависимости, которые все же необходимы, нужно перечислить в текстовом файле deb-packages.txt. Они будут установлены перед запуском командой sudo apt-get install ...

Почему бы просто не принимать docker ?

Приложение должно отличаться высокой относительной скоростью работы (по этой причине приложения, написанные на C++, могут получить преимущество).

Типа весь nlp надо делать на плюсах. Очень мало знаю людей, которые могут одновременно на плюсах и 1) прод и 2) модель на ml .

до 2 декабря 2019 года

да еще за 2 недеди

Интересно сколько будет валидных сабмишенов с такими требованиями.  

Ответить
5

Телеграм делают старички, которые во всех этих докерах тупо не разбираются (потому что им не нужно, у них раньше без докера работало и сейчас будет)

Ответить
0

я вот докер не знаю, но смог собрать свой образ для какого-то конкурса. По мне так лучше собрать образ докера, чем разбираться как же там делать deb пакеты.... под 10-кой....

Ответить
0

Предлагаете ребятам, которые по причинам безопасности не используют внешние зависимости, неизвестный докер образ у себя смонтировать?)

Ответить
0

Это тестовое задание, так что не у себя, а в сторонке.

И, наверное, код сервера тоже никто с целью безопасности не видел, чтобы сердечко не ёкнуло? (ни в чем ребят не обвиняю, но до тех пор, пока не доказано обратное, предпочитаю думать, что телеграм шифрует только непосредственно трафик, а хранит всё как есть)

Ответить
0

Даже в сторонке у них уйдет нерациональное количество времени, чтобы разобрать докер образ. И нужно как-то решать проблему веса образов.
Не знаю, может быть я ошибаюсь, но докер больше про быстрое развертывание, чем про тестовые задания.
А на счет шифрования – скорее всего так и есть)

Ответить
2

Очень мало знаю людей, которые могут одновременно на плюсах и 1) прод и 2) модель на ml .

Ну это такой себе показатель. Я вот таких людей много знаю, но это тоже ни о чем не говорит. 

Ответить
0

Николай его не осилил.

Ответить
0

Потому что ему нужен готовый под ключ алгоритм кластеризации новостей на плюсах по цене одной годовой зп миддла в Европе/США (не говоря уж о том, что деплой и сами модельки часто разные люди делают). Словом - типичный русский наебизнес. Паша не хочет нанимать людей и платить им по рынку.

Ответить
3

Если кто-то разработает эффективный алгоритм ранжирования новостей, то он будет стоить сразу от миллиарда $$$. $100K за такую работу давать, совсем как-то по жлобски.

Ответить
2

сам алгоритм стоит дешевле. а вот платформа - да, будет стоить миллиарды.

но разработать платформу и поставить на рельсы в 10 раз сложнее и затратнее. плюс не всякому приложению новостному подойдут эти алгоритмы и они будут готовы заплатить 100к$.

думаю предложение разумное, а если нет, то рынок подскажет!

Ответить
3

То есть парсить новости умеет. Дальше нужно распарсенный архив (архив не качал, данные не видел) очистить, выделить текст, найти релевантный, соединить вместе почистила смысловые дубли и прочее, сделать заголовок и так на двух языках расположив по ранжиру. И чтобы это было читалось как Шекспир под окном любимой. Написать приложение. Да за полторы недели. Фигня вопрос. А потом этот алгоритм продать 10 раз - Профит. Такие конкурсы можно каждую неделю проводить.... Хм...мысль 

Ответить
1

Сделал алгорим, продал Дурову за $100K, потом Яндексу за $300K, потом Сбербанку за $2M, затем FB за $30M, потом Microsoft за $1.5B. Профит.

Ответить
0

Здесь больше про оффер, конкурс нужен для отсеивания кандидатов. Понятно, что этот код без поддержки будет бесполезным.

Ответить
2

Требования конкурса и сроки неадекватны. Лучшие бы сузили конкурс на одну конкретную nlp задачу. Хотят все в одном флаконе и за спасибо) 

Как разработчик я потратил годы на исследования и на разработку алгоритмов классификации контента и создал классификатор текста на 2000 категорий. Обучать ИИ модели на общие тематики типа наука или политика не сложно, но как только встаёт вопрос отделить в медицине  онкологию или еще более узкое направление - сразу начнётся проблемс с исходными данными для обучения. Быстро и качественно это не про nlp. 

Проблематика анализа и классификаций текста не вписывается в машинное обучение в виде одной command line программки, которую требуют написать за две недели, которая замкнута на себя и должна очень очень быстро работать, типа как word2vec. Тупиковая идея. 

Качественный классификтор это целый комплекс разного ПО, много быстрого железа и рукотворных баз данных, который нужно как оркестр объединить и дирижировать. Должно быть еще видение его развития, а в этом нужна очень сильная любовь и страсть к этому направлению деятельности. Поскольку нужно пройти очень много рутины своими мозгами. 

Даже имеющиеся открытые алгоритмы на github можно целый год интегрировать и тестить только, а на выходе среднячок по качеству будет. На продакшн с трудом пойдёт. 

Ответить
–9

Пускай сначала деньги вкладчиков вернёт

Ответить
0

ишь ты! развивает телеграм на собственные деньги! 

Ответить
–1

Привлёк он куда больше, чем у него своих, институциональщики подождут, а когда забирать задумают уже и срок пройдёт

Ответить
0

Дуров красавчик, он дает возможность молодым показывать себя и зарабатывать деньги!

Ответить
2

Молодые данную задачу не осилят от слова совсем. У опытных же могут быть разные жизненные ситуации, когда совершение абсолютно глупого действия - продажа реализованного алгоритма = безработица в долгосрочной перспективе - им покажется адекватной и они таки дадут Паше алгоритм за еду. Паше не к спеху, у него и денег, и времени - вагон. А вот у разработчика ситуации в жизни могут быть разные.

Ответить
0

Ищет дураков

Ответить
0

Интересно, какие там успехи?

Ответить
–2

А потом у них ляжет API, которое саппорт будет лечить 3 дня :( приятного конкурса ахах

Ответить
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovx", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "disable": true, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } }, { "id": 20, "label": "Кнопка в сайдбаре", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cgxmr", "p2": "gnwc" } } } ] { "page_type": "default" }