#Нужноделать: генератор краткого содержания статей и веб-страниц на основе ИИ

В сети много полезной информации, объём которой постоянно растет. При этом растёт количество потенциально интересного и полезного пользовательского контента от людей, у которых нет репутации экспертов в своей области.

Проблемы:

1) Читать все подряд долго и иногда реальность не соответствует ожиданиям.

2) Быстро отделить важное от неважного вызывает сложность и требует времени.

Многие потенциально интересные статьи бывают очень длинные и неструктурированные: неудачный слог и стиль, несоблюдение последовательности изложения, недоработка оформления статьи. Поэтому стремление мозга оптимизировать затраты на чтение подталкивает к таким сценариям:

  • закрыть и забыть (а значит возможно упустить какую-то полезную информацию);
  • сходить в комменты (если есть) и оценить годность материала не читая статьи на основании чужого мнения;
  • даже если статья годная, но не сильно актуальная, то сохранить в закладки до лучших времен, осквернив храм умных и полезных ссылок потенциально бесполезной статьей (которую потом все равно придется разбирать).

Решение:

На основе ИИ генерировать синопсис материала в формате списка тезисов +/- 1-2 простых предложения (структуры выдачи предстоит определить).

Пример:

Статья будет полезна специалистам по продажам промышленного оборудования, sales директорам и владельцам таких бизнесов.

В этой статье:

  • генерация лидов;
  • работа с возражениями;
  • важные детали при закрытии сделки;
  • удержании клиента после продажи;
  • ключевые ошибки менеджеров.

Актуальность:

Возражение: Люди могут оформлять статьи самостоятельно.

Ответ: Могут, но далеко не все.

Число людей, умеющих грамотно и четко структурировать текст составляет некоторый процент от общего числа пользователей web и этот процент будет снижаться по следующим причинам.

  • Такие нативные человеческие особенности как 1) лень, 2) "мне понятно, значит всем понятно" никуда не денутся.
  • Общедоступное (прежде всего высшее) образование, которое приучает к правильному изложению и оформлению текстов деградирует. Даже если вы отличник и не покупаете готовые курсовые работы, то переход на тесты вас все равно настигнет;
  • Самостоятельное оформление синопсиса требует времени.
  • Человеческий фактор: автор может что-то забыть, а ИИ подскажет.

Профит:

1) читающему:

  • экономия большого кол-ва времени на чтение;
  • возможность оперативно каталогизировать потенциально интересную, но не злободневную информацию;
  • увеличение лояльности юзера к автору (его продукту или компании), так как человек поймет, что не потратил бесценное время на бесполезны для него материал и будет счастлив;
  • анкор с пунктов синопсиса к той часте статьи, которая посвящена вопросу даже если нет h2/h3.

2) пишущему:

  • экономия времени на подготовку статьи;
  • проверка структуры статьи.

Способы доставки продукта:

1) Генерация синопсиса по ховеру/клику в поп-апе при ховере на заголовок или брендированный специальный символ рядом с заголовком (второе лучше с точки зрения распространения продукта).

2) Генерация синопсиса в начале статьи после h1.

Монетизация:

1) Реклама (аккуратная!) в конце синопсиса. Плюсы: фокус внимания и хороший таргет.

2) Ad-free платная версия.

Фичи и потенциал развития продукта за счет увеличения его ценности тоже есть, но текст и без того длинный.

0
11 комментариев
Написать комментарий...
Nivenor

"Ты ж программист. Сделай так, чтобы комп понимал книгу и кратко пересказывал. Ну что тебе стоит, там же работы на пять минут? Что, не умеешь? Хреновый ты, видать, программист".

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Александр Александр

8 лет назад многое было по-другому
1) насколько были развиты технологии?
2) сколько пользователей было в интернете и какова была их вовлеченность?
3) какова была потребность в самообучении в интернете?
4) объем ugc и доля полезного контента в общей массе?

ps
yahoo еще жив?

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Александр Александр

если бы я понимал как работает ИИ, то не стал бы публиковать идею, а пошел ее реализовывать

Ответить
Развернуть ветку
stivstivsti

Даже самые навороченные сети не могут понять текст, поэтому выжимка будет бессмысленная.

Ответить
Развернуть ветку
Иван Колыхалов

Это делает gensim либа на питоне, блок называется summarization.summarizer. На выходе получается выжимка, но отчасти бредовая. Если вы не читали исходный текст, то summary скорее собьет вас с толку. Пока ИИ не будет понимать смысл текста, а не просто технический набор корпуса, не сможет его сформулировать и закодировать эффективно в новый текст не потеряв смысл, это не сработает.

Ждите квантовых вычислений. Это явно не стартапчик за выходные :)

Ответить
Развернуть ветку
stivstivsti

вы все правильно написали, но только квантовые вычисления тут не причем, их нет и не будет

Ответить
Развернуть ветку
V S

Называется суммаризатор. Работает в Google/ Yandex

Ответить
Развернуть ветку
Александр Александр

коммерчески успешные продукты в этой области есть?

Ответить
Развернуть ветку
Александр Свечкарёв

Тоже ходил с подобной идеей какое-то время назад. Даже находил подобный сервис из далёких ранне-интернетных дней. Лень опять искать, но идея была такая:
- Подсчитываем, какие слова чаще всего встречаются в тексте (за исключением предлогов).
- Раз какие-то слова часто встречаются, значит они важные. А значит, предложения с ними важнее, чем предложения без них. Убираем из текста наименее важные предложения, оставляя наиболее важные.

Такой подход и в самом деле работает лучше просто случайного выкидывания предложений. Но недостаточно лучше, чтобы это приносило пользу. Часто выкидывало важное, часто оставляло похожие/одинаковые предложения.

Ответить
Развернуть ветку
8 комментариев
Раскрывать всегда