Я несколько лет работал в Data Science, в том числе в теме NLP. К сожалению, продакшен решений, в которых текст нелинейно преобразуется и у вас не начинает течь кровь из глаз из-за некоторых перлов фактически не существует, несмотря на громадный прогресс в части контекстных эмбеддингов и генеративных моделей, произошедший в последние годы.
В обработке естественного языка (Natural language processing) есть и задача ранжирования и сокращения объема текста (авто-реферирование, аннотация или даже генерация заголовка).
Вот пример более технической статьи по созданию агрегатора новостей:
https://towardsdatascience.com/building-a-news-aggregator-from-scratch-news-filtering-classification-grouping-in-threads-and-7b0bbf619b68
Я несколько лет работал в Data Science, в том числе в теме NLP. К сожалению, продакшен решений, в которых текст нелинейно преобразуется и у вас не начинает течь кровь из глаз из-за некоторых перлов фактически не существует, несмотря на громадный прогресс в части контекстных эмбеддингов и генеративных моделей, произошедший в последние годы.