vc.ru superpowers: расширение для браузера, которое вы ждали
Краткая выжимка статей, определение синтетичности текста и даже уведомление о наличии в статье ссылки на Telegram-канал. Новые функции для VC и DTF, которые я добавил вместо Комитета.
В субботу я опубликовал своё мнение о том, что на VC должны появиться новые функции, поощряющие писать оригинальный контент.
Обсуждение этичности определения синтетического текста переросло чуть ли не в обвинение редакции в бездействии и обсуждение влияния генеративных инструментов на журналистику. В основном, люди разделились на два лагеря: генеративные инструменты улучшают качество контента и генеративные инструменты ухудшают качество контента на сайте.
Пропустим серую мораль и перейдем к сути. Мой исследовательский энтузиазм побудил во мне желание самому добавить эту (и еще пару других функций) на сайт.
Так появилось расширение vc.ru superpowers.
В нем я реализовал три функции для сайтов Комитета (vc.ru и dtf.ru), две из которых хотел сам а третью предложили в комментариях.
- Классификация статей – о чём и был мой пост
- Краткая выжимка статей – она же summarize, как в Artifact
- Проверка на наличие ссылки на Telegram – почему бы и нет?
Классификация
В январе OpenAI представили свой классификатор, обученный определять, является ли текст синтетическим – пятибалльная шкала, от very unlikely до likely AI-generated. Они не дали к нему прямой доступ и вообще сказали, что work in progress, а мне стало очень любопытно, поэтому в дело пошел reverse engineering.
Я достаточно быстро выяснил, что внутри классификатора используется некая модель model-detect-v2. Создав новый API Key, я попробовал использовать эту модель в Completions API, ожидая, что получу 403. Но, вместо ошибок API вернуло какие-то цифры. Я продолжил изучать код фронтенда OpenAI и нашел формулу, которая непонятные цифры из ответа превращала в процент синтетичности (термин придумал я).
В итоге, я воссоздал алгоритм классификатора и завернул его в расширение для Safari. Пока тестировал, заметил комментарий.
Я не гарантирую точность алгоритма: OpenAI заявляет что тексты, написанные ИИ, в 26% случаях определяются как «скорее всего, написаны ИИ», в то время как тексты, написанные человеком, в 81% случаев определяются как «скорее всего, написаны человеком».
Краткая выжимка
Она же – суммаризация. Процесс сжатия текста, сохраняя при этом его суть. Функция предельно простая, но дающая ощутимую пользу – как минимум понять, стоит ли читать статью.
Пока писал этот текст, понял, что функция в ленте приведет к снижению просмотров, поэтому лучше разместить кнопку внутри статьи.
Реализовано просто – запрос в Osnova API достает текст материала и отправляет в Chat API. Первая часть запроса для роли system задает контекст: «Суммаризируй понятно и на русском языке, о чем статья, не длиннее 70 слов. Не добавляй ничего от себя», вторая содержит сам текст. Суммаризирует модель gpt-3.5-turbo-16k, поэтому можно не переживать за длину статей.
Все, описанное выше, скорее является Proof-of-concept того, что эти функции можно реализовать за пару дней, с чашкой чая в одной руке и ChatGPT в другой.
Уважаемая редакция или кто-нибудь из Комитета, если вы вдруг читаете, напишите мне и я отдам вам код! Можно как дополнительную фичу в подписке Плюс внедрить, суммаризацию уж точно – больше подписок продавать будете.
«Зачем я это прочитал, где ссылка на расширение и сколько стоит» – спросите вы?
Расширение vc.ru superpowers для браузеров Safari и Google Chrome будет бесплатным
Расширение сейчас на ревью в сторах. Через 2-3 дня ссылка для Safari и Chrome будет в канале Директор айти компании. Ну раз уж отдаю бесплатно, можно и подписаться, right?
Поделитесь мнением в комментариях, попробуете superpowers в деле? Предложите еще что-нибудь добавить?
Красава! Хотел запилить похожее расширение для оценки комментаторов:
– новорег
– первый коммент
Было бы оч полезно в инфоцыганских постах, мб ты быстрее запилишь, совсем времени нет, идея протухает(
Прикольная идея, кстати. Просто плашку показать "это его первый комментарий" или "зарегистрировался сегодня" - даже ИИ не нужен
Тогда лучше дата регистрации + количество комментов
Ага, причем нужна именно эта комбинация параметров, т.к. каждый отдельно не так сильно выдает бота
Идея на будущее: в краткой выжимке показывать только телеграм канал из концовки статьи
Ну а если серьезно, то клево! Удивлен отсутствию комментариев
Оч жду реакцию Комитета )
Комментарий удален модератором
Фатальная ошибка.
Я бы взял расширение, но я совершенно точно не буду заходить в каждый пост и накручивать счетчик просмотра только чтобы понять что там синтетика.
Я и сейчас в такие не захожу, научился на глаз определять, хотя подтверждение глазомера пригодилось бы.
Но раз ты прячешь внутрь, то и смысла от него нет.
За сафари хвалю!
1) "Расширение содержит даже уведомление о наличии в статье ссылки на Telegram-канал"
2) В статье ссылка на тг канал, причем в самом темном паттерне — "чтобы следить за ссылкой" 🤷
Иронично, да?
мне кажется с точки зрения установки расширений было лучше опубликовать статью когда расширение уже было бы доступно
Тк "прочитал — установил" простое действие
А сейчас кажется, что это принесено в жертву конверсии подписки на тг канал
Yes, but
Комментарий недоступен
Раз
Нужно убрать «в статье есть»
Не каждый пост — статья или даже заметка.
Два
Очень круто, 95 из 100 👍🏻! Ведь нужно же стремиться к идеалу? (-;
Очень хотелось бы планировщик публикаций. Понятно, что это не к Вам, но вдруг кто-то заметит 🙂
На всякий случай записал))
Никогда не знаешь что может пригодиться 😉
И да, чуть не забыл: благодарю!
любопытно) если раскатывать на всю аудиторию VC, как на поведенческие факторы повлияет?
Я предполагаю, что если суммаризацию прямо в ленте дать, может снизить engagement rate плохого контента. Повлияет ли на открываемость хороших статей — ХЗ
А еще ведь "время на сайте" есть.
Да.. но палка о двух концах — удерживать читателя на сайте усложнением чтения или снижать sticky factor давая возможность быстро прочитать контент. Я ссылаюсь на Artifact: там, как у агрегатора, summarize внутри самих материалов доступен
С другой стороны – если читатель сможет за то же количество времени «потребить» больше контента благодаря чтению кратких выжимок – это хорошо
кмк, вообще не повлияет. Народ и так статьи по диагонали читает, в основном сразу скроллит в комменты)
т.е. в комментах, кмк, больше value для висишного пользователя. А так - эти же новости/статейки он бы и в каком-нибудь телеграм канале мог почитать
Комментарий недоступен
Считаю, что статьи без ссылки на Телеграм — надо распубликовывать.
Да вообще автору надо как-то хакнуть виси (может быть, чатгпт ему поможет?) и добавить в свое расширение кнопку "Распубликовать эту статью и забанить автора", которой смог бы пользоваться любой желающий, читая любую статью. Вот бы все повеселились))
А почему именно 70 слов? Может как-то пропорционально кол-ву текста этот параметр менять? По предложению на абзац или типа того.
Ну и эта штука видимо не сможет отличать личку ТГ от канала? А что плохого в том, чтобы указать личку для связи?
Можно же отличить, просто открыть по ссылке и посмотреть, что в сниппете написано
"Можно отличить, если открыть и посмотреть" - это одно, а вот делает ли это расширение эту работу - открывает ли и "смотрит" — я уверен, что нет. На скриншотах просто написано, "есть ссылка на телеграм" - т.е оно анализирует только сам текст статьи, видит там http://t.me/что-тотам и всё, больше ничего не делает, сразу маркирует как телеграм.
Ну да, я и имел в виду, что это, в общем-то, делается в два счёта, и странно, что не сделано
Комментарий недоступен
Круто! Мне не терпится проверить мои статьи, которые я уж точно знаю, кто писал)) и прочитать к ним саммари.
Сделайте для мозилы и верните дизлайки хотяб расширением(
Make vc.ru tort again!
Платным можно сделать накрутку процента в сторону человечности :)
"Почему бы не попробовать?"
Как человеку с дислексией.... Это ускорит мою работу значительно!!!
Друг, поторопись с продажей расширения) А то сегодня вот чё нашёл