Как писалась книга «Роман с Data Science»

26 апреля 2021 года книга вышла из типографии тиражом в 1000 экземпляров, стала бестселлером и была распродана буквально за три недели.

Как писалась книга «Роман с Data Science»

В июне прошлого года в Москве закончился локдаун: я провел два месяца в самоизоляции — и у меня было много времени, чтобы подумать о том, что делать дальше. На тот момент я уже восемь лет был сооснователем компании Retail Rocket, но понимал, что если все останется как прежде, то начну деградировать как специалист, так как применения своим навыкам больше не видел. Поэтому я написал письмо своим партнерам и инвесторам, сообщив, что беру творческий отпуск и буду писать книгу.

В августе 2020 года я начал писать первую главу...

Кто я

Я закончил МФТИ в начале нулевых. На 4-5 курсах института я прокачался в математической статистике, работая в StatSoft Russia — тогда еще об аналитиках данных так много не говорили. Первые пять лет я работал первым и единственным аналитиком данных в Ozon.ru, а потом стал руководителем аналитического отдела. Следующие три года я консультировал несколько компаний, был первым директором по аналитике в Wikimart.ru. Затем после короткого периода работы в Ostrovok.ru я вместе с двумя партнерами компанию Retail Rocket. В компанию я принес готовые идеи рекомендательных продуктов и алгоритмов для e-commerce, готовую технологию масштабирования вычислений на Hadoop, алгоритмы расчета эффективности рекомендаций, а также свой личный бренд в e-commerce, что пригодилось для продаж.

О чем книга

Книга является введением в анализ данных (data science) для менеджеров и топ-менеджеров — тех, кто взаимодействует (например, ставит задачи), управляет аналитиками и хотел бы разобраться с аналитической кухней изнутри. Она написана максимально доступным языком для неискушенного читателя: в ней нет кода, и почти отсутствуют формулы. Это было мое принципиальное решение. Также я добавил в нее главы «Как развивать карьеру” и “Этика использования данных», зная, что часть читателей обязательно заинтересуются этими вопросами.

Почему я решил ее написать

У рынка неоправданно большие ожидания от аналитики данных (data science и machine learning). Это сказывается на всех — на менеджерах, которые ставят задачи в духе «найди что-нибудь интересненькое» и ожидающих золотых гор прибыли от цифр. На сотрудниках — они ждут интересных задач машинного обучения, а на деле оказывается, что это всего 10-20 процентов от основной деятельности. Чаще всего мои сотрудники увольнялись именно потому, что им не хватало таких задач. Целью этой книги было разоблачить мифы, которые существуют вокруг анализа данных.

Вторая причина, по которой я сел за эту книгу — зафиксировать свой личный опыт. Формат постов в соцсетях или выступлений на конференциях не позволяет это сделать так подробно, как мне хотелось бы.

Для меня было важно сделать проект некоммерческим, чтобы книга продавалась по доступной цене. Она написана максимально простым языком, чтобы быть понятной самому широкому кругу читателей.

Как делался план книги

Как только принял решение о написании книги, я начал накидывать идеи в майнд мап на XEN: писал краткие тезисы, собирал материалы из источников, которым я доверяю, организовывал идеи в главы. Майнд мап получился огромным — больше тысячи элементов. В итоге вся книга сложилась в 14 глав (напечатано 13), с списком идей в каждой, которые разбивали главы на подзаголовки. Вся работа заняла порядка двух месяцев. Когда скелет был готов, я принялся за текст.

Как писалась книга «Роман с Data Science»

Как продал издательству до написания рукописи

Но писать в стол мне не хотелось. Поэтому я решил попытать счастья и сразу договориться об издании книги. Я попросил Алексея Кузменко, который в свое время руководил продажами книг в Ozon.ru (сейчас в Wildberries.ru), отправить информацию о книге его знакомым в издательствах. Он не стал мелочиться и отправил информацию CEO/владельцам Эксмо, Альпины и Питер. Я сам отправил заявку на сайте издательства АСТ (в ответ на заявку мне прислали предложение напечататься на коммерческой основе, что мне совершенно не подходило). Все это мне напомнило поиск инвестиций для Retail Rocket, только вместо презентации отправляется синопсис. Где также издательства (как и венчурные инвесторы) просят зайти как-нибудь в другой раз :). В итоге откликнулось только издательство Питер — им понравилась идея, но мне было предложено отнести книгу к компьютерной литературе, а не деловой. Договор решили обсуждать, когда будет написано больше половины книги. По срокам я рассчитывал отправить рукопись в издательство к 31 декабря 2020 года.

Как писалась рукопись

Итак, у меня есть все: свободное время (творческий отпуск), план книги и согласие издательства. Я начал писать первую главу про принятие решений на основе данных, которая, как оказалось, была самой сложной из всех — на нее ушло две недели. Следующую главу написал за неделю. Таким образом я вывел свою скорость — 3 страницы A4 в день. Иногда получалось больше, иногда меньше. Каждая глава — 12-16 страниц. В итоге в среднем каждая глава была написана за неделю — за исключением второй и третьей. Весь текст сделан в Google Docs — каждая глава отдельно. Интересно было оказаться в шкуре писателя — три страницы А4 вроде бы немного, но они забирали у меня весь день. Иногда не пишется совсем, иногда поймаешь волну и напишешь все за 2 часа. К вечеру чувствуешь себя совершенно опустошенным — мне стало понятно, почему писатели частенько прикладывались к бутылке вечерами :).

Все бы хорошо, если бы я не заболел в октябре 2020 года, примерно на 7 главе. Как оказалось, короновирусом. Заболел я за один день до того, как я должен был получить первую дозу вакцины/плацебо Спутник V (я записался на участие в исследовании волонтером, за три месяца до старта массовой вакцинации). В первую неделю меня выключило, на второй неделе я приспособился писать лежа, даже в моменты сильной слабости. Но сроки сдачи сдвинулись.

Как велась работа с источниками

В процессе разработки дизайна книги я решил использовать QR коды (нет, в ресторан вы по ним не пройдете :) ) для внешних источников из списка литературы.

Как писалась книга «Роман с Data Science»

При этом сами источники — это страницы в Интернете, которые могут исчезать, что требует их изменения. Поэтому я решил сделать на сайте поддержки книги редиректы, которыми можно управлять, просто редактируя JavaScript.

Изначально схема вела себя так:

  • Пользователь наводит камеру на QR код и переходит на мой сайт
  • Скрипт по номеру-источника из QR ссылки находит ссылку на ресурс
  • Скрипт осуществляет редирект

Но в процессе тестирования этой схемы я обнаружил, что Google Analytics перестал фиксировать переходы с Safari на Iphone (на Chrome все было в порядке). Начал искать причину проблемы и нашел! Оказалось, что в Safari реализована функция блокирования даже first-party кук ITP 2.3 (Intelligent Tracking Prevention), когда домен используется целиком для редиректа (bounce tracking) для замены third-party кук. Из-за этого я переделал схему редиректа таким образом, что пользователь должен явно кликнуть на ссылку во всплывающем окне, отключив автоматический редирект. В конце концов ITP меня разблокировала. Мне как автору важна эта статистика QR переходов для того, чтобы понять, какие главы популярны, а какие нет. Это даст мне информацию для будущего переиздания книги.

География читателей по QR кодам
География читателей по QR кодам

Как тестировал первые главы книги

Мне было очень интересно узнать мнение читателей. На Фейсбуке я написал пост, где попросил заполнить анкету, кто хочет принять участие в тестировании книги. Получилось около 100 email откликнувшихся.

По первой главе я прислал примерно треть контента, попросил заполнить анкету и оставить комментарии. Получил чуть больше 30 откликов, часть комментариев мне показались важными — и соответствующие дополнения были внесены в первую главу.

По остальным главам распределение откликов было следующим

Распределение откликов
Распределение откликов

Но количество информативных комментариев стало катастрофически падать — к пятой главе я получил всего 2. Поэтому я решил прекратить тестирование.

В итоге наиболее активных комментаторов я внес на страницу благодарностей книги. Это Артем Аствацатуров, Александр Дмитриев, Аркадий Итенберг, Алесей Писарцов, Роман Нестер. Все они уже получили мою книгу с автографом, как я и обещал перед тестированием.

Как редактировали книгу

К середине декабря 80 процентов рукописи было готово. Редактировала книгу моя жена Катя, профессиональный журналист и редактор — она убедила взять паузу: у обоих есть антитела к коронавирусу, почему бы не воспользоваться возможностью и не уехать отдохнуть.

Катя (в центре) на Каннском кинофестивале
Катя (в центре) на Каннском кинофестивале

Сказано — сделано, две последние недели декабря провели на Мальдивах, совмещая ночной снорклинг и обучение на курсах дайвинга с редактурой книги. Редактировали на двух ноутбуках, сидя рядом, так оказалось удобнее — благодаря Google Docs сразу видны изменения на обеих машинах.

Статистика по редактуре — примерно половина текста была переписана с точки зрения подачи материала. Теперь я считаю, что залог успеха книги обеспечивается на 50% содержанием книги, 30% хорошей редактурой, 20% — всем остальным. Для справки — на редактуру одной главы уходило порядка 5 часов, первую главу переписывали 3 раза, она оказалась самой сложной.

В итоге только в конце января я закончил рукопись и отправил ее в издательство по электронной почте в формате MS Word. Еще в сентябре планировал, что сделаю это до 31 декабря. Что ж плюс один месяц — не такая уж большая ошибка в творческом проекте с длиной планирования в целый год.

Как издательство работало с книгой

Договор с издательством я заключил по обычной почте в январе 2021 года. Как только они получили рукопись, сразу началась работа с текстом. Литературных исправлений почти не было — в основном они были техническими. Редактор выслала мне файл с правками, которые я принял.

Еще одним важным делом было перерисовать все мои иллюстрации в векторный формат. Мои исходники были очень разными — где-то я нарисовал карандашом на бумаге и сфотографировал, где-то просто делал скриншоты из интернета. Третий вариант использовать Drawing (в Google Docs) — по мне, это самый удобный формат. В издательство все эти иллюстрации перерисовали в eps формат и прислали мне на утверждение. Конечно, там были ошибки и неточности — некоторые иллюстрации я отправил на перерисовку.

Следующими этапами была вёрстка pdf для печати книги и несколько корректур, в том числе моя. Скажу сразу — опечатки прорвались в текст напечатанной книги, несмотря на повторную вычитку.

Иллюстрации и обложка

Параллельно с версткой книги в издательстве наш друг семьи Владимир Вышванюк рисовал иллюстрации. Прототипом котика выступил наш кот Вилли — кот с характером, по умолчанию считает всех людей абьюзерами. Активно защищает свои границы, просто так его не погладишь, пока он сам этого не захочет. На подоконнике у нас стоял его портрет, нарисованный Володей — и мне захотелось, чтобы кот стал лирическим героем книги про большие данные.

Селфи кота
Селфи кота

Перед рисованием иллюстраций мы встретились с Володей у меня дома. Наша сессия заняла порядка 5-6 часов, где мы определили дизайн книги как минималистичный, иллюстрации будут создаваться для каждой главы в отдельности. Лично мне далась эта сессия непросто, по ее результатам я подготовил краткую выжимку из всей рукописи, чтобы художник мог отталкиваться от смыслов, создавая персонажа. Мы договорились о сроках, и больше я Владимира не дергал. Конечно я нервничал, думал, успеет ли он, но художник смог четко соблюсти дедлайны и все иллюстрации прислал вовремя. Мы также подписали договор о передаче авторских прав, рыбу договора предварительно получив у издательства.

Следующим ответственным этапом было создание обложки. Изначально я хотел классическую белую картонную обложку в минималистичном стиле с условным названием книги «Как монетизировать данные”. Владимир также предложил свой пример обложки. Издательство предложило свои варианты. Тогда же они предложили изменить название книги на “Роман с Data Science». Я решил вынести разные варианты названий книги на фейсбук.

После мы подготовили варианты обложек, и я сделал еще одно голосование. Ясности это не внесло — даже после всех голосований было очень сложно определиться. В итоге, понимая, что книга не развлекательная, я на переговорах с издательством выбрал вариант Владимира. Отдельная тема — белый цвет обложки никому не нравится в книжном бизнесе — обложка быстро пачкается. Было два варианта — или использовать ламинирование, как это делает издательство O’Reilly, или изменить цвет. В итоге договорились на светло серый цвет без ламинирования.

Я и Владимир Вышванюк
Я и Владимир Вышванюк

Был еще один важный выбор — твердая или мягкая обложка. Так как книга малоформатная, то мне нравился вариант с мягкой обложкой. Преимущество такого варианта — цена книги будет на 150 рублей меньше. Для меня это некоммерческий проект — цену хотелось получить минимальную. Поэтому была выбрана мягкая обложка. К тому же, я сам люблю такие книги — их удобно брать с собой и читать в дороге.

Выход в печать

Мы все очень торопились, чтобы выпустить книгу до майских праздников. Типография запросила полтора месяца на печать — это очень много. Причина — проблема с бумагой. 26 апреля 2021 года тираж приехал на склад издательства. В этот день утром мне позвонили со склада, я тут же сел в машину и помчался на другой конец Москвы. Чтобы забрать свои авторские экземпляры, пришлось потратить пять часов.

Самое страшное для автора — увидеть, что результат его трудов не совпадает с ожиданиями. Мои страхи — будут проблемы с обложкой, будет плохое качество печати — не оправдались. Правда я заметил, что обложка была покрыта пленкой, это я оценил позже. Также встретились опечатки: (. Похоже, без них никак нельзя, по крайней мере, в первом тираже.

Еще до выхода книги в тираж я сделал официальный сайт поддержки, страницу с редиректами для QR кодов и телеграм-канал. 8 лет назад я купил два домена topdatalab.ru и topdatalab.com, через некоторое время их забросил и разделегировал. Каково же было мое удивление, когда я узнал, что их можно зарегистрировать заново. В качестве платформы я выбрал тильду на коммерческом тарифе, и в целом это было правильным решением.

Продвижение книги

У издательства не так много способов продвижения книги. Сейчас основной канал продаж книг — интернет. К выставке Non-fiction в Москве тираж не успели напечатать, поэтому еще до выхода тиража опубликовали отрывок произведения на habr. Тогда же объявили предпродажу книг. В мае был опубликован еще один отрывок на habr, и вышла электронная версия книги (epub + pdf), доступная на сайте издательства. В целом эти активности не дали большого эффекта.

В конце апреля я общался с Николаем Давыдовым (да, тот самый из фильма Юрия Дудя), и он попросил прислать ему в Калифорнию подписанный экземпляр. 30 апреля я дошел до почты и отправил книгу через EMS. 11 мая (что довольно быстро) Николай получил экземпляр. За 3 дня до этого 9 мая в моей семье случилось горе — умер отец моей жены, который горячо поддерживал меня в написании книги. Напечатанную книгу он успел увидеть. 11 мая я поехал на похороны. В этот момент на сайт книги пошел очень большой трафик.

Пик трафика от Николая Давыдова
Пик трафика от Николая Давыдова

Причину я увидел в инстаграмме — Николай опубликовал в сториз мою книгу.

Для меня это выглядело все так, что мой умерший тесть тоже поучаствовал в этом процессе. В тот момент я попросил издательство опубликовать также электронную книгу на их сайте, ведь трафик шел со всего мира. Это был самый сильный драйвер продаж книги.

Из онлайна мне также сильно помогла Юлиана Гордон, основательница школы электронной коммерции iWENGO — в Озоне книга мгновенно закончилась.

Я также пробовал участвовать в вебинарах — не скажу, что получил заметный эффект. Но один проект заслуживает внимания — образовательный проект Инжиниринг данных (у них есть образовательный канал datalearn). Ребята пригласили меня провести вебинар для своей аудитории. Он получился очень душевным. Когда я проводил презентацию книги в книжном магазине Республика на Маяковской, туда пришли в основном мои знакомые и участники этого канала.

Оффлайн продвижение я попробовал три раза — позвал читателей в бар, провел презентацию в магазине Республика и вебинар для фестиваля книги на Красной площади. Итак по порядку. Я собирался в бар послушать джем и подумал, что это хороший повод встретится с читателями и подписать книги. Джем был отличный, но пришло всего три человека, мои знакомые.

Презентация в Республике оказалась поинтересней. Я просто приехал в магазин на Маяковской и спросил разрешения у администраторов сесть где-нибудь в уголке и подписать книги свои читателям. В ответ мне предложили сделать полноценную презентацию книги на втором этаже магазина. Сказано — сделано, Республика свезла все книги из своих магазинов на Маяковскую. Уже тогда книгу было почти невозможно купить, на складах издательства она кончилась, в интернет-магазинах тоже. Самой презентации как таковой не было, пришли мои знакомые и слушатели проекта Datalearn. Я отвечал на вопросы и подписывал книги. Почти все книги в магазине были раскуплены (больше 10 экземпляров).

Часть фото из Республики
Часть фото из Республики

А вот с фестивалем книги на Красной площади вышел казус. Издательство решило участвовать в нем онлайн из-за ковидных рисков. Сам фестиваль прошел с ограничениями на посещения, там делали презентации известные люди. Мой формат онлайн был сделан ссылкой на zoom в программе. Сам фестиваль никак презентацию не продвигал. В итоге никто не пришел: ) но мы записали видео, которое потом опубликовали.

Финал

Как вы видите, сам процесс написания и подготовки книги занял почти год. Большую часть времени я работал над проектом full-time. В итоге книга получилась, это бестселлер на многих площадках: интернет-магазин издательства Питер, Озон, Лабиринт, Литрес.

Начальный тираж книги в 1000 экземпляров исчез со склада издательства буквально за три недели, хорошо что была электронная версия. Потом было напечатано еще 700 экземпляров — и это, похоже, не предел.

Что дальше

Подписывая контракт с издательством, я ограничил область действия печатным и электронным форматом книги только на русском языке. Скоро будет выпущена аудио-версия книги на litres, хотя я довольно скептично относился к этой идее.

Но меня больше интересует возможность издания на английском языке. Я пробовал закидывать удочку в издательство O’Reilly, заполнив их огромную анкету. Но они отправили меня в пешее путешествие.

Ответ от O'Reilly
Ответ от O'Reilly

Это был ожидаемый результат. Поэтому я нанял переводческое агентство (переводчик, редактор, корректор) для перевода книги. Надеюсь, что они успеют к сентябрю, и я опубликую книгу на Amazon как self-publisher.

3737
33 комментария

Книжку не читала, но осуждаю!

Как сказано кем то из великих - каждая формула в книге снижает её продажи на 10%,
но вы, сделали шаг, друг мой, ещё один шаг вперёд, - каждый котик увеличивает на 10% )

Прошу прощенья, но не лучше бы было, как бе стратегически, сразу на английском, по мере сил, канешно, ничего страшного, каждая книга найдет своего читателя, а потом адаптировать к русскоязычной аудитории, что только бе подняло её и автора престиж, еще раз прошу прощенья за колкость, сегодня жарко, и я уже выпила пива )

6
Ответить

Закусывать надо 

5
Ответить

Чтобы хорошо написать на английском, нужно на нем думать. Я так пока не умею :(

1
Ответить

А что лучше, прочитать книгу или пройтку курс по машин ленинг от амазон на удеми?

1
Ответить

Я не знаю насчет Udemi. В самой книге затрагиваются все сопутствующие вопросы. DS делают алгоритмы только 10% своего времени, остальные 90% мучаются с их выводом в продакшн и доказательством положительного эффекта. Про сам ML у меня всего 2 главы.

8
Ответить

ну я так понимаю накопления позволяют, и человек все таки спросил не про упущенную выгоду из за отсуствия офицальной зарплаты, а какие то прямые расходы на книгу. 

3
Ответить