Андрей Атрашкевич

+168
с 2018
1 подписчик
26 подписок

Добрый вечер!

Благодарю за столь высокую оценку моей статьи и, что более важно, за прекрасный вопрос.

К сожалению, полный и полезный ответ не может быть дан в формате комментария.

Очень скоро наша компания, ID Finance, откроет блог на другом популярном ресурсе (не знаю, этично ли давать название здесь). Вполне возможно, что и я, и ребята из моей команды попробуем дать ответ на важный и популярный вопрос «как стать Data Sceintist'ом».

Высшее техническое образование, конечно, будет полезно (если было получено именно образование, а не только диплом). При этом его наличие не является stop-фактором или условием sine qua non. Два моих знакомых, прекрасных Data Scientist'а имеют образование лингвиста и биолога. Конечно, им было очень сложно по сути заново учить «базу». Но их усилия возымели успех, и они не DS'ы не хуже (а во многом и лучше) тех, кто получал образование в области математики, физики, компьютерных наук или инженерного дела.

Если речь идёт о том, что стремящийся стать DS'ом не помнит, что такое логарифм, то, наверное, стоит начать именно с повторения школьной математики. При этом, полезно будет понять не только (и не столько), ЧТО такое логарифм, а ЗАЧЕМ он был нужен и ПОЧЕМУ месье Лаплас говорил, что «логарифмы, сокращая время вычислений, удлинили жизнь астрономов». Аналогичные вопросы задавать себе следует и при переучивании всех разделов математики. Например, подумайте, почему нормальное распределение именно такое. Не с неба же оно свалилось, правда?:)

Если у Вас остались вопросы и Ваш интерес не чисто теоретический, то обращайтесь лично (почта, социальные сети), я постараюсь ответить (скорого ответа не обещаю).

1

Котики столь же прекрасны как и сложные мемы про машинное обучение:)

Наверное, мне следует чувствовать гордость, что меня сравнили с ИНС:)

1

BearStrikesBack, позвольте поблагодарить Вас за бурю положительных эмоций, которые я и мои коллеги испытали, читая Ваши комментарии, и несколько минут здорового громкого смеха!:)

Я подумал, что Вы меня просто троллите, причём троллите, что называется, «толсто». Однако, прочитав другие Ваши комментарии я понял, что Вы пишите на полном серьёзе. Ну что же, позвольте ответить на Ваши вопросы.

Краеугольным камнем современных наук о данных я считаю, конечно же не p-value (это не более чем инструмент), а идею о том, что в данных можно находить «ранее неизвестные, нетривиальные, практически полезные и доступные интерпретации знаний, необходимые для принятия решений в различных сферах человеческой деятельности». Это идея имеет столь же фундаментальное значения для Data Science, как идея актуальной бесконечности — для математики, а теорема Нётер — для классической физики. Поинтересуйтесь историей приведённой выше цитаты: уверяю Вас, это в высшей степени познавательно и интересно.

Касательно p-value: если человек, утверждающий, что знает, что такое reinforcement learning, не сможет просто объяснить, что такое p-значение, у меня возникнут сомнения в его глубоком понимании столь сложного концепта как обучение с подкреплением. Как, наверное, у меня возникли бы сомнения, что человек — музыкант, если он не знает и не может объяснить что такое диез и бекар, и чем скрипичный ключ отличается от басового.

Про отклонение статей с p-value со стороны «топовых журналов» я не имею ни малейшего представления. На http://www.arxiv-sanity.com/ поискал статьи по ключевому слову «p-value» и почерпнул немало интересного. Просветите меня, пожалуйста, в каких топовых журналах ведётся такая политика, мне чрезвычайно интересно.

Может быть, дело в том, что плохо понимаю, что такое «топовый журнал». Мне понятно, что такое «полезный в такой-то сфере журнал» или «журнал по такой-то тематике», чуть хуже — «высокий импакт-фактор статьи» или «индекс цитируемости автора». Поэтому простите мою серость и замшелость и отнеситесь снисходительно:)

1

Виталий, благодарю Вас за приглашение! По возможности — неприменно присоединюсь, хотя я, наверное, уже слишком стар и не моден для такого сообщенства:)

1

Андрей, здравствуйте!

logit — это отличный алгоритм для скоринга, особенно в парадигме rapid model development. Я ни в коей мере не умаляю его значимость.

«Новомодный» DS, как Вы, несомненно знаете, может использоваться не только для предиктивных моделей, но и, например, для chat-bot'ов, анализа на графах и распознования паттернов поведения при печати текстов, где logit не применим от слова совсем.

В целом использование DS приносит явную пользу компании. В финтехе совершенно невозможно держать подобное подразделение просто «для имиджа» или из-за «моды». Если бы труд дата сайентистов был бесполезен или маловыгоден, этих людей в нашей компании, пристально следящей за эффективностью всех бизнес-процессов, просто бы не было, не так ли?

1

Данила, добрый день!

Признателен Вам за помощь: исправил наименование моей должности.

1

Егор, добрый день!

В ID Finance работают прекрасные программисты, которые вызывают у меня чувство колоссального уважения, а порой и неподдельного восхищения (в т. ч. и в силу отличного от нуля навыка программирования в моём профессиональном анамнезе).

Думаю, Вы согласитесь, что работа программиста — это тяжёлый и изматывающий труд, требующий серьёзной концентрации и незаурядной дисциплины ума.

Попадаются мне очень разные кандидаты (программистов, напомню, я не отбираю), что прекрасно иллюстрирует один из частных случаев принципа Партео, более известного в этих Ваших интернетах как правило 95%:)

3

Devoted, у Вас, кажется, обратное распространение ошибки сломалось:)))

7

Илья, вы совершенно правы, DS'у хорошо бы иметь базовое образование в области точных наук, которое затем углубить курсами по Data Science.

Но, во-первых, то, что тебе дают техническое образование не значит, что ты его действительно получишь. Довольно часто на собеседованиях я встречаю людей (с дипломами весьма почтенных ВУЗов), чей ответ на вопрос «что такое p-value», вызывал желание дать им учебником Ширяева (или хотя бы «Конспектом» Письменного) по голове, а затем заставить их читать эти книги quantum satis до полного просветления.

Во-вторых, обычная ситуация с пониманием «механики» алгоритмов DM / ML у очень многих соискателей должности Data Scientist'а прекрасно описывается этим замечательным мемом:

11