Когда я вел в МФТИ на кафедре Яндекса курс Text Mining, практиковал такой формат семинаров: студенты получают текстом задание, которое нужно реализовать с чистого листа, причём не в форме лабораторной, а в формате «кластеризуйте по темам письма из вот этого датасета» или «выделите из корпуса текстов устойчивые словосочетания», а дальше до конца пары должны показать мне результат, рассказать как доформализовали задачу, как оценивали качество, и почему вообще думают, что их поделка удалась. Конечно, можно было присылать доработки и после пары (в качестве домашнего задания). От меня на тот момент требовался минимум подготовки - грамотно ставить задачи (при релевантном опыте это не проблема). И, конечно, готовность смотреть и обсуждать со студентами их решения. А вот студентам формат нравился намного больше, чем “заполните пропуски кода в почти готовом решении”, который был распространён в тот момент на курсах по анализу данных. Многим способным ребятам нравился простор для творчества в этом формате и возможность подумать и поговорить с преподом не про то, как именно ты написал код, а про то, что вообще делаешь, как оцениваешь результат и какой путь решения задачи выбрал. Это было таким мини-исследованием в масштабах недели.
Вывод: раздолбай, который не зажал людей в тиски микроконтроля иногда мотивирует лучше, чем организованный человек, расписавший все по шагам, не оставив исполнителю простора для творчества. Есть, конечно, вопросы, в которых полезно тщательно готовиться: когда подводишь итоги испытательного срока, когда проводишь 1х1 с сотрудником, когда выдаёшь фидбек по итогам ревью. Но есть вещи, в которых важнее не продумать все, а дать ответственность и поле для деятельности, где человек сможет проявить себя. А вот зажать человека в жесткий план, а потом жаловаться на безынициативность и быстрое выгорание от “галерного” труда много ума не надо.
Надежность
Надежность это в первую очередь не врать людям и не кидать их. Обещал поднять зарплату - поднимай, если вы друг-друга неверно поняли - проясняй и больше не допускай такой ситуации. Обещал награду (премия, повышение, рост зарплаты) за определенную работу - не надо докидывать еще задач следом.
Вы можете сказать, что у руководителя высокий уровень неопределенности, не всегда планы команды получается реализовать, и без вины конкретного сотрудника можно не иметь возможности дать ему обещанное. Более того, некоторые изменения ситуации спускаются руководителю сверху, и их приходится принять как факт. Это все так, и тут возвращаемся к самому первому совету: больше общайтесь с сотрудниками, чтобы какие-то повороты не были для них неожиданностью. Например, если накрывается чье-то повышение, даже если сотрудником все будет сделано отлично, обсудите с человеком ситуацию, придумайте другой способ мотивировать или смиритесь с тем, что сотрудник от вас уйдет. В любом случае у вас будет больше времени обсудить проблему и найти вместе решение, а вот если вы просто скажете «обстоятельства изменились» и не дадите обещанное - сразу потеряете человека. Особенно страшно будет, если человек не уволится, а займет позицию «вы не сможете мне так мало платить, как мало я теперь буду работать». Словом, надежность это как про выполнение обязательств, так и про предсказуемость и понятность происходящего.
Заключение
Ваша команда - это отражение вас как руководителя. Даже если вы пришли в эту команду, а не собрали ее целиком с нуля, и что-то вам в ней не нравится, и вы бы сделали все иначе, через полгода-год это уже на 100% ваша команда. Так что не жалуемся, чаще общаемся с сотрудниками и работаем над собой. Такой вот совет.
Вывод: раздолбай, который не зажал людей в тиски микроконтроля иногда мотивирует лучше, чем организованный человек, расписавший все по шагам, не оставив исполнителю простора для творчества. Есть, конечно, вопросы, в которых полезно тщательно готовиться: когда подводишь итоги испытательного срока, когда проводишь 1х1 с сотрудником, когда выдаёшь фидбек по итогам ревью. Но есть вещи, в которых важнее не продумать все, а дать ответственность и поле для деятельности, где человек сможет проявить себя. А вот зажать человека в жесткий план, а потом жаловаться на безынициативность и быстрое выгорание от “галерного” труда много ума не надо.
Надежность
Надежность это в первую очередь не врать людям и не кидать их. Обещал поднять зарплату - поднимай, если вы друг-друга неверно поняли - проясняй и больше не допускай такой ситуации. Обещал награду (премия, повышение, рост зарплаты) за определенную работу - не надо докидывать еще задач следом.
Вы можете сказать, что у руководителя высокий уровень неопределенности, не всегда планы команды получается реализовать, и без вины конкретного сотрудника можно не иметь возможности дать ему обещанное. Более того, некоторые изменения ситуации спускаются руководителю сверху, и их приходится принять как факт. Это все так, и тут возвращаемся к самому первому совету: больше общайтесь с сотрудниками, чтобы какие-то повороты не были для них неожиданностью. Например, если накрывается чье-то повышение, даже если сотрудником все будет сделано отлично, обсудите с человеком ситуацию, придумайте другой способ мотивировать или смиритесь с тем, что сотрудник от вас уйдет. В любом случае у вас будет больше времени обсудить проблему и найти вместе решение, а вот если вы просто скажете «обстоятельства изменились» и не дадите обещанное - сразу потеряете человека. Особенно страшно будет, если человек не уволится, а займет позицию «вы не сможете мне так мало платить, как мало я теперь буду работать». Словом, надежность это как про выполнение обязательств, так и про предсказуемость и понятность происходящего.
Заключение
Ваша команда - это отражение вас как руководителя. Даже если вы пришли в эту команду, а не собрали ее целиком с нуля, и что-то вам в ней не нравится, и вы бы сделали все иначе, через полгода-год это уже на 100% ваша команда. Так что не жалуемся, чаще общаемся с сотрудниками и работаем над собой. Такой вот совет.
👍5🔥2
Все слышали про правило 80/20, что 20% усилий приносят 80% результата. Иногда правда так, но есть несколько «но».
1) Давайте не будем забывать про метафоричность этого правила - это не результат исследований, не какой-то обоснованный закон, а просто выражение субъективных ощущений, никто никакие проценты с аптекарской точностью не мерил. Помните школьные задачки «бригада за 2 часа копает траншею 5 метров, сколько метров выкопает за 3 часа»? Вот там ни о каких 80/20 речи не идет, не занимайтесь самообманом. И такие пласты работы есть везде.
2) Вера в то, что можно сделать те самые важные 20% и забить на остальную работу нанесла человечеству не меньше вреда, чем пользы. Именно в ней ответственность за сырые и недоделанные решения, недопиленные продукты, недоведенные до ума проекты. Именно она даёт менеджменту решимость сокращать сроки и ресурсы сколько угодно.
Не в каждую менеджерскую мантру стоит верить, сколько бы раз заклинание ни повторялось людьми вокруг. Зачем я это написал и при чем тут анализ данных, AI и все такое? А тут все просто, на свете хватает людей, которые верят, что 80/20 это распределение Парето и какой-то основанный на матстате и теорвере научный факт. У меня для вас плохие новости: 80/20 это напасть похуже бизнес-молодости, а распределение Парето выглядит так:
1) Давайте не будем забывать про метафоричность этого правила - это не результат исследований, не какой-то обоснованный закон, а просто выражение субъективных ощущений, никто никакие проценты с аптекарской точностью не мерил. Помните школьные задачки «бригада за 2 часа копает траншею 5 метров, сколько метров выкопает за 3 часа»? Вот там ни о каких 80/20 речи не идет, не занимайтесь самообманом. И такие пласты работы есть везде.
2) Вера в то, что можно сделать те самые важные 20% и забить на остальную работу нанесла человечеству не меньше вреда, чем пользы. Именно в ней ответственность за сырые и недоделанные решения, недопиленные продукты, недоведенные до ума проекты. Именно она даёт менеджменту решимость сокращать сроки и ресурсы сколько угодно.
Не в каждую менеджерскую мантру стоит верить, сколько бы раз заклинание ни повторялось людьми вокруг. Зачем я это написал и при чем тут анализ данных, AI и все такое? А тут все просто, на свете хватает людей, которые верят, что 80/20 это распределение Парето и какой-то основанный на матстате и теорвере научный факт. У меня для вас плохие новости: 80/20 это напасть похуже бизнес-молодости, а распределение Парето выглядит так:
👍2
Попалась на глаза старая статья на zeh.media из разряда "гид по Data Science для начинающих", увидел эту картинку и завис с вопросом "какой такой ML по мнению автора относится к AI, но не относится к DS". Ссылка на статью в комментах, там же предлагаю обсудить, что бы могла значить эта диаграмма
Шесть способов построить модель на объединенных данных, не раскрывая сами данные
Многие компании сталкиваются с тем, что могут анализировать только данные из своих сервисов. Это ограничивает по трем причинам. Во-первых, сервисы одной компании редко когда покрывают все сферы жизни человека, так что картинка всегда получается неполной. Во-вторых клиентская база любой компании, даже если мы говорим про лидирующие экосистемы, это лишь какая-то доля рынка, а не вся страна или все страны присутствия, поэтому что-то прогнозировать для тех, кто еще не стал клиентом компании, довольно сложно. В-третьих, использование некоторых данных довольно жестко регулируется законодательно: есть законы о банковской тайне, о медицинской, о тайне связи, идут обсуждения про закон об экосистемной тайне.
Чтобы меньше страдать от этих ограничений, помимо развития бизнеса компании в новые сферы и наращивания доли рынка, можно пополнять свои данные открытыми или покупать данные у других компаний. Но вот слова "покупать данные" звучат очень неприглядно. С одной стороны: а кто же продаст свое конкурентное преимущество, коим является знание своего клиента? С другой стороны, в лоб торговать данными это просто не этично с точки зрения заботы о своем клиенте. Есть несколько способов, которые до определенной степени позволяют построить прогнозные модели на объединенных данных, "не сдавая своих", и уважая законодательство.
1. Анонимизированные данные
Если по каждому примеру из отгружаемых данных будет невозможно понять, к кому конкретно они относятся, то вы, вроде бы, никого и не выдаете. Казалось бы, достаточно использовать какой-то свой, не имеющий особого смысла, идентификатор пользователя - можно просто номер пользователя в вашей выборке, можно что-то более хитрое, главное, чтобы ваш идентификатор нельзя было сопоставить с ID пользователя в той компании, которая "покупает" данные. Увы, на деле все не так просто. Во-первых, если нельзя сматчить айдишники, нельзя дополнить данные по пользователям. Значит максимум, что вся эта затея даст, это дополнение обучающей выборки для алгоритмов примерами за пределами клиентской базы. Другая важная проблема - это то, что часто пользователя можно деанонимизировать, даже не имея его ID. Например, если в датасете присутствуют данные о гео-локации, то набор точек и моментов времени, в которые пользователь находился в них, уже сам по себе хороший ID. Все это приводит к тому, что передача третьей стороне "анонимизированных данных" не слишком популярная концепция - больше рисков и проблем, чем выгоды.
Продолжение - в среду
Многие компании сталкиваются с тем, что могут анализировать только данные из своих сервисов. Это ограничивает по трем причинам. Во-первых, сервисы одной компании редко когда покрывают все сферы жизни человека, так что картинка всегда получается неполной. Во-вторых клиентская база любой компании, даже если мы говорим про лидирующие экосистемы, это лишь какая-то доля рынка, а не вся страна или все страны присутствия, поэтому что-то прогнозировать для тех, кто еще не стал клиентом компании, довольно сложно. В-третьих, использование некоторых данных довольно жестко регулируется законодательно: есть законы о банковской тайне, о медицинской, о тайне связи, идут обсуждения про закон об экосистемной тайне.
Чтобы меньше страдать от этих ограничений, помимо развития бизнеса компании в новые сферы и наращивания доли рынка, можно пополнять свои данные открытыми или покупать данные у других компаний. Но вот слова "покупать данные" звучат очень неприглядно. С одной стороны: а кто же продаст свое конкурентное преимущество, коим является знание своего клиента? С другой стороны, в лоб торговать данными это просто не этично с точки зрения заботы о своем клиенте. Есть несколько способов, которые до определенной степени позволяют построить прогнозные модели на объединенных данных, "не сдавая своих", и уважая законодательство.
1. Анонимизированные данные
Если по каждому примеру из отгружаемых данных будет невозможно понять, к кому конкретно они относятся, то вы, вроде бы, никого и не выдаете. Казалось бы, достаточно использовать какой-то свой, не имеющий особого смысла, идентификатор пользователя - можно просто номер пользователя в вашей выборке, можно что-то более хитрое, главное, чтобы ваш идентификатор нельзя было сопоставить с ID пользователя в той компании, которая "покупает" данные. Увы, на деле все не так просто. Во-первых, если нельзя сматчить айдишники, нельзя дополнить данные по пользователям. Значит максимум, что вся эта затея даст, это дополнение обучающей выборки для алгоритмов примерами за пределами клиентской базы. Другая важная проблема - это то, что часто пользователя можно деанонимизировать, даже не имея его ID. Например, если в датасете присутствуют данные о гео-локации, то набор точек и моментов времени, в которые пользователь находился в них, уже сам по себе хороший ID. Все это приводит к тому, что передача третьей стороне "анонимизированных данных" не слишком популярная концепция - больше рисков и проблем, чем выгоды.
Продолжение - в среду
👍9🔥2
Внезапно мне прислали скрин, где под последним моим постом в канале показывает какую-то дикую рекламу из разряда «мы научим вас шортить». Оказалось, это та самая монетизация tg рекламой, добавленная в телеграм недавно, и которую пока никак нельзя отключить в своём канале.
Будьте бдительны - если под новым постом в моем канале нет кнопки с комментариями, это не пост, а реклама, к которой я не имею никакого отношения. Ну и если пост уложился в 10-20 слов в один абзац - это тоже точно не я)
Будьте бдительны - если под новым постом в моем канале нет кнопки с комментариями, это не пост, а реклама, к которой я не имею никакого отношения. Ну и если пост уложился в 10-20 слов в один абзац - это тоже точно не я)
👍12
2. Синтетические данные
Подход с анонимизацией можно развить: давайте на имеющихся у нас данных научим какую-то модель машинного обучения (например, нейросетку) генерировать новые данные, похожие на настоящие. Верхнеуровнево это работает так: каждый пример из реальных данных рассматривается как набор чисел из некоторого распределения, на известных данных вы восстанавливаете распределение, а потом из него же генерируете новые примеры. Не во всех подходах вы восстанавливаете распределение в явном виде, но главное, что вы можете генерировать синтетические примеры. Если реальных людей, к которым относятся эти данные, просто не существует, то невозможно и выдать чьи-то секреты. Но, к сожалению, есть в машинном обучении явление переобучения. Если ваша модель оверфитнется на данные, то в синтетических примерах могут появляться в точности примеры из исходной выборки. Неприятный риск, неправда ли? Впрочем, это относительно контролируемый риск, т.к. всегда можно проверить, возникла такая проблема или нет, да и несложно явно вычистить какие-то примеры из данных, слишком уж близкие к настоящим. Но остается та же проблема, что и в прошлом подходе - такие данные полезны только для пополнения обучающей выборки. Распространена практика выкладывать синтетические данные в качестве обучающей и тестовой выборки, когда вы устраиваете публичное соревнование по машинному обучению - тогда точно никто не деанонимизирует данные (а подобных скандалов на реальных данных из соревнований было достаточно много).
3. Скоры вместо данных
Элегантный способ решения проблемы - не отдавать данные. Например, вместо данных можно использовать прогнозы каких-то ML моделек. Есть у вас модельки для кредитного скоринга и рекламных интересов? Чем их прогнозы не подойдут в качестве признаков клиента. Они тоже его как-то описывают и на них тоже можно обучаться. Да даже если вы как-то прогнозируете возраст по поведению человека в сервисе - это уже не достоверно известный возраст, а модельный. Отгружая прогнозы по клиентам вы не выдаете никакой доподлинно известной информации. Главное, опять же, контролировать переобучение.
Завершающий пост - в эту пятницу
Подход с анонимизацией можно развить: давайте на имеющихся у нас данных научим какую-то модель машинного обучения (например, нейросетку) генерировать новые данные, похожие на настоящие. Верхнеуровнево это работает так: каждый пример из реальных данных рассматривается как набор чисел из некоторого распределения, на известных данных вы восстанавливаете распределение, а потом из него же генерируете новые примеры. Не во всех подходах вы восстанавливаете распределение в явном виде, но главное, что вы можете генерировать синтетические примеры. Если реальных людей, к которым относятся эти данные, просто не существует, то невозможно и выдать чьи-то секреты. Но, к сожалению, есть в машинном обучении явление переобучения. Если ваша модель оверфитнется на данные, то в синтетических примерах могут появляться в точности примеры из исходной выборки. Неприятный риск, неправда ли? Впрочем, это относительно контролируемый риск, т.к. всегда можно проверить, возникла такая проблема или нет, да и несложно явно вычистить какие-то примеры из данных, слишком уж близкие к настоящим. Но остается та же проблема, что и в прошлом подходе - такие данные полезны только для пополнения обучающей выборки. Распространена практика выкладывать синтетические данные в качестве обучающей и тестовой выборки, когда вы устраиваете публичное соревнование по машинному обучению - тогда точно никто не деанонимизирует данные (а подобных скандалов на реальных данных из соревнований было достаточно много).
3. Скоры вместо данных
Элегантный способ решения проблемы - не отдавать данные. Например, вместо данных можно использовать прогнозы каких-то ML моделек. Есть у вас модельки для кредитного скоринга и рекламных интересов? Чем их прогнозы не подойдут в качестве признаков клиента. Они тоже его как-то описывают и на них тоже можно обучаться. Да даже если вы как-то прогнозируете возраст по поведению человека в сервисе - это уже не достоверно известный возраст, а модельный. Отгружая прогнозы по клиентам вы не выдаете никакой доподлинно известной информации. Главное, опять же, контролировать переобучение.
Завершающий пост - в эту пятницу
👍19
4. Эмбеддинги
Эмбеддинг - это представление примера из выборки в качестве неинтерпретируемого человеком вектора чисел, при этом понятного для методов машинного обучения. При построении эмбеддингов традиционно требования неинтерпретируемости не было - была только задача описать данные максимально компактно и при этом полезно для алгоритмов. Неинтерпретируемость досталась нам "бесплатно": оказалось, что машинному обучению нужно не то же самое, что человеку, нет необходимости притягивать данные к какому-то жизненному опыту и понимать, что "вот это число это возраст, а здесь у нас записан пол, а здесь финансовое положение". На основе эмбеддинга часто можно восстановить исходные данные, но с погрешностью. Эта неточность, однако, не портит или не сильно портит жизнь прогнозным моделям. Говоря о том, насколько опасно обмениваться эмбеддингами, можно заметить, что эмбеддинг из 100 чисел это, считай, те же 100 скоров. Так что подход похож на предыдущий, только теряется интерпретируемость, но может возрастать полезность данных, если эмбеддинги строятся специально под какие-то задачи.
5. Конфиденциальные вычисления
При наличии надежной третьей стороны, возможен следующий подход: третья сторона создает решение, позволяющее записать ваши данные и данные компании-партнера в некоторой защищенной области. При этом доступ к этой области обеспечивается так, что вы не можете посмотреть на сами данные, но сможете обучить на них свои модели. Примером конкретного такого решения может служить Intel SGX, позволяющий "создавать области в виртуальном адресном пространстве, защищённые от чтения и записи извне этой области другими процессами", как емко сообщает нам статья на вики.
6. Федеративное обучение
Но, в конце-концов, зачем вам передавать сами данные, чтобы построить модель? Передавайте модель (параметры модели, настраиваемые при обучении). Обучив модель на своих данных, вы можете свободно передавать владельцам других данных параметры самой модели, а они могут передавать параметры модели, обученной на их данных, вам. Простейшая такая схема - обучить модель у себя, передать модель партнерам и забрать уже доученную на их данных. Но в целом подход более общий, а детали реализации могут немного отличаться. Например, вы можете делать обучение модели в некоторой общей песочнице, которая умеет обращаться к данным нескольких сторон, получая значения текущих ошибок моделей, но не получая сами данные. Общая концепция федеративного обучения в том, что фактического обмена данными не происходит, но модель при обучении использует данные всех участвующих сторон.
Если как-то сравнивать все эти подходы, то наиболее жизнеспособные и перспективные, на мой взгляд, последние четыре. Они приведены исходя из моей субъективной оценки "возрастания секьюрности". Но всегда нужно помнить, что как бы секьюрно вы ни обменивались данными с компанией-партнером, какие-то данные нельзя передавать даже в преобразованном и как угодно зашифрованном виде. Например, в телекоме закон о тайне связи категорически запрещает любые манипуляции с содержанием звонков или сообщений между клиентами, и основывать на этом работу моделей недопустимо не только с моральной точки зрения, но и с точки зрения российского законодательства (а за соблюдением следят соответствующие органы). Деятельность банков и медучреждений в вопросах данных тоже регулируется. Свободней всего себя чувствуют интернет-компании: пока что любые их действия с данными ограничиваются только законом о персональных данных, здравым смыслом и заботой о своей репутации. Но посмотрим, как ситуация изменится через 10-15 лет.
Эмбеддинг - это представление примера из выборки в качестве неинтерпретируемого человеком вектора чисел, при этом понятного для методов машинного обучения. При построении эмбеддингов традиционно требования неинтерпретируемости не было - была только задача описать данные максимально компактно и при этом полезно для алгоритмов. Неинтерпретируемость досталась нам "бесплатно": оказалось, что машинному обучению нужно не то же самое, что человеку, нет необходимости притягивать данные к какому-то жизненному опыту и понимать, что "вот это число это возраст, а здесь у нас записан пол, а здесь финансовое положение". На основе эмбеддинга часто можно восстановить исходные данные, но с погрешностью. Эта неточность, однако, не портит или не сильно портит жизнь прогнозным моделям. Говоря о том, насколько опасно обмениваться эмбеддингами, можно заметить, что эмбеддинг из 100 чисел это, считай, те же 100 скоров. Так что подход похож на предыдущий, только теряется интерпретируемость, но может возрастать полезность данных, если эмбеддинги строятся специально под какие-то задачи.
5. Конфиденциальные вычисления
При наличии надежной третьей стороны, возможен следующий подход: третья сторона создает решение, позволяющее записать ваши данные и данные компании-партнера в некоторой защищенной области. При этом доступ к этой области обеспечивается так, что вы не можете посмотреть на сами данные, но сможете обучить на них свои модели. Примером конкретного такого решения может служить Intel SGX, позволяющий "создавать области в виртуальном адресном пространстве, защищённые от чтения и записи извне этой области другими процессами", как емко сообщает нам статья на вики.
6. Федеративное обучение
Но, в конце-концов, зачем вам передавать сами данные, чтобы построить модель? Передавайте модель (параметры модели, настраиваемые при обучении). Обучив модель на своих данных, вы можете свободно передавать владельцам других данных параметры самой модели, а они могут передавать параметры модели, обученной на их данных, вам. Простейшая такая схема - обучить модель у себя, передать модель партнерам и забрать уже доученную на их данных. Но в целом подход более общий, а детали реализации могут немного отличаться. Например, вы можете делать обучение модели в некоторой общей песочнице, которая умеет обращаться к данным нескольких сторон, получая значения текущих ошибок моделей, но не получая сами данные. Общая концепция федеративного обучения в том, что фактического обмена данными не происходит, но модель при обучении использует данные всех участвующих сторон.
Если как-то сравнивать все эти подходы, то наиболее жизнеспособные и перспективные, на мой взгляд, последние четыре. Они приведены исходя из моей субъективной оценки "возрастания секьюрности". Но всегда нужно помнить, что как бы секьюрно вы ни обменивались данными с компанией-партнером, какие-то данные нельзя передавать даже в преобразованном и как угодно зашифрованном виде. Например, в телекоме закон о тайне связи категорически запрещает любые манипуляции с содержанием звонков или сообщений между клиентами, и основывать на этом работу моделей недопустимо не только с моральной точки зрения, но и с точки зрения российского законодательства (а за соблюдением следят соответствующие органы). Деятельность банков и медучреждений в вопросах данных тоже регулируется. Свободней всего себя чувствуют интернет-компании: пока что любые их действия с данными ограничиваются только законом о персональных данных, здравым смыслом и заботой о своей репутации. Но посмотрим, как ситуация изменится через 10-15 лет.
👍31
Тема следующего поста
Anonymous Poll
42%
Как таргетируется реклама и подслушивают ли нас
43%
Какие сервисы умрут без динамического ценообразования с помощью ML
21%
Что полезного даёт рынок кредитных скорингов обычным людям или чем хорошо, если вас посчитали
48%
Почему рекомендательные системы не часто приносят компаниям миллиарды, как это исправить и надо ли
Что не так с попыткой заработать денег с помощью рекомендательной системы
Допустим, у вас есть интернет-магазин, и на странице товара вы показываете несколько похожих или сопутствующих товаров. Например, можете показывать другие товары из той же категории или популярные. И тут вам приходит в голову персонализировать эти предложения.
Внедрив персональные рекомендации с помощью ML, вы смотрите статистику по кликам и покупкам и замечаете, что через клик на рекомендательный блок товары начали покупать вдвое чаще. Ура, вы поднимаете конверсию в покупку вдвое, теперь заработаете вдвое больше денег. Или нет? Вот, увы, нет.
Во-первых, конверсия с блока рекомендаций и конверсия с захода на сайт в покупку - не одно и то же. Например, если 80% трафика у вас идёт через каталог и игнорирует рекомендации, а 20% пользуется рекомендациями, то увеличение конверсии блока может быть связано, например, с тем, что вы обслуживаете им все те же 20% клиентов, просто более результативно. На практике конечно чем лучше рекомендации, тем больше клиентов вовлекаются в их использование в принципе, но это приводит нас к следующему тезису.
Вторая проблема - тот факт, что люди покупают товар с помощью рекомендаций, ещё не значит, что не купили бы без них. Возможно, они итак бы нашли товар через поиск и навигацию по каталогу, но рекомендации каннибализировали трафик с других элементов интерфейса, т.к. пользователю стало просто удобнее кликать по ним. В чем боль? В том, что рекомендации вроде бы и полезны, но не обязательно создают дополнительные продажи.
Как же тогда понять пользу от рекомендаций? Сделайте А/В тест, в одной группе показывайте новые рекомендации, в другой группе старые неперсонализированные, оцените статзначимость различий в выручке с пользователя или конверсиях с захода на сайт в покупку.
Скорее всего, вас ждёт два грустных открытия:
1) чтобы данных за несколько недель хватало для статзначимости, ваш магазин должен быть Озоном, Яндекс.Маркетом или Wildberries, а гонять тесты дольше при каждой доработке рекомендаций - не рабочая история,
2) конверсию в покупку вы в лучшем случае увеличиваете на несколько процентов, а деньги вовсе не значимы (точнее, не статзначимы).
Итог: миллионные и миллиардные эффекты от рекомендательных систем можно насчитать только в формате «на сколько напродавали с использованием рекомендаций», но не в формате «сколько заработанных денег мы бы недополучили без рекомендаций».
В следующих частях - что люди придумывали, чтобы заставить рекомендательные системы приносить деньги, и что делать, чтобы правда заработать на рекомендациях
Допустим, у вас есть интернет-магазин, и на странице товара вы показываете несколько похожих или сопутствующих товаров. Например, можете показывать другие товары из той же категории или популярные. И тут вам приходит в голову персонализировать эти предложения.
Внедрив персональные рекомендации с помощью ML, вы смотрите статистику по кликам и покупкам и замечаете, что через клик на рекомендательный блок товары начали покупать вдвое чаще. Ура, вы поднимаете конверсию в покупку вдвое, теперь заработаете вдвое больше денег. Или нет? Вот, увы, нет.
Во-первых, конверсия с блока рекомендаций и конверсия с захода на сайт в покупку - не одно и то же. Например, если 80% трафика у вас идёт через каталог и игнорирует рекомендации, а 20% пользуется рекомендациями, то увеличение конверсии блока может быть связано, например, с тем, что вы обслуживаете им все те же 20% клиентов, просто более результативно. На практике конечно чем лучше рекомендации, тем больше клиентов вовлекаются в их использование в принципе, но это приводит нас к следующему тезису.
Вторая проблема - тот факт, что люди покупают товар с помощью рекомендаций, ещё не значит, что не купили бы без них. Возможно, они итак бы нашли товар через поиск и навигацию по каталогу, но рекомендации каннибализировали трафик с других элементов интерфейса, т.к. пользователю стало просто удобнее кликать по ним. В чем боль? В том, что рекомендации вроде бы и полезны, но не обязательно создают дополнительные продажи.
Как же тогда понять пользу от рекомендаций? Сделайте А/В тест, в одной группе показывайте новые рекомендации, в другой группе старые неперсонализированные, оцените статзначимость различий в выручке с пользователя или конверсиях с захода на сайт в покупку.
Скорее всего, вас ждёт два грустных открытия:
1) чтобы данных за несколько недель хватало для статзначимости, ваш магазин должен быть Озоном, Яндекс.Маркетом или Wildberries, а гонять тесты дольше при каждой доработке рекомендаций - не рабочая история,
2) конверсию в покупку вы в лучшем случае увеличиваете на несколько процентов, а деньги вовсе не значимы (точнее, не статзначимы).
Итог: миллионные и миллиардные эффекты от рекомендательных систем можно насчитать только в формате «на сколько напродавали с использованием рекомендаций», но не в формате «сколько заработанных денег мы бы недополучили без рекомендаций».
В следующих частях - что люди придумывали, чтобы заставить рекомендательные системы приносить деньги, и что делать, чтобы правда заработать на рекомендациях
👍108🔥16
Сегодня Курсера объявила об отказе от контента русских преподавателей. К сожалению, наша с коллегами специализация «Машинное обучение и анализ данных», через которую с 2016 года прошло более 150 тысяч человек, через 90 дней станет недоступна даже для тех, кто ее уже проходит. Сейчас думаем, что с этим делать.
😢168🤬63❤14🤯8👍3
Сегодня у меня день рождения, 30 лет. Не в таких обстоятельствах я ожидал его встретить. События последнего месяца поставили под вопрос многие достижения и поменяли ценности и взгляд на жизнь. Так что о результатах и планах напишу когда-нибудь позже, когда это будет уместно.
Знаете, мне всегда нравилось вот это наше «выпью за твоё здоровье», странный такой ритуал, незримо связывающий людей в разных точках мира. Если вы хотите сделать что-то за мое здоровье в мой день рождения - пожертвуйте любую сумму, какую не жалко, в тот благотворительный проект, которому доверяете. На мой взгляд, лучше пусть сумма будет меньше, но на регулярной основе. Но смотрите сами, как вам удобно.
Лично я, благодаря Диме Волошину, который об этом много писал у себя в FB, очень тепло отношусь к Детским деревням SOS. Что они делают тут - https://sos-dd.ru/about/ , пожертвования тут - https://sos-dd.ru/help/payment/ . Помимо того, что эта организация делает очень хорошее дело, в ней работают замечательные, вежливые и добрые люди. Сейчас у многих благотворительных организаций резко упал уровень регулярных пожертвований из-за проблем в приеме карточек и отвалившихся подписок, поэтому ваша поддержка будет очень кстати.
Я не призываю переводить деньги именно тем, кто нравится мне. Сейчас, в общем-то, много кто нуждается в помощи. Просто найдите тех, кому вы доверяете, и действуйте. И давайте без фанатизма: жертвуйте так, чтобы это нисколько не ущемляло вас, последнюю рубашку снимать не надо - она вам понадобится, чтобы заработать и пожертвовать еще :)
Знаете, мне всегда нравилось вот это наше «выпью за твоё здоровье», странный такой ритуал, незримо связывающий людей в разных точках мира. Если вы хотите сделать что-то за мое здоровье в мой день рождения - пожертвуйте любую сумму, какую не жалко, в тот благотворительный проект, которому доверяете. На мой взгляд, лучше пусть сумма будет меньше, но на регулярной основе. Но смотрите сами, как вам удобно.
Лично я, благодаря Диме Волошину, который об этом много писал у себя в FB, очень тепло отношусь к Детским деревням SOS. Что они делают тут - https://sos-dd.ru/about/ , пожертвования тут - https://sos-dd.ru/help/payment/ . Помимо того, что эта организация делает очень хорошее дело, в ней работают замечательные, вежливые и добрые люди. Сейчас у многих благотворительных организаций резко упал уровень регулярных пожертвований из-за проблем в приеме карточек и отвалившихся подписок, поэтому ваша поддержка будет очень кстати.
Я не призываю переводить деньги именно тем, кто нравится мне. Сейчас, в общем-то, много кто нуждается в помощи. Просто найдите тех, кому вы доверяете, и действуйте. И давайте без фанатизма: жертвуйте так, чтобы это нисколько не ущемляло вас, последнюю рубашку снимать не надо - она вам понадобится, чтобы заработать и пожертвовать еще :)
❤143👍59🎉29🔥21👏4😁2👎1
24 марта в 18:00 мы в МТС проводим онлайн-митап для дата саентистов, дата инженеров и других дата гайз
Коллеги из МТС и ivi.ru расскажут про PU Learning и разберут принципы сортировки блоков с фильмами на главной странице IVI. После этого мы с Валерой Бабушкиным и Пашей Мягких устроим панельную дискуссию про использование Data Science в разных сферах бизнеса.
Участие, бесплатное, регистрируйтесь по ссылке:
https://mts-digital.timepad.ru/event/1962458/
Коллеги из МТС и ivi.ru расскажут про PU Learning и разберут принципы сортировки блоков с фильмами на главной странице IVI. После этого мы с Валерой Бабушкиным и Пашей Мягких устроим панельную дискуссию про использование Data Science в разных сферах бизнеса.
Участие, бесплатное, регистрируйтесь по ссылке:
https://mts-digital.timepad.ru/event/1962458/
mts-digital.timepad.ru
ML MEETUP МТС Big Data #2 / События на TimePad.ru
МТС проведет онлайн-митап для дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением
Все, кто так или иначе вовлечен в ML-проекты, неважно, в контексте обучения моделей, их деплоя, или построения ETL пайплайнов, найдут для себя…
Все, кто так или иначе вовлечен в ML-проекты, неважно, в контексте обучения моделей, их деплоя, или построения ETL пайплайнов, найдут для себя…
👍34🔥5❤2💩2🤯1
Последние несколько недель между теми кто работает в технологических сферах разговор начинается со слов «ты остаёшься или уезжаешь?». И тем и другим мне есть что порекомендовать.
Начнём с тех, кто уже уехал или серьезно настроился на переезд. Мой однокурсник (а также партнёр в Runa Capital и коллега по спискам Forbes) Костя Виноградов помогает с релокацией талантливым специалистам, достаточно заполнить небольшую форму по ссылке из поста. Обращаю внимание, что текст в форме и отдельные ее поля предполагают, что у кандидата четко выраженная позиция по сегодняшней политической повестке. Так уж получилось, что заграница ждёт в первую очередь людей с нужным майндсетом)
Напоминаю, что если вы не собираетесь уезжать, за этот майндсет вам может прилететь от осуждения отдельных сограждан или дубинок на улице до 15 лет в соответствии с новыми законами. Так что будьте ответственны и выбирайте мудро, что, когда и зачем постить и говорить. Такова уж новая реальность.
Следующий пост будет про то, куда же теперь идти работать в нашей сфере, если вы остаётесь в стране. Вопрос и правда насущный, вот ребята из того же Ситимобила не дадут соврать.
Начнём с тех, кто уже уехал или серьезно настроился на переезд. Мой однокурсник (а также партнёр в Runa Capital и коллега по спискам Forbes) Костя Виноградов помогает с релокацией талантливым специалистам, достаточно заполнить небольшую форму по ссылке из поста. Обращаю внимание, что текст в форме и отдельные ее поля предполагают, что у кандидата четко выраженная позиция по сегодняшней политической повестке. Так уж получилось, что заграница ждёт в первую очередь людей с нужным майндсетом)
Напоминаю, что если вы не собираетесь уезжать, за этот майндсет вам может прилететь от осуждения отдельных сограждан или дубинок на улице до 15 лет в соответствии с новыми законами. Так что будьте ответственны и выбирайте мудро, что, когда и зачем постить и говорить. Такова уж новая реальность.
Следующий пост будет про то, куда же теперь идти работать в нашей сфере, если вы остаётесь в стране. Вопрос и правда насущный, вот ребята из того же Ситимобила не дадут соврать.
👍44😢15👎1😁1
Forwarded from 💡 KV
RELOCATION NOW 🧠🛫
Большое число талантливых людей из Украины, России и Беларуси сейчас мигрируют в другие страны и срочно ищут работу. Я вместе с другими VC-инвесторами, founders & executives из технологических компаний решили помочь им не словом, а делом.
Мы запустили private tech talent pool для людей, которые срочно ищут работу в европейской технологической индустрии. К базе кандидатов имеют доступ только рекрутеры и менеджеры глобальных компаний, которые активно нанимают tech talents и помогают с релокацией.
Сейчас ваше резюме уже ждут топовые компании из UK/EU. Доступ к базе не предоставляется российских компаниям или людям, которые на наш взгляд могут быть аффилированы с российским государством.
Чтобы попасть в базу кандидатов зарегистрируйтесь по ссылке https://bit.ly/relocateme. И расскажите пожалуйста друзьям, для которых это может быть релевантно
Большое число талантливых людей из Украины, России и Беларуси сейчас мигрируют в другие страны и срочно ищут работу. Я вместе с другими VC-инвесторами, founders & executives из технологических компаний решили помочь им не словом, а делом.
Мы запустили private tech talent pool для людей, которые срочно ищут работу в европейской технологической индустрии. К базе кандидатов имеют доступ только рекрутеры и менеджеры глобальных компаний, которые активно нанимают tech talents и помогают с релокацией.
Сейчас ваше резюме уже ждут топовые компании из UK/EU. Доступ к базе не предоставляется российских компаниям или людям, которые на наш взгляд могут быть аффилированы с российским государством.
Чтобы попасть в базу кандидатов зарегистрируйтесь по ссылке https://bit.ly/relocateme. И расскажите пожалуйста друзьям, для которых это может быть релевантно
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
👍70👎40😁1
Итак, теперь поговорим о выборе места работы для тех, кто живет в России и планирует жить здесь и дальше.
1. Любые стабильные компании с сильным брендом - беспроигрышный вариант. Золотая тройка бигдаты - банки, ритейл, телеком - имеет своих понятных лидеров: Сбер/Альфа/Тинькофф (смотря чем мерять), X5/Магнит, МТС/Ростелеком. В e-commerce и классифайдах остается вариант пойти в Ozon или Avito. В случае прям совсем IT - VK и Яндекс, в зависимости от того, чьи продукты вам ближе к сердцу. Однако пойти развивать IT в изначально неайтишной компании теперь уже не настолько экстравагантная затея, как это было раньше. Те же люди, которые развивали продукты Яндекса и VK, уже давно разошлись по рынку и прокачивают IT во всех перечисленных сферах.
2. Тем, кто хочет чувствовать себя уверенно на работе, и менять ее пореже, я бы рекомендовал идти в компании-экосистемы (Сбер, Яндекс, МТС, VK). Выбирать, как и всегда, нужно комплексно по задачам, зарплате и бонусам, своей лояльности к бренду и карьерным перспективам. Логика в том, что в экосистемах есть опция переходов между разными бизнес-вертикалями, есть удержание ценных сотрудников внутри экосистемы, и в итоге вообще можно всю жизнь ходить по разным частям одной группы компаний. Это бывает удобно, знаю многих сильных специалистов, которые так делали и делают.
3. Разумеется, очень рекомендую идти к нам в бигдату МТС. Наш портфель проектов и продуктов затрагивает самый большой набор сфер бизнеса из всего, что я вижу сейчас в data-командах на рынке: как классический для МТС телеком, так и ритейл, финтех, медиасервисы и IoT. При этом направление Big Data было, остается и всегда будет стратегически важным, интересной работы у нас много, найм не останавливался и, более того, идёт еще активнее, чем раньше. Вот список вакансий Big Data МТС, который регулярно обновляется: https://job.mts.ru/vacancy?search=big%20data Откликайтесь, проходите собеседование и буду рад видеть вас в нашей команде. Другие предложения в МТС тоже можно найти по той же ссылке. Для одних только айтишников в МТС уже открылось более 500(!) дополнительных вакансий.
4. Что касается компаний, которые могут внезапно закрыться, живя в «стартапной» модели (собираем инвестиции, вливаем в развитие, про прибыльность пока не думаем), то если компания известная, спешить менять ее не обязательно. У тех же коллег из Ситимобила, которых я в шутку упомянул в прошлый раз, все довольно круто. У сильных специалистов уже очередь из желающих их нанять, главное чтобы накопления позволяли выбирать между офферами без спешки.
Ну и самое важное: помните, что если руки у вас растут из правильного места, язык подвешен и контакты есть, все у вас будет более-менее нормально. А если с чем-то из перечисленного у вас есть проблемы, прокачивайтесь и поможете себе в миллион раз больше, чем только лишь удачным выбором работодателя.
1. Любые стабильные компании с сильным брендом - беспроигрышный вариант. Золотая тройка бигдаты - банки, ритейл, телеком - имеет своих понятных лидеров: Сбер/Альфа/Тинькофф (смотря чем мерять), X5/Магнит, МТС/Ростелеком. В e-commerce и классифайдах остается вариант пойти в Ozon или Avito. В случае прям совсем IT - VK и Яндекс, в зависимости от того, чьи продукты вам ближе к сердцу. Однако пойти развивать IT в изначально неайтишной компании теперь уже не настолько экстравагантная затея, как это было раньше. Те же люди, которые развивали продукты Яндекса и VK, уже давно разошлись по рынку и прокачивают IT во всех перечисленных сферах.
2. Тем, кто хочет чувствовать себя уверенно на работе, и менять ее пореже, я бы рекомендовал идти в компании-экосистемы (Сбер, Яндекс, МТС, VK). Выбирать, как и всегда, нужно комплексно по задачам, зарплате и бонусам, своей лояльности к бренду и карьерным перспективам. Логика в том, что в экосистемах есть опция переходов между разными бизнес-вертикалями, есть удержание ценных сотрудников внутри экосистемы, и в итоге вообще можно всю жизнь ходить по разным частям одной группы компаний. Это бывает удобно, знаю многих сильных специалистов, которые так делали и делают.
3. Разумеется, очень рекомендую идти к нам в бигдату МТС. Наш портфель проектов и продуктов затрагивает самый большой набор сфер бизнеса из всего, что я вижу сейчас в data-командах на рынке: как классический для МТС телеком, так и ритейл, финтех, медиасервисы и IoT. При этом направление Big Data было, остается и всегда будет стратегически важным, интересной работы у нас много, найм не останавливался и, более того, идёт еще активнее, чем раньше. Вот список вакансий Big Data МТС, который регулярно обновляется: https://job.mts.ru/vacancy?search=big%20data Откликайтесь, проходите собеседование и буду рад видеть вас в нашей команде. Другие предложения в МТС тоже можно найти по той же ссылке. Для одних только айтишников в МТС уже открылось более 500(!) дополнительных вакансий.
4. Что касается компаний, которые могут внезапно закрыться, живя в «стартапной» модели (собираем инвестиции, вливаем в развитие, про прибыльность пока не думаем), то если компания известная, спешить менять ее не обязательно. У тех же коллег из Ситимобила, которых я в шутку упомянул в прошлый раз, все довольно круто. У сильных специалистов уже очередь из желающих их нанять, главное чтобы накопления позволяли выбирать между офферами без спешки.
Ну и самое важное: помните, что если руки у вас растут из правильного места, язык подвешен и контакты есть, все у вас будет более-менее нормально. А если с чем-то из перечисленного у вас есть проблемы, прокачивайтесь и поможете себе в миллион раз больше, чем только лишь удачным выбором работодателя.
👍124👎21❤5🤔5
14 июня пройдёт онлайн-конференция DataStart. Я уже несколько лет поддерживаю этот проект, и продолжаю придерживаться этой традиции. Принимайте участие - https://clck.ru/p5774
- 2 трека, 16 часов докладов
- бесплатно
- талантливые спикеры-практики
Моя команда тоже участвует - в докладе Михаила Степнова будет рассказ про то, как Big Data MTS научилась по обрывочным кликстрим-данным восстанавливать характеристики посетителей сайтов. Приходите послушать :)
Также на конференции выступят:
Иван Оселедец (Сколтех), спикеры от Huawei, ВШЭ, EORA, Росатома и др.
📌 Встречаемся 14 июня - https://clck.ru/p5774 Трансляция будет бесплатной, но если вы хотите купить видеозаписи, то воспользуйтесь промокодом Kantor500
- 2 трека, 16 часов докладов
- бесплатно
- талантливые спикеры-практики
Моя команда тоже участвует - в докладе Михаила Степнова будет рассказ про то, как Big Data MTS научилась по обрывочным кликстрим-данным восстанавливать характеристики посетителей сайтов. Приходите послушать :)
Также на конференции выступят:
Иван Оселедец (Сколтех), спикеры от Huawei, ВШЭ, EORA, Росатома и др.
📌 Встречаемся 14 июня - https://clck.ru/p5774 Трансляция будет бесплатной, но если вы хотите купить видеозаписи, то воспользуйтесь промокодом Kantor500
👍24🔥13👎1
У ШАДа есть отличный коллективно написанный учебник по машинному обучению. Как раз недавно появился. В нем сочетается и довольно серьезное изложение того, как все работает (считаем, что читатель не боится математики), и рассказ про некоторые особенности применения этого всего на практике.
При этом сохраняется определенный уровень простоты изложения: для большинства людей оно и правда будет выглядеть слишком математично, но на уровне физтеха/мехмата/вмк это конечно не математический курс, а легкая прогулка солнечным днем в городском парке с непринужденным обсуждением таблицы умножения. Что однако не умаляет полезности учебника, т.к. количество интегралов и наличие сигма-алгебр в тексте не заставляет алгоритмы работать лучше :)
Для меня было большим удовольствием написать для учебника ШАД главу про кластеризацию. Задача была непростой: написать очень кратко, рассказать про самые популярные методы, но при этом ответить на вопрос, где это все используется так, что применение кластеризации оправдано. Последнее особенно любопытный вопрос. Сделать кластеризацию просто так, «потому что могу» - дело не хитрое. А вот оправданных применений гораздо меньше, чем у классификации, регрессии или ранжирования.
Мне очень нравится то, что вышло в итоге. Для меня эта глава не просто конспект лекции, а настоящее искусство. Можно сказать, что я писал ее не только сейчас, но и десять лет до этого. Совершенно точно нужно сказать, что я писал свою главу с заботой и любовью к читателю - так, как я мог ее выразить. Кроме того, я писал такой текст, который я бы хотел прочитать 12 лет назад и сэкономить годы на понимание каких-то несложных, но важных вещей и сопоставление разных источников. Мой путь в машинном обучении тоже начался с unsupervised learning, и мне было важно рассказать про кластеризацию так, чтобы каждый смог насладиться красотой и сложностью этой задачи, получить конкретные знания и не испугаться их применять, но в то же время не попасть в обманчивое впечатление, что «все тут легко решается». Я надеюсь, что у меня получилось)
Вот ссылка на главу, с той же страницы можно перейти на список всех глав: https://ml-handbook.ru/chapters/clustering/intro
Большое спасибо Стасу Федотову, что позвал поучаствовать не только на этапе обсуждения содержания учебника и составления итогового списка глав, но и в написании конкретной главы. Также спасибо Насте Павловской за обсуждения плана моей главы и добросовестное допинывание меня до осуществления задумки. Стас, Настя, вы супер :)
При этом сохраняется определенный уровень простоты изложения: для большинства людей оно и правда будет выглядеть слишком математично, но на уровне физтеха/мехмата/вмк это конечно не математический курс, а легкая прогулка солнечным днем в городском парке с непринужденным обсуждением таблицы умножения. Что однако не умаляет полезности учебника, т.к. количество интегралов и наличие сигма-алгебр в тексте не заставляет алгоритмы работать лучше :)
Для меня было большим удовольствием написать для учебника ШАД главу про кластеризацию. Задача была непростой: написать очень кратко, рассказать про самые популярные методы, но при этом ответить на вопрос, где это все используется так, что применение кластеризации оправдано. Последнее особенно любопытный вопрос. Сделать кластеризацию просто так, «потому что могу» - дело не хитрое. А вот оправданных применений гораздо меньше, чем у классификации, регрессии или ранжирования.
Мне очень нравится то, что вышло в итоге. Для меня эта глава не просто конспект лекции, а настоящее искусство. Можно сказать, что я писал ее не только сейчас, но и десять лет до этого. Совершенно точно нужно сказать, что я писал свою главу с заботой и любовью к читателю - так, как я мог ее выразить. Кроме того, я писал такой текст, который я бы хотел прочитать 12 лет назад и сэкономить годы на понимание каких-то несложных, но важных вещей и сопоставление разных источников. Мой путь в машинном обучении тоже начался с unsupervised learning, и мне было важно рассказать про кластеризацию так, чтобы каждый смог насладиться красотой и сложностью этой задачи, получить конкретные знания и не испугаться их применять, но в то же время не попасть в обманчивое впечатление, что «все тут легко решается». Я надеюсь, что у меня получилось)
Вот ссылка на главу, с той же страницы можно перейти на список всех глав: https://ml-handbook.ru/chapters/clustering/intro
Большое спасибо Стасу Федотову, что позвал поучаствовать не только на этапе обсуждения содержания учебника и составления итогового списка глав, но и в написании конкретной главы. Также спасибо Насте Павловской за обсуждения плана моей главы и добросовестное допинывание меня до осуществления задумки. Стас, Настя, вы супер :)
👍170🔥60❤26🥰6👎1
В этот четверг проводим ML-митап с весьма уважаемыми в нашей сфере спикерами. Регистрируйтесь, должно быть интересно :)
Forwarded from Data Science | Machinelearning [ru]
Приглашаем на ML-митап Big Data МТС
Когда: 7 июля, 18.00
🧑💻 Расскажем, как автоматизировать качество данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.
⚡️ Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.
🤓 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com
Регистрация здесь.
Когда: 7 июля, 18.00
🧑💻 Расскажем, как автоматизировать качество данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.
⚡️ Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.
🤓 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com
Регистрация здесь.
mts-digital.timepad.ru
ML MEETUP MTS BIG DATA / События на TimePad.ru
МТС Big Data проведет четвертый онлайн-митап для дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением
👍20🔥5🤔3
Разговорились с коллегой на тему "насколько полезно брать кагглеров в продакшн ML?" (привет диалогам "нужны ли олимпиадники c ACM в продакшн разработке?"). И тут коллега мне и говорит: "Прикинь, есть такой молодой кагглер Aleron, так он статью на Хабре написал про математику в Data Science, и там не поиск экстремумов, не линал какой-нибудь, а вещи уровня что такое график функции".
Я сначала даже поддержал скептичные шуточки, но попросил ссылку прислать. Читаю - а автор сразу честно пишет, что это не то, что нужно, чтобы понять внутренности методов машинного обучения, а то, что периодически вылезает в простой ежедневной работе. И это прям нормальный честный ответ, что в DS пригодится с большой вероятностью.
Коллега мой справедливо заметил, что это все уровень девятого класса. А закончил он кстати отнюдь не математический факультет, так что отсылки к школе, а не к ВУЗу, вполне обоснованы. Но я вам оставлю тут ссылку, и кто хочет в Data Science, может пролистать: https://habr.com/ru/company/ruvds/blog/676114/ . Aleron'у и моему коллеге привет, статья на мой взгляд всё же хорошая, т.к. рассказывает, без чего будешь в DS ну совсем тупым копи-пейстером. Это, знаете ли, тоже полезная отсечка, чтобы о ней что-то написать.
Я сначала даже поддержал скептичные шуточки, но попросил ссылку прислать. Читаю - а автор сразу честно пишет, что это не то, что нужно, чтобы понять внутренности методов машинного обучения, а то, что периодически вылезает в простой ежедневной работе. И это прям нормальный честный ответ, что в DS пригодится с большой вероятностью.
Коллега мой справедливо заметил, что это все уровень девятого класса. А закончил он кстати отнюдь не математический факультет, так что отсылки к школе, а не к ВУЗу, вполне обоснованы. Но я вам оставлю тут ссылку, и кто хочет в Data Science, может пролистать: https://habr.com/ru/company/ruvds/blog/676114/ . Aleron'у и моему коллеге привет, статья на мой взгляд всё же хорошая, т.к. рассказывает, без чего будешь в DS ну совсем тупым копи-пейстером. Это, знаете ли, тоже полезная отсечка, чтобы о ней что-то написать.
Хабр
В Data Science не нужна математика (Почти)
Привет, чемпион! Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат. В реальной повседневной работе Data...
👍92👎8🔥6🤔4❤3👏1