Forwarded from Data Science | Machinelearning [ru]
Приглашаем на ML-митап Big Data МТС
Когда: 7 июля, 18.00
🧑💻 Расскажем, как автоматизировать качество данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.
⚡️ Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.
🤓 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com
Регистрация здесь.
Когда: 7 июля, 18.00
🧑💻 Расскажем, как автоматизировать качество данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.
⚡️ Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.
🤓 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com
Регистрация здесь.
mts-digital.timepad.ru
ML MEETUP MTS BIG DATA / События на TimePad.ru
МТС Big Data проведет четвертый онлайн-митап для дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением
👍20🔥5🤔3
Разговорились с коллегой на тему "насколько полезно брать кагглеров в продакшн ML?" (привет диалогам "нужны ли олимпиадники c ACM в продакшн разработке?"). И тут коллега мне и говорит: "Прикинь, есть такой молодой кагглер Aleron, так он статью на Хабре написал про математику в Data Science, и там не поиск экстремумов, не линал какой-нибудь, а вещи уровня что такое график функции".
Я сначала даже поддержал скептичные шуточки, но попросил ссылку прислать. Читаю - а автор сразу честно пишет, что это не то, что нужно, чтобы понять внутренности методов машинного обучения, а то, что периодически вылезает в простой ежедневной работе. И это прям нормальный честный ответ, что в DS пригодится с большой вероятностью.
Коллега мой справедливо заметил, что это все уровень девятого класса. А закончил он кстати отнюдь не математический факультет, так что отсылки к школе, а не к ВУЗу, вполне обоснованы. Но я вам оставлю тут ссылку, и кто хочет в Data Science, может пролистать: https://habr.com/ru/company/ruvds/blog/676114/ . Aleron'у и моему коллеге привет, статья на мой взгляд всё же хорошая, т.к. рассказывает, без чего будешь в DS ну совсем тупым копи-пейстером. Это, знаете ли, тоже полезная отсечка, чтобы о ней что-то написать.
Я сначала даже поддержал скептичные шуточки, но попросил ссылку прислать. Читаю - а автор сразу честно пишет, что это не то, что нужно, чтобы понять внутренности методов машинного обучения, а то, что периодически вылезает в простой ежедневной работе. И это прям нормальный честный ответ, что в DS пригодится с большой вероятностью.
Коллега мой справедливо заметил, что это все уровень девятого класса. А закончил он кстати отнюдь не математический факультет, так что отсылки к школе, а не к ВУЗу, вполне обоснованы. Но я вам оставлю тут ссылку, и кто хочет в Data Science, может пролистать: https://habr.com/ru/company/ruvds/blog/676114/ . Aleron'у и моему коллеге привет, статья на мой взгляд всё же хорошая, т.к. рассказывает, без чего будешь в DS ну совсем тупым копи-пейстером. Это, знаете ли, тоже полезная отсечка, чтобы о ней что-то написать.
Хабр
В Data Science не нужна математика (Почти)
Привет, чемпион! Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат. В реальной повседневной работе Data...
👍92👎8🔥6🤔4❤3👏1
Два года CDO (часть 1)
Подходят к концу первые два года моей работы в топ менеджменте МТС директором Big Data (сначала как ВрИО, а потом и в полной мере официально).
Вместе со мной вызов трансформировать Big Data МТС приняло много хороших людей - и по-человечески, и в экспертном плане. И я говорю как про новых сотрудников, пришедших к нам из Озона, Яндекса, Тинькофф, Сбера, X5 и других компаний, тоже сильных в работе с данными, так и про тех, кто уже годами работал в МТС, но охотно вовлекся в движ.
Благодаря увлеченности, упорству и, несомненно, таланту команды, удалось достичь многого, что казалось маловероятным в 2020 и даже в 2021 году. Сейчас у нас есть первая статья на топ-1 в мире конференции по рекомендательным системам RecSys (пока в воркшопах, конечно, но начало положено), есть свои open source либы, про которые я еще напишу подробнее, есть регулярная работа с сообществом в виде организации своих митапов и активного участия в чужих, есть своя школа аналитиков данных в проекте МТС Тета. Очень важно, что все эти вещи достигнуты не вместо коммерческих целей бизнеса, а вместе с ними. Почему иначе бы не полетело - в следующем посте.
Подходят к концу первые два года моей работы в топ менеджменте МТС директором Big Data (сначала как ВрИО, а потом и в полной мере официально).
Вместе со мной вызов трансформировать Big Data МТС приняло много хороших людей - и по-человечески, и в экспертном плане. И я говорю как про новых сотрудников, пришедших к нам из Озона, Яндекса, Тинькофф, Сбера, X5 и других компаний, тоже сильных в работе с данными, так и про тех, кто уже годами работал в МТС, но охотно вовлекся в движ.
Благодаря увлеченности, упорству и, несомненно, таланту команды, удалось достичь многого, что казалось маловероятным в 2020 и даже в 2021 году. Сейчас у нас есть первая статья на топ-1 в мире конференции по рекомендательным системам RecSys (пока в воркшопах, конечно, но начало положено), есть свои open source либы, про которые я еще напишу подробнее, есть регулярная работа с сообществом в виде организации своих митапов и активного участия в чужих, есть своя школа аналитиков данных в проекте МТС Тета. Очень важно, что все эти вещи достигнуты не вместо коммерческих целей бизнеса, а вместе с ними. Почему иначе бы не полетело - в следующем посте.
👍133🔥57🤔8🤩2
Два года CDO (часть 2)
Почему раньше не было перечисленных в прошлом посте вещей? Очень просто, купите акций МТС и получите хотя бы раз дивиденды по ним. Тёплое приятное чувство, которое разольётся по телу, это чувство владения долей в компании, которая делится со своими акционерами. Компаний, которые размером и стабильностью дивидендов также привлекательны, как МТС, на рынке не так уж много.
Однако за этим стоит очень непростая работа. Когда в других местах работы у меня был безлимит штатных единиц на найм «ввиду активного роста бизнеса», в МТС любое увеличение численности должно сопровождаться подсчетом экономики и обоснованием того, что компания заработает ощутимо больше, чем потратит. Это же приводит к тому, что, например, любой Data Science проект в итоге оценивается здесь не ROC-AUC, а экономическим эффектом. Тому, кто возразит, что хвалить такие вещи - это стокгольмский синдром, я скажу еще раз: купите акции, получите разок дивиденды, всё почувствуете.
При этом возникает неловкий момент: какой же тогда опенсорс, какие статьи и митапы, если все должно принести денег? Вот в этом и была тонкость моей работы и работы многих других руководителей в моем подразделении. Нужно было вплести вещи, работающие на репутацию команды и на развитие среды, в конкретные полезные бизнесу планы.
Как мы это делали - в части 3
Почему раньше не было перечисленных в прошлом посте вещей? Очень просто, купите акций МТС и получите хотя бы раз дивиденды по ним. Тёплое приятное чувство, которое разольётся по телу, это чувство владения долей в компании, которая делится со своими акционерами. Компаний, которые размером и стабильностью дивидендов также привлекательны, как МТС, на рынке не так уж много.
Однако за этим стоит очень непростая работа. Когда в других местах работы у меня был безлимит штатных единиц на найм «ввиду активного роста бизнеса», в МТС любое увеличение численности должно сопровождаться подсчетом экономики и обоснованием того, что компания заработает ощутимо больше, чем потратит. Это же приводит к тому, что, например, любой Data Science проект в итоге оценивается здесь не ROC-AUC, а экономическим эффектом. Тому, кто возразит, что хвалить такие вещи - это стокгольмский синдром, я скажу еще раз: купите акции, получите разок дивиденды, всё почувствуете.
При этом возникает неловкий момент: какой же тогда опенсорс, какие статьи и митапы, если все должно принести денег? Вот в этом и была тонкость моей работы и работы многих других руководителей в моем подразделении. Нужно было вплести вещи, работающие на репутацию команды и на развитие среды, в конкретные полезные бизнесу планы.
Как мы это делали - в части 3
👍72🤔30🔥19❤2🤯1
Два года CDO (часть 3)
В прошлый раз мы закончили на том, что технологические цели неплохо бы увязывать с пользой для бизнеса, и пора рассказать, как мы это делали.
Во-первых, мы выделили ряд платформ, которые могут сильно снизить Time2Market бизнесовых применений анализа данных. Это рекомендательная платформа, скоринговая, MLOps и DataOps платформы. Первые две уже вовсю используются для бизнесов МТС, а скоринговая - ещё и для работы с внешними заказчиками. В этих платформах есть определенные части, которые можно и нужно опенсорсить, я еще расскажу об этом подробнее. Также нужно иметь ввиду, что «платформа» - это сейчас слово-паразит, проникшее в стратегии многих компаний, и значить оно может разное. В нашем случае речь про набор применяемых техническими специалистами инструментов, разработанных для удобного использования вместе и существенного ускорения работы. Например, чтобы рекомендательную систему для нового сервиса можно было сделать командой из двух человек за пару недель, а не из 5-10 за полгода.
Во-вторых, мы не поддались искушению полностью упороться в развитие инфраструктуры, перекинув все силы с зарабатывания денег здесь и сейчас. На секундочку, KPI у многих членов команды завязаны на деньги, но ничего не стоило эту зависимость убрать и переиграть всё в чистое IT, бизнес очень даже открыт к экспериментам.
В итоге, уже в первый же год мы без увеличения общей численности команды удвоили (!) экономические эффекты от Big Data для бизнеса. И это при том, что мы параллельно вели разработку платформ, которые, разумеется, не дают свой эффект сразу. Помогла просто грамотная приоритизация задач и работа с командой. Многие провалы в прошлом были связаны с тем, что в нужном месте не оказывался нужный человек, и зная, «кто что потянет», можно сильно улучшить ситуацию.
Сейчас мы активно работаем над MLOps и DataOps платформами (многое уже есть, но работы тоже хватает), а также вовсю дальше внедряем рекомендательную и скоринговую. Причём скоринговая это не только про классические рисковые скоры, но и вообще про любые скоры или прогнозы на клиенте для задач бизнеса (будь то антифрод, отток или еще что-то). В октябре будут первые сравнения нашей рекомендательной платформы с рекомендациями от других вендоров, которые занимаются RecSys годами. Выиграем или нет - покажет эксперимент, но даже если нет, через год уже точно выиграем :)
В прошлый раз мы закончили на том, что технологические цели неплохо бы увязывать с пользой для бизнеса, и пора рассказать, как мы это делали.
Во-первых, мы выделили ряд платформ, которые могут сильно снизить Time2Market бизнесовых применений анализа данных. Это рекомендательная платформа, скоринговая, MLOps и DataOps платформы. Первые две уже вовсю используются для бизнесов МТС, а скоринговая - ещё и для работы с внешними заказчиками. В этих платформах есть определенные части, которые можно и нужно опенсорсить, я еще расскажу об этом подробнее. Также нужно иметь ввиду, что «платформа» - это сейчас слово-паразит, проникшее в стратегии многих компаний, и значить оно может разное. В нашем случае речь про набор применяемых техническими специалистами инструментов, разработанных для удобного использования вместе и существенного ускорения работы. Например, чтобы рекомендательную систему для нового сервиса можно было сделать командой из двух человек за пару недель, а не из 5-10 за полгода.
Во-вторых, мы не поддались искушению полностью упороться в развитие инфраструктуры, перекинув все силы с зарабатывания денег здесь и сейчас. На секундочку, KPI у многих членов команды завязаны на деньги, но ничего не стоило эту зависимость убрать и переиграть всё в чистое IT, бизнес очень даже открыт к экспериментам.
В итоге, уже в первый же год мы без увеличения общей численности команды удвоили (!) экономические эффекты от Big Data для бизнеса. И это при том, что мы параллельно вели разработку платформ, которые, разумеется, не дают свой эффект сразу. Помогла просто грамотная приоритизация задач и работа с командой. Многие провалы в прошлом были связаны с тем, что в нужном месте не оказывался нужный человек, и зная, «кто что потянет», можно сильно улучшить ситуацию.
Сейчас мы активно работаем над MLOps и DataOps платформами (многое уже есть, но работы тоже хватает), а также вовсю дальше внедряем рекомендательную и скоринговую. Причём скоринговая это не только про классические рисковые скоры, но и вообще про любые скоры или прогнозы на клиенте для задач бизнеса (будь то антифрод, отток или еще что-то). В октябре будут первые сравнения нашей рекомендательной платформы с рекомендациями от других вендоров, которые занимаются RecSys годами. Выиграем или нет - покажет эксперимент, но даже если нет, через год уже точно выиграем :)
🔥61👍20❤7🤔5👏3
В прошлом году я летал на Data Driven Top 100 к Жене, и это был наверно самый крутой опыт конференции по аналитике на моей памяти. Не было скучных «программных» докладов, было нормальное общение вменяемых людей. Учитывая, что все участники топы аналитики различных компаний, в том числе очень крупных, обсудить там реально можно всё. Важен и психотерапевтический эффект - когда видишь других людей с теми же болями, как-то легче с ними справляться и искать решения. Ну и, конечно, важно, что Женя не просто очередной организатор конфы по горячей теме без понимания контекста, а человек, который сделал огромное количество крутых аналитических штук в Яндексе и реально круто шарит. Очень рекомендую и Женю, и его конфу :)
❤11😁3👍2🤩1
Forwarded from Секрет лапшичного супа
В прошлом году мы провели первый экспериментальный Data Driven Top100 — конференцию для топов аналитики и руководителей продуктов, которые построены на данных (поиск, диспатч, риски и прочее).
Нашим главным вызовом было придумать формат, который будет полезен опытным руководителям аналитики. И, судя по отзывам участников прошлого года, у нас получилось!
В этом году мы повторяем мероприятие. Оно пройдет в начале октября в Турции. Приходится выбираться за пределы страны, чтобы могли приехать ребята, которые живут и работают не в России. Без них русскоязычный топ не выйдет.
Состав участников #ddtop100 — это моя персональная гордость. Ребята невероятно крутые как в профессиональном плане, так и в личностном. Пока это в основном люди, до которых я смог дотянуться через одно-два рукопожатия своего круга знакомств. Мне очень хотелось бы расширить этот круг, тем более что сейчас он перекошен в айтишную сферу. Я уверен, что есть множество крутых ребят в традиционно оффлайновых отраслях: образовании, здравоохранении, призводстве, фармацевтике, логистике, авиаперевозках, госуправлении и т. д. А менеджерские проблемы, которые мы обсуждаем на конференции, как показывает опыт, очень близки вне зависимости от индустрии.
Я буду благодарен, если вы расскажете своим знакомым топам аналитики о нашей конференции. Или просто дайте мне о них знать — а я сам с ними свяжусь) @eugenekozlov
Ниже я прикладываю список участников этого года и их статусы на сегодня. В этом году наша площадка сможет вместить максимум 60 участников, так что мест осталось немного. Думаю, с учетом того, что часть ребят из списка может не доехать, есть 10-15 билетов для новых лиц.
Gotta catch them all! =)
Нашим главным вызовом было придумать формат, который будет полезен опытным руководителям аналитики. И, судя по отзывам участников прошлого года, у нас получилось!
В этом году мы повторяем мероприятие. Оно пройдет в начале октября в Турции. Приходится выбираться за пределы страны, чтобы могли приехать ребята, которые живут и работают не в России. Без них русскоязычный топ не выйдет.
Состав участников #ddtop100 — это моя персональная гордость. Ребята невероятно крутые как в профессиональном плане, так и в личностном. Пока это в основном люди, до которых я смог дотянуться через одно-два рукопожатия своего круга знакомств. Мне очень хотелось бы расширить этот круг, тем более что сейчас он перекошен в айтишную сферу. Я уверен, что есть множество крутых ребят в традиционно оффлайновых отраслях: образовании, здравоохранении, призводстве, фармацевтике, логистике, авиаперевозках, госуправлении и т. д. А менеджерские проблемы, которые мы обсуждаем на конференции, как показывает опыт, очень близки вне зависимости от индустрии.
Я буду благодарен, если вы расскажете своим знакомым топам аналитики о нашей конференции. Или просто дайте мне о них знать — а я сам с ними свяжусь) @eugenekozlov
Ниже я прикладываю список участников этого года и их статусы на сегодня. В этом году наша площадка сможет вместить максимум 60 участников, так что мест осталось немного. Думаю, с учетом того, что часть ребят из списка может не доехать, есть 10-15 билетов для новых лиц.
Gotta catch them all! =)
👍13❤2
Во втором семестре обучения в Школе анализа данных Яндекса у меня начинался курс машинного обучения, который я уже успел тогда пройти и даже начать семинарить в МФТИ. Как молодой препод я попал в рассылку, где искали семинариста и на ШАДовский курс. Несмотря на то что я засчитывал курс из МФТИ, мне показалось неправильным вести пары у собственных однокурсников, поэтому я не стал откликаться.
Совершенно другого мнения о такой забавной ситуации был мой однокурсник по ШАДу Саша Фонарев. Он стал семинаристом ШАДовского курса и буквально за несколько лет собрал крутейшую команду и один из лучших на то время курсов, попутно прокачавшись в ML и сам. Мораль 1: меньше условностей, берите и делайте.
Спустя несколько лет я работал в Yandex Data Factory и пробовал захантить к нам Сашу. Команда была действительно звездной, и он бы хорошо в неё вписался. Но, увы, у Саши уже был стартап Rubbles, там было все серьезно, и бросать он его не хотел. Мой тогдашний босс решил поддержать меня и сказал: «Да ладно, закончатся деньги у их стартапа, и снова позовём». Прошли годы, Data Factory уже давно нет, а Rubbles чувствует себя прекрасно. Мораль 2: берите и делайте то, что нравится. Не важно, кто что думает и как оценивает ваши шансы на успех, важно, что думаете вы и что сами делаете, чтобы их повысить.
Но это все мои наблюдения со стороны, а у меня есть для вас и кое-что получше: рассказ от самого Саши о том, как все было, и как он живет и работает сейчас - в первом выпуске нашего подкаста «ТехТок» https://podcast.ru/e/18TtWlj.2Ln
Совершенно другого мнения о такой забавной ситуации был мой однокурсник по ШАДу Саша Фонарев. Он стал семинаристом ШАДовского курса и буквально за несколько лет собрал крутейшую команду и один из лучших на то время курсов, попутно прокачавшись в ML и сам. Мораль 1: меньше условностей, берите и делайте.
Спустя несколько лет я работал в Yandex Data Factory и пробовал захантить к нам Сашу. Команда была действительно звездной, и он бы хорошо в неё вписался. Но, увы, у Саши уже был стартап Rubbles, там было все серьезно, и бросать он его не хотел. Мой тогдашний босс решил поддержать меня и сказал: «Да ладно, закончатся деньги у их стартапа, и снова позовём». Прошли годы, Data Factory уже давно нет, а Rubbles чувствует себя прекрасно. Мораль 2: берите и делайте то, что нравится. Не важно, кто что думает и как оценивает ваши шансы на успех, важно, что думаете вы и что сами делаете, чтобы их повысить.
Но это все мои наблюдения со стороны, а у меня есть для вас и кое-что получше: рассказ от самого Саши о том, как все было, и как он живет и работает сейчас - в первом выпуске нашего подкаста «ТехТок» https://podcast.ru/e/18TtWlj.2Ln
Podcast.ru
ШАД. Стартапы. PhD – Техток – Podcast.ru
Если ставить себе амбициозные задачи и прыгать выше головы, то можно попасть в список Forbes «30 до 30». Наш гость попал.
А потом пришел к нам на подкаст и рассказал где и чему стоит учиться, и когда пора запускать свой бизнес, Разобрали карьеру кандидата…
А потом пришел к нам на подкаст и рассказал где и чему стоит учиться, и когда пора запускать свой бизнес, Разобрали карьеру кандидата…
🔥104👍38❤9🤩1
Завтра и послезавтра (3-4 декабря) пройдет конференция Яндекса для IT-сообщества YaTalks. Один из тематических треков посвящен ML и, судя по программе, там будет много интересного.
Например, Алексей Гусаков, руководитель управления машинного интеллекта и исследований Яндекса, расскажет, как поймать баланс между продуктом и исследованиями. Из его доклада можно будет узнать, как развивался ML в Яндексе, как взаимодействуют R&D и бизнес и как разработчикам помогает отдел Yandex Research.
Среди других ML-тем: «Нейродубляж: стираем языковые барьеры в видео» и «10 лет новой эпохи машинного обучения».
Чтобы ничего не пропустить, регистрируйтесь и подписывайтесь на канал @yatalks2022. Конференция пройдет онлайн, так что подключиться можно из любой точки мира :)
Например, Алексей Гусаков, руководитель управления машинного интеллекта и исследований Яндекса, расскажет, как поймать баланс между продуктом и исследованиями. Из его доклада можно будет узнать, как развивался ML в Яндексе, как взаимодействуют R&D и бизнес и как разработчикам помогает отдел Yandex Research.
Среди других ML-тем: «Нейродубляж: стираем языковые барьеры в видео» и «10 лет новой эпохи машинного обучения».
Чтобы ничего не пропустить, регистрируйтесь и подписывайтесь на канал @yatalks2022. Конференция пройдет онлайн, так что подключиться можно из любой точки мира :)
yatalks.yandex.ru
Главная конференция Яндекса для IT-сообщества — YaTalks 2023
5 и 6 декабря более 100 экспертов IT-индустрии и учёных выступят в Москве и Белграде с техническими докладами о разработке и ML и с научно-популярными лекциями.
🔥33👍7🤔2
Наконец-то мы проводим от МТС соревнование по ML с призами. Давно хотел и вот, силами нашей R&D команды бигдаты МТС и ее лидера Никиты Зелинского в частности, наконец-то запустили. Отдельное спасибо нашим друзьям из ODS и лично Лёше Натекину, ну и конечно HR и PR МТС Диджитал.
Задача крайне любопытная - в рекламе, когда вы ничего не знаете про человека кроме его куки и пары посещенных сайтов, вы не можете отнести его даже к простым сегментам по полу и возрасту. Решение - построить модель пола и возраста на этих известных нескольких доменах. Скажете, что бред? Зависит от сайтов. Например один только сайт World of Tanks в истории уже неплохо определяет пол :)
На участие у вас будет два месяца с 30.01 по 30.03, но лучше не откладывать.
Задача крайне любопытная - в рекламе, когда вы ничего не знаете про человека кроме его куки и пары посещенных сайтов, вы не можете отнести его даже к простым сегментам по полу и возрасту. Решение - построить модель пола и возраста на этих известных нескольких доменах. Скажете, что бред? Зависит от сайтов. Например один только сайт World of Tanks в истории уже неплохо определяет пол :)
На участие у вас будет два месяца с 30.01 по 30.03, но лучше не откладывать.
👍27🔥14
Forwarded from MTS Teta Hub
Всем привет! 👋
Сохранили этот канал в том числе и для анонсов интересных активностей - используем его прямо по назначению и приглашаем всех на соревнования по Machine Learning - MTC ML Cup!
Это турнир по определению пола/возраста владельца cookie от МТС Digital. Призовой фонд MTC ML Cup – 650 000 рублей: победитель получит 350 000 рублей, обладатель серебра – 200 000 рублей, а третий призер станет богаче на 100 000 рублей.
Регистрация уже открыта, простая анкета для участников и все подробности – на сайте. Стартуем 30 января.
Лайк, шер, репост, как говорится. Увидимся на соревновании!
Сохранили этот канал в том числе и для анонсов интересных активностей - используем его прямо по назначению и приглашаем всех на соревнования по Machine Learning - MTC ML Cup!
Это турнир по определению пола/возраста владельца cookie от МТС Digital. Призовой фонд MTC ML Cup – 650 000 рублей: победитель получит 350 000 рублей, обладатель серебра – 200 000 рублей, а третий призер станет богаче на 100 000 рублей.
Регистрация уже открыта, простая анкета для участников и все подробности – на сайте. Стартуем 30 января.
Лайк, шер, репост, как говорится. Увидимся на соревновании!
👍38🎉9❤2
Кто-то говорил, что «не бросать» что-то делать это не главное. Главное начинать снова и снова.
Посмотрим, на сколько меня хватит в этот раз :)
В четверг был на конфе Forbes «Успех к 30». Очень крутая организация, солидно, масштабно, и, что было особенно приятно, много девушек (кстати, очень красивых :) среди спикеров и слушателей. Эйджизм и сексизм постепенно умирают и скатертью им дорожка. Так получилось, что был на конфе уже даже не в качестве лауреата 2020 года, а как спикер из топов МТС, что особенно приятно и вообще была большая честь представлять индустрию.
Из главного: всех, вот буквально всех интересует, где и как применяется искусственный интеллект, насколько это полезно для бизнеса, нужно ли менять профессию и кому. Вся наша полуторачасовая панель на конфе была об этом. Ссылка на небольшое (9 минут) видео с основными тезисами от меня: https://www.youtube.com/watch?v=lQTPc4qGSKk
Посмотрим, на сколько меня хватит в этот раз :)
В четверг был на конфе Forbes «Успех к 30». Очень крутая организация, солидно, масштабно, и, что было особенно приятно, много девушек (кстати, очень красивых :) среди спикеров и слушателей. Эйджизм и сексизм постепенно умирают и скатертью им дорожка. Так получилось, что был на конфе уже даже не в качестве лауреата 2020 года, а как спикер из топов МТС, что особенно приятно и вообще была большая честь представлять индустрию.
Из главного: всех, вот буквально всех интересует, где и как применяется искусственный интеллект, насколько это полезно для бизнеса, нужно ли менять профессию и кому. Вся наша полуторачасовая панель на конфе была об этом. Ссылка на небольшое (9 минут) видео с основными тезисами от меня: https://www.youtube.com/watch?v=lQTPc4qGSKk
YouTube
Виктор Кантор, директор центра Big Data, MTC
❤48👍36🔥20🤔3👏2🤩2
True Tech Champ и ML платформы
Вчера выступил на True Tech Champ. Это площадка, которую организует МТС для начинающих специалистов в области IT. Здесь можно было не только получить знания, расширить контакты, но и побороться за главный приз в три миллиона рублей . Уверен, что сейчас долг любой крупной организации — инвестировать в развитие профессиональной среды и ставка МТС на IT здесь абсолютно оправдана.
Я в своем выступлении рассказывал про ML-платформы (в природе и в МТС). Акцент был на том, как понять, какие платформы нужны бизнесу и как они могут помочь сэкономить и заработать больше.
В любом бизнесе всё сводится к двум вещам: тому, на что он деньги тратит, и тому, на чём зарабатывает. Доходы получаются в результате взаимодействия с клиентом (когда клиент платит за услуги, товары и доступ к сервисам). Расходы — это:
-стоимость контакта с клиентом (в случае нового клиента - привлечения)
-потери, связанные с реализацией рисков по клиенту (дефолт по кредиту, мошеннические действия и т.д.)
-затраты на персонал и материальную базу;
-затраты, связанные с бизнес-процессами (грубо говоря, последствия излишней бюрократии, нерабочих процедур или конфликтующих процессов, неоптимальной логистики и так далее);
-затраты, связанные с закупкой товаров, прав на медиаконтент и т.д. - не все бизнес производит сам.
Сконцентрируемся пока на доходах и расходах в привязке к одному клиенту. Чтобы растить доходы нам нужно с одной стороны повышать конверсии в оплату, а с другой - уметь выстраивать ценообразование не по наитию, а на основе данных. Первое делается с помощью рекомендательной платформы, второе - с помощью платформы Smart Pricing. Чтобы снижать стоимость привлечения клиента и стоимость контакта нам требуется платформа лидогенерации (зная своих клиентов мы можем дешевле получать нужные нам сегменты), а чтобы управлять потерями, связанными с рисками, нужна скоринговая платформа.
Отдельная история - это платформы для оптимизации оставшихся затрат, они тоже есть в МТС, но про них в следующий раз.
Главное преимущество платформенного подхода перед вариантом “сделаем 1000 разных моделей по всему бизнесу и будем решать задачи case-by-case” в том, что экспертиза и новые наработки моментально распространяются по всей группе компаний. Например, когда нам нужно было реализовать рекомендации для нашего онлайн-магазина, оказалось что все необходимое собирается из готовых кубиков, разработанных для онлайн-кинотеатра KION, а полученная система не просто работает, а успешно побеждает в A/B тестах с внешними решениями.
Вчера выступил на True Tech Champ. Это площадка, которую организует МТС для начинающих специалистов в области IT. Здесь можно было не только получить знания, расширить контакты, но и побороться за главный приз в три миллиона рублей . Уверен, что сейчас долг любой крупной организации — инвестировать в развитие профессиональной среды и ставка МТС на IT здесь абсолютно оправдана.
Я в своем выступлении рассказывал про ML-платформы (в природе и в МТС). Акцент был на том, как понять, какие платформы нужны бизнесу и как они могут помочь сэкономить и заработать больше.
В любом бизнесе всё сводится к двум вещам: тому, на что он деньги тратит, и тому, на чём зарабатывает. Доходы получаются в результате взаимодействия с клиентом (когда клиент платит за услуги, товары и доступ к сервисам). Расходы — это:
-стоимость контакта с клиентом (в случае нового клиента - привлечения)
-потери, связанные с реализацией рисков по клиенту (дефолт по кредиту, мошеннические действия и т.д.)
-затраты на персонал и материальную базу;
-затраты, связанные с бизнес-процессами (грубо говоря, последствия излишней бюрократии, нерабочих процедур или конфликтующих процессов, неоптимальной логистики и так далее);
-затраты, связанные с закупкой товаров, прав на медиаконтент и т.д. - не все бизнес производит сам.
Сконцентрируемся пока на доходах и расходах в привязке к одному клиенту. Чтобы растить доходы нам нужно с одной стороны повышать конверсии в оплату, а с другой - уметь выстраивать ценообразование не по наитию, а на основе данных. Первое делается с помощью рекомендательной платформы, второе - с помощью платформы Smart Pricing. Чтобы снижать стоимость привлечения клиента и стоимость контакта нам требуется платформа лидогенерации (зная своих клиентов мы можем дешевле получать нужные нам сегменты), а чтобы управлять потерями, связанными с рисками, нужна скоринговая платформа.
Отдельная история - это платформы для оптимизации оставшихся затрат, они тоже есть в МТС, но про них в следующий раз.
Главное преимущество платформенного подхода перед вариантом “сделаем 1000 разных моделей по всему бизнесу и будем решать задачи case-by-case” в том, что экспертиза и новые наработки моментально распространяются по всей группе компаний. Например, когда нам нужно было реализовать рекомендации для нашего онлайн-магазина, оказалось что все необходимое собирается из готовых кубиков, разработанных для онлайн-кинотеатра KION, а полученная система не просто работает, а успешно побеждает в A/B тестах с внешними решениями.
👍30🔥6❤4🎉2🤩2👏1
Обучиться Data Science «самому», без вузовских курсов, можно, но сложно
Курсов «Стань Data Scientist’ом за три месяца» с заманчивыми обещаниями о трудоустройстве и большом заработке довольно много. Грешат этим все: от GeekBrains и Skillbox до Яндекс Практикума(хотя, по моему субъективному мнению, коллеги из Яндекса работают наиболее деликатно и им за это от меня респект).
Нет ничего зазорного в курсах хоть на три месяца, хоть на три занятия.
Любой формат позволяет донести определённые знания, однако важно сохранять трезвость в оценке ценности подобных курсов.
Человек с хорошим техническим образованием из МГУ, МФТИ, ВШЭ, СПбГУ, ИТМО и других топовых вузов вполне в состоянии устроиться стажёром в data science и после вводного курса. Вряд ли в топовую компанию, но начать нарабатывать опыт уже можно.
Более того, полноценно проходить даже короткий курс необязательно — это лишь способ ускорить процесс. Если человек умеет программировать, читать документацию и изучать библиотеки, можно обойтись и без курса:
— решайте Kaggle.com, начиная с учебных соревнований
— читайте форумы соревнований,
— практикуйтесь в применении DS библиотек (sklearn, lightgbm, catboost, xgboost, pandas, polars, seaborn, pytorch, ambrosia)
— изучайте их документацию
Находите открытые материалы курсов по data science и разбирайте их самостоятельно. Знаю примеры людей, бегло изучающих семестровый курс из Стэнфорда за ночь. Не всем обязательно демонстрировать такую суперпроизводительность, да и почти любой человек после подобной учёбы многое забудет через неделю. Но вместе с практикой этот подход совершенно нормальный.
Ещё полезно через какое-то время изучить ту же тему в новом источнике. Интересующихся людей в целом всегда выделяет то, что им недостаточно прочитать одну книгу, решить задачу один раз, один раз понять, как всё устроено. Им интересно изучать вопрос с разных сторон снова и снова.
Однако нужно помнить, что без сильной базы по программированию и математике путь в Data Science может быть долгим. Это нормально. Главное — не останавливаться в изучении фундаментальных направлений. Если понравится процесс — вы его пройдёте, сами или с чьей-то помощью.
Курсов «Стань Data Scientist’ом за три месяца» с заманчивыми обещаниями о трудоустройстве и большом заработке довольно много. Грешат этим все: от GeekBrains и Skillbox до Яндекс Практикума
Нет ничего зазорного в курсах хоть на три месяца, хоть на три занятия.
Любой формат позволяет донести определённые знания, однако важно сохранять трезвость в оценке ценности подобных курсов.
Человек с хорошим техническим образованием из МГУ, МФТИ, ВШЭ, СПбГУ, ИТМО и других топовых вузов вполне в состоянии устроиться стажёром в data science и после вводного курса. Вряд ли в топовую компанию, но начать нарабатывать опыт уже можно.
Более того, полноценно проходить даже короткий курс необязательно — это лишь способ ускорить процесс. Если человек умеет программировать, читать документацию и изучать библиотеки, можно обойтись и без курса:
— решайте Kaggle.com, начиная с учебных соревнований
— читайте форумы соревнований,
— практикуйтесь в применении DS библиотек (sklearn, lightgbm, catboost, xgboost, pandas, polars, seaborn, pytorch, ambrosia)
— изучайте их документацию
Находите открытые материалы курсов по data science и разбирайте их самостоятельно. Знаю примеры людей, бегло изучающих семестровый курс из Стэнфорда за ночь. Не всем обязательно демонстрировать такую суперпроизводительность, да и почти любой человек после подобной учёбы многое забудет через неделю. Но вместе с практикой этот подход совершенно нормальный.
Ещё полезно через какое-то время изучить ту же тему в новом источнике. Интересующихся людей в целом всегда выделяет то, что им недостаточно прочитать одну книгу, решить задачу один раз, один раз понять, как всё устроено. Им интересно изучать вопрос с разных сторон снова и снова.
Однако нужно помнить, что без сильной базы по программированию и математике путь в Data Science может быть долгим. Это нормально. Главное — не останавливаться в изучении фундаментальных направлений. Если понравится процесс — вы его пройдёте, сами или с чьей-то помощью.
Kaggle
Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
👍86❤34🔥13🤔2🤩2
2 ноября на конференции DataStart можно будет узнать об обновлениях в нашем фреймворке для рекомендательных систем RecTools, который мы выпустили в open-source в прошлом году. От BigData МТС будет выступать Даша Тихонович. Она расскажет о нашем опыте использования библиотеки в реальных сервисах, а также о сложностях комплексной валидации в RecSys. Многие аспекты валидации остаются за рамками курсов по рекомендательным системам, но их критически важно учитывать, создавая модели для реальных сервисов. Зарегистрироваться можно по ссылке: https://datastart.ru/
datastart.ru
Конференция Data Science 2024
Обучающие конференции по Data Science в
Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,
Machine Learning, AI. Практические занятия позволят лучше усвоить полученные
на мероприятии знания.
Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,
Machine Learning, AI. Практические занятия позволят лучше усвоить полученные
на мероприятии знания.
🔥21👍10❤5👏2
Возрождаю рубрику
Давайте внесём в канал интерактив. Давно вынашивал идею для рубрики Q&A и, наконец, запускаю.
Как это будет работать:
Оставлю здесь гугл-форму. Если у вас есть какой-то вопрос по DS, Big Data и образованию — смело задавайте в ней, и я дам развёрнутый ответ. Тема может быть как профессиональной, так и из учёбы, ограничений нет.
Ещё в форме есть пункт про контент. Накидал несколько форматов, выберете те, которые хотите видеть в канале чаще. Или, возможно, у вас есть своя идея, которой вам не жалко поделиться.
Буду благодарен за ваше время!
Давайте внесём в канал интерактив. Давно вынашивал идею для рубрики Q&A и, наконец, запускаю.
Как это будет работать:
Оставлю здесь гугл-форму. Если у вас есть какой-то вопрос по DS, Big Data и образованию — смело задавайте в ней, и я дам развёрнутый ответ. Тема может быть как профессиональной, так и из учёбы, ограничений нет.
Ещё в форме есть пункт про контент. Накидал несколько форматов, выберете те, которые хотите видеть в канале чаще. Или, возможно, у вас есть своя идея, которой вам не жалко поделиться.
Буду благодарен за ваше время!
🔥47❤10👍9🤔2👏1
Коллеги из Data Secrets написали статью на Хабр про нашу опенсорс-библиотеку для рекомендательных систем RecTools, рекомендую к прочтению. А еще наши знакомые из ряда банков недавно благодарили за либу и рассказывали, что активно её используют. Невозможно словами описать, насколько это приятно. Сделать open-source библиотеку для RecSys, которой будут пользоваться, было моей давней мечтой, и я рад, что ее получилось осуществить в Big Data МТС. Дальше будет больше :) Спасибо огромное команде RecTools - ребята, вы лучшие!
🎉49❤23🔥17