Два года CDO (часть 3)
В прошлый раз мы закончили на том, что технологические цели неплохо бы увязывать с пользой для бизнеса, и пора рассказать, как мы это делали.
Во-первых, мы выделили ряд платформ, которые могут сильно снизить Time2Market бизнесовых применений анализа данных. Это рекомендательная платформа, скоринговая, MLOps и DataOps платформы. Первые две уже вовсю используются для бизнесов МТС, а скоринговая - ещё и для работы с внешними заказчиками. В этих платформах есть определенные части, которые можно и нужно опенсорсить, я еще расскажу об этом подробнее. Также нужно иметь ввиду, что «платформа» - это сейчас слово-паразит, проникшее в стратегии многих компаний, и значить оно может разное. В нашем случае речь про набор применяемых техническими специалистами инструментов, разработанных для удобного использования вместе и существенного ускорения работы. Например, чтобы рекомендательную систему для нового сервиса можно было сделать командой из двух человек за пару недель, а не из 5-10 за полгода.
Во-вторых, мы не поддались искушению полностью упороться в развитие инфраструктуры, перекинув все силы с зарабатывания денег здесь и сейчас. На секундочку, KPI у многих членов команды завязаны на деньги, но ничего не стоило эту зависимость убрать и переиграть всё в чистое IT, бизнес очень даже открыт к экспериментам.
В итоге, уже в первый же год мы без увеличения общей численности команды удвоили (!) экономические эффекты от Big Data для бизнеса. И это при том, что мы параллельно вели разработку платформ, которые, разумеется, не дают свой эффект сразу. Помогла просто грамотная приоритизация задач и работа с командой. Многие провалы в прошлом были связаны с тем, что в нужном месте не оказывался нужный человек, и зная, «кто что потянет», можно сильно улучшить ситуацию.
Сейчас мы активно работаем над MLOps и DataOps платформами (многое уже есть, но работы тоже хватает), а также вовсю дальше внедряем рекомендательную и скоринговую. Причём скоринговая это не только про классические рисковые скоры, но и вообще про любые скоры или прогнозы на клиенте для задач бизнеса (будь то антифрод, отток или еще что-то). В октябре будут первые сравнения нашей рекомендательной платформы с рекомендациями от других вендоров, которые занимаются RecSys годами. Выиграем или нет - покажет эксперимент, но даже если нет, через год уже точно выиграем :)
В прошлый раз мы закончили на том, что технологические цели неплохо бы увязывать с пользой для бизнеса, и пора рассказать, как мы это делали.
Во-первых, мы выделили ряд платформ, которые могут сильно снизить Time2Market бизнесовых применений анализа данных. Это рекомендательная платформа, скоринговая, MLOps и DataOps платформы. Первые две уже вовсю используются для бизнесов МТС, а скоринговая - ещё и для работы с внешними заказчиками. В этих платформах есть определенные части, которые можно и нужно опенсорсить, я еще расскажу об этом подробнее. Также нужно иметь ввиду, что «платформа» - это сейчас слово-паразит, проникшее в стратегии многих компаний, и значить оно может разное. В нашем случае речь про набор применяемых техническими специалистами инструментов, разработанных для удобного использования вместе и существенного ускорения работы. Например, чтобы рекомендательную систему для нового сервиса можно было сделать командой из двух человек за пару недель, а не из 5-10 за полгода.
Во-вторых, мы не поддались искушению полностью упороться в развитие инфраструктуры, перекинув все силы с зарабатывания денег здесь и сейчас. На секундочку, KPI у многих членов команды завязаны на деньги, но ничего не стоило эту зависимость убрать и переиграть всё в чистое IT, бизнес очень даже открыт к экспериментам.
В итоге, уже в первый же год мы без увеличения общей численности команды удвоили (!) экономические эффекты от Big Data для бизнеса. И это при том, что мы параллельно вели разработку платформ, которые, разумеется, не дают свой эффект сразу. Помогла просто грамотная приоритизация задач и работа с командой. Многие провалы в прошлом были связаны с тем, что в нужном месте не оказывался нужный человек, и зная, «кто что потянет», можно сильно улучшить ситуацию.
Сейчас мы активно работаем над MLOps и DataOps платформами (многое уже есть, но работы тоже хватает), а также вовсю дальше внедряем рекомендательную и скоринговую. Причём скоринговая это не только про классические рисковые скоры, но и вообще про любые скоры или прогнозы на клиенте для задач бизнеса (будь то антифрод, отток или еще что-то). В октябре будут первые сравнения нашей рекомендательной платформы с рекомендациями от других вендоров, которые занимаются RecSys годами. Выиграем или нет - покажет эксперимент, но даже если нет, через год уже точно выиграем :)
🔥61👍20❤7🤔5👏3
В прошлом году я летал на Data Driven Top 100 к Жене, и это был наверно самый крутой опыт конференции по аналитике на моей памяти. Не было скучных «программных» докладов, было нормальное общение вменяемых людей. Учитывая, что все участники топы аналитики различных компаний, в том числе очень крупных, обсудить там реально можно всё. Важен и психотерапевтический эффект - когда видишь других людей с теми же болями, как-то легче с ними справляться и искать решения. Ну и, конечно, важно, что Женя не просто очередной организатор конфы по горячей теме без понимания контекста, а человек, который сделал огромное количество крутых аналитических штук в Яндексе и реально круто шарит. Очень рекомендую и Женю, и его конфу :)
❤11😁3👍2🤩1
Forwarded from Секрет лапшичного супа
В прошлом году мы провели первый экспериментальный Data Driven Top100 — конференцию для топов аналитики и руководителей продуктов, которые построены на данных (поиск, диспатч, риски и прочее).
Нашим главным вызовом было придумать формат, который будет полезен опытным руководителям аналитики. И, судя по отзывам участников прошлого года, у нас получилось!
В этом году мы повторяем мероприятие. Оно пройдет в начале октября в Турции. Приходится выбираться за пределы страны, чтобы могли приехать ребята, которые живут и работают не в России. Без них русскоязычный топ не выйдет.
Состав участников #ddtop100 — это моя персональная гордость. Ребята невероятно крутые как в профессиональном плане, так и в личностном. Пока это в основном люди, до которых я смог дотянуться через одно-два рукопожатия своего круга знакомств. Мне очень хотелось бы расширить этот круг, тем более что сейчас он перекошен в айтишную сферу. Я уверен, что есть множество крутых ребят в традиционно оффлайновых отраслях: образовании, здравоохранении, призводстве, фармацевтике, логистике, авиаперевозках, госуправлении и т. д. А менеджерские проблемы, которые мы обсуждаем на конференции, как показывает опыт, очень близки вне зависимости от индустрии.
Я буду благодарен, если вы расскажете своим знакомым топам аналитики о нашей конференции. Или просто дайте мне о них знать — а я сам с ними свяжусь) @eugenekozlov
Ниже я прикладываю список участников этого года и их статусы на сегодня. В этом году наша площадка сможет вместить максимум 60 участников, так что мест осталось немного. Думаю, с учетом того, что часть ребят из списка может не доехать, есть 10-15 билетов для новых лиц.
Gotta catch them all! =)
Нашим главным вызовом было придумать формат, который будет полезен опытным руководителям аналитики. И, судя по отзывам участников прошлого года, у нас получилось!
В этом году мы повторяем мероприятие. Оно пройдет в начале октября в Турции. Приходится выбираться за пределы страны, чтобы могли приехать ребята, которые живут и работают не в России. Без них русскоязычный топ не выйдет.
Состав участников #ddtop100 — это моя персональная гордость. Ребята невероятно крутые как в профессиональном плане, так и в личностном. Пока это в основном люди, до которых я смог дотянуться через одно-два рукопожатия своего круга знакомств. Мне очень хотелось бы расширить этот круг, тем более что сейчас он перекошен в айтишную сферу. Я уверен, что есть множество крутых ребят в традиционно оффлайновых отраслях: образовании, здравоохранении, призводстве, фармацевтике, логистике, авиаперевозках, госуправлении и т. д. А менеджерские проблемы, которые мы обсуждаем на конференции, как показывает опыт, очень близки вне зависимости от индустрии.
Я буду благодарен, если вы расскажете своим знакомым топам аналитики о нашей конференции. Или просто дайте мне о них знать — а я сам с ними свяжусь) @eugenekozlov
Ниже я прикладываю список участников этого года и их статусы на сегодня. В этом году наша площадка сможет вместить максимум 60 участников, так что мест осталось немного. Думаю, с учетом того, что часть ребят из списка может не доехать, есть 10-15 билетов для новых лиц.
Gotta catch them all! =)
👍13❤2
Во втором семестре обучения в Школе анализа данных Яндекса у меня начинался курс машинного обучения, который я уже успел тогда пройти и даже начать семинарить в МФТИ. Как молодой препод я попал в рассылку, где искали семинариста и на ШАДовский курс. Несмотря на то что я засчитывал курс из МФТИ, мне показалось неправильным вести пары у собственных однокурсников, поэтому я не стал откликаться.
Совершенно другого мнения о такой забавной ситуации был мой однокурсник по ШАДу Саша Фонарев. Он стал семинаристом ШАДовского курса и буквально за несколько лет собрал крутейшую команду и один из лучших на то время курсов, попутно прокачавшись в ML и сам. Мораль 1: меньше условностей, берите и делайте.
Спустя несколько лет я работал в Yandex Data Factory и пробовал захантить к нам Сашу. Команда была действительно звездной, и он бы хорошо в неё вписался. Но, увы, у Саши уже был стартап Rubbles, там было все серьезно, и бросать он его не хотел. Мой тогдашний босс решил поддержать меня и сказал: «Да ладно, закончатся деньги у их стартапа, и снова позовём». Прошли годы, Data Factory уже давно нет, а Rubbles чувствует себя прекрасно. Мораль 2: берите и делайте то, что нравится. Не важно, кто что думает и как оценивает ваши шансы на успех, важно, что думаете вы и что сами делаете, чтобы их повысить.
Но это все мои наблюдения со стороны, а у меня есть для вас и кое-что получше: рассказ от самого Саши о том, как все было, и как он живет и работает сейчас - в первом выпуске нашего подкаста «ТехТок» https://podcast.ru/e/18TtWlj.2Ln
Совершенно другого мнения о такой забавной ситуации был мой однокурсник по ШАДу Саша Фонарев. Он стал семинаристом ШАДовского курса и буквально за несколько лет собрал крутейшую команду и один из лучших на то время курсов, попутно прокачавшись в ML и сам. Мораль 1: меньше условностей, берите и делайте.
Спустя несколько лет я работал в Yandex Data Factory и пробовал захантить к нам Сашу. Команда была действительно звездной, и он бы хорошо в неё вписался. Но, увы, у Саши уже был стартап Rubbles, там было все серьезно, и бросать он его не хотел. Мой тогдашний босс решил поддержать меня и сказал: «Да ладно, закончатся деньги у их стартапа, и снова позовём». Прошли годы, Data Factory уже давно нет, а Rubbles чувствует себя прекрасно. Мораль 2: берите и делайте то, что нравится. Не важно, кто что думает и как оценивает ваши шансы на успех, важно, что думаете вы и что сами делаете, чтобы их повысить.
Но это все мои наблюдения со стороны, а у меня есть для вас и кое-что получше: рассказ от самого Саши о том, как все было, и как он живет и работает сейчас - в первом выпуске нашего подкаста «ТехТок» https://podcast.ru/e/18TtWlj.2Ln
Podcast.ru
ШАД. Стартапы. PhD – Техток – Podcast.ru
Если ставить себе амбициозные задачи и прыгать выше головы, то можно попасть в список Forbes «30 до 30». Наш гость попал.
А потом пришел к нам на подкаст и рассказал где и чему стоит учиться, и когда пора запускать свой бизнес, Разобрали карьеру кандидата…
А потом пришел к нам на подкаст и рассказал где и чему стоит учиться, и когда пора запускать свой бизнес, Разобрали карьеру кандидата…
🔥104👍38❤9🤩1
Завтра и послезавтра (3-4 декабря) пройдет конференция Яндекса для IT-сообщества YaTalks. Один из тематических треков посвящен ML и, судя по программе, там будет много интересного.
Например, Алексей Гусаков, руководитель управления машинного интеллекта и исследований Яндекса, расскажет, как поймать баланс между продуктом и исследованиями. Из его доклада можно будет узнать, как развивался ML в Яндексе, как взаимодействуют R&D и бизнес и как разработчикам помогает отдел Yandex Research.
Среди других ML-тем: «Нейродубляж: стираем языковые барьеры в видео» и «10 лет новой эпохи машинного обучения».
Чтобы ничего не пропустить, регистрируйтесь и подписывайтесь на канал @yatalks2022. Конференция пройдет онлайн, так что подключиться можно из любой точки мира :)
Например, Алексей Гусаков, руководитель управления машинного интеллекта и исследований Яндекса, расскажет, как поймать баланс между продуктом и исследованиями. Из его доклада можно будет узнать, как развивался ML в Яндексе, как взаимодействуют R&D и бизнес и как разработчикам помогает отдел Yandex Research.
Среди других ML-тем: «Нейродубляж: стираем языковые барьеры в видео» и «10 лет новой эпохи машинного обучения».
Чтобы ничего не пропустить, регистрируйтесь и подписывайтесь на канал @yatalks2022. Конференция пройдет онлайн, так что подключиться можно из любой точки мира :)
yatalks.yandex.ru
Главная конференция Яндекса для IT-сообщества — YaTalks 2023
5 и 6 декабря более 100 экспертов IT-индустрии и учёных выступят в Москве и Белграде с техническими докладами о разработке и ML и с научно-популярными лекциями.
🔥33👍7🤔2
Наконец-то мы проводим от МТС соревнование по ML с призами. Давно хотел и вот, силами нашей R&D команды бигдаты МТС и ее лидера Никиты Зелинского в частности, наконец-то запустили. Отдельное спасибо нашим друзьям из ODS и лично Лёше Натекину, ну и конечно HR и PR МТС Диджитал.
Задача крайне любопытная - в рекламе, когда вы ничего не знаете про человека кроме его куки и пары посещенных сайтов, вы не можете отнести его даже к простым сегментам по полу и возрасту. Решение - построить модель пола и возраста на этих известных нескольких доменах. Скажете, что бред? Зависит от сайтов. Например один только сайт World of Tanks в истории уже неплохо определяет пол :)
На участие у вас будет два месяца с 30.01 по 30.03, но лучше не откладывать.
Задача крайне любопытная - в рекламе, когда вы ничего не знаете про человека кроме его куки и пары посещенных сайтов, вы не можете отнести его даже к простым сегментам по полу и возрасту. Решение - построить модель пола и возраста на этих известных нескольких доменах. Скажете, что бред? Зависит от сайтов. Например один только сайт World of Tanks в истории уже неплохо определяет пол :)
На участие у вас будет два месяца с 30.01 по 30.03, но лучше не откладывать.
👍27🔥14
Forwarded from MTS Teta Hub
Всем привет! 👋
Сохранили этот канал в том числе и для анонсов интересных активностей - используем его прямо по назначению и приглашаем всех на соревнования по Machine Learning - MTC ML Cup!
Это турнир по определению пола/возраста владельца cookie от МТС Digital. Призовой фонд MTC ML Cup – 650 000 рублей: победитель получит 350 000 рублей, обладатель серебра – 200 000 рублей, а третий призер станет богаче на 100 000 рублей.
Регистрация уже открыта, простая анкета для участников и все подробности – на сайте. Стартуем 30 января.
Лайк, шер, репост, как говорится. Увидимся на соревновании!
Сохранили этот канал в том числе и для анонсов интересных активностей - используем его прямо по назначению и приглашаем всех на соревнования по Machine Learning - MTC ML Cup!
Это турнир по определению пола/возраста владельца cookie от МТС Digital. Призовой фонд MTC ML Cup – 650 000 рублей: победитель получит 350 000 рублей, обладатель серебра – 200 000 рублей, а третий призер станет богаче на 100 000 рублей.
Регистрация уже открыта, простая анкета для участников и все подробности – на сайте. Стартуем 30 января.
Лайк, шер, репост, как говорится. Увидимся на соревновании!
👍38🎉9❤2
Кто-то говорил, что «не бросать» что-то делать это не главное. Главное начинать снова и снова.
Посмотрим, на сколько меня хватит в этот раз :)
В четверг был на конфе Forbes «Успех к 30». Очень крутая организация, солидно, масштабно, и, что было особенно приятно, много девушек (кстати, очень красивых :) среди спикеров и слушателей. Эйджизм и сексизм постепенно умирают и скатертью им дорожка. Так получилось, что был на конфе уже даже не в качестве лауреата 2020 года, а как спикер из топов МТС, что особенно приятно и вообще была большая честь представлять индустрию.
Из главного: всех, вот буквально всех интересует, где и как применяется искусственный интеллект, насколько это полезно для бизнеса, нужно ли менять профессию и кому. Вся наша полуторачасовая панель на конфе была об этом. Ссылка на небольшое (9 минут) видео с основными тезисами от меня: https://www.youtube.com/watch?v=lQTPc4qGSKk
Посмотрим, на сколько меня хватит в этот раз :)
В четверг был на конфе Forbes «Успех к 30». Очень крутая организация, солидно, масштабно, и, что было особенно приятно, много девушек (кстати, очень красивых :) среди спикеров и слушателей. Эйджизм и сексизм постепенно умирают и скатертью им дорожка. Так получилось, что был на конфе уже даже не в качестве лауреата 2020 года, а как спикер из топов МТС, что особенно приятно и вообще была большая честь представлять индустрию.
Из главного: всех, вот буквально всех интересует, где и как применяется искусственный интеллект, насколько это полезно для бизнеса, нужно ли менять профессию и кому. Вся наша полуторачасовая панель на конфе была об этом. Ссылка на небольшое (9 минут) видео с основными тезисами от меня: https://www.youtube.com/watch?v=lQTPc4qGSKk
YouTube
Виктор Кантор, директор центра Big Data, MTC
❤48👍36🔥20🤔3👏2🤩2
True Tech Champ и ML платформы
Вчера выступил на True Tech Champ. Это площадка, которую организует МТС для начинающих специалистов в области IT. Здесь можно было не только получить знания, расширить контакты, но и побороться за главный приз в три миллиона рублей . Уверен, что сейчас долг любой крупной организации — инвестировать в развитие профессиональной среды и ставка МТС на IT здесь абсолютно оправдана.
Я в своем выступлении рассказывал про ML-платформы (в природе и в МТС). Акцент был на том, как понять, какие платформы нужны бизнесу и как они могут помочь сэкономить и заработать больше.
В любом бизнесе всё сводится к двум вещам: тому, на что он деньги тратит, и тому, на чём зарабатывает. Доходы получаются в результате взаимодействия с клиентом (когда клиент платит за услуги, товары и доступ к сервисам). Расходы — это:
-стоимость контакта с клиентом (в случае нового клиента - привлечения)
-потери, связанные с реализацией рисков по клиенту (дефолт по кредиту, мошеннические действия и т.д.)
-затраты на персонал и материальную базу;
-затраты, связанные с бизнес-процессами (грубо говоря, последствия излишней бюрократии, нерабочих процедур или конфликтующих процессов, неоптимальной логистики и так далее);
-затраты, связанные с закупкой товаров, прав на медиаконтент и т.д. - не все бизнес производит сам.
Сконцентрируемся пока на доходах и расходах в привязке к одному клиенту. Чтобы растить доходы нам нужно с одной стороны повышать конверсии в оплату, а с другой - уметь выстраивать ценообразование не по наитию, а на основе данных. Первое делается с помощью рекомендательной платформы, второе - с помощью платформы Smart Pricing. Чтобы снижать стоимость привлечения клиента и стоимость контакта нам требуется платформа лидогенерации (зная своих клиентов мы можем дешевле получать нужные нам сегменты), а чтобы управлять потерями, связанными с рисками, нужна скоринговая платформа.
Отдельная история - это платформы для оптимизации оставшихся затрат, они тоже есть в МТС, но про них в следующий раз.
Главное преимущество платформенного подхода перед вариантом “сделаем 1000 разных моделей по всему бизнесу и будем решать задачи case-by-case” в том, что экспертиза и новые наработки моментально распространяются по всей группе компаний. Например, когда нам нужно было реализовать рекомендации для нашего онлайн-магазина, оказалось что все необходимое собирается из готовых кубиков, разработанных для онлайн-кинотеатра KION, а полученная система не просто работает, а успешно побеждает в A/B тестах с внешними решениями.
Вчера выступил на True Tech Champ. Это площадка, которую организует МТС для начинающих специалистов в области IT. Здесь можно было не только получить знания, расширить контакты, но и побороться за главный приз в три миллиона рублей . Уверен, что сейчас долг любой крупной организации — инвестировать в развитие профессиональной среды и ставка МТС на IT здесь абсолютно оправдана.
Я в своем выступлении рассказывал про ML-платформы (в природе и в МТС). Акцент был на том, как понять, какие платформы нужны бизнесу и как они могут помочь сэкономить и заработать больше.
В любом бизнесе всё сводится к двум вещам: тому, на что он деньги тратит, и тому, на чём зарабатывает. Доходы получаются в результате взаимодействия с клиентом (когда клиент платит за услуги, товары и доступ к сервисам). Расходы — это:
-стоимость контакта с клиентом (в случае нового клиента - привлечения)
-потери, связанные с реализацией рисков по клиенту (дефолт по кредиту, мошеннические действия и т.д.)
-затраты на персонал и материальную базу;
-затраты, связанные с бизнес-процессами (грубо говоря, последствия излишней бюрократии, нерабочих процедур или конфликтующих процессов, неоптимальной логистики и так далее);
-затраты, связанные с закупкой товаров, прав на медиаконтент и т.д. - не все бизнес производит сам.
Сконцентрируемся пока на доходах и расходах в привязке к одному клиенту. Чтобы растить доходы нам нужно с одной стороны повышать конверсии в оплату, а с другой - уметь выстраивать ценообразование не по наитию, а на основе данных. Первое делается с помощью рекомендательной платформы, второе - с помощью платформы Smart Pricing. Чтобы снижать стоимость привлечения клиента и стоимость контакта нам требуется платформа лидогенерации (зная своих клиентов мы можем дешевле получать нужные нам сегменты), а чтобы управлять потерями, связанными с рисками, нужна скоринговая платформа.
Отдельная история - это платформы для оптимизации оставшихся затрат, они тоже есть в МТС, но про них в следующий раз.
Главное преимущество платформенного подхода перед вариантом “сделаем 1000 разных моделей по всему бизнесу и будем решать задачи case-by-case” в том, что экспертиза и новые наработки моментально распространяются по всей группе компаний. Например, когда нам нужно было реализовать рекомендации для нашего онлайн-магазина, оказалось что все необходимое собирается из готовых кубиков, разработанных для онлайн-кинотеатра KION, а полученная система не просто работает, а успешно побеждает в A/B тестах с внешними решениями.
👍30🔥6❤4🎉2🤩2👏1
Обучиться Data Science «самому», без вузовских курсов, можно, но сложно
Курсов «Стань Data Scientist’ом за три месяца» с заманчивыми обещаниями о трудоустройстве и большом заработке довольно много. Грешат этим все: от GeekBrains и Skillbox до Яндекс Практикума(хотя, по моему субъективному мнению, коллеги из Яндекса работают наиболее деликатно и им за это от меня респект).
Нет ничего зазорного в курсах хоть на три месяца, хоть на три занятия.
Любой формат позволяет донести определённые знания, однако важно сохранять трезвость в оценке ценности подобных курсов.
Человек с хорошим техническим образованием из МГУ, МФТИ, ВШЭ, СПбГУ, ИТМО и других топовых вузов вполне в состоянии устроиться стажёром в data science и после вводного курса. Вряд ли в топовую компанию, но начать нарабатывать опыт уже можно.
Более того, полноценно проходить даже короткий курс необязательно — это лишь способ ускорить процесс. Если человек умеет программировать, читать документацию и изучать библиотеки, можно обойтись и без курса:
— решайте Kaggle.com, начиная с учебных соревнований
— читайте форумы соревнований,
— практикуйтесь в применении DS библиотек (sklearn, lightgbm, catboost, xgboost, pandas, polars, seaborn, pytorch, ambrosia)
— изучайте их документацию
Находите открытые материалы курсов по data science и разбирайте их самостоятельно. Знаю примеры людей, бегло изучающих семестровый курс из Стэнфорда за ночь. Не всем обязательно демонстрировать такую суперпроизводительность, да и почти любой человек после подобной учёбы многое забудет через неделю. Но вместе с практикой этот подход совершенно нормальный.
Ещё полезно через какое-то время изучить ту же тему в новом источнике. Интересующихся людей в целом всегда выделяет то, что им недостаточно прочитать одну книгу, решить задачу один раз, один раз понять, как всё устроено. Им интересно изучать вопрос с разных сторон снова и снова.
Однако нужно помнить, что без сильной базы по программированию и математике путь в Data Science может быть долгим. Это нормально. Главное — не останавливаться в изучении фундаментальных направлений. Если понравится процесс — вы его пройдёте, сами или с чьей-то помощью.
Курсов «Стань Data Scientist’ом за три месяца» с заманчивыми обещаниями о трудоустройстве и большом заработке довольно много. Грешат этим все: от GeekBrains и Skillbox до Яндекс Практикума
Нет ничего зазорного в курсах хоть на три месяца, хоть на три занятия.
Любой формат позволяет донести определённые знания, однако важно сохранять трезвость в оценке ценности подобных курсов.
Человек с хорошим техническим образованием из МГУ, МФТИ, ВШЭ, СПбГУ, ИТМО и других топовых вузов вполне в состоянии устроиться стажёром в data science и после вводного курса. Вряд ли в топовую компанию, но начать нарабатывать опыт уже можно.
Более того, полноценно проходить даже короткий курс необязательно — это лишь способ ускорить процесс. Если человек умеет программировать, читать документацию и изучать библиотеки, можно обойтись и без курса:
— решайте Kaggle.com, начиная с учебных соревнований
— читайте форумы соревнований,
— практикуйтесь в применении DS библиотек (sklearn, lightgbm, catboost, xgboost, pandas, polars, seaborn, pytorch, ambrosia)
— изучайте их документацию
Находите открытые материалы курсов по data science и разбирайте их самостоятельно. Знаю примеры людей, бегло изучающих семестровый курс из Стэнфорда за ночь. Не всем обязательно демонстрировать такую суперпроизводительность, да и почти любой человек после подобной учёбы многое забудет через неделю. Но вместе с практикой этот подход совершенно нормальный.
Ещё полезно через какое-то время изучить ту же тему в новом источнике. Интересующихся людей в целом всегда выделяет то, что им недостаточно прочитать одну книгу, решить задачу один раз, один раз понять, как всё устроено. Им интересно изучать вопрос с разных сторон снова и снова.
Однако нужно помнить, что без сильной базы по программированию и математике путь в Data Science может быть долгим. Это нормально. Главное — не останавливаться в изучении фундаментальных направлений. Если понравится процесс — вы его пройдёте, сами или с чьей-то помощью.
Kaggle
Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
👍86❤34🔥13🤔2🤩2
2 ноября на конференции DataStart можно будет узнать об обновлениях в нашем фреймворке для рекомендательных систем RecTools, который мы выпустили в open-source в прошлом году. От BigData МТС будет выступать Даша Тихонович. Она расскажет о нашем опыте использования библиотеки в реальных сервисах, а также о сложностях комплексной валидации в RecSys. Многие аспекты валидации остаются за рамками курсов по рекомендательным системам, но их критически важно учитывать, создавая модели для реальных сервисов. Зарегистрироваться можно по ссылке: https://datastart.ru/
datastart.ru
Конференция Data Science 2024
Обучающие конференции по Data Science в
Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,
Machine Learning, AI. Практические занятия позволят лучше усвоить полученные
на мероприятии знания.
Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,
Machine Learning, AI. Практические занятия позволят лучше усвоить полученные
на мероприятии знания.
🔥21👍10❤5👏2
Возрождаю рубрику
Давайте внесём в канал интерактив. Давно вынашивал идею для рубрики Q&A и, наконец, запускаю.
Как это будет работать:
Оставлю здесь гугл-форму. Если у вас есть какой-то вопрос по DS, Big Data и образованию — смело задавайте в ней, и я дам развёрнутый ответ. Тема может быть как профессиональной, так и из учёбы, ограничений нет.
Ещё в форме есть пункт про контент. Накидал несколько форматов, выберете те, которые хотите видеть в канале чаще. Или, возможно, у вас есть своя идея, которой вам не жалко поделиться.
Буду благодарен за ваше время!
Давайте внесём в канал интерактив. Давно вынашивал идею для рубрики Q&A и, наконец, запускаю.
Как это будет работать:
Оставлю здесь гугл-форму. Если у вас есть какой-то вопрос по DS, Big Data и образованию — смело задавайте в ней, и я дам развёрнутый ответ. Тема может быть как профессиональной, так и из учёбы, ограничений нет.
Ещё в форме есть пункт про контент. Накидал несколько форматов, выберете те, которые хотите видеть в канале чаще. Или, возможно, у вас есть своя идея, которой вам не жалко поделиться.
Буду благодарен за ваше время!
🔥47❤10👍9🤔2👏1
Коллеги из Data Secrets написали статью на Хабр про нашу опенсорс-библиотеку для рекомендательных систем RecTools, рекомендую к прочтению. А еще наши знакомые из ряда банков недавно благодарили за либу и рассказывали, что активно её используют. Невозможно словами описать, насколько это приятно. Сделать open-source библиотеку для RecSys, которой будут пользоваться, было моей давней мечтой, и я рад, что ее получилось осуществить в Big Data МТС. Дальше будет больше :) Спасибо огромное команде RecTools - ребята, вы лучшие!
🎉49❤23🔥17
Провел двухдневную стратсессию Big Data МТС в замечательном эко-отеле «Изумрудный лес». На фото моя команда - почти все ключевые руководители нашей бигдаты (не считая заболевших и отлучившихся на рабочие созвоны).
Изумрудный лес как всегда прекрасен, и рабочая часть мероприятия тоже прошла очень здорово. Несмотря на объемный план, мы неплохо справились, а главное было много очень классных и полезных обсуждений. Мне всегда не нравится история единолично сформулированных и «спущенных сверху железной рукой» стратегий, поэтому для меня было очень важно поработать всем вместе единой командой. Особенно классно было, что народ не боялся обсуждать, включаться, спорить, доносить свою позицию, понимать аргументацию других участников дискуссии.
Впереди еще ряд мероприятий про наши цели и путь к ним, и я обязательно расскажу здесь о том, к чему мы придем.
Изумрудный лес как всегда прекрасен, и рабочая часть мероприятия тоже прошла очень здорово. Несмотря на объемный план, мы неплохо справились, а главное было много очень классных и полезных обсуждений. Мне всегда не нравится история единолично сформулированных и «спущенных сверху железной рукой» стратегий, поэтому для меня было очень важно поработать всем вместе единой командой. Особенно классно было, что народ не боялся обсуждать, включаться, спорить, доносить свою позицию, понимать аргументацию других участников дискуссии.
Впереди еще ряд мероприятий про наши цели и путь к ним, и я обязательно расскажу здесь о том, к чему мы придем.
👍62🔥29❤18👏3🎉1
Застрял на N лет на уровне мидла — как выбраться из застоя в карьере? Вопрос от подписчика
Большинство людей даже не задаются этим вопросом. Поэтому вы уже на полпути к успеху.
Здесь важно понимать одну печальную мысль — никто, кроме вас, в вашей карьере не заинтересован. Человек, который не растёт профессионально, невероятно удобен: не нужно думать, кем его заменить, как его мотивировать и т. п. Поэтому первый шаг — перестать ждать, что кто-то за руку поведёт вас выше.
Далее изучите свое отношение к работе. Люди, застрявшие в карьере, могут встать на путь «тихого увольнения». Иногда неосознанно. Это когда человек думает: «На меня не обращают внимания. Значит, буду халявить и выжимать максимум денег и льгот с минимумом усилий, пока не уволят». Так точно не появится навыков и достижений, которые увеличат вашу ценность.
Если подобного нет, подумайте: чего вы хотите? Стать экспертом? Или управлять командой? От этого будет зависеть следующий шаг.
Хотите развиваться как специалист, помните: ключевая ценность крутого спеца в том, что он на отлично соблюдает базовую гигиену. За ним не нужно переделывать. Возможно, ваша проблема как раз в нехватке знаний, либо непонимании каких-то основ, либо банальной невнимательности. Это лечится прокачкой хардов: лекции, книги и практика.
А хотите в тимлиды — предлагайте новые инициативы и доводите их до конца. Последнее очень важно. В здоровой рабочей среде насочинять и не сделать закопает вас хуже, чем вообще ничего не предлагать.
Также важно помнить, что результаты можно получить, только умея долго работать без положительной обратной связи. Как в спорте. Вы же не ждёте, что после двух тренировок получите тело греческой статуи?
Про себя могу сказать, что тоже регулярно сталкивался и сталкиваюсь с затыками в карьере. Оглядываясь назад, могу сказать, что с проблемой всегда можно было справиться изменив поведение. Рано или поздно понимаешь, какие ошибки создают твой "потолок" в карьере, меняешь поведение и внезапно обнаруживаешь, что потолка больше и нет.
Поэтому, коллега, не унывайте. Берите карьеру в свои руки и двигайтесь в той сфере, где хотите развиваться, но обязательно запаситесь терпением и готовностью анализировать свои шаги.
#вопрос_подписчика
Большинство людей даже не задаются этим вопросом. Поэтому вы уже на полпути к успеху.
Здесь важно понимать одну печальную мысль — никто, кроме вас, в вашей карьере не заинтересован. Человек, который не растёт профессионально, невероятно удобен: не нужно думать, кем его заменить, как его мотивировать и т. п. Поэтому первый шаг — перестать ждать, что кто-то за руку поведёт вас выше.
Далее изучите свое отношение к работе. Люди, застрявшие в карьере, могут встать на путь «тихого увольнения». Иногда неосознанно. Это когда человек думает: «На меня не обращают внимания. Значит, буду халявить и выжимать максимум денег и льгот с минимумом усилий, пока не уволят». Так точно не появится навыков и достижений, которые увеличат вашу ценность.
Если подобного нет, подумайте: чего вы хотите? Стать экспертом? Или управлять командой? От этого будет зависеть следующий шаг.
Хотите развиваться как специалист, помните: ключевая ценность крутого спеца в том, что он на отлично соблюдает базовую гигиену. За ним не нужно переделывать. Возможно, ваша проблема как раз в нехватке знаний, либо непонимании каких-то основ, либо банальной невнимательности. Это лечится прокачкой хардов: лекции, книги и практика.
А хотите в тимлиды — предлагайте новые инициативы и доводите их до конца. Последнее очень важно. В здоровой рабочей среде насочинять и не сделать закопает вас хуже, чем вообще ничего не предлагать.
Также важно помнить, что результаты можно получить, только умея долго работать без положительной обратной связи. Как в спорте. Вы же не ждёте, что после двух тренировок получите тело греческой статуи?
Про себя могу сказать, что тоже регулярно сталкивался и сталкиваюсь с затыками в карьере. Оглядываясь назад, могу сказать, что с проблемой всегда можно было справиться изменив поведение. Рано или поздно понимаешь, какие ошибки создают твой "потолок" в карьере, меняешь поведение и внезапно обнаруживаешь, что потолка больше и нет.
Поэтому, коллега, не унывайте. Берите карьеру в свои руки и двигайтесь в той сфере, где хотите развиваться, но обязательно запаситесь терпением и готовностью анализировать свои шаги.
#вопрос_подписчика
❤190👍48🔥15👏6🤔3😁2🤩2🤬1🎉1💯1
Выпускники МФТИ, пост для вас
Наш любимый институт 25 ноября организует конференцию выпускников. А ещё в этот день ему исполняется 77 лет, поэтому будут торт, концерт и настолки. В целом, уже неплохо и пост можно заканчивать.
Но программа будет гораздо насыщеннее:
— Ректор Дмитрий Ливанов расскажет о стратегии развития Физтеха.
— Пройдут профильные секции: «Физтех учёным», «Физтех предпринимателям», «Альтернативные профессии физтехов». Покажут, как МФТИ развивается в этих направлениях.
— Ну а уже в конце, собственно, торт, настолки, концерт, интересные лекции и прочие активности.
Итак, 25 ноября, кампус в Долгопрудном, регистрируйтесь тут. Увидимся!
P. S.Регистрация закроется 23 ноября 2023 года в 23:59!
Наш любимый институт 25 ноября организует конференцию выпускников. А ещё в этот день ему исполняется 77 лет, поэтому будут торт, концерт и настолки. В целом, уже неплохо и пост можно заканчивать.
Но программа будет гораздо насыщеннее:
— Ректор Дмитрий Ливанов расскажет о стратегии развития Физтеха.
— Пройдут профильные секции: «Физтех учёным», «Физтех предпринимателям», «Альтернативные профессии физтехов». Покажут, как МФТИ развивается в этих направлениях.
— Ну а уже в конце, собственно, торт, настолки, концерт, интересные лекции и прочие активности.
Итак, 25 ноября, кампус в Долгопрудном, регистрируйтесь тут. Увидимся!
P. S.
🔥20❤5🤔4👍2👏1😁1
Метод ALS. Как устроен и когда его используют. Вопрос подписчика
ALS’ом иногда по ошибке называют любое матричное разложение в задаче коллаборативной фильтрации. Ну или не по ошибке, а просто жаргон такой сложился. Но давайте разберёмся в деталях.
Матричное разложение возникает, когда мы для рекомендации пользователю айтемов — товаров, фильмов, музыки — смотрим на матрицу с историей взаимодействия. А затем пробуем её приблизить произведением матрицы пользователей и матрицы айтемов.
В этом подходе для пары пользователь-айтем всегда есть два вектора чисел. Один от пользователя: он содержит в себе информацию о том, что тот полайкал, что не полайкал, что дослушал, что не дослушал. Второй — вектор айтема. Например, если это фильм, то здесь будет отражаться жанр, режиссёр, актёры и т. п. Цель — чтобы скалярное произведение этих чисел давало оценку из матрицы как можно точнее.
Важно понимать, что выше я привёл только примеры информации про пользователя и айтем: алгоритм оптимизации в процессе построения матричного разложения сам подберёт числа, и они не обязаны быть интерпретируемы и понятны человеку (наверняка не будут!). Их задача лишь хорошо прогнозировать числа из исходной матрицы.
А вот дальше уже начинается ALS. Мы настраиваем эти векторы для каждого пользователя и каждого айтема с помощью определённого метода оптимизации.ALS на самом деле и есть метод оптимизации.
Итак, нам нужно минимизировать ошибку в прогнозах. Давайте мы сначала будем подбирать вектор юзера, потом вектор айтема. Так по очереди для случайных пар юзер-айтем. Обычно используются квадратичные потери, а оптимальный выбор означает, что нам нужно производные потерь по искомым векторам приравнять к нулю. В выражении уходит квадрат, и всё сводится к решению системы линейных уравнений. Но при этом мы помним, что данные всегда будут с погрешностью.
Так что тут в дело вступает метод наименьших квадратов. Мы выбираем решение, которое с наименьшей погрешностью похоже на решение этой системы.
Работает, кстати, не только с квадратичными потерями. Мы почти всегда можем приблизить потери квадратичными рядом с точкой минимума (для математиков — разложением по Тейлору до второго порядка).
Как вы догадались, ALS часто используется в рекомендательных системах, потому что он даёт более быструю сходимость. Ведь альтернатива ALS — метод стохастического градиентного спуска (SGD) — для большого числа пользователей и айтемов будет сходиться дольше. Я, конечно, видел случаи, когда ALS обучался медленнее SGD. Но, скорее всего, дело былов руках в подборе параметров алгоритма.
Ещё есть iALS (implicit ALS). Он использует пропуски в матрице оценок. То есть, раз мы оценку не знаем, есть вероятность, что айтем пользователю не нравится. Но вес у этих данных меньше: пользователь мог айтем просто не увидеть.
Из небольших инсайдов. Ходят слухи, что долгое время и в ИВИ, и в яндексовских медиасервисах рекомендации строились на базе ALS. Сейчас, разумеется, системы намного сложнее. Но iALS остаётся обязательным к построению бейзлайном, если уж вы взялись за разработку рекомендательной системы.
В сервисах МТС мы используем iALS в рекомендациях, если данных уже достаточно много, чтобы не ограничиваться простым бейзлайном с популярными айтемами, но ещё недостаточно для более сложных нейросетевых моделек. Вроде тех, которые мы сейчас используем в KION(там уже давно вовсю работают сетки) .
Также иногда прогноз от iALS хорошо бустит качество более сложных моделей. Векторы из iALS как фичи, как правило, заходят хуже, чем их произведения.
#вопрос_подписчика
ALS’ом иногда по ошибке называют любое матричное разложение в задаче коллаборативной фильтрации. Ну или не по ошибке, а просто жаргон такой сложился. Но давайте разберёмся в деталях.
Матричное разложение возникает, когда мы для рекомендации пользователю айтемов — товаров, фильмов, музыки — смотрим на матрицу с историей взаимодействия. А затем пробуем её приблизить произведением матрицы пользователей и матрицы айтемов.
В этом подходе для пары пользователь-айтем всегда есть два вектора чисел. Один от пользователя: он содержит в себе информацию о том, что тот полайкал, что не полайкал, что дослушал, что не дослушал. Второй — вектор айтема. Например, если это фильм, то здесь будет отражаться жанр, режиссёр, актёры и т. п. Цель — чтобы скалярное произведение этих чисел давало оценку из матрицы как можно точнее.
Важно понимать, что выше я привёл только примеры информации про пользователя и айтем: алгоритм оптимизации в процессе построения матричного разложения сам подберёт числа, и они не обязаны быть интерпретируемы и понятны человеку (наверняка не будут!). Их задача лишь хорошо прогнозировать числа из исходной матрицы.
А вот дальше уже начинается ALS. Мы настраиваем эти векторы для каждого пользователя и каждого айтема с помощью определённого метода оптимизации.
Итак, нам нужно минимизировать ошибку в прогнозах. Давайте мы сначала будем подбирать вектор юзера, потом вектор айтема. Так по очереди для случайных пар юзер-айтем. Обычно используются квадратичные потери, а оптимальный выбор означает, что нам нужно производные потерь по искомым векторам приравнять к нулю. В выражении уходит квадрат, и всё сводится к решению системы линейных уравнений. Но при этом мы помним, что данные всегда будут с погрешностью.
Так что тут в дело вступает метод наименьших квадратов. Мы выбираем решение, которое с наименьшей погрешностью похоже на решение этой системы.
Работает, кстати, не только с квадратичными потерями. Мы почти всегда можем приблизить потери квадратичными рядом с точкой минимума (для математиков — разложением по Тейлору до второго порядка).
Как вы догадались, ALS часто используется в рекомендательных системах, потому что он даёт более быструю сходимость. Ведь альтернатива ALS — метод стохастического градиентного спуска (SGD) — для большого числа пользователей и айтемов будет сходиться дольше. Я, конечно, видел случаи, когда ALS обучался медленнее SGD. Но, скорее всего, дело было
Ещё есть iALS (implicit ALS). Он использует пропуски в матрице оценок. То есть, раз мы оценку не знаем, есть вероятность, что айтем пользователю не нравится. Но вес у этих данных меньше: пользователь мог айтем просто не увидеть.
Из небольших инсайдов. Ходят слухи, что долгое время и в ИВИ, и в яндексовских медиасервисах рекомендации строились на базе ALS. Сейчас, разумеется, системы намного сложнее. Но iALS остаётся обязательным к построению бейзлайном, если уж вы взялись за разработку рекомендательной системы.
В сервисах МТС мы используем iALS в рекомендациях, если данных уже достаточно много, чтобы не ограничиваться простым бейзлайном с популярными айтемами, но ещё недостаточно для более сложных нейросетевых моделек. Вроде тех, которые мы сейчас используем в KION
Также иногда прогноз от iALS хорошо бустит качество более сложных моделей. Векторы из iALS как фичи, как правило, заходят хуже, чем их произведения.
#вопрос_подписчика
🔥30👍18❤7👏4