Kantor.AI
11.6K subscribers
143 photos
12 videos
5 files
186 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Приглашаем на ML-митап Big Data МТС  

Когда: 7 июля, 18.00 

🧑‍💻 Расскажем, как автоматизировать качество данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке. 

⚡️ Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям. 

🤓 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com

Регистрация здесь.
👍20🔥5🤔3
Разговорились с коллегой на тему "насколько полезно брать кагглеров в продакшн ML?" (привет диалогам "нужны ли олимпиадники c ACM в продакшн разработке?"). И тут коллега мне и говорит: "Прикинь, есть такой молодой кагглер Aleron, так он статью на Хабре написал про математику в Data Science, и там не поиск экстремумов, не линал какой-нибудь, а вещи уровня что такое график функции".

Я сначала даже поддержал скептичные шуточки, но попросил ссылку прислать. Читаю - а автор сразу честно пишет, что это не то, что нужно, чтобы понять внутренности методов машинного обучения, а то, что периодически вылезает в простой ежедневной работе. И это прям нормальный честный ответ, что в DS пригодится с большой вероятностью.

Коллега мой справедливо заметил, что это все уровень девятого класса. А закончил он кстати отнюдь не математический факультет, так что отсылки к школе, а не к ВУЗу, вполне обоснованы. Но я вам оставлю тут ссылку, и кто хочет в Data Science, может пролистать: https://habr.com/ru/company/ruvds/blog/676114/ . Aleron'у и моему коллеге привет, статья на мой взгляд всё же хорошая, т.к. рассказывает, без чего будешь в DS ну совсем тупым копи-пейстером. Это, знаете ли, тоже полезная отсечка, чтобы о ней что-то написать.
👍92👎8🔥6🤔43👏1
Два года CDO (часть 1)

Подходят к концу первые два года моей работы в топ менеджменте МТС директором Big Data (сначала как ВрИО, а потом и в полной мере официально).

Вместе со мной вызов трансформировать Big Data МТС приняло много хороших людей - и по-человечески, и в экспертном плане. И я говорю как про новых сотрудников, пришедших к нам из Озона, Яндекса, Тинькофф, Сбера, X5 и других компаний, тоже сильных в работе с данными, так и про тех, кто уже годами работал в МТС, но охотно вовлекся в движ.

Благодаря увлеченности, упорству и, несомненно, таланту команды, удалось достичь многого, что казалось маловероятным в 2020 и даже в 2021 году. Сейчас у нас есть первая статья на топ-1 в мире конференции по рекомендательным системам RecSys (пока в воркшопах, конечно, но начало положено), есть свои open source либы, про которые я еще напишу подробнее, есть регулярная работа с сообществом в виде организации своих митапов и активного участия в чужих, есть своя школа аналитиков данных в проекте МТС Тета. Очень важно, что все эти вещи достигнуты не вместо коммерческих целей бизнеса, а вместе с ними. Почему иначе бы не полетело - в следующем посте.
👍133🔥57🤔8🤩2
Два года CDO (часть 2)

Почему раньше не было перечисленных в прошлом посте вещей? Очень просто, купите акций МТС и получите хотя бы раз дивиденды по ним. Тёплое приятное чувство, которое разольётся по телу, это чувство владения долей в компании, которая делится со своими акционерами. Компаний, которые размером и стабильностью дивидендов также привлекательны, как МТС, на рынке не так уж много.

Однако за этим стоит очень непростая работа. Когда в других местах работы у меня был безлимит штатных единиц на найм «ввиду активного роста бизнеса», в МТС любое увеличение численности должно сопровождаться подсчетом экономики и обоснованием того, что компания заработает ощутимо больше, чем потратит. Это же приводит к тому, что, например, любой Data Science проект в итоге оценивается здесь не ROC-AUC, а экономическим эффектом. Тому, кто возразит, что хвалить такие вещи - это стокгольмский синдром, я скажу еще раз: купите акции, получите разок дивиденды, всё почувствуете.

При этом возникает неловкий момент: какой же тогда опенсорс, какие статьи и митапы, если все должно принести денег? Вот в этом и была тонкость моей работы и работы многих других руководителей в моем подразделении. Нужно было вплести вещи, работающие на репутацию команды и на развитие среды, в конкретные полезные бизнесу планы.

Как мы это делали - в части 3
👍72🤔30🔥192🤯1
Два года CDO (часть 3)

В прошлый раз мы закончили на том, что технологические цели неплохо бы увязывать с пользой для бизнеса, и пора рассказать, как мы это делали.

Во-первых, мы выделили ряд платформ, которые могут сильно снизить Time2Market бизнесовых применений анализа данных. Это рекомендательная платформа, скоринговая, MLOps и DataOps платформы. Первые две уже вовсю используются для бизнесов МТС, а скоринговая - ещё и для работы с внешними заказчиками. В этих платформах есть определенные части, которые можно и нужно опенсорсить, я еще расскажу об этом подробнее. Также нужно иметь ввиду, что «платформа» - это сейчас слово-паразит, проникшее в стратегии многих компаний, и значить оно может разное. В нашем случае речь про набор применяемых техническими специалистами инструментов, разработанных для удобного использования вместе и существенного ускорения работы. Например, чтобы рекомендательную систему для нового сервиса можно было сделать командой из двух человек за пару недель, а не из 5-10 за полгода.

Во-вторых, мы не поддались искушению полностью упороться в развитие инфраструктуры, перекинув все силы с зарабатывания денег здесь и сейчас. На секундочку, KPI у многих членов команды завязаны на деньги, но ничего не стоило эту зависимость убрать и переиграть всё в чистое IT, бизнес очень даже открыт к экспериментам.

В итоге, уже в первый же год мы без увеличения общей численности команды удвоили (!) экономические эффекты от Big Data для бизнеса. И это при том, что мы параллельно вели разработку платформ, которые, разумеется, не дают свой эффект сразу. Помогла просто грамотная приоритизация задач и работа с командой. Многие провалы в прошлом были связаны с тем, что в нужном месте не оказывался нужный человек, и зная, «кто что потянет», можно сильно улучшить ситуацию.

Сейчас мы активно работаем над MLOps и DataOps платформами (многое уже есть, но работы тоже хватает), а также вовсю дальше внедряем рекомендательную и скоринговую. Причём скоринговая это не только про классические рисковые скоры, но и вообще про любые скоры или прогнозы на клиенте для задач бизнеса (будь то антифрод, отток или еще что-то). В октябре будут первые сравнения нашей рекомендательной платформы с рекомендациями от других вендоров, которые занимаются RecSys годами. Выиграем или нет - покажет эксперимент, но даже если нет, через год уже точно выиграем :)
🔥61👍207🤔5👏3
В прошлом году я летал на Data Driven Top 100 к Жене, и это был наверно самый крутой опыт конференции по аналитике на моей памяти. Не было скучных «программных» докладов, было нормальное общение вменяемых людей. Учитывая, что все участники топы аналитики различных компаний, в том числе очень крупных, обсудить там реально можно всё. Важен и психотерапевтический эффект - когда видишь других людей с теми же болями, как-то легче с ними справляться и искать решения. Ну и, конечно, важно, что Женя не просто очередной организатор конфы по горячей теме без понимания контекста, а человек, который сделал огромное количество крутых аналитических штук в Яндексе и реально круто шарит. Очень рекомендую и Женю, и его конфу :)
11😁3👍2🤩1
В прошлом году мы провели первый экспериментальный Data Driven Top100 — конференцию для топов аналитики и руководителей продуктов, которые построены на данных (поиск, диспатч, риски и прочее).

Нашим главным вызовом было придумать формат, который будет полезен опытным руководителям аналитики. И, судя по отзывам участников прошлого года, у нас получилось!

В этом году мы повторяем мероприятие. Оно пройдет в начале октября в Турции. Приходится выбираться за пределы страны, чтобы могли приехать ребята, которые живут и работают не в России. Без них русскоязычный топ не выйдет.

Состав участников #ddtop100 — это моя персональная гордость. Ребята невероятно крутые как в профессиональном плане, так и в личностном. Пока это в основном люди, до которых я смог дотянуться через одно-два рукопожатия своего круга знакомств. Мне очень хотелось бы расширить этот круг, тем более что сейчас он перекошен в айтишную сферу. Я уверен, что есть множество крутых ребят в традиционно оффлайновых отраслях: образовании, здравоохранении, призводстве, фармацевтике, логистике, авиаперевозках, госуправлении и т. д. А менеджерские проблемы, которые мы обсуждаем на конференции, как показывает опыт, очень близки вне зависимости от индустрии.

Я буду благодарен, если вы расскажете своим знакомым топам аналитики о нашей конференции. Или просто дайте мне о них знать — а я сам с ними свяжусь) @eugenekozlov

Ниже я прикладываю список участников этого года и их статусы на сегодня. В этом году наша площадка сможет вместить максимум 60 участников, так что мест осталось немного. Думаю, с учетом того, что часть ребят из списка может не доехать, есть 10-15 билетов для новых лиц.

Gotta catch them all! =)
👍132
Во втором семестре обучения в Школе анализа данных Яндекса у меня начинался курс машинного обучения, который я уже успел тогда пройти и даже начать семинарить в МФТИ. Как молодой препод я попал в рассылку, где искали семинариста и на ШАДовский курс. Несмотря на то что я засчитывал курс из МФТИ, мне показалось неправильным вести пары у собственных однокурсников, поэтому я не стал откликаться.

Совершенно другого мнения о такой забавной ситуации был мой однокурсник по ШАДу Саша Фонарев. Он стал семинаристом ШАДовского курса и буквально за несколько лет собрал крутейшую команду и один из лучших на то время курсов, попутно прокачавшись в ML и сам. Мораль 1: меньше условностей, берите и делайте.

Спустя несколько лет я работал в Yandex Data Factory и пробовал захантить к нам Сашу. Команда была действительно звездной, и он бы хорошо в неё вписался. Но, увы, у Саши уже был стартап Rubbles, там было все серьезно, и бросать он его не хотел. Мой тогдашний босс решил поддержать меня и сказал: «Да ладно, закончатся деньги у их стартапа, и снова позовём». Прошли годы, Data Factory уже давно нет, а Rubbles чувствует себя прекрасно. Мораль 2: берите и делайте то, что нравится. Не важно, кто что думает и как оценивает ваши шансы на успех, важно, что думаете вы и что сами делаете, чтобы их повысить.

Но это все мои наблюдения со стороны, а у меня есть для вас и кое-что получше: рассказ от самого Саши о том, как все было, и как он живет и работает сейчас - в первом выпуске нашего подкаста «ТехТок» https://podcast.ru/e/18TtWlj.2Ln
🔥104👍389🤩1
Завтра и послезавтра (3-4 декабря) пройдет конференция Яндекса для IT-сообщества YaTalks. Один из тематических треков посвящен ML и, судя по программе, там будет много интересного.

Например, Алексей Гусаков, руководитель управления машинного интеллекта и исследований Яндекса, расскажет, как поймать баланс между продуктом и исследованиями. Из его доклада можно будет узнать, как развивался ML в Яндексе, как взаимодействуют R&D и бизнес и как разработчикам помогает отдел Yandex Research.

Среди других ML-тем: «Нейродубляж: стираем языковые барьеры в видео» и «10 лет новой эпохи машинного обучения».
Чтобы ничего не пропустить, регистрируйтесь и подписывайтесь на канал @yatalks2022. Конференция пройдет онлайн, так что подключиться можно из любой точки мира :)
🔥33👍7🤔2
Наконец-то мы проводим от МТС соревнование по ML с призами. Давно хотел и вот, силами нашей R&D команды бигдаты МТС и ее лидера Никиты Зелинского в частности, наконец-то запустили. Отдельное спасибо нашим друзьям из ODS и лично Лёше Натекину, ну и конечно HR и PR МТС Диджитал.

Задача крайне любопытная - в рекламе, когда вы ничего не знаете про человека кроме его куки и пары посещенных сайтов, вы не можете отнести его даже к простым сегментам по полу и возрасту. Решение - построить модель пола и возраста на этих известных нескольких доменах. Скажете, что бред? Зависит от сайтов. Например один только сайт World of Tanks в истории уже неплохо определяет пол :)

На участие у вас будет два месяца с 30.01 по 30.03, но лучше не откладывать.
👍27🔥14
Forwarded from MTS Teta Hub
Всем привет! 👋

Сохранили этот канал в том числе и для анонсов интересных активностей - используем его прямо по назначению и приглашаем всех на соревнования по Machine Learning - MTC ML Cup!

Это турнир по определению пола/возраста владельца cookie от МТС Digital. Призовой фонд MTC ML Cup – 650 000 рублей: победитель получит 350 000 рублей, обладатель серебра – 200 000 рублей, а третий призер станет богаче на 100 000 рублей.

Регистрация уже открыта, простая анкета для участников и все подробности на сайте. Стартуем 30 января.

Лайк, шер, репост, как говорится. Увидимся на соревновании!
👍38🎉92
Кто-то говорил, что «не бросать» что-то делать это не главное. Главное начинать снова и снова.
Посмотрим, на сколько меня хватит в этот раз :)

В четверг был на конфе Forbes «Успех к 30». Очень крутая организация, солидно, масштабно, и, что было особенно приятно, много девушек (кстати, очень красивых :) среди спикеров и слушателей. Эйджизм и сексизм постепенно умирают и скатертью им дорожка. Так получилось, что был на конфе уже даже не в качестве лауреата 2020 года, а как спикер из топов МТС, что особенно приятно и вообще была большая честь представлять индустрию.

Из главного: всех, вот буквально всех интересует, где и как применяется искусственный интеллект, насколько это полезно для бизнеса, нужно ли менять профессию и кому. Вся наша полуторачасовая панель на конфе была об этом. Ссылка на небольшое (9 минут) видео с основными тезисами от меня: https://www.youtube.com/watch?v=lQTPc4qGSKk
48👍36🔥20🤔3👏2🤩2
True Tech Champ и ML платформы

Вчера выступил на True Tech Champ. Это площадка, которую организует МТС для начинающих специалистов в области IT. Здесь можно было не только получить знания, расширить контакты, но и побороться за главный приз в три миллиона рублей . Уверен, что сейчас долг любой крупной организации — инвестировать в развитие профессиональной среды и ставка МТС на IT здесь абсолютно оправдана.

Я в своем выступлении рассказывал про ML-платформы (в природе и в МТС). Акцент был на том, как понять, какие платформы нужны бизнесу и как они могут помочь сэкономить и заработать больше.

В любом бизнесе всё сводится к двум вещам: тому, на что он деньги тратит, и тому, на чём зарабатывает. Доходы получаются в результате взаимодействия с клиентом (когда клиент платит за услуги, товары и доступ к сервисам). Расходы — это:

-стоимость контакта с клиентом (в случае нового клиента - привлечения)
-потери, связанные с реализацией рисков по клиенту (дефолт по кредиту, мошеннические действия и т.д.)
-затраты на персонал и материальную базу;
-затраты, связанные с бизнес-процессами (грубо говоря, последствия излишней бюрократии, нерабочих процедур или конфликтующих процессов, неоптимальной логистики и так далее);
-затраты, связанные с закупкой товаров, прав на медиаконтент и т.д. - не все бизнес производит сам.

Сконцентрируемся пока на доходах и расходах в привязке к одному клиенту. Чтобы растить доходы нам нужно с одной стороны повышать конверсии в оплату, а с другой - уметь выстраивать ценообразование не по наитию, а на основе данных. Первое делается с помощью рекомендательной платформы, второе - с помощью платформы Smart Pricing. Чтобы снижать стоимость привлечения клиента и стоимость контакта нам требуется платформа лидогенерации (зная своих клиентов мы можем дешевле получать нужные нам сегменты), а чтобы управлять потерями, связанными с рисками, нужна скоринговая платформа.

Отдельная история - это платформы для оптимизации оставшихся затрат, они тоже есть в МТС, но про них в следующий раз.

Главное преимущество платформенного подхода перед вариантом “сделаем 1000 разных моделей по всему бизнесу и будем решать задачи case-by-case” в том, что экспертиза и новые наработки моментально распространяются по всей группе компаний. Например, когда нам нужно было реализовать рекомендации для нашего онлайн-магазина, оказалось что все необходимое собирается из готовых кубиков, разработанных для онлайн-кинотеатра KION, а полученная система не просто работает, а успешно побеждает в A/B тестах с внешними решениями.
👍30🔥64🎉2🤩2👏1
👍34🔥179
Обучиться Data Science «самому», без вузовских курсов, можно, но сложно

Курсов «Стань Data Scientist’ом за три месяца» с заманчивыми обещаниями о трудоустройстве и большом заработке довольно много. Грешат этим все: от GeekBrains и Skillbox до Яндекс Практикума (хотя, по моему субъективному мнению, коллеги из Яндекса работают наиболее деликатно и им за это от меня респект).

Нет ничего зазорного в курсах хоть на три месяца, хоть на три занятия.

Любой формат позволяет донести определённые знания, однако важно сохранять трезвость в оценке ценности подобных курсов.

Человек с хорошим техническим образованием из МГУ, МФТИ, ВШЭ, СПбГУ, ИТМО и других топовых вузов вполне в состоянии устроиться стажёром в data science и после вводного курса. Вряд ли в топовую компанию, но начать нарабатывать опыт уже можно.

Более того, полноценно проходить даже короткий курс необязательно — это лишь способ ускорить процесс. Если человек умеет программировать, читать документацию и изучать библиотеки, можно обойтись и без курса:

— решайте Kaggle.com, начиная с учебных соревнований
— читайте форумы соревнований,
— практикуйтесь в применении DS библиотек (sklearn, lightgbm, catboost, xgboost, pandas, polars, seaborn, pytorch, ambrosia)
— изучайте их документацию

Находите открытые материалы курсов по data science и разбирайте их самостоятельно. Знаю примеры людей, бегло изучающих семестровый курс из Стэнфорда за ночь. Не всем обязательно демонстрировать такую суперпроизводительность, да и почти любой человек после подобной учёбы многое забудет через неделю. Но вместе с практикой этот подход совершенно нормальный.

Ещё полезно через какое-то время изучить ту же тему в новом источнике. Интересующихся людей в целом всегда выделяет то, что им недостаточно прочитать одну книгу, решить задачу один раз, один раз понять, как всё устроено. Им интересно изучать вопрос с разных сторон снова и снова.

Однако нужно помнить, что без сильной базы по программированию и математике путь в Data Science может быть долгим. Это нормально. Главное — не останавливаться в изучении фундаментальных направлений. Если понравится процесс — вы его пройдёте, сами или с чьей-то помощью.
👍8634🔥13🤔2🤩2
2 ноября на конференции DataStart можно будет узнать об обновлениях в нашем фреймворке для рекомендательных систем RecTools, который мы выпустили в open-source в прошлом году. От BigData МТС будет выступать Даша Тихонович. Она расскажет о нашем опыте использования библиотеки в реальных сервисах, а также о сложностях комплексной валидации в RecSys. Многие аспекты валидации остаются за рамками курсов по рекомендательным системам, но их критически важно учитывать, создавая модели для реальных сервисов. Зарегистрироваться можно по ссылке: https://datastart.ru/
🔥21👍105👏2
Возрождаю рубрику

Давайте внесём в канал интерактив. Давно вынашивал идею для рубрики Q&A и, наконец, запускаю.

Как это будет работать:

Оставлю здесь гугл-форму. Если у вас есть какой-то вопрос по DS, Big Data и образованию — смело задавайте в ней, и я дам развёрнутый ответ. Тема может быть как профессиональной, так и из учёбы, ограничений нет.

Ещё в форме есть пункт про контент. Накидал несколько форматов, выберете те, которые хотите видеть в канале чаще. Или, возможно, у вас есть своя идея, которой вам не жалко поделиться.

Буду благодарен за ваше время!
🔥4710👍9🤔2👏1
Коллеги из Data Secrets написали статью на Хабр про нашу опенсорс-библиотеку для рекомендательных систем RecTools, рекомендую к прочтению. А еще наши знакомые из ряда банков недавно благодарили за либу и рассказывали, что активно её используют. Невозможно словами описать, насколько это приятно. Сделать open-source библиотеку для RecSys, которой будут пользоваться, было моей давней мечтой, и я рад, что ее получилось осуществить в Big Data МТС. Дальше будет больше :) Спасибо огромное команде RecTools - ребята, вы лучшие!
🎉4923🔥17