Kantor.AI – Telegram

Kantor.AI

11.6K subscribers

143 photos

12 videos

5 files

186 links

Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136

Download Telegram

About

Blog

Apps

Platform

11.6K subscribers

Forwarded from Data Science | Machinelearning [ru]

Приглашаем на ML-митап Big Data МТС

Когда: 7 июля, 18.00

🧑‍💻 Расскажем, как автоматизировать качество данных в Feature Store: рассмотрим базовые алгоритмы детекции дрейфа на признаковом пространстве моделей и их реализации в распределенном стеке.

⚡️ Рассмотрим популярные проблемы ML-систем и способы их предотвращения: как сугубо инженерные подходы к тестированию всей системы, так и тесты, применимые исключительно к ML моделям.

🤓 Обсудим что происходит с RnD в промышленном Data Science. В качестве экспертов: Анатолий Орлов — СTO AliExpress Россия, Радослав Нечаев — лектор по ML и руководитель магистратуры MSAI МФТИ и Валерий Бабушкин - Head of Data Science Blockchain.com

Регистрация здесь.

mts-digital.timepad.ru

ML MEETUP MTS BIG DATA / События на TimePad.ru

МТС Big Data проведет четвертый онлайн-митап для дата-саентистов, дата-инженеров и специалистов, интересующихся машинным обучением

👍20🔥5🤔3

9.87K viewsVictor Kantor, 13:34

Разговорились с коллегой на тему "насколько полезно брать кагглеров в продакшн ML?" (привет диалогам "нужны ли олимпиадники c ACM в продакшн разработке?"). И тут коллега мне и говорит: "Прикинь, есть такой молодой кагглер Aleron, так он статью на Хабре написал про математику в Data Science, и там не поиск экстремумов, не линал какой-нибудь, а вещи уровня что такое график функции".

Я сначала даже поддержал скептичные шуточки, но попросил ссылку прислать. Читаю - а автор сразу честно пишет, что это не то, что нужно, чтобы понять внутренности методов машинного обучения, а то, что периодически вылезает в простой ежедневной работе. И это прям нормальный честный ответ, что в DS пригодится с большой вероятностью.

Коллега мой справедливо заметил, что это все уровень девятого класса. А закончил он кстати отнюдь не математический факультет, так что отсылки к школе, а не к ВУЗу, вполне обоснованы. Но я вам оставлю тут ссылку, и кто хочет в Data Science, может пролистать: https://habr.com/ru/company/ruvds/blog/676114/ . Aleron'у и моему коллеге привет, статья на мой взгляд всё же хорошая, т.к. рассказывает, без чего будешь в DS ну совсем тупым копи-пейстером. Это, знаете ли, тоже полезная отсечка, чтобы о ней что-то написать.

В Data Science не нужна математика (Почти)

Привет, чемпион! Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат. В реальной повседневной работе Data...

👍92👎8🔥6🤔4❤3👏1

10.8K viewsVictor Kantor, 09:21

Два года CDO (часть 1)

Подходят к концу первые два года моей работы в топ менеджменте МТС директором Big Data (сначала как ВрИО, а потом и в полной мере официально).

Вместе со мной вызов трансформировать Big Data МТС приняло много хороших людей - и по-человечески, и в экспертном плане. И я говорю как про новых сотрудников, пришедших к нам из Озона, Яндекса, Тинькофф, Сбера, X5 и других компаний, тоже сильных в работе с данными, так и про тех, кто уже годами работал в МТС, но охотно вовлекся в движ.

Благодаря увлеченности, упорству и, несомненно, таланту команды, удалось достичь многого, что казалось маловероятным в 2020 и даже в 2021 году. Сейчас у нас есть первая статья на топ-1 в мире конференции по рекомендательным системам RecSys (пока в воркшопах, конечно, но начало положено), есть свои open source либы, про которые я еще напишу подробнее, есть регулярная работа с сообществом в виде организации своих митапов и активного участия в чужих, есть своя школа аналитиков данных в проекте МТС Тета. Очень важно, что все эти вещи достигнуты не вместо коммерческих целей бизнеса, а вместе с ними. Почему иначе бы не полетело - в следующем посте.

👍133🔥57🤔8🤩2

7.3K viewsVictor Kantor, 09:25

Два года CDO (часть 2)

Почему раньше не было перечисленных в прошлом посте вещей? Очень просто, купите акций МТС и получите хотя бы раз дивиденды по ним. Тёплое приятное чувство, которое разольётся по телу, это чувство владения долей в компании, которая делится со своими акционерами. Компаний, которые размером и стабильностью дивидендов также привлекательны, как МТС, на рынке не так уж много.

Однако за этим стоит очень непростая работа. Когда в других местах работы у меня был безлимит штатных единиц на найм «ввиду активного роста бизнеса», в МТС любое увеличение численности должно сопровождаться подсчетом экономики и обоснованием того, что компания заработает ощутимо больше, чем потратит. Это же приводит к тому, что, например, любой Data Science проект в итоге оценивается здесь не ROC-AUC, а экономическим эффектом. Тому, кто возразит, что хвалить такие вещи - это стокгольмский синдром, я скажу еще раз: купите акции, получите разок дивиденды, всё почувствуете.

При этом возникает неловкий момент: какой же тогда опенсорс, какие статьи и митапы, если все должно принести денег? Вот в этом и была тонкость моей работы и работы многих других руководителей в моем подразделении. Нужно было вплести вещи, работающие на репутацию команды и на развитие среды, в конкретные полезные бизнесу планы.

Как мы это делали - в части 3

👍72🤔30🔥19❤2🤯1

7.49K viewsVictor Kantor, 10:02

Два года CDO (часть 3)

В прошлый раз мы закончили на том, что технологические цели неплохо бы увязывать с пользой для бизнеса, и пора рассказать, как мы это делали.

Во-первых, мы выделили ряд платформ, которые могут сильно снизить Time2Market бизнесовых применений анализа данных. Это рекомендательная платформа, скоринговая, MLOps и DataOps платформы. Первые две уже вовсю используются для бизнесов МТС, а скоринговая - ещё и для работы с внешними заказчиками. В этих платформах есть определенные части, которые можно и нужно опенсорсить, я еще расскажу об этом подробнее. Также нужно иметь ввиду, что «платформа» - это сейчас слово-паразит, проникшее в стратегии многих компаний, и значить оно может разное. В нашем случае речь про набор применяемых техническими специалистами инструментов, разработанных для удобного использования вместе и существенного ускорения работы. Например, чтобы рекомендательную систему для нового сервиса можно было сделать командой из двух человек за пару недель, а не из 5-10 за полгода.

Во-вторых, мы не поддались искушению полностью упороться в развитие инфраструктуры, перекинув все силы с зарабатывания денег здесь и сейчас. На секундочку, KPI у многих членов команды завязаны на деньги, но ничего не стоило эту зависимость убрать и переиграть всё в чистое IT, бизнес очень даже открыт к экспериментам.

В итоге, уже в первый же год мы без увеличения общей численности команды удвоили (!) экономические эффекты от Big Data для бизнеса. И это при том, что мы параллельно вели разработку платформ, которые, разумеется, не дают свой эффект сразу. Помогла просто грамотная приоритизация задач и работа с командой. Многие провалы в прошлом были связаны с тем, что в нужном месте не оказывался нужный человек, и зная, «кто что потянет», можно сильно улучшить ситуацию.

Сейчас мы активно работаем над MLOps и DataOps платформами (многое уже есть, но работы тоже хватает), а также вовсю дальше внедряем рекомендательную и скоринговую. Причём скоринговая это не только про классические рисковые скоры, но и вообще про любые скоры или прогнозы на клиенте для задач бизнеса (будь то антифрод, отток или еще что-то). В октябре будут первые сравнения нашей рекомендательной платформы с рекомендациями от других вендоров, которые занимаются RecSys годами. Выиграем или нет - покажет эксперимент, но даже если нет, через год уже точно выиграем :)

🔥61👍20❤7🤔5👏3

8.36K viewsVictor Kantor, 09:30

В прошлом году я летал на Data Driven Top 100 к Жене, и это был наверно самый крутой опыт конференции по аналитике на моей памяти. Не было скучных «программных» докладов, было нормальное общение вменяемых людей. Учитывая, что все участники топы аналитики различных компаний, в том числе очень крупных, обсудить там реально можно всё. Важен и психотерапевтический эффект - когда видишь других людей с теми же болями, как-то легче с ними справляться и искать решения. Ну и, конечно, важно, что Женя не просто очередной организатор конфы по горячей теме без понимания контекста, а человек, который сделал огромное количество крутых аналитических штук в Яндексе и реально круто шарит. Очень рекомендую и Женю, и его конфу :)

❤11😁3👍2🤩1

7.4K viewsVictor Kantor, 10:44

Forwarded from Секрет лапшичного супа

В прошлом году мы провели первый экспериментальный Data Driven Top100 — конференцию для топов аналитики и руководителей продуктов, которые построены на данных (поиск, диспатч, риски и прочее).

Нашим главным вызовом было придумать формат, который будет полезен опытным руководителям аналитики. И, судя по отзывам участников прошлого года, у нас получилось!

В этом году мы повторяем мероприятие. Оно пройдет в начале октября в Турции. Приходится выбираться за пределы страны, чтобы могли приехать ребята, которые живут и работают не в России. Без них русскоязычный топ не выйдет.

Состав участников #ddtop100 — это моя персональная гордость. Ребята невероятно крутые как в профессиональном плане, так и в личностном. Пока это в основном люди, до которых я смог дотянуться через одно-два рукопожатия своего круга знакомств. Мне очень хотелось бы расширить этот круг, тем более что сейчас он перекошен в айтишную сферу. Я уверен, что есть множество крутых ребят в традиционно оффлайновых отраслях: образовании, здравоохранении, призводстве, фармацевтике, логистике, авиаперевозках, госуправлении и т. д. А менеджерские проблемы, которые мы обсуждаем на конференции, как показывает опыт, очень близки вне зависимости от индустрии.

Я буду благодарен, если вы расскажете своим знакомым топам аналитики о нашей конференции. Или просто дайте мне о них знать — а я сам с ними свяжусь) @eugenekozlov

Ниже я прикладываю список участников этого года и их статусы на сегодня. В этом году наша площадка сможет вместить максимум 60 участников, так что мест осталось немного. Думаю, с учетом того, что часть ребят из списка может не доехать, есть 10-15 билетов для новых лиц.

Gotta catch them all! =)

👍13❤2

9.44K viewsVictor Kantor, 10:44

Во втором семестре обучения в Школе анализа данных Яндекса у меня начинался курс машинного обучения, который я уже успел тогда пройти и даже начать семинарить в МФТИ. Как молодой препод я попал в рассылку, где искали семинариста и на ШАДовский курс. Несмотря на то что я засчитывал курс из МФТИ, мне показалось неправильным вести пары у собственных однокурсников, поэтому я не стал откликаться.

Совершенно другого мнения о такой забавной ситуации был мой однокурсник по ШАДу Саша Фонарев. Он стал семинаристом ШАДовского курса и буквально за несколько лет собрал крутейшую команду и один из лучших на то время курсов, попутно прокачавшись в ML и сам. Мораль 1: меньше условностей, берите и делайте.

Спустя несколько лет я работал в Yandex Data Factory и пробовал захантить к нам Сашу. Команда была действительно звездной, и он бы хорошо в неё вписался. Но, увы, у Саши уже был стартап Rubbles, там было все серьезно, и бросать он его не хотел. Мой тогдашний босс решил поддержать меня и сказал: «Да ладно, закончатся деньги у их стартапа, и снова позовём». Прошли годы, Data Factory уже давно нет, а Rubbles чувствует себя прекрасно. Мораль 2: берите и делайте то, что нравится. Не важно, кто что думает и как оценивает ваши шансы на успех, важно, что думаете вы и что сами делаете, чтобы их повысить.

Но это все мои наблюдения со стороны, а у меня есть для вас и кое-что получше: рассказ от самого Саши о том, как все было, и как он живет и работает сейчас - в первом выпуске нашего подкаста «ТехТок» https://podcast.ru/e/18TtWlj.2Ln

ШАД. Стартапы. PhD – Техток – Podcast.ru

Если ставить себе амбициозные задачи и прыгать выше головы, то можно попасть в список Forbes «30 до 30». Наш гость попал.
А потом пришел к нам на подкаст и рассказал где и чему стоит учиться, и когда пора запускать свой бизнес, Разобрали карьеру кандидата…

🔥104👍38❤9🤩1

11.2K viewsVictor Kantor, 12:45

Завтра и послезавтра (3-4 декабря) пройдет конференция Яндекса для IT-сообщества YaTalks. Один из тематических треков посвящен ML и, судя по программе, там будет много интересного.

Например, Алексей Гусаков, руководитель управления машинного интеллекта и исследований Яндекса, расскажет, как поймать баланс между продуктом и исследованиями. Из его доклада можно будет узнать, как развивался ML в Яндексе, как взаимодействуют R&D и бизнес и как разработчикам помогает отдел Yandex Research.

Среди других ML-тем: «Нейродубляж: стираем языковые барьеры в видео» и «10 лет новой эпохи машинного обучения».
Чтобы ничего не пропустить, регистрируйтесь и подписывайтесь на канал @yatalks2022. Конференция пройдет онлайн, так что подключиться можно из любой точки мира :)

yatalks.yandex.ru

Главная конференция Яндекса для IT-сообщества — YaTalks 2023

5 и 6 декабря более 100 экспертов IT-индустрии и учёных выступят в Москве и Белграде с техническими докладами о разработке и ML и с научно-популярными лекциями.

🔥33👍7🤔2

12K viewsVictor Kantor, 12:49

Наконец-то мы проводим от МТС соревнование по ML с призами. Давно хотел и вот, силами нашей R&D команды бигдаты МТС и ее лидера Никиты Зелинского в частности, наконец-то запустили. Отдельное спасибо нашим друзьям из ODS и лично Лёше Натекину, ну и конечно HR и PR МТС Диджитал.

Задача крайне любопытная - в рекламе, когда вы ничего не знаете про человека кроме его куки и пары посещенных сайтов, вы не можете отнести его даже к простым сегментам по полу и возрасту. Решение - построить модель пола и возраста на этих известных нескольких доменах. Скажете, что бред? Зависит от сайтов. Например один только сайт World of Tanks в истории уже неплохо определяет пол :)

На участие у вас будет два месяца с 30.01 по 30.03, но лучше не откладывать.

👍27🔥14

10.7K viewsVictor Kantor, 10:02

Forwarded from MTS Teta Hub

Всем привет! 👋

Сохранили этот канал в том числе и для анонсов интересных активностей - используем его прямо по назначению и приглашаем всех на соревнования по Machine Learning - MTC ML Cup!

Это турнир по определению пола/возраста владельца cookie от МТС Digital. Призовой фонд MTC ML Cup – 650 000 рублей: победитель получит 350 000 рублей, обладатель серебра – 200 000 рублей, а третий призер станет богаче на 100 000 рублей.

Регистрация уже открыта, простая анкета для участников и все подробности – на сайте. Стартуем 30 января.

Лайк, шер, репост, как говорится. Увидимся на соревновании!

👍38🎉9❤2

12.1K viewsVictor Kantor, 10:02

Кто-то говорил, что «не бросать» что-то делать это не главное. Главное начинать снова и снова.
Посмотрим, на сколько меня хватит в этот раз :)

В четверг был на конфе Forbes «Успех к 30». Очень крутая организация, солидно, масштабно, и, что было особенно приятно, много девушек (кстати, очень красивых :) среди спикеров и слушателей. Эйджизм и сексизм постепенно умирают и скатертью им дорожка. Так получилось, что был на конфе уже даже не в качестве лауреата 2020 года, а как спикер из топов МТС, что особенно приятно и вообще была большая честь представлять индустрию.

Из главного: всех, вот буквально всех интересует, где и как применяется искусственный интеллект, насколько это полезно для бизнеса, нужно ли менять профессию и кому. Вся наша полуторачасовая панель на конфе была об этом. Ссылка на небольшое (9 минут) видео с основными тезисами от меня: https://www.youtube.com/watch?v=lQTPc4qGSKk

Виктор Кантор, директор центра Big Data, MTC

❤48👍36🔥20🤔3👏2🤩2

15.1K viewsVictor Kantor, 13:23

True Tech Champ и ML платформы

Вчера выступил на True Tech Champ. Это площадка, которую организует МТС для начинающих специалистов в области IT. Здесь можно было не только получить знания, расширить контакты, но и побороться за главный приз в три миллиона рублей . Уверен, что сейчас долг любой крупной организации — инвестировать в развитие профессиональной среды и ставка МТС на IT здесь абсолютно оправдана.

Я в своем выступлении рассказывал про ML-платформы (в природе и в МТС). Акцент был на том, как понять, какие платформы нужны бизнесу и как они могут помочь сэкономить и заработать больше.

В любом бизнесе всё сводится к двум вещам: тому, на что он деньги тратит, и тому, на чём зарабатывает. Доходы получаются в результате взаимодействия с клиентом (когда клиент платит за услуги, товары и доступ к сервисам). Расходы — это:

-стоимость контакта с клиентом (в случае нового клиента - привлечения)
-потери, связанные с реализацией рисков по клиенту (дефолт по кредиту, мошеннические действия и т.д.)
-затраты на персонал и материальную базу;
-затраты, связанные с бизнес-процессами (грубо говоря, последствия излишней бюрократии, нерабочих процедур или конфликтующих процессов, неоптимальной логистики и так далее);
-затраты, связанные с закупкой товаров, прав на медиаконтент и т.д. - не все бизнес производит сам.

Сконцентрируемся пока на доходах и расходах в привязке к одному клиенту. Чтобы растить доходы нам нужно с одной стороны повышать конверсии в оплату, а с другой - уметь выстраивать ценообразование не по наитию, а на основе данных. Первое делается с помощью рекомендательной платформы, второе - с помощью платформы Smart Pricing. Чтобы снижать стоимость привлечения клиента и стоимость контакта нам требуется платформа лидогенерации (зная своих клиентов мы можем дешевле получать нужные нам сегменты), а чтобы управлять потерями, связанными с рисками, нужна скоринговая платформа.

Отдельная история - это платформы для оптимизации оставшихся затрат, они тоже есть в МТС, но про них в следующий раз.

Главное преимущество платформенного подхода перед вариантом “сделаем 1000 разных моделей по всему бизнесу и будем решать задачи case-by-case” в том, что экспертиза и новые наработки моментально распространяются по всей группе компаний. Например, когда нам нужно было реализовать рекомендации для нашего онлайн-магазина, оказалось что все необходимое собирается из готовых кубиков, разработанных для онлайн-кинотеатра KION, а полученная система не просто работает, а успешно побеждает в A/B тестах с внешними решениями.

👍30🔥6❤4🎉2🤩2👏1

6.73K viewsVictor Kantor, 13:52

👍34🔥17❤9

6.69K viewsVictor Kantor, 13:52

Обучиться Data Science «самому», без вузовских курсов, можно, но сложно

Курсов «Стань Data Scientist’ом за три месяца» с заманчивыми обещаниями о трудоустройстве и большом заработке довольно много. Грешат этим все: от GeekBrains и Skillbox до Яндекс Практикума (хотя, по моему субъективному мнению, коллеги из Яндекса работают наиболее деликатно и им за это от меня респект).

Нет ничего зазорного в курсах хоть на три месяца, хоть на три занятия.

Любой формат позволяет донести определённые знания, однако важно сохранять трезвость в оценке ценности подобных курсов.

Человек с хорошим техническим образованием из МГУ, МФТИ, ВШЭ, СПбГУ, ИТМО и других топовых вузов вполне в состоянии устроиться стажёром в data science и после вводного курса. Вряд ли в топовую компанию, но начать нарабатывать опыт уже можно.

Более того, полноценно проходить даже короткий курс необязательно — это лишь способ ускорить процесс. Если человек умеет программировать, читать документацию и изучать библиотеки, можно обойтись и без курса:

— решайте Kaggle.com, начиная с учебных соревнований
— читайте форумы соревнований,
— практикуйтесь в применении DS библиотек (sklearn, lightgbm, catboost, xgboost, pandas, polars, seaborn, pytorch, ambrosia )
— изучайте их документацию

Находите открытые материалы курсов по data science и разбирайте их самостоятельно. Знаю примеры людей, бегло изучающих семестровый курс из Стэнфорда за ночь. Не всем обязательно демонстрировать такую суперпроизводительность, да и почти любой человек после подобной учёбы многое забудет через неделю. Но вместе с практикой этот подход совершенно нормальный.

Ещё полезно через какое-то время изучить ту же тему в новом источнике. Интересующихся людей в целом всегда выделяет то, что им недостаточно прочитать одну книгу, решить задачу один раз, один раз понять, как всё устроено. Им интересно изучать вопрос с разных сторон снова и снова.

Однако нужно помнить, что без сильной базы по программированию и математике путь в Data Science может быть долгим. Это нормально. Главное — не останавливаться в изучении фундаментальных направлений. Если понравится процесс — вы его пройдёте, сами или с чьей-то помощью.

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

👍86❤34🔥13🤔2🤩2

9.76K viewsVictor Kantor, 15:59

2 ноября на конференции DataStart можно будет узнать об обновлениях в нашем фреймворке для рекомендательных систем RecTools, который мы выпустили в open-source в прошлом году. От BigData МТС будет выступать Даша Тихонович. Она расскажет о нашем опыте использования библиотеки в реальных сервисах, а также о сложностях комплексной валидации в RecSys. Многие аспекты валидации остаются за рамками курсов по рекомендательным системам, но их критически важно учитывать, создавая модели для реальных сервисов. Зарегистрироваться можно по ссылке: https://datastart.ru/

Конференция Data Science 2024

Обучающие конференции по Data Science в

Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,

Machine Learning, AI. Практические занятия позволят лучше усвоить полученные

на мероприятии знания.

🔥21👍10❤5👏2

8.38K viewsVictor Kantor, 13:20

Возрождаю рубрику

Давайте внесём в канал интерактив. Давно вынашивал идею для рубрики Q&A и, наконец, запускаю.

Как это будет работать:

Оставлю здесь гугл-форму. Если у вас есть какой-то вопрос по DS, Big Data и образованию — смело задавайте в ней, и я дам развёрнутый ответ. Тема может быть как профессиональной, так и из учёбы, ограничений нет.

Ещё в форме есть пункт про контент. Накидал несколько форматов, выберете те, которые хотите видеть в канале чаще. Или, возможно, у вас есть своя идея, которой вам не жалко поделиться.

Буду благодарен за ваше время!

🔥47❤10👍9🤔2👏1

8.8K viewsVictor Kantor, 15:12

Коллеги из Data Secrets написали статью на Хабр про нашу опенсорс-библиотеку для рекомендательных систем RecTools, рекомендую к прочтению. А еще наши знакомые из ряда банков недавно благодарили за либу и рассказывали, что активно её используют. Невозможно словами описать, насколько это приятно. Сделать open-source библиотеку для RecSys, которой будут пользоваться, было моей давней мечтой, и я рад, что ее получилось осуществить в Big Data МТС. Дальше будет больше :) Спасибо огромное команде RecTools - ребята, вы лучшие!

🎉49❤23🔥17

7.4K viewsVictor Kantor, 12:47

https://t.iss.one/data_secrets/2808

А мы написали нашу первую статью на Хабр!

Посвятили ее крутой библиотеке RecTools от коллег из МТС. Внутри:

▶️за что мы так любим эту библиотеку;
▶️ликбез по основным рексис-моделям (ItemKNN, ALS, SVD, Lightfm, DSSM);
▶️как готовить данные и запускать…

❤17👍11🔥5

8.51K viewsVictor Kantor, 12:47