Kantor.AI
11.6K subscribers
141 photos
12 videos
5 files
185 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Media is too big
VIEW IN TELEGRAM
🔥Подкаст про большие языковые модели с Сашей Абрамовым

Опубликовал полную версию подкаста с Dealer.AI

YouTube: https://youtu.be/3ra-zgi-dIM
VKвидео: https://vkvideo.ru/video-228552366_456239026?list=ln-1rG35Aicro6zMIMOIK

Саша не только в значительной степени приложил руку к Сберовским LLM и GenAI, но и очень хорошо рассказывает. К просмотру строго обязательно :)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1612🔥6😁1
Как я учился ML

В новом ролике на канале MLinside рассказал, как я учился машинному обучению и что могу посоветовать тем, кто хочет научиться ML сейчас.

Меньше 15 минут видео (а на х1.5 даже 10 минут), и вы узнаете, хорошо ли идти за ML в университет, какие университетские курсы самые классные, а также в чем плюсы и минусы самообразования и коммерческих курсов :)
13👍12🔥2
Кратко по сути: компании нанимают супер-дорогих технарей не для того, чтобы их календарь превращали в зебру, после которой ничего толкового сделано не будет. Если вы менеджер, и у вас есть опция поставить разрабу или DSу две встречи подряд либо две встречи с интервалом в час - выбирайте пожалуйста первое, иначе вы будете просто сжигать деньги бизнеса напрасно только потому что вы тупой 🫶🏼
💯5413👍10😱3
Манагерский кейс
Как-то встречаю в курилке пару тех лидов и они дружно жалуются что не могут ничего делать руками – в их продукты командировали каналью-скрама и все время встречи отнимают. А сколько встреч в день в среднем? – ну две-три. Пинаю скрама чтобы обсчитала (и объясняю методологию – включать во время встречи еще полчаса после нее на то, чтобы врубиться что происходит) – бодро докладывает что встречи занимают только (!) 9-10% рабочего времени.
Примерный календарь слева

Пришлось проводить работу с PO, CPO, Scrum и прочими на тему что если между встречами час – то ничего закодить не успеешь и для человека, работающего головой а не только лишь ртом (то есть того кто учит модели и пишет код) такой календарь превращается в тот что справа.

И я таки тоже потратил полчаса чтобы объяснить как быть – до обеда дать людям спокойно кодить (0 встреч), после обеда – встречи. Или наоборот , главное чтобы минимум 4 часа подряд было на работу каждый день
Мораль: от перемены мест слагаемых сумма меняется еще как. И особенности психики человека игнорировать нельзя.
🔥88💯36👍207
Ну что же, теперь есть легитимный повод красить все презентации в «согревающий коричневый оттенок»

Кстати, впервые с тем, чтобы презентации красили в цвет года Pantone и перерисовывали под современные дизайн-тренды (то неоновые цвета, то матовое стекло, то еще что-нибудь, каждый год новое) я встретился, когда ко мне в команду пришел сотрудник, ранее клепавший со своим отделом прототипы всяких AI штук в очень крупной компании. Когда KPI это количество успешно проведенных демонстраций и докладов председателю правления, форма порой становится важнее содержания, и подаче уделяется очень много внимания. Не могу сказать, что осуждаю - какой KPI, такое и исполнение.

Так что если у вас тоже есть KPI на количество успешных отсветов фейсом перед руководством - согревающий коричневый в этом году точно к вашим услугам.
😁388💩4👍2
‼️Интервью с руководителем Школы Анализа Данных Яндекса

🎤Опубликовали в YouTube канале интервью с Лешей Толстиковым. Много говорим об образовании, ШАДе и алгоритмах (нужны или не нужны, почему), ну и конечно же обсудили, как складывался карьерный трек самого Леши :)
🔥1612👍5
#квиз
Что-то давно у нас не было квизов :) Задавайте свои ответы!
👎39👍10🤔1
Ну что же, в последнем квизе, конечно, правильный ответ был [3], но раз он не зашел аудитории, вот вам вопрос поинтереснее.

Предыстория:
студент анализировал тексты классическими методами. В частности, строил признаковые описания на основе частот слов. После отображения выборки в пространство двух главных компонент студент получил такую замысловатую картинку. Глядя на нее, научрук сразу посоветовал не писать свои костыли, а пользоваться готовыми реализациями из библиотек, а также сразу сказал, где у студента ошибка.

Вопрос:
где у студента была ошибка?

Вопрос "со звездочкой": как может объясняться резкий перепад в графике рядом с 1200 по горизонтальной оси?

Пишите ваши версии в комментариях :)
👍22🔥12🤔10❤‍🔥2
Итак, ответ на вопросы успешно найден в комментариях. Т.к. на картинке датасет выстроился почти в непрерывную кривую, разность между координатами соседних текстов оказалась всегда маленькой. Это значит, что и в исходных признаках при переходе от текста к тексту признаки изменялись лишь чуть-чуть.

Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.

Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту
🔥21👍8❤‍🔥52
Крик души про оценку качества рекламы по попаданию в пол-возраст
Иногда Data Scientist’ы в тг не боятся писать лютую базу. А тут даже не база, а целый генштаб.

Тоже горит с этого наяривания на пол-возраст вместо прямого прогнозирования отклика и замера его качества. А уж оценка попадания по панелистам или по Яндекс.Метрике по принципу «если даже такую простую задачу плохо решите, то куда вам до response моделей» - просто полыхание всего, что плохо сидит))
🔥7👍52👎1
В четверг проводим вебинар перед запуском курса ML в бизнесе. В курсе разбираем с Никитой топ 7 задач по экономическому эффекту от ML для бизнеса
5🔥2
Forwarded from MLinside - школа ML
🚀 Вебинар с Никитой Зелинским: Подходы к валидации моделей

🗓 Дата: 19 декабря (четверг)
Время: 20:00 по МСК
🎤 Спикер: Никита Зелинский — Chief Data Scientist компании МТС, кандидат физико-математических наук с 14-летним коммерческим опытом в DS и ML.

Что будет на вебинаре?
🔹Презентация нашего курса «ML в бизнесе». Этот вебинар — вводная часть курса, в котором мы глубже и детальнее разберем ключевые темы и научим внедрять ML в реальные задачи бизнеса;
🔹Рассмотрим схемы валидации;
🔹Разберем практические кейсы.

👉 Регистрируйтесь здесь

🌟 Будем рады видеть вас на вебинаре!
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥3
Матричное дифференцирование

😱 В ML периодически возникает потребность взять производную от матричного выражения, как правило имеющую вид «производная вектора по вектору». Если вас всегда ломало разобраться с матричным дифференцированием, а строгое формальное изложение матричных производных через дифференциалы вводило в уныние, я недавно записал видео с простым объяснением, как это работает.

🎭 В ролике есть определенная драматургия: будет момент, где мы с вами сами начнем придумывать матричную производную так, чтобы она в частном случае превращалась в уже привычный нам градиент. И оттуда станет ясно, почему матричная производная именно такая, а не, например, транспонированная.

🤓 Всем, кто хочет шарить за ML чуть глубже, чем «ну я тут что-то обучил и в докер завернул, а как работает не мое дело» - рекомендую к просмотру. Жить без матричных производных можно, но компактно оперировать формулами очень удобно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👌2💯1
ML в бизнесе
Машинное обучение - это моя жизнь. Буквально полжизни я занимаюсь ML. И мои отношения с ним менялись и развивались со временем:

👨‍🎓15 лет назад я разбирался как работают алгоритмы и как из них собирать что-то реально работающее.

👨‍🔬10 назад я вникал в то, как постановка задачи влияет на полезность решения, ведь то, как вы выбираете таргет и измеряете качество, намного важнее, чем бустинг вы используете для модели или бустинг :)

👨‍🏫Тогда же я уже понял, что один в поле не воин и собирать эффективные команды, развивать их и управлять ими дает сильно больший импакт чем все задачи решать самому.

👨‍💼Лет пять назад на этом пути я дошел до управления Data Science, а затем и всей data функцией в качестве топ-менеджера в большой группе компаний, и получил самый мощный буст к кругозору в бизнесовом ML, какой только бывает

И после нескольких очень меня прокачавших лет работы топом случился кризис смыслов: работать я могу в любой компании, но влиять только на нее мне стало недостаточно. Решение не заставило себя долго ждать, потому что зрело уже много лет. Я собрал топ задач, решаемых в бизнесе с помощью ML, покрасил их грубо в черное и белое - где экономика расходится, где сходится, а где эффект не стоит того, чтобы пытаться. И прямо по этому списку составил вместе с Никитой Зелинским курс из прикладных задач, которые регулярно возникают везде: в телекоме, финтехе, ритейле, e-commerce, райдтехе, классическом айти с многопользовательскими приложениями и много где еще. Зачем? Чтобы теперь замашинлернить не одну компанию, не один холдинг, а все, до чего дотягивается солнце на рассвете - ну помните, как в "Короле льве" :))

ЧТО БЫЛО ДАЛЬШЕ:
🧠Мы обкатали этот курс на студентах двух топовых вузов России - МФТИ и НИУ ВШЭ
🏟Мы взяли полгода на его доработку и адаптацию к более широкому кругу слушателей
🎉Мы подготовили курс к запуску в моей онлайн-школе MLinside

Завтра мы с Никитой ведем вебинар перед стартом курса. Еще не поздно зарегистрироваться и попасть на первый поток. В этом случае вы первым:

1️⃣Научитесь решать не только свою задачу, с которой сидите последний год/два/три на работе
2️⃣Станете востребованным ML специалистом в любой компании: если не все, то больше половины изученных на курсе задач будет в ней применимо
3️⃣Получите буквально за несколько месяцев выжимку того опыта, который мы с Никитой собирали по крупицам в больших экосистемах больше десяти лет

‼️Присоединяйтесь к нам, будет круто :)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2219🔥9💩6😁4👎3😱1🎉1
https://t.iss.one/datarascals/11

Предпраздничное настроение само собой подводит к загадыванию желаний. Например, после чтения поста по ссылке, у меня возникло такое:

🎄🥂Пусть в новом году будет больше руководителей, которым можно прислать подобный скрипт, вместо долгого нудного объяснения, почему сравнивать распределения только по среднему и «на глазок» это дичь :)

Хотя, конечно, я верю в светлое будущее, когда представители всех ролей в индустрии будут просто это знать и понимать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9😁6👍2
#с_level
PowerPoint-зазеркалье

Если меня спросят, от чего у меня больше всего горело на C-level, так это от двух вещей: комитетов и презенташек. Про комитеты я напишу отдельный пост, а вот по презенташкам слегка пройдусь сейчас.

Не подумайте, я не считаю Power Point злом во плоти. На мой взгляд, несмотря на громкие амазонские эксперименты, слайды могут неплохо помогать людям донести свои мысли быстро и четко, если у человека правда есть какая-то внятно сформулированная цель коммуникации, а слайды подготовлены тоже качественно. И горит у меня не от того, что люди часто рисуют слайды неинформативными или наоборот перегруженными, с этим тоже можно жить. И исправлять эту ситуацию несложно.

Горит у меня вот от чего: в куче компаний топ-менеджмент периодически собирается на всякие совещания и стратсессии, на которых показывает друг-другу домашние заготовки (в виде нарисованных их сотрудниками слайдов) под видом того, что нарисованное на этих слайдах и есть то, что реально происходит и будет происходить в бизнесе. На этих слайдах обязательно рисуются какие-то амбиции, планы, грандиозные замыслы, золотые горы, к которым только руку протяни и вот до конца контракта докладчика будет все подготовлено и прямо на следующий год как долбанет вверх выручка, ух как заживем! А рядом с моим домом тем временем ездят роботы-курьеры, которые на улицах Москвы еще пять лет назад показались бы фантастикой. И я точно знаю, что эти роботы ездят не потому, что кто-то нарисовал слайды в Power Point.

Ощущение, что все эти наши шабаши со слайдами - это путь куда-то не туда, грызло меня с самого начала. С другой стороны, числа с результатами и планами показать друг-другу надо, и идею/мечту (у кого что) донести надо, и обсудить тоже надо. Так что выглядит как необходимое зло. Но есть два логичных способа попытаться это зло чуточку уменьшить:

1) Числа по текущей ситуации в бизнесе надо показывать не посредством написания руками чисел на слайде, а в дашбордах на основе регулярно валидируемых данных

2) Если можно про что-то не рассказать, а показать - показывать. Лучше одно демо, чем 10 срежессированных видосов или 100 объяснений, как классно оно работает.

Отдельная проблема с последним это как сделать демо, если ваш результат это например улучшение эффекта от рекомендаций на 10%. Вообще рассказывать про инкрементальные улучшения в существующих ML штуках очень больно: все эти проценты ничего не значат для тех, кто не разбирается, а тем, кто разбирается, достаточно таблички с результатами и ответов на несколько вопросов. Но никакими эффектными демо тут и не пахнет. Даже наоборот - эффектные демо дадут те вещи, которые вряд ли сильно повлияют на метрики. Вот и получается, что вроде боролись со злом в лице слайдов, а создали новое зло - мотивацию делать штуки для красивого демо, а не для большего эффекта.

В итоге я пришел к принятию, что вся эта история про зазеркалье презентаций и мир, существующий на слайдах - не про слайды и Power Point. Она про культуру нашего общения, взаимодействия и оценки результатов. Если у нас в крови мерять все, что меряется, это одна история. Если мы с детства любим красивые сказки и эмоциональные рассказы - это другая. Первое нужно, чтобы не улететь совсем в облака, а второе на самом деле тоже нужно - чтобы продолжать мечтать и сохранять мотивацию идти дальше. Плохо, когда остается только что-то одно.

Ну а Power Point это просто инструмент: что запрещай его, что не запрещай - сказочники останутся сказочниками, а любители все измерить продолжат смотреть на числа.

А как вы думаете, что нужно делать, чтобы планы и стратегии, нарисованные в слайдах, имели какую-то связь с реальным миром? И нужно ли вообще, или наоборот пусть лучше нормальные люди работают, а фантазеры фантазируют визионеры визионируют?
33👍7🤯3🔥2
Мы так однажды с Никитой (автором поста ниже) поспорили, как считать в рекомендациях precision@k, когда кандидатов меньше k. Никита топил за реализацию в катбусте, потому что читал исходники, а я топил за деление на k, потому что привык, что по графикам precision@k и recall@k можно базово прикинуть адекватное вашему случаю количество рекомендаций в блоке или найти проблему типа нехватки кандидатов: если в какой-то момент precision@k начинает сильно падать просто потому что вместо 5 рекомендаций у вас повально 2, это проще заметить.

В итоге, изучив другие источники, Никита, с нотками досады признал правильным мой вариант, хотя логика в катбустовой реализации конечно тоже понятна - не штрафовать, если лучше уже нельзя было отранжировать. И если честно, я бы не был здесь так категоричен в вопросе «как правильно». Смотря чего вы хотите: включать измерение качества кандидатов в метрику или нет. Но главное, что так мы с Никитой узнали, что нам есть о чем поговорить, кроме слайдов в Power Point, и это было прекрасно :)))
1😁10🔥5