Kantor.AI
11.6K subscribers
141 photos
12 videos
5 files
185 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Если вы хотите узнать о том, что происходит в сфере IT-менеджмента, как на самом деле создают продукты и прокачивают команды, то загляните на канал «Кем я хочу стать, когда вырасту».

Автор канал с 10+ опытом тимлидства в IT в формате заметок честно делится наблюдениями, успехами и провалами:
- о работающих методах мотивации команд
- стоит ли стремиться в руководители на самом деле
- почему на рынок выходит так много слабых продуктов

Реклама. ИП Миронова Надежда Олеговна, ИНН: 772985604739 erid:2VtzqvK2rLg
😁63👎3👍1🤔1🤯1
Media is too big
VIEW IN TELEGRAM
🔥Подкаст про большие языковые модели с Сашей Абрамовым

Опубликовал полную версию подкаста с Dealer.AI

YouTube: https://youtu.be/3ra-zgi-dIM
VKвидео: https://vkvideo.ru/video-228552366_456239026?list=ln-1rG35Aicro6zMIMOIK

Саша не только в значительной степени приложил руку к Сберовским LLM и GenAI, но и очень хорошо рассказывает. К просмотру строго обязательно :)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1612🔥6😁1
Как я учился ML

В новом ролике на канале MLinside рассказал, как я учился машинному обучению и что могу посоветовать тем, кто хочет научиться ML сейчас.

Меньше 15 минут видео (а на х1.5 даже 10 минут), и вы узнаете, хорошо ли идти за ML в университет, какие университетские курсы самые классные, а также в чем плюсы и минусы самообразования и коммерческих курсов :)
13👍12🔥2
Кратко по сути: компании нанимают супер-дорогих технарей не для того, чтобы их календарь превращали в зебру, после которой ничего толкового сделано не будет. Если вы менеджер, и у вас есть опция поставить разрабу или DSу две встречи подряд либо две встречи с интервалом в час - выбирайте пожалуйста первое, иначе вы будете просто сжигать деньги бизнеса напрасно только потому что вы тупой 🫶🏼
💯5413👍10😱3
Манагерский кейс
Как-то встречаю в курилке пару тех лидов и они дружно жалуются что не могут ничего делать руками – в их продукты командировали каналью-скрама и все время встречи отнимают. А сколько встреч в день в среднем? – ну две-три. Пинаю скрама чтобы обсчитала (и объясняю методологию – включать во время встречи еще полчаса после нее на то, чтобы врубиться что происходит) – бодро докладывает что встречи занимают только (!) 9-10% рабочего времени.
Примерный календарь слева

Пришлось проводить работу с PO, CPO, Scrum и прочими на тему что если между встречами час – то ничего закодить не успеешь и для человека, работающего головой а не только лишь ртом (то есть того кто учит модели и пишет код) такой календарь превращается в тот что справа.

И я таки тоже потратил полчаса чтобы объяснить как быть – до обеда дать людям спокойно кодить (0 встреч), после обеда – встречи. Или наоборот , главное чтобы минимум 4 часа подряд было на работу каждый день
Мораль: от перемены мест слагаемых сумма меняется еще как. И особенности психики человека игнорировать нельзя.
🔥88💯36👍207
Ну что же, теперь есть легитимный повод красить все презентации в «согревающий коричневый оттенок»

Кстати, впервые с тем, чтобы презентации красили в цвет года Pantone и перерисовывали под современные дизайн-тренды (то неоновые цвета, то матовое стекло, то еще что-нибудь, каждый год новое) я встретился, когда ко мне в команду пришел сотрудник, ранее клепавший со своим отделом прототипы всяких AI штук в очень крупной компании. Когда KPI это количество успешно проведенных демонстраций и докладов председателю правления, форма порой становится важнее содержания, и подаче уделяется очень много внимания. Не могу сказать, что осуждаю - какой KPI, такое и исполнение.

Так что если у вас тоже есть KPI на количество успешных отсветов фейсом перед руководством - согревающий коричневый в этом году точно к вашим услугам.
😁388💩4👍2
‼️Интервью с руководителем Школы Анализа Данных Яндекса

🎤Опубликовали в YouTube канале интервью с Лешей Толстиковым. Много говорим об образовании, ШАДе и алгоритмах (нужны или не нужны, почему), ну и конечно же обсудили, как складывался карьерный трек самого Леши :)
🔥1612👍5
#квиз
Что-то давно у нас не было квизов :) Задавайте свои ответы!
👎39👍10🤔1
Ну что же, в последнем квизе, конечно, правильный ответ был [3], но раз он не зашел аудитории, вот вам вопрос поинтереснее.

Предыстория:
студент анализировал тексты классическими методами. В частности, строил признаковые описания на основе частот слов. После отображения выборки в пространство двух главных компонент студент получил такую замысловатую картинку. Глядя на нее, научрук сразу посоветовал не писать свои костыли, а пользоваться готовыми реализациями из библиотек, а также сразу сказал, где у студента ошибка.

Вопрос:
где у студента была ошибка?

Вопрос "со звездочкой": как может объясняться резкий перепад в графике рядом с 1200 по горизонтальной оси?

Пишите ваши версии в комментариях :)
👍22🔥12🤔10❤‍🔥2
Итак, ответ на вопросы успешно найден в комментариях. Т.к. на картинке датасет выстроился почти в непрерывную кривую, разность между координатами соседних текстов оказалась всегда маленькой. Это значит, что и в исходных признаках при переходе от текста к тексту признаки изменялись лишь чуть-чуть.

Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.

Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту
🔥21👍8❤‍🔥52
Крик души про оценку качества рекламы по попаданию в пол-возраст
Иногда Data Scientist’ы в тг не боятся писать лютую базу. А тут даже не база, а целый генштаб.

Тоже горит с этого наяривания на пол-возраст вместо прямого прогнозирования отклика и замера его качества. А уж оценка попадания по панелистам или по Яндекс.Метрике по принципу «если даже такую простую задачу плохо решите, то куда вам до response моделей» - просто полыхание всего, что плохо сидит))
🔥7👍52👎1
В четверг проводим вебинар перед запуском курса ML в бизнесе. В курсе разбираем с Никитой топ 7 задач по экономическому эффекту от ML для бизнеса
5🔥2
Forwarded from MLinside - школа ML
🚀 Вебинар с Никитой Зелинским: Подходы к валидации моделей

🗓 Дата: 19 декабря (четверг)
Время: 20:00 по МСК
🎤 Спикер: Никита Зелинский — Chief Data Scientist компании МТС, кандидат физико-математических наук с 14-летним коммерческим опытом в DS и ML.

Что будет на вебинаре?
🔹Презентация нашего курса «ML в бизнесе». Этот вебинар — вводная часть курса, в котором мы глубже и детальнее разберем ключевые темы и научим внедрять ML в реальные задачи бизнеса;
🔹Рассмотрим схемы валидации;
🔹Разберем практические кейсы.

👉 Регистрируйтесь здесь

🌟 Будем рады видеть вас на вебинаре!
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥3
Матричное дифференцирование

😱 В ML периодически возникает потребность взять производную от матричного выражения, как правило имеющую вид «производная вектора по вектору». Если вас всегда ломало разобраться с матричным дифференцированием, а строгое формальное изложение матричных производных через дифференциалы вводило в уныние, я недавно записал видео с простым объяснением, как это работает.

🎭 В ролике есть определенная драматургия: будет момент, где мы с вами сами начнем придумывать матричную производную так, чтобы она в частном случае превращалась в уже привычный нам градиент. И оттуда станет ясно, почему матричная производная именно такая, а не, например, транспонированная.

🤓 Всем, кто хочет шарить за ML чуть глубже, чем «ну я тут что-то обучил и в докер завернул, а как работает не мое дело» - рекомендую к просмотру. Жить без матричных производных можно, но компактно оперировать формулами очень удобно.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👌2💯1
ML в бизнесе
Машинное обучение - это моя жизнь. Буквально полжизни я занимаюсь ML. И мои отношения с ним менялись и развивались со временем:

👨‍🎓15 лет назад я разбирался как работают алгоритмы и как из них собирать что-то реально работающее.

👨‍🔬10 назад я вникал в то, как постановка задачи влияет на полезность решения, ведь то, как вы выбираете таргет и измеряете качество, намного важнее, чем бустинг вы используете для модели или бустинг :)

👨‍🏫Тогда же я уже понял, что один в поле не воин и собирать эффективные команды, развивать их и управлять ими дает сильно больший импакт чем все задачи решать самому.

👨‍💼Лет пять назад на этом пути я дошел до управления Data Science, а затем и всей data функцией в качестве топ-менеджера в большой группе компаний, и получил самый мощный буст к кругозору в бизнесовом ML, какой только бывает

И после нескольких очень меня прокачавших лет работы топом случился кризис смыслов: работать я могу в любой компании, но влиять только на нее мне стало недостаточно. Решение не заставило себя долго ждать, потому что зрело уже много лет. Я собрал топ задач, решаемых в бизнесе с помощью ML, покрасил их грубо в черное и белое - где экономика расходится, где сходится, а где эффект не стоит того, чтобы пытаться. И прямо по этому списку составил вместе с Никитой Зелинским курс из прикладных задач, которые регулярно возникают везде: в телекоме, финтехе, ритейле, e-commerce, райдтехе, классическом айти с многопользовательскими приложениями и много где еще. Зачем? Чтобы теперь замашинлернить не одну компанию, не один холдинг, а все, до чего дотягивается солнце на рассвете - ну помните, как в "Короле льве" :))

ЧТО БЫЛО ДАЛЬШЕ:
🧠Мы обкатали этот курс на студентах двух топовых вузов России - МФТИ и НИУ ВШЭ
🏟Мы взяли полгода на его доработку и адаптацию к более широкому кругу слушателей
🎉Мы подготовили курс к запуску в моей онлайн-школе MLinside

Завтра мы с Никитой ведем вебинар перед стартом курса. Еще не поздно зарегистрироваться и попасть на первый поток. В этом случае вы первым:

1️⃣Научитесь решать не только свою задачу, с которой сидите последний год/два/три на работе
2️⃣Станете востребованным ML специалистом в любой компании: если не все, то больше половины изученных на курсе задач будет в ней применимо
3️⃣Получите буквально за несколько месяцев выжимку того опыта, который мы с Никитой собирали по крупицам в больших экосистемах больше десяти лет

‼️Присоединяйтесь к нам, будет круто :)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2219🔥9💩6😁4👎3😱1🎉1
https://t.iss.one/datarascals/11

Предпраздничное настроение само собой подводит к загадыванию желаний. Например, после чтения поста по ссылке, у меня возникло такое:

🎄🥂Пусть в новом году будет больше руководителей, которым можно прислать подобный скрипт, вместо долгого нудного объяснения, почему сравнивать распределения только по среднему и «на глазок» это дичь :)

Хотя, конечно, я верю в светлое будущее, когда представители всех ролей в индустрии будут просто это знать и понимать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9😁6👍2