Kantor.AI
11.6K subscribers
143 photos
12 videos
5 files
186 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Кастдев перед запуском курсов ML

Как и грозились в опросе, мы с моей командой начали проводить интервью с прошедшими опрос подписчиками. Для этого мы выбрали по несколько человек из основных кластеров:

1) тех, кто уже работает в ML, но пока не обсеньорился;
2)тех, кто уже вкатывался в курсы, но пока не вкатился в карьеру в ML;
3) тимлидов и сеньоров, которые уже смотрят на всё происходящее с высоты своего опыта.

Совсем новичков в опросе оказалось экстремально мало, что было для меня неожиданностью. Я думал, будут в основном аналитики и немного менеджеров, а оказалось, что 50% аудитории уже работают ML’щиками.

Ещё одна вещь, насчёт которой я переживал, — это то, как много людей будут делиться в опросе контактами и диапазоном доходов. Но оказалось зря: почти 100% не боялись рассказать про деньги и около 80% делились своими контактами.

Из первых наблюдений: многие называют в числе хороших примеров курсов моих любимых Женю Соколова и Karpov.Courses, что для меня очень приятно. Часто упоминают Игоря SeeAll, постоянного комментатора в этом канале и автора собственного с абсолютно безумным количеством подписчиков. Вспоминают и физтеховскую Deep Learning School. Но что больше всего отзывается теплом в моём сердце — ещё не забыли нашу специализацию на Coursera и Data Mining in Action :)

В общем, пока полон энтузиазма и получаю очень много удовольствия от общения с подписчиками. А если пост соберёт 150 реакций, напишу здесь основные выводы из интервью и опроса.
212👍62🔥32🫡1
Выводы из опроса и интервью о курсах по ML

Итак, прошлый пост собрал намного больше 150 реакций, поэтому кратко раскрываю наблюдения на основе опроса. Тезисно, т.к. первая версия не влезла даже в два лимита символов на пост.

🦾Очень многие, с кем общались, чётко делят курсы по ML на «Skillfactory, Skillbox и всё такое», которые не воспринимают всерьёз, и «нормальные курсы». Нормальными являются Karpov Courses и ряд вузовских курсов. Кроме Жени Соколова и Deep Learning School, которых я уже упоминал выше, рассказывают про AI Talent Hub в ИТМО, в котором, к слову, замечательный курс по RecSys читает Даня Потапов и другие выходцы из Big Data МТС при нашей посильной поддержке.

😨При этом есть люди, которые проходят различные курсы, но так и не начинают работать ML-специалистами. Они отмечают, что обещания, что в ML можно вкатиться «с нуля» сильно оптимистичные. Это подогревает общее недоверие к курсам.

🤯Есть группы с противоположными потребностями: одни обучающиеся хотят разбираться с задачей до потери пульса самостоятельно (им так лучше запоминается), а другие хотят максимально разложенную информацию, чтобы не приходилось получать знания через боль. Как ни странно, совсем несложно давать возможность выбора и удовлетворять оба запроса.

Все хотят практики, разборы кейсов обязательны. Причём хорошо бы разбавить избитые датасеты и задачи чем-то новеньким.

📚От тех, кто уже работает в ML, часто встречается запрос на «обучение для мидлов и сеньоров». При этом наши собеседники чётко понимают, что «научить на мидла» нельзя и это вопрос опыта, поэтому запрос не на «сделайте меня на уровень круче», а на «дайте мне интересный на моём уровне контент».

🥷 Многим на senior-позиции и выше интересно учиться профессиональному управлению и построению команды.

🧪 В отношении базовых курсов есть запрос на более глубокое изложение: как алгоритмы устроены, как их реализовать.

⌛️Изменилось отношение к образованию: если ещё лет десять назад те, кто не был готов выучиться сам по туториалам, книгам и статьям, считались изгоями, то теперь профессиональное сообщество признаёт, что наличие всех знаний в открытом доступе не отменяет экономии времени с помощью курсов.

🔥При этом стремление обучаться по-прежнему очень высокое. Многие готовы выделять по 15–20 часов в неделю на одно только обучение при наличии основной работы. Представьте, чего можно достичь, скажем, за год, если это время тратится на уже готовые курсы, а не на поиск релевантного контента в интернете.

В действительности мы выявили более 20 важных инсайтов о том, чего не хватает обучающимся для более эффективного достижения поставленных перед собой целей. Обо всех рассказывать не буду, попробуем сначала сделать, а потом уже хвастаться.

А если этот пост наберёт больше 250 реакций, обещаю выложить распределение возраста, образования, опыта и зарплат среди участников опроса :)
🔥340👍3519💯4🎅3😁2🤔2🎉2
Прежде чем показывать распределение респондентов в опросе, как обещал выше, небольшой интерактив. На картинке 4 большие сегмента - это уровни от полного новичка до senior. Попробуйте угадать, где кто :)
👍133🔥1
А теперь отгадаем еще одно распределение - по доходам
🔥16
😱32🔥13👍52
Ну и теперь показываю распределения по категориям вместе с легендой.

Из неожиданного:

🥳 Огромное количество людей с ML-образованием. Коллеги, мы дожили до этого момента! Теперь не надо учить ML по подворотням, можно полноценно в университете, и многие так и делают

💪 Думал, что аналитиков и менеджеров будет побольше, а MLщиков наоборот будет маловато, но нет. Тех, кто работает ML-специалистом в канале много

🔥 Не ожидал такой большой процент синьоров, очень приятно, что вы тоже с нами

😎 Как уже верно заметили в комментариях, зарплаты неплохо бьются с распределением по уровням, на которые респонденты себя оценивают. Кстати, на мой взгляд самооценка влияет на доход даже больше, чем напрямую знания. Кто ищет хорошие предложения, в конце-концов всегда доищется (в том или ином смысле). Ну и в обратную сторону это очевидно тоже работает: хорошие знания при низкой самооценке - плохой рецепт получения высоких доходов.

👨‍🎓 Студентов маловато, видимо эффект того, что несколько лет недорабатывал на эту аудиторию. А еще того, что студентам своих курсов хватает, а опрос же был про курсы.

Конечно еще интереснее смотреть на разные пересечения категорий. Но об этом я расскажу когда-нибудь потом, а сейчас в очереди скопилось много других тем для постов (пока я прокрастинировал и не писал этот :)
🔥458👍5🎉4😎2
Пример алгоритма ML, выводимого 3+ способами.

Возобновляю образовательно-развивательные посты. Рассказывать буду не как что-то работает, а интересные (мне 😂) факты про алгоритмы. Например, знали ли вы, что к логистической регрессии - простому, но очень популярному алгоритму машинного обучения, можно прийти как минимум тремя разными способами:

1️⃣ Просто рассмотрев бинарный линейный классификатор с логистическими потерями и каким-нибудь регуляризатором (или без него, но так обычно не делают).

2️⃣ Из соображений максимизации расстояния Кульбака-Лейблера между распределением, которое мы получаем для вероятности принадлежности к классу, и равномерным распределением.

3️⃣ Из соображений максимизации энтропии.

Все три варианта возникли исторически, в разные моменты к одному и тому же алгоритму приходили разные люди.

🖋️ Пример из моего опыта: в одной компании, где я работал, люди не имели академического образования по машинному обучению. И при этом построили свой аналог логистической регрессии, даже не зная про логистические потери — просто вручную придумали функцию потерь с нужными свойствами, гладко «сшив» экспоненту и прямую.

Спустя годы после этого, когда я рассказал авторам того алгоритма о логистической регрессии, они были приятно удивлены и обрадованы, что сами смогли изобрести то же самое.

Но вообще способов «вывести» логистическую регрессию гораздо больше, пишите в комментариях, кто какие еще знает :)

Подсказка: как минимум можно получить её и как байесовский классификатор
29👍10
Деньги против хайпа

Говорят, есть три стадии деградации инженера: сначала ты не можешь взять простой интеграл, потом забываешь формулу площади круга, а потом вешаешь на пиджак значок «Я — инженер». Не знаю, какие первые две стадии в data science, но третья — точно давать комментарии СМИ о перспективах развития ИИ, так что тролльте меня в комментах полностью 😂.

Мой посыл был очень простой. Есть конкретные применения ML, дающие измеримые в AB тестах экономические эффекты, и мы можем во всех компаниях сделать упор на это. А есть всякие модные применения нейросеток: для генерации картинок, ответов на вопросы и тому подобные штуки.

Я верю, что в России бизнес мыслит очень конкретно, и поэтому мы все будем налегать на первое. И тут главным трендом будет повсеместность проникновения машинного обучения, приносящего реальные деньги. Что же касается более модных в последние пару лет штук, то им в западных компаниях тоже начнут закручивать гайки инвесторы в ожидании денег. А когда это все выйдет на более монетизируемые истории, тогда уже наберет обороты и у нас.

Можно воскликнуть: «Доколе мы будем в догоняющей позиции?» Но если присмотреться, это не совсем так. Да, строить рекомендательные системы или динамический прайсинг мы придумали не первыми. Но вот внедряем их в каждый утюг от высокой природной технократичности мы и правда лучше всех. Ну, или уж точно будем в этом первыми в ближайшие несколько лет.
45👍14😁12👏3🤔3
🖋 Overfitting - термин с двумя интерпретациями

Не все явления машинного обучения имеют одно значение. Например, есть такое центральное понятие — «явление переобучения», по-английски — overfitting. Оно означает, что мы отлично работаем на тех данных, на которых обучался алгоритм, но на новых данных, пришедших к нам из жизни, мы почему-то работаем не очень хорошо.

И у явления переобучения есть как минимум два разных понимания.

1️⃣ Первое — конкретная модель с конкретными параметрами имеет низкую обобщающую способность, т.е. на обучающей выборке качество высокое, а на валидационной или тестовой выборке качество заметно ниже

2️⃣ Есть и второе. Мы можем сказать, что переобучение — это некий процесс, когда наша модель начинает слишком подстраиваться под обучающую выборку. И наступает он тогда, когда при усложнении модели качество на обучающей выборке продолжает расти, а на валидационной или тестовой — падать.

Первое определение приводит к тому, что в большинстве случаев мы имеем дело с уже переобученной моделью. Качество на обучающей выборке около 100%, а качество на валидационной выборке всегда будет существенно меньше. В частности, всегда переобученными получаются леса и градиентный бустинг над деревьями.

Если смотреть с точки зрения второго способа, то переобученным мы будем называть только тот градиентный бустинг, который при добавлении следующих деревьев становится хуже на валидационной выборке.
19🤔8👍4
Я открываю в канале новую рубрику — #уже_не_новость

Буду писать посты для нее с переменной частотой, так что, возможно, эти новости будут уже не новости. К тому же, сфера AI развивается настолько стремительно, что инфоповоды мы тоже узнаем не всегда вовремя. Так что суть этой рубрики будет скорее в моих комментариях относительно происходящего в мире AI.

📰Первая такая «почти свежая» новость — про технологии глубоких подделок. Злоумышленники создали дипфейк финансового директора одной из крупнейших корпораций Гонконга и во время видеоконференции убедили сотрудника компании перевести им $ 25 миллионов.

💬 Ну что же, привыкайте, скоро это будет совершенно обычная наша реальность. Более того, я надеюсь, что в скором будущем у каждого человека будет доступ к сервису для детекции дипфейков. Это, кстати, достаточно понятный рынок для будущих стартапов.

💬Я видел такую же историю своими глазами: был сделан дипфейк на Диму Мацкевича, фаундера известного стартапа Dbrain. Стартап занимается всяким AI и даже в свое время прошел в Y Combinator. Так вот в один момент в соцсетях начали распространяться видео, где Дима читает лекцию то ли про бинарные опционы, то ли про какое-то инфоцыганство и предлагает купить свой сомнительный курс по теме. Следом Дима выступил в соцсетях с опровержением: написал очень эмоциональный пост и объяснил, что в наше время уже и такое бывает. Конечно, всегда найдутся любители сказать: «Наверное, он сам же это и сделал. Все ради хайпа», но я искренне верю, что это действительно был дипфейк от каких-то мошенников.
👍226😁1
Как я успеваю руководить, работать и ещё преподавать? Вопрос подписчика

Возможно когда-то вы уже замечали одно совпадение:

24х7=168
8х21=168

24 на 7 — понятная аналогия. 8 на 21 — это восьмичасовой рабочий день и 21 рабочий день в месяц.

Выходит, что за неделю мы получаем то же количество часов, что и за рабочий месяц. Конечно, в реальности сложно быть продуктивным 24 на 7 — в день надо поспать хотя бы 6 часов. Но даже если отнять эти 6 часов из 24 — в день остаётся 18 часов на свершение подвигов (и это довольно много).

Остаётся вопрос — как же воспользоваться этим временем? Как что-то создавать и реализовывать, много думать и при этом не перегореть?

🔋 Мы знаем, что для мыслительного процесса есть ограниченное количество часов в неделю: мозг не может работать на 100% постоянно. Для его разгрузки мы заполняем оставшееся время той деятельностью, которая использует ваш мозг по-другому.

Например, занятия спортом и переключают, и дают больше энергии в течение недели. Изучать языки или что-то по профессии - тоже подойдет. Преподавание - вообще супер: не нужно придумывать что-то с нуля, нужно донести то, что уже знаешь. Это все абсолютно разные форматы деятельности. А как известно, смена деятельности — это лучший отдых. И если разделить наши часы на разные форматы работы, то активным временем будет не период с 10 до 18 часов, а весь день.

📈 Я не рекомендую начинать с большого количества активностей. Включайте их постепенно. Начните с пары тренировок в спортзале. Позже добавите ещё. Дальше включите изучение чего-то нового. И распределяйте активности так, чтобы у вас оставалось время на работу, которая тоже может делиться на разные форматы.

💡 Ещё один лайфхак: подключайтесь к задаче в то время, которое вы уделили ей в расписании. На высоком уровне в карьере или бизнесе просто необходимо уметь мгновенно включаться в задачу.

Итак, мне помогают 3 вещи:
1. Чередовать форматы и занимать весь день
2. Наращивать активности постепенно
3. Быстро переключаться и сохранять регулярность

#вопрос_подписчика
👍67🫡1611🔥4❤‍🔥1👎1🥰1
Карьера вместо карьера. Часть 2: снесло крышу от возможностей.

Когда я поступил на Физтех, наконец-то я мог полноценно изучать то, что мне интересно. Самое главное — с полным доступом к нетривиальным книгам в библиотеке (например, однажды мне просто попалась под руку «Теория гироскопов» еще с печатью физико-технического факультета МГУ) и к лучшим преподавателям в стране.

Сначала мне буквально «снесло крышу» от таких возможностей. Первые два с половиной месяца ночью я спал по два, ну максимум четыре часа. Всё остальное время я проводил в читалке. Конечно, постепенно всё выровнялось, наступила некоторая усталость, да и первая сессия прошла не без боя.

Во втором семестре было более понятно, что делать, но тоже было нелегко. А уже где-то со второго курса начался процесс нормального получения знаний и поступательного развития в точных науках.

Еще с первого курса я начал пробовать себя в научной деятельности. Началось это с научного семинара по теории групп у нашего лектора по алгебре. Я тогда не особо много понимал, и, честно признаться, ничего не получилось, хоть и преподаватель был очень крутой и увлеченный своим делом.

Но после этого я еще пробовал влиться в тусовку «чистых математиков». У нас как раз была группа сильных преподавателей с мехмата МГУ, — наверное, из-за нашего необычного и прогрессивного факультета с забавным, на мой взгляд, названием «Факультет инноваций и высоких технологий». В какой-то момент я даже писал диплом под руководством Андрея Михайловича Райгородского, очень крутого математика, а впоследствии — большого босса на Физтехе. В бакалавриате диплом по чистой математике я защитил, а вот в магистратуре мое сердце уже окончательно оккупировало машинное обучение. Об этом я напишу в следующем посте.

#мойпуть

Kantor.AI
70👍30🔥11