Kantor.AI
11.6K subscribers
144 photos
12 videos
5 files
188 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
А теперь отгадаем еще одно распределение - по доходам
🔥16
😱32🔥13👍52
Ну и теперь показываю распределения по категориям вместе с легендой.

Из неожиданного:

🥳 Огромное количество людей с ML-образованием. Коллеги, мы дожили до этого момента! Теперь не надо учить ML по подворотням, можно полноценно в университете, и многие так и делают

💪 Думал, что аналитиков и менеджеров будет побольше, а MLщиков наоборот будет маловато, но нет. Тех, кто работает ML-специалистом в канале много

🔥 Не ожидал такой большой процент синьоров, очень приятно, что вы тоже с нами

😎 Как уже верно заметили в комментариях, зарплаты неплохо бьются с распределением по уровням, на которые респонденты себя оценивают. Кстати, на мой взгляд самооценка влияет на доход даже больше, чем напрямую знания. Кто ищет хорошие предложения, в конце-концов всегда доищется (в том или ином смысле). Ну и в обратную сторону это очевидно тоже работает: хорошие знания при низкой самооценке - плохой рецепт получения высоких доходов.

👨‍🎓 Студентов маловато, видимо эффект того, что несколько лет недорабатывал на эту аудиторию. А еще того, что студентам своих курсов хватает, а опрос же был про курсы.

Конечно еще интереснее смотреть на разные пересечения категорий. Но об этом я расскажу когда-нибудь потом, а сейчас в очереди скопилось много других тем для постов (пока я прокрастинировал и не писал этот :)
🔥458👍5🎉4😎2
Пример алгоритма ML, выводимого 3+ способами.

Возобновляю образовательно-развивательные посты. Рассказывать буду не как что-то работает, а интересные (мне 😂) факты про алгоритмы. Например, знали ли вы, что к логистической регрессии - простому, но очень популярному алгоритму машинного обучения, можно прийти как минимум тремя разными способами:

1️⃣ Просто рассмотрев бинарный линейный классификатор с логистическими потерями и каким-нибудь регуляризатором (или без него, но так обычно не делают).

2️⃣ Из соображений максимизации расстояния Кульбака-Лейблера между распределением, которое мы получаем для вероятности принадлежности к классу, и равномерным распределением.

3️⃣ Из соображений максимизации энтропии.

Все три варианта возникли исторически, в разные моменты к одному и тому же алгоритму приходили разные люди.

🖋️ Пример из моего опыта: в одной компании, где я работал, люди не имели академического образования по машинному обучению. И при этом построили свой аналог логистической регрессии, даже не зная про логистические потери — просто вручную придумали функцию потерь с нужными свойствами, гладко «сшив» экспоненту и прямую.

Спустя годы после этого, когда я рассказал авторам того алгоритма о логистической регрессии, они были приятно удивлены и обрадованы, что сами смогли изобрести то же самое.

Но вообще способов «вывести» логистическую регрессию гораздо больше, пишите в комментариях, кто какие еще знает :)

Подсказка: как минимум можно получить её и как байесовский классификатор
29👍10
Деньги против хайпа

Говорят, есть три стадии деградации инженера: сначала ты не можешь взять простой интеграл, потом забываешь формулу площади круга, а потом вешаешь на пиджак значок «Я — инженер». Не знаю, какие первые две стадии в data science, но третья — точно давать комментарии СМИ о перспективах развития ИИ, так что тролльте меня в комментах полностью 😂.

Мой посыл был очень простой. Есть конкретные применения ML, дающие измеримые в AB тестах экономические эффекты, и мы можем во всех компаниях сделать упор на это. А есть всякие модные применения нейросеток: для генерации картинок, ответов на вопросы и тому подобные штуки.

Я верю, что в России бизнес мыслит очень конкретно, и поэтому мы все будем налегать на первое. И тут главным трендом будет повсеместность проникновения машинного обучения, приносящего реальные деньги. Что же касается более модных в последние пару лет штук, то им в западных компаниях тоже начнут закручивать гайки инвесторы в ожидании денег. А когда это все выйдет на более монетизируемые истории, тогда уже наберет обороты и у нас.

Можно воскликнуть: «Доколе мы будем в догоняющей позиции?» Но если присмотреться, это не совсем так. Да, строить рекомендательные системы или динамический прайсинг мы придумали не первыми. Но вот внедряем их в каждый утюг от высокой природной технократичности мы и правда лучше всех. Ну, или уж точно будем в этом первыми в ближайшие несколько лет.
45👍14😁12👏3🤔3
🖋 Overfitting - термин с двумя интерпретациями

Не все явления машинного обучения имеют одно значение. Например, есть такое центральное понятие — «явление переобучения», по-английски — overfitting. Оно означает, что мы отлично работаем на тех данных, на которых обучался алгоритм, но на новых данных, пришедших к нам из жизни, мы почему-то работаем не очень хорошо.

И у явления переобучения есть как минимум два разных понимания.

1️⃣ Первое — конкретная модель с конкретными параметрами имеет низкую обобщающую способность, т.е. на обучающей выборке качество высокое, а на валидационной или тестовой выборке качество заметно ниже

2️⃣ Есть и второе. Мы можем сказать, что переобучение — это некий процесс, когда наша модель начинает слишком подстраиваться под обучающую выборку. И наступает он тогда, когда при усложнении модели качество на обучающей выборке продолжает расти, а на валидационной или тестовой — падать.

Первое определение приводит к тому, что в большинстве случаев мы имеем дело с уже переобученной моделью. Качество на обучающей выборке около 100%, а качество на валидационной выборке всегда будет существенно меньше. В частности, всегда переобученными получаются леса и градиентный бустинг над деревьями.

Если смотреть с точки зрения второго способа, то переобученным мы будем называть только тот градиентный бустинг, который при добавлении следующих деревьев становится хуже на валидационной выборке.
19🤔8👍4
Я открываю в канале новую рубрику — #уже_не_новость

Буду писать посты для нее с переменной частотой, так что, возможно, эти новости будут уже не новости. К тому же, сфера AI развивается настолько стремительно, что инфоповоды мы тоже узнаем не всегда вовремя. Так что суть этой рубрики будет скорее в моих комментариях относительно происходящего в мире AI.

📰Первая такая «почти свежая» новость — про технологии глубоких подделок. Злоумышленники создали дипфейк финансового директора одной из крупнейших корпораций Гонконга и во время видеоконференции убедили сотрудника компании перевести им $ 25 миллионов.

💬 Ну что же, привыкайте, скоро это будет совершенно обычная наша реальность. Более того, я надеюсь, что в скором будущем у каждого человека будет доступ к сервису для детекции дипфейков. Это, кстати, достаточно понятный рынок для будущих стартапов.

💬Я видел такую же историю своими глазами: был сделан дипфейк на Диму Мацкевича, фаундера известного стартапа Dbrain. Стартап занимается всяким AI и даже в свое время прошел в Y Combinator. Так вот в один момент в соцсетях начали распространяться видео, где Дима читает лекцию то ли про бинарные опционы, то ли про какое-то инфоцыганство и предлагает купить свой сомнительный курс по теме. Следом Дима выступил в соцсетях с опровержением: написал очень эмоциональный пост и объяснил, что в наше время уже и такое бывает. Конечно, всегда найдутся любители сказать: «Наверное, он сам же это и сделал. Все ради хайпа», но я искренне верю, что это действительно был дипфейк от каких-то мошенников.
👍226😁1
Как я успеваю руководить, работать и ещё преподавать? Вопрос подписчика

Возможно когда-то вы уже замечали одно совпадение:

24х7=168
8х21=168

24 на 7 — понятная аналогия. 8 на 21 — это восьмичасовой рабочий день и 21 рабочий день в месяц.

Выходит, что за неделю мы получаем то же количество часов, что и за рабочий месяц. Конечно, в реальности сложно быть продуктивным 24 на 7 — в день надо поспать хотя бы 6 часов. Но даже если отнять эти 6 часов из 24 — в день остаётся 18 часов на свершение подвигов (и это довольно много).

Остаётся вопрос — как же воспользоваться этим временем? Как что-то создавать и реализовывать, много думать и при этом не перегореть?

🔋 Мы знаем, что для мыслительного процесса есть ограниченное количество часов в неделю: мозг не может работать на 100% постоянно. Для его разгрузки мы заполняем оставшееся время той деятельностью, которая использует ваш мозг по-другому.

Например, занятия спортом и переключают, и дают больше энергии в течение недели. Изучать языки или что-то по профессии - тоже подойдет. Преподавание - вообще супер: не нужно придумывать что-то с нуля, нужно донести то, что уже знаешь. Это все абсолютно разные форматы деятельности. А как известно, смена деятельности — это лучший отдых. И если разделить наши часы на разные форматы работы, то активным временем будет не период с 10 до 18 часов, а весь день.

📈 Я не рекомендую начинать с большого количества активностей. Включайте их постепенно. Начните с пары тренировок в спортзале. Позже добавите ещё. Дальше включите изучение чего-то нового. И распределяйте активности так, чтобы у вас оставалось время на работу, которая тоже может делиться на разные форматы.

💡 Ещё один лайфхак: подключайтесь к задаче в то время, которое вы уделили ей в расписании. На высоком уровне в карьере или бизнесе просто необходимо уметь мгновенно включаться в задачу.

Итак, мне помогают 3 вещи:
1. Чередовать форматы и занимать весь день
2. Наращивать активности постепенно
3. Быстро переключаться и сохранять регулярность

#вопрос_подписчика
👍67🫡1611🔥4❤‍🔥1👎1🥰1
Карьера вместо карьера. Часть 2: снесло крышу от возможностей.

Когда я поступил на Физтех, наконец-то я мог полноценно изучать то, что мне интересно. Самое главное — с полным доступом к нетривиальным книгам в библиотеке (например, однажды мне просто попалась под руку «Теория гироскопов» еще с печатью физико-технического факультета МГУ) и к лучшим преподавателям в стране.

Сначала мне буквально «снесло крышу» от таких возможностей. Первые два с половиной месяца ночью я спал по два, ну максимум четыре часа. Всё остальное время я проводил в читалке. Конечно, постепенно всё выровнялось, наступила некоторая усталость, да и первая сессия прошла не без боя.

Во втором семестре было более понятно, что делать, но тоже было нелегко. А уже где-то со второго курса начался процесс нормального получения знаний и поступательного развития в точных науках.

Еще с первого курса я начал пробовать себя в научной деятельности. Началось это с научного семинара по теории групп у нашего лектора по алгебре. Я тогда не особо много понимал, и, честно признаться, ничего не получилось, хоть и преподаватель был очень крутой и увлеченный своим делом.

Но после этого я еще пробовал влиться в тусовку «чистых математиков». У нас как раз была группа сильных преподавателей с мехмата МГУ, — наверное, из-за нашего необычного и прогрессивного факультета с забавным, на мой взгляд, названием «Факультет инноваций и высоких технологий». В какой-то момент я даже писал диплом под руководством Андрея Михайловича Райгородского, очень крутого математика, а впоследствии — большого босса на Физтехе. В бакалавриате диплом по чистой математике я защитил, а вот в магистратуре мое сердце уже окончательно оккупировало машинное обучение. Об этом я напишу в следующем посте.

#мойпуть

Kantor.AI
70👍30🔥11
🌷 Дорогие дамы, поздравляю вас с 8 Марта — праздником весны и любви!

Этот день полностью ваш, как, впрочем, и остальные 364 дня в году. Но сегодня особенно хочется отметить, что вы наполняете нашу жизнь радостью и красотой. Благодаря женщинам атмосфера в IT становится доброжелательнее, а общение — приятнее. Благодаря вам появляется больше красивых и нетривиальных решений в бизнесе. Ну и в конце концов, дамы всегда вдохновляют нас, мужчин, на новые достижения.

Специалистов-женщин становится всё больше не только в IT-компаниях, и, я думаю, в будущем это число будет расти. Мне повезло работать в компании, в которой огромное количество женщин, в том числе топ-менеджеров.

Так что если вы чего-то боялись, милые дамы, то не стоит. Вам везде рады! Пусть ни одно препятствие не встанет на вашем пути, будете вы двигаться к карьерным свершениям или к другим личным победам.

С праздником, дорогие, и пусть каждый день в году будет для вас как 8 Марта!
89❤‍🔥21🤬12💩12🤔11👏9🎉4🔥3😱3👍1😍1
Продолжаю комментировать новости AI в рубрике #уже_не_новость. Сегодня обсудим растущие расходы телеком-компаний на ИИ.

📰 По сообщениям сайта Artificialintelligence-news.com, траты телеком компаний на AI для автоматизации управления сетями к 2028 году вырастут до $ 20 миллиардов. Именно такая сумма прогнозируется в новом отчете компании Juniper Research.

💬 В целом рост на 240% с 2024 года не выглядит таким гигантским, если вспомнить, что среднегодовые темпы роста в AI обычно измеряются десятками процентов

💬 Все телекоммуникационные компании так или иначе используют прогнозирование для управления своими сетями. В каких-то случаях прогнозы могут делаться вручную на основе экспертного знания сотрудников, которые этим занимаются не один десяток лет, в каких-то случаях задействуются модели машинного обучения.

💬 Если говорить про российских операторов, то мы все давно используем свои системы для прогнозирования эффективности базовых станций, чтобы более точно приоритизировать стройку.

💬 В случае с МТС, решение Big Data МТС позволило вдвое снизить ошибку этого прогноза по сравнению с экспертной. Поэтому гораздо интереснее не те $ 20 млрд., о которых пишут в отчете, а какой экономический эффект эти инвестиции дадут. В случае оптимизации телеком сетей эффект запросто может быть на порядок больше, это тот самый пример «хорошей» задачи, где расходы на разработку и внедрение модели с лихвой окупаются.
👍2410🔥1
Карьера вместо карьера. Часть 3: преподавание и начало работы в компаниях.

И вот я в магистратуре. И мне есть, что защищать по чистой математике, но уже очень хочется делать что-то прикладное, полезное уже сейчас, а не через 10, 20 или 50 лет. Поэтому я буквально за семестр до защиты магистерского диплома, имея фактически готовую работу по случайным дистанционным графам, полностью переключился на ML.

Как так вообще произошло? Еще на третьем курсе у нас был предмет «Инновационный практикум». Его суть — запустить свой стартап без отрыва от учёбы. Звучит, конечно, очень амбициозно. По правде говоря, большинство проектов не выживали после курса, потому что в серьёзный проект нужно действительно серьёзно вкладываться. Хотя были и успешные примеры, которые потом существовали долгое время, поднимали инвестиции и продолжали развиваться.

В случае моего проекта всё было не только полезным опытом, но и относительно удачным: мы просуществовали еще несколько лет после сдачи курса. Правда, моя роль больше сводилась не к созданию моделей, а к поднятию инвестиций — оказалось, что я очень неплохо выступал.

Параллельно я пытался решать алгоритмические задачи, которые были в проекте. И когда спустя два года мучений (как раз в начале магистратуры) я наконец начал прогрессировать, то окончательно решил углубляться в область ML.

Решающим поворотом стало появление ML как предмета в ВУЗе. Я настолько успешно изучил его и сдал, что меня позвали вести семинары в следующем семестре. Я стал преподавать общекурсовой предмет на Физтехе и параллельно вел спецкурс по машинному обучению для всех желающих. Сначала спецкурс был ассистированием нашему заведующему кафедрой, но постепенно начал вести целиком я, и курс стал всем известным DMIA (Data Mining in Action). DMIA заслуживает отдельных постов, и они точно будут.

Все это привело к тому, что ML в моей жизни стало очень много, и мне захотелось заниматься им профессионально. В какой-то момент я начал заниматься ML на работе в компании ABBYY, потом пришёл в Яндекс, где с этим было связано ещё большее количество задач в Yandex Data Factory — подразделении, строившем модели на заказ для других компаний. Но о работе в крупных компаниях — в следующий раз :)

#мойпуть

Kantor.AI
🔥48👍205🫡2🤔1
Обучение и вовлечение: все ли преподаватели одинаково полезны

Очень интересно, как с течением времени меняется оценка полезности того или иного преподавателя, с которым вы встретились. В первом семестре первого курса у меня был всего один лектор, рассказывавший свой предмет действительно с горящими глазами. Чуть позже, я понял, почему так было: часть преподавателей к своему предмету особой любви не испытывала, а другая часть, наоборот, занималась им профессионально — их обычные задачи были куда сложнее того, что они рассказывали студентам, и с нами им попросту было не так интересно.

Тот лектор, читавший свой предмет увлеченно и страстно, сразу же завладел нашим вниманием, многие из нас полюбили слушать его лекции. В какой-то момент я сам даже пытался заняться научной работой под его руководством.

С течением времени ценность лекций и семинаров этого увлеченного предметом преподавателя для нас очень снизилась. Он действительно показывал нам красоту своей области, а еще развлекал нас всякими забавными фразочками, обыгрывавшими материал. Но нам нужно было еще и научиться решать определенные задачи. И вот с этим вышла промашка: мы преисполнились красотой, узнали интересные замысловатые контрпримеры, но решать задачи тот преподаватель нас так и не научил. Потому что систематическая регулярная работа со студентами была явно не его коньком, зато он хорошо умел создать ощущение приобщения к чему-то прекрасному.

Возможно, предполагалось, что подобный подход замотивирует нас работать самостоятельно. Но поскольку на своих лекциях тот препод приобщал нас вовсе не к тем вещам, которые составляют базу, а к чему-то необычному и интересному, план провалился. Несмотря на приятный опыт обучения, со временем стало очевидно, что больше пользы внезапно принесли те преподаватели, которые на первый взгляд не так сильно «горели» своим предметом.

Какой можно из всего этого сделать вывод? Настоящую ценность обучения вы сможете понять только со временем. В самом начале пути это сложно оценить адекватно, ведь вы попросту недостаточно знаете изучаемый предмет.
👍3916🤔3🫡1