Kantor.AI
11.6K subscribers
143 photos
12 videos
5 files
186 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
А теперь отгадаем еще одно распределение - по доходам
🔥16
😱32🔥13👍52
Ну и теперь показываю распределения по категориям вместе с легендой.

Из неожиданного:

🥳 Огромное количество людей с ML-образованием. Коллеги, мы дожили до этого момента! Теперь не надо учить ML по подворотням, можно полноценно в университете, и многие так и делают

💪 Думал, что аналитиков и менеджеров будет побольше, а MLщиков наоборот будет маловато, но нет. Тех, кто работает ML-специалистом в канале много

🔥 Не ожидал такой большой процент синьоров, очень приятно, что вы тоже с нами

😎 Как уже верно заметили в комментариях, зарплаты неплохо бьются с распределением по уровням, на которые респонденты себя оценивают. Кстати, на мой взгляд самооценка влияет на доход даже больше, чем напрямую знания. Кто ищет хорошие предложения, в конце-концов всегда доищется (в том или ином смысле). Ну и в обратную сторону это очевидно тоже работает: хорошие знания при низкой самооценке - плохой рецепт получения высоких доходов.

👨‍🎓 Студентов маловато, видимо эффект того, что несколько лет недорабатывал на эту аудиторию. А еще того, что студентам своих курсов хватает, а опрос же был про курсы.

Конечно еще интереснее смотреть на разные пересечения категорий. Но об этом я расскажу когда-нибудь потом, а сейчас в очереди скопилось много других тем для постов (пока я прокрастинировал и не писал этот :)
🔥458👍5🎉4😎2
Пример алгоритма ML, выводимого 3+ способами.

Возобновляю образовательно-развивательные посты. Рассказывать буду не как что-то работает, а интересные (мне 😂) факты про алгоритмы. Например, знали ли вы, что к логистической регрессии - простому, но очень популярному алгоритму машинного обучения, можно прийти как минимум тремя разными способами:

1️⃣ Просто рассмотрев бинарный линейный классификатор с логистическими потерями и каким-нибудь регуляризатором (или без него, но так обычно не делают).

2️⃣ Из соображений максимизации расстояния Кульбака-Лейблера между распределением, которое мы получаем для вероятности принадлежности к классу, и равномерным распределением.

3️⃣ Из соображений максимизации энтропии.

Все три варианта возникли исторически, в разные моменты к одному и тому же алгоритму приходили разные люди.

🖋️ Пример из моего опыта: в одной компании, где я работал, люди не имели академического образования по машинному обучению. И при этом построили свой аналог логистической регрессии, даже не зная про логистические потери — просто вручную придумали функцию потерь с нужными свойствами, гладко «сшив» экспоненту и прямую.

Спустя годы после этого, когда я рассказал авторам того алгоритма о логистической регрессии, они были приятно удивлены и обрадованы, что сами смогли изобрести то же самое.

Но вообще способов «вывести» логистическую регрессию гораздо больше, пишите в комментариях, кто какие еще знает :)

Подсказка: как минимум можно получить её и как байесовский классификатор
29👍10
Деньги против хайпа

Говорят, есть три стадии деградации инженера: сначала ты не можешь взять простой интеграл, потом забываешь формулу площади круга, а потом вешаешь на пиджак значок «Я — инженер». Не знаю, какие первые две стадии в data science, но третья — точно давать комментарии СМИ о перспективах развития ИИ, так что тролльте меня в комментах полностью 😂.

Мой посыл был очень простой. Есть конкретные применения ML, дающие измеримые в AB тестах экономические эффекты, и мы можем во всех компаниях сделать упор на это. А есть всякие модные применения нейросеток: для генерации картинок, ответов на вопросы и тому подобные штуки.

Я верю, что в России бизнес мыслит очень конкретно, и поэтому мы все будем налегать на первое. И тут главным трендом будет повсеместность проникновения машинного обучения, приносящего реальные деньги. Что же касается более модных в последние пару лет штук, то им в западных компаниях тоже начнут закручивать гайки инвесторы в ожидании денег. А когда это все выйдет на более монетизируемые истории, тогда уже наберет обороты и у нас.

Можно воскликнуть: «Доколе мы будем в догоняющей позиции?» Но если присмотреться, это не совсем так. Да, строить рекомендательные системы или динамический прайсинг мы придумали не первыми. Но вот внедряем их в каждый утюг от высокой природной технократичности мы и правда лучше всех. Ну, или уж точно будем в этом первыми в ближайшие несколько лет.
45👍14😁12👏3🤔3
🖋 Overfitting - термин с двумя интерпретациями

Не все явления машинного обучения имеют одно значение. Например, есть такое центральное понятие — «явление переобучения», по-английски — overfitting. Оно означает, что мы отлично работаем на тех данных, на которых обучался алгоритм, но на новых данных, пришедших к нам из жизни, мы почему-то работаем не очень хорошо.

И у явления переобучения есть как минимум два разных понимания.

1️⃣ Первое — конкретная модель с конкретными параметрами имеет низкую обобщающую способность, т.е. на обучающей выборке качество высокое, а на валидационной или тестовой выборке качество заметно ниже

2️⃣ Есть и второе. Мы можем сказать, что переобучение — это некий процесс, когда наша модель начинает слишком подстраиваться под обучающую выборку. И наступает он тогда, когда при усложнении модели качество на обучающей выборке продолжает расти, а на валидационной или тестовой — падать.

Первое определение приводит к тому, что в большинстве случаев мы имеем дело с уже переобученной моделью. Качество на обучающей выборке около 100%, а качество на валидационной выборке всегда будет существенно меньше. В частности, всегда переобученными получаются леса и градиентный бустинг над деревьями.

Если смотреть с точки зрения второго способа, то переобученным мы будем называть только тот градиентный бустинг, который при добавлении следующих деревьев становится хуже на валидационной выборке.
19🤔8👍4
Я открываю в канале новую рубрику — #уже_не_новость

Буду писать посты для нее с переменной частотой, так что, возможно, эти новости будут уже не новости. К тому же, сфера AI развивается настолько стремительно, что инфоповоды мы тоже узнаем не всегда вовремя. Так что суть этой рубрики будет скорее в моих комментариях относительно происходящего в мире AI.

📰Первая такая «почти свежая» новость — про технологии глубоких подделок. Злоумышленники создали дипфейк финансового директора одной из крупнейших корпораций Гонконга и во время видеоконференции убедили сотрудника компании перевести им $ 25 миллионов.

💬 Ну что же, привыкайте, скоро это будет совершенно обычная наша реальность. Более того, я надеюсь, что в скором будущем у каждого человека будет доступ к сервису для детекции дипфейков. Это, кстати, достаточно понятный рынок для будущих стартапов.

💬Я видел такую же историю своими глазами: был сделан дипфейк на Диму Мацкевича, фаундера известного стартапа Dbrain. Стартап занимается всяким AI и даже в свое время прошел в Y Combinator. Так вот в один момент в соцсетях начали распространяться видео, где Дима читает лекцию то ли про бинарные опционы, то ли про какое-то инфоцыганство и предлагает купить свой сомнительный курс по теме. Следом Дима выступил в соцсетях с опровержением: написал очень эмоциональный пост и объяснил, что в наше время уже и такое бывает. Конечно, всегда найдутся любители сказать: «Наверное, он сам же это и сделал. Все ради хайпа», но я искренне верю, что это действительно был дипфейк от каких-то мошенников.
👍226😁1
Как я успеваю руководить, работать и ещё преподавать? Вопрос подписчика

Возможно когда-то вы уже замечали одно совпадение:

24х7=168
8х21=168

24 на 7 — понятная аналогия. 8 на 21 — это восьмичасовой рабочий день и 21 рабочий день в месяц.

Выходит, что за неделю мы получаем то же количество часов, что и за рабочий месяц. Конечно, в реальности сложно быть продуктивным 24 на 7 — в день надо поспать хотя бы 6 часов. Но даже если отнять эти 6 часов из 24 — в день остаётся 18 часов на свершение подвигов (и это довольно много).

Остаётся вопрос — как же воспользоваться этим временем? Как что-то создавать и реализовывать, много думать и при этом не перегореть?

🔋 Мы знаем, что для мыслительного процесса есть ограниченное количество часов в неделю: мозг не может работать на 100% постоянно. Для его разгрузки мы заполняем оставшееся время той деятельностью, которая использует ваш мозг по-другому.

Например, занятия спортом и переключают, и дают больше энергии в течение недели. Изучать языки или что-то по профессии - тоже подойдет. Преподавание - вообще супер: не нужно придумывать что-то с нуля, нужно донести то, что уже знаешь. Это все абсолютно разные форматы деятельности. А как известно, смена деятельности — это лучший отдых. И если разделить наши часы на разные форматы работы, то активным временем будет не период с 10 до 18 часов, а весь день.

📈 Я не рекомендую начинать с большого количества активностей. Включайте их постепенно. Начните с пары тренировок в спортзале. Позже добавите ещё. Дальше включите изучение чего-то нового. И распределяйте активности так, чтобы у вас оставалось время на работу, которая тоже может делиться на разные форматы.

💡 Ещё один лайфхак: подключайтесь к задаче в то время, которое вы уделили ей в расписании. На высоком уровне в карьере или бизнесе просто необходимо уметь мгновенно включаться в задачу.

Итак, мне помогают 3 вещи:
1. Чередовать форматы и занимать весь день
2. Наращивать активности постепенно
3. Быстро переключаться и сохранять регулярность

#вопрос_подписчика
👍67🫡1611🔥4❤‍🔥1👎1🥰1
Карьера вместо карьера. Часть 2: снесло крышу от возможностей.

Когда я поступил на Физтех, наконец-то я мог полноценно изучать то, что мне интересно. Самое главное — с полным доступом к нетривиальным книгам в библиотеке (например, однажды мне просто попалась под руку «Теория гироскопов» еще с печатью физико-технического факультета МГУ) и к лучшим преподавателям в стране.

Сначала мне буквально «снесло крышу» от таких возможностей. Первые два с половиной месяца ночью я спал по два, ну максимум четыре часа. Всё остальное время я проводил в читалке. Конечно, постепенно всё выровнялось, наступила некоторая усталость, да и первая сессия прошла не без боя.

Во втором семестре было более понятно, что делать, но тоже было нелегко. А уже где-то со второго курса начался процесс нормального получения знаний и поступательного развития в точных науках.

Еще с первого курса я начал пробовать себя в научной деятельности. Началось это с научного семинара по теории групп у нашего лектора по алгебре. Я тогда не особо много понимал, и, честно признаться, ничего не получилось, хоть и преподаватель был очень крутой и увлеченный своим делом.

Но после этого я еще пробовал влиться в тусовку «чистых математиков». У нас как раз была группа сильных преподавателей с мехмата МГУ, — наверное, из-за нашего необычного и прогрессивного факультета с забавным, на мой взгляд, названием «Факультет инноваций и высоких технологий». В какой-то момент я даже писал диплом под руководством Андрея Михайловича Райгородского, очень крутого математика, а впоследствии — большого босса на Физтехе. В бакалавриате диплом по чистой математике я защитил, а вот в магистратуре мое сердце уже окончательно оккупировало машинное обучение. Об этом я напишу в следующем посте.

#мойпуть

Kantor.AI
70👍30🔥11
🌷 Дорогие дамы, поздравляю вас с 8 Марта — праздником весны и любви!

Этот день полностью ваш, как, впрочем, и остальные 364 дня в году. Но сегодня особенно хочется отметить, что вы наполняете нашу жизнь радостью и красотой. Благодаря женщинам атмосфера в IT становится доброжелательнее, а общение — приятнее. Благодаря вам появляется больше красивых и нетривиальных решений в бизнесе. Ну и в конце концов, дамы всегда вдохновляют нас, мужчин, на новые достижения.

Специалистов-женщин становится всё больше не только в IT-компаниях, и, я думаю, в будущем это число будет расти. Мне повезло работать в компании, в которой огромное количество женщин, в том числе топ-менеджеров.

Так что если вы чего-то боялись, милые дамы, то не стоит. Вам везде рады! Пусть ни одно препятствие не встанет на вашем пути, будете вы двигаться к карьерным свершениям или к другим личным победам.

С праздником, дорогие, и пусть каждый день в году будет для вас как 8 Марта!
89❤‍🔥21🤬12💩12🤔11👏9🎉4🔥3😱3👍1😍1
Продолжаю комментировать новости AI в рубрике #уже_не_новость. Сегодня обсудим растущие расходы телеком-компаний на ИИ.

📰 По сообщениям сайта Artificialintelligence-news.com, траты телеком компаний на AI для автоматизации управления сетями к 2028 году вырастут до $ 20 миллиардов. Именно такая сумма прогнозируется в новом отчете компании Juniper Research.

💬 В целом рост на 240% с 2024 года не выглядит таким гигантским, если вспомнить, что среднегодовые темпы роста в AI обычно измеряются десятками процентов

💬 Все телекоммуникационные компании так или иначе используют прогнозирование для управления своими сетями. В каких-то случаях прогнозы могут делаться вручную на основе экспертного знания сотрудников, которые этим занимаются не один десяток лет, в каких-то случаях задействуются модели машинного обучения.

💬 Если говорить про российских операторов, то мы все давно используем свои системы для прогнозирования эффективности базовых станций, чтобы более точно приоритизировать стройку.

💬 В случае с МТС, решение Big Data МТС позволило вдвое снизить ошибку этого прогноза по сравнению с экспертной. Поэтому гораздо интереснее не те $ 20 млрд., о которых пишут в отчете, а какой экономический эффект эти инвестиции дадут. В случае оптимизации телеком сетей эффект запросто может быть на порядок больше, это тот самый пример «хорошей» задачи, где расходы на разработку и внедрение модели с лихвой окупаются.
👍2410🔥1