Kantor.AI
11.6K subscribers
143 photos
12 videos
5 files
186 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Анкета для текущих и будущих ML специалистов

Как и обещал, выкладываю опрос: https://forms.gle/XKARpWpgm57mAGTa7

На основе результатов опроса и интервью с теми, кто оставит свой контакт, буду решать, запускаю ли какие-то курсы, и если да, то какие. Также это поможет мне приоритизировать образовательный контент в канале. Буду очень признателен всем, кто пройдет опрос!

#опрос
🔥23👍147🤔4🤬2
Три ошибки молодых AI-стартапов. Вопрос подписчика

Какое-то время я ревьюил стартапы перед тем, как им давали или не давали инвестиции (этот процесс называется due diligence, и в него входит как анализ бизнеса и его перспектив, так и техническое ревью). У многих стартапов повторялись одни и те же ошибки, перечислю их в порядке нарастания драматичности.

Первая — команда ничего не умеет. Популярная история: набирают смелых студентов или даже людей вообще без знаний. Основатель, который не понимает в технике, смотрит на их работу, радуется послушанию и выдаёт кривой результат за прорыв в AI. Денег поднять реально, но стабильный бизнес построить невозможно.

Вторая — отсутствие менторов. Скорее всего, стартап не потянет топового ML-спеца, они нынче дорогие. Но можно привлечь их как менторов: даже светила сферы порой согласны помочь. Мотивацией для ментора, помимо удовольствия от помощи людям, могут быть деньги, небольшая доля в компании или даже большое человеческое спасибо.

Третья проблема — это стандартный приговор стартапов с фаундерами-технарями. Стартап вряд ли взлетит, если вы делаете то, что интересно, а не то, на что есть спрос. Тут, понятное дело, есть две крайности. В одной вы делаете красивую пустышку, вроде компаний из Кремниевой долины, которые втупую штампуют обертки вокруг апишки ChatGPT. В другой вы тратите кучу времени на немонетизируемые исследования, надеясь, что рано или поздно они принесут успех.

Мораль: заботьтесь о прокачке команды и балансируйте между интересом и коммерцией. А лучше ищите их пересечение.

И пожалуйста, не делайте компанию по генерации промтов к ChatGPT. Ну пожалуйста!

#вопрос_подписчика
👍52😁3410🔥1👏1🙏1
Карьера вместо карьера. Часть 1.

Я родился в городе Губкине (в честь того же академика Губкина называется РГУ нефти и газа) в недалёком 92-м году. Градообразующее предприятие — Лебединский горно-обогатительный комбинат, где многие губкинцы работают на одном из самых больших железорудных карьеров в России.

Меня же в карьер с детства не особо тянуло, а тянуло к «высокому». Стоит заметить, что в родном городе я бываю часто и труд горняков очень уважаю, но вот у меня были слегка другие увлечения.

В детстве я окончил с отличием художку, играл на фортепиано, ходил несколько лет на айкидо. Классе в седьмом моего отца обеспокоила моя математическая подготовка (я не справлялся с задачками, которые, по его мнению, должен был в состоянии решить). И так началось моё более плотное знакомство с математикой, а затем и с физикой.

Однако в 9-м классе я делал ставку на гуманитарные предметы, участвовал в олимпиадах по литературе и английскому, хотел поступить в МГИМО и стать дипломатом. Помогали сформировать такое видение будущего и учителя, в один голос говорившие, что у меня гуманитарный склад ума :)

Но у гуманитарных наук есть проблема, которую я быстро понял, — необъективность. То есть ты написал сочинение, но с твоей позицией не согласился учитель — теряешь баллы. А в математике отсутствует такой критерий, как «настроение проверяющего», — ты либо решил задачу, либо нет (хотя, как выяснилось позже, всё чуточку сложнее, но общее направление мысли было верным).

Так я пошёл по олимпиадам по физике и поступил в заочную школу при МФТИ. Со школой большую роль сыграл мой дядя. Он в своё время учился в Бауманке, поэтому, во-первых, знал, что такое Физтех (который в городах вроде Губкина не пиарится вообще). А во-вторых, не только помог с учёбой, но ещё и открыл для меня красоту этого мира.

Ты не просто пишешь циферки. Тебе, как загадку, задают задачу на другом языке, языке физики, и ты, предполагая, как устроен наш мир, решаешь её, открываешь ответ и видишь то же самое число. Это меня завораживало.

В итоге я очень удачно написал олимпиады и экзамены в 11-м классе и поступил на Физтех (он же МФТИ). О Физтехе я расскажу в следующих постах.

#мойпуть

Kantor.AI
👍103🔥4731👏1😁1👌1💯1
Пост для гуманитариев

Если вы хотите поучаствовать в текущей ИИ-революции — есть возможность. Один из способов — вопросы права в сфере искусственного интеллекта и данных.

Совсем недавно в Сети появилось новое видео выступления Джорджа Карлина. Старик молод душой, до сих пор юморит. Ладно, шучу, это видео было сгенерировано с помощью AI.

Всем понравилось, все посмеялись. Все, кроме наследников Карлина. Они подали в суд на авторов, так как это была попытка заработать на имени Карлина без их разрешения. И таких ситуаций будет появляться всё больше.

Представьте, какая благодатная почва. Возможно, именно вы сможете построить карьеру в сфере интеллектуальных прав и AI-generated content.

Тема данных тоже заиграет новыми красками. Одна история, когда AI использует общедоступные данные для обучения или fine-tuning, и совсем другая — когда дело касается личных видео и украденных изображений.

Поэтому не верьте мемам про гуманитариев: мы ещё все будем просить их помочь :)

Kantor AI
31👍18🔥4😁1🤬1🫡1
Как обучать крутых исследователей. Вопрос подписчика

Честно? Не знаю. Дело в том, что у меня не было такого опыта. Да, я занимаюсь обучением, но более прикладным — для создания сильных кадров.

Однако у меня есть на этот счёт наблюдения — спасибо Физтеху. Университет давно готовит сильных учёных в физике. И помогают ему в этом, как мне кажется, две вещи.

✒️ Первая — сильные отцы-основатели, Пётр Леонидович Капица и Лев Давидович Ландау. Нобелевские лауреаты, которые обучали новое поколение крутых специалистов. При этом, если говорить совсем честно, я немного сомневаюсь, что они были сильными методистами.

Про Льва Давидовича, например, рассказывают такую историю: однажды он за лекцию прочитал полсеместра теоретической физики одному из первых наборов Физтеха. Мало того, что студенты были к такому не готовы — среди них были в том числе и фронтовики. И они пожаловались ректору. Ректор поговорил с учёным и убедил, что таким образом обучать всё-таки не стоит. 

Про сильных учёных редко говорят, что они были хорошими лекторами. Тот же Андрей Николаевич Колмогоров сделал безумное количество важных вещей для математики и крайне плохо вёл лекции. Но зато как сильный учёный придумывал изящные доказательства теорем. 

✒️ Вторая вещь — это с первых дней обучения вовлекать студентов в научную работу

Совмещать учёбу и исследования, успевая везде, сложно, но на Физтехе об этом шутят: суть системы в том, что отсутствие наказания является поощрением. В этом есть доля правды. Многие состоявшиеся учёные признавали, что невозможно воспитать сильного исследователя без перегрузок. 

А что насчёт machine learning?

Я считаю, что опыт Физтеха помог бы и тут. У нас уже есть крутые специалисты, которые могут стать отцами-основателями. В качестве базовых организаций (как на Физтехе) можно привлечь компании с сильными ресёрч-отделами. Главное - суметь собрать всех вместе и договориться о большом совместном проекте.

#вопросподписчика
👍3510🫡6🔥2🤔1🤯1
Кастдев перед запуском курсов ML

Как и грозились в опросе, мы с моей командой начали проводить интервью с прошедшими опрос подписчиками. Для этого мы выбрали по несколько человек из основных кластеров:

1) тех, кто уже работает в ML, но пока не обсеньорился;
2)тех, кто уже вкатывался в курсы, но пока не вкатился в карьеру в ML;
3) тимлидов и сеньоров, которые уже смотрят на всё происходящее с высоты своего опыта.

Совсем новичков в опросе оказалось экстремально мало, что было для меня неожиданностью. Я думал, будут в основном аналитики и немного менеджеров, а оказалось, что 50% аудитории уже работают ML’щиками.

Ещё одна вещь, насчёт которой я переживал, — это то, как много людей будут делиться в опросе контактами и диапазоном доходов. Но оказалось зря: почти 100% не боялись рассказать про деньги и около 80% делились своими контактами.

Из первых наблюдений: многие называют в числе хороших примеров курсов моих любимых Женю Соколова и Karpov.Courses, что для меня очень приятно. Часто упоминают Игоря SeeAll, постоянного комментатора в этом канале и автора собственного с абсолютно безумным количеством подписчиков. Вспоминают и физтеховскую Deep Learning School. Но что больше всего отзывается теплом в моём сердце — ещё не забыли нашу специализацию на Coursera и Data Mining in Action :)

В общем, пока полон энтузиазма и получаю очень много удовольствия от общения с подписчиками. А если пост соберёт 150 реакций, напишу здесь основные выводы из интервью и опроса.
212👍62🔥32🫡1
Выводы из опроса и интервью о курсах по ML

Итак, прошлый пост собрал намного больше 150 реакций, поэтому кратко раскрываю наблюдения на основе опроса. Тезисно, т.к. первая версия не влезла даже в два лимита символов на пост.

🦾Очень многие, с кем общались, чётко делят курсы по ML на «Skillfactory, Skillbox и всё такое», которые не воспринимают всерьёз, и «нормальные курсы». Нормальными являются Karpov Courses и ряд вузовских курсов. Кроме Жени Соколова и Deep Learning School, которых я уже упоминал выше, рассказывают про AI Talent Hub в ИТМО, в котором, к слову, замечательный курс по RecSys читает Даня Потапов и другие выходцы из Big Data МТС при нашей посильной поддержке.

😨При этом есть люди, которые проходят различные курсы, но так и не начинают работать ML-специалистами. Они отмечают, что обещания, что в ML можно вкатиться «с нуля» сильно оптимистичные. Это подогревает общее недоверие к курсам.

🤯Есть группы с противоположными потребностями: одни обучающиеся хотят разбираться с задачей до потери пульса самостоятельно (им так лучше запоминается), а другие хотят максимально разложенную информацию, чтобы не приходилось получать знания через боль. Как ни странно, совсем несложно давать возможность выбора и удовлетворять оба запроса.

Все хотят практики, разборы кейсов обязательны. Причём хорошо бы разбавить избитые датасеты и задачи чем-то новеньким.

📚От тех, кто уже работает в ML, часто встречается запрос на «обучение для мидлов и сеньоров». При этом наши собеседники чётко понимают, что «научить на мидла» нельзя и это вопрос опыта, поэтому запрос не на «сделайте меня на уровень круче», а на «дайте мне интересный на моём уровне контент».

🥷 Многим на senior-позиции и выше интересно учиться профессиональному управлению и построению команды.

🧪 В отношении базовых курсов есть запрос на более глубокое изложение: как алгоритмы устроены, как их реализовать.

⌛️Изменилось отношение к образованию: если ещё лет десять назад те, кто не был готов выучиться сам по туториалам, книгам и статьям, считались изгоями, то теперь профессиональное сообщество признаёт, что наличие всех знаний в открытом доступе не отменяет экономии времени с помощью курсов.

🔥При этом стремление обучаться по-прежнему очень высокое. Многие готовы выделять по 15–20 часов в неделю на одно только обучение при наличии основной работы. Представьте, чего можно достичь, скажем, за год, если это время тратится на уже готовые курсы, а не на поиск релевантного контента в интернете.

В действительности мы выявили более 20 важных инсайтов о том, чего не хватает обучающимся для более эффективного достижения поставленных перед собой целей. Обо всех рассказывать не буду, попробуем сначала сделать, а потом уже хвастаться.

А если этот пост наберёт больше 250 реакций, обещаю выложить распределение возраста, образования, опыта и зарплат среди участников опроса :)
🔥340👍3519💯4🎅3😁2🤔2🎉2
Прежде чем показывать распределение респондентов в опросе, как обещал выше, небольшой интерактив. На картинке 4 большие сегмента - это уровни от полного новичка до senior. Попробуйте угадать, где кто :)
👍133🔥1
А теперь отгадаем еще одно распределение - по доходам
🔥16
😱32🔥13👍52
Ну и теперь показываю распределения по категориям вместе с легендой.

Из неожиданного:

🥳 Огромное количество людей с ML-образованием. Коллеги, мы дожили до этого момента! Теперь не надо учить ML по подворотням, можно полноценно в университете, и многие так и делают

💪 Думал, что аналитиков и менеджеров будет побольше, а MLщиков наоборот будет маловато, но нет. Тех, кто работает ML-специалистом в канале много

🔥 Не ожидал такой большой процент синьоров, очень приятно, что вы тоже с нами

😎 Как уже верно заметили в комментариях, зарплаты неплохо бьются с распределением по уровням, на которые респонденты себя оценивают. Кстати, на мой взгляд самооценка влияет на доход даже больше, чем напрямую знания. Кто ищет хорошие предложения, в конце-концов всегда доищется (в том или ином смысле). Ну и в обратную сторону это очевидно тоже работает: хорошие знания при низкой самооценке - плохой рецепт получения высоких доходов.

👨‍🎓 Студентов маловато, видимо эффект того, что несколько лет недорабатывал на эту аудиторию. А еще того, что студентам своих курсов хватает, а опрос же был про курсы.

Конечно еще интереснее смотреть на разные пересечения категорий. Но об этом я расскажу когда-нибудь потом, а сейчас в очереди скопилось много других тем для постов (пока я прокрастинировал и не писал этот :)
🔥458👍5🎉4😎2
Пример алгоритма ML, выводимого 3+ способами.

Возобновляю образовательно-развивательные посты. Рассказывать буду не как что-то работает, а интересные (мне 😂) факты про алгоритмы. Например, знали ли вы, что к логистической регрессии - простому, но очень популярному алгоритму машинного обучения, можно прийти как минимум тремя разными способами:

1️⃣ Просто рассмотрев бинарный линейный классификатор с логистическими потерями и каким-нибудь регуляризатором (или без него, но так обычно не делают).

2️⃣ Из соображений максимизации расстояния Кульбака-Лейблера между распределением, которое мы получаем для вероятности принадлежности к классу, и равномерным распределением.

3️⃣ Из соображений максимизации энтропии.

Все три варианта возникли исторически, в разные моменты к одному и тому же алгоритму приходили разные люди.

🖋️ Пример из моего опыта: в одной компании, где я работал, люди не имели академического образования по машинному обучению. И при этом построили свой аналог логистической регрессии, даже не зная про логистические потери — просто вручную придумали функцию потерь с нужными свойствами, гладко «сшив» экспоненту и прямую.

Спустя годы после этого, когда я рассказал авторам того алгоритма о логистической регрессии, они были приятно удивлены и обрадованы, что сами смогли изобрести то же самое.

Но вообще способов «вывести» логистическую регрессию гораздо больше, пишите в комментариях, кто какие еще знает :)

Подсказка: как минимум можно получить её и как байесовский классификатор
29👍10
Деньги против хайпа

Говорят, есть три стадии деградации инженера: сначала ты не можешь взять простой интеграл, потом забываешь формулу площади круга, а потом вешаешь на пиджак значок «Я — инженер». Не знаю, какие первые две стадии в data science, но третья — точно давать комментарии СМИ о перспективах развития ИИ, так что тролльте меня в комментах полностью 😂.

Мой посыл был очень простой. Есть конкретные применения ML, дающие измеримые в AB тестах экономические эффекты, и мы можем во всех компаниях сделать упор на это. А есть всякие модные применения нейросеток: для генерации картинок, ответов на вопросы и тому подобные штуки.

Я верю, что в России бизнес мыслит очень конкретно, и поэтому мы все будем налегать на первое. И тут главным трендом будет повсеместность проникновения машинного обучения, приносящего реальные деньги. Что же касается более модных в последние пару лет штук, то им в западных компаниях тоже начнут закручивать гайки инвесторы в ожидании денег. А когда это все выйдет на более монетизируемые истории, тогда уже наберет обороты и у нас.

Можно воскликнуть: «Доколе мы будем в догоняющей позиции?» Но если присмотреться, это не совсем так. Да, строить рекомендательные системы или динамический прайсинг мы придумали не первыми. Но вот внедряем их в каждый утюг от высокой природной технократичности мы и правда лучше всех. Ну, или уж точно будем в этом первыми в ближайшие несколько лет.
45👍14😁12👏3🤔3
🖋 Overfitting - термин с двумя интерпретациями

Не все явления машинного обучения имеют одно значение. Например, есть такое центральное понятие — «явление переобучения», по-английски — overfitting. Оно означает, что мы отлично работаем на тех данных, на которых обучался алгоритм, но на новых данных, пришедших к нам из жизни, мы почему-то работаем не очень хорошо.

И у явления переобучения есть как минимум два разных понимания.

1️⃣ Первое — конкретная модель с конкретными параметрами имеет низкую обобщающую способность, т.е. на обучающей выборке качество высокое, а на валидационной или тестовой выборке качество заметно ниже

2️⃣ Есть и второе. Мы можем сказать, что переобучение — это некий процесс, когда наша модель начинает слишком подстраиваться под обучающую выборку. И наступает он тогда, когда при усложнении модели качество на обучающей выборке продолжает расти, а на валидационной или тестовой — падать.

Первое определение приводит к тому, что в большинстве случаев мы имеем дело с уже переобученной моделью. Качество на обучающей выборке около 100%, а качество на валидационной выборке всегда будет существенно меньше. В частности, всегда переобученными получаются леса и градиентный бустинг над деревьями.

Если смотреть с точки зрения второго способа, то переобученным мы будем называть только тот градиентный бустинг, который при добавлении следующих деревьев становится хуже на валидационной выборке.
19🤔8👍4
Я открываю в канале новую рубрику — #уже_не_новость

Буду писать посты для нее с переменной частотой, так что, возможно, эти новости будут уже не новости. К тому же, сфера AI развивается настолько стремительно, что инфоповоды мы тоже узнаем не всегда вовремя. Так что суть этой рубрики будет скорее в моих комментариях относительно происходящего в мире AI.

📰Первая такая «почти свежая» новость — про технологии глубоких подделок. Злоумышленники создали дипфейк финансового директора одной из крупнейших корпораций Гонконга и во время видеоконференции убедили сотрудника компании перевести им $ 25 миллионов.

💬 Ну что же, привыкайте, скоро это будет совершенно обычная наша реальность. Более того, я надеюсь, что в скором будущем у каждого человека будет доступ к сервису для детекции дипфейков. Это, кстати, достаточно понятный рынок для будущих стартапов.

💬Я видел такую же историю своими глазами: был сделан дипфейк на Диму Мацкевича, фаундера известного стартапа Dbrain. Стартап занимается всяким AI и даже в свое время прошел в Y Combinator. Так вот в один момент в соцсетях начали распространяться видео, где Дима читает лекцию то ли про бинарные опционы, то ли про какое-то инфоцыганство и предлагает купить свой сомнительный курс по теме. Следом Дима выступил в соцсетях с опровержением: написал очень эмоциональный пост и объяснил, что в наше время уже и такое бывает. Конечно, всегда найдутся любители сказать: «Наверное, он сам же это и сделал. Все ради хайпа», но я искренне верю, что это действительно был дипфейк от каких-то мошенников.
👍226😁1
Как я успеваю руководить, работать и ещё преподавать? Вопрос подписчика

Возможно когда-то вы уже замечали одно совпадение:

24х7=168
8х21=168

24 на 7 — понятная аналогия. 8 на 21 — это восьмичасовой рабочий день и 21 рабочий день в месяц.

Выходит, что за неделю мы получаем то же количество часов, что и за рабочий месяц. Конечно, в реальности сложно быть продуктивным 24 на 7 — в день надо поспать хотя бы 6 часов. Но даже если отнять эти 6 часов из 24 — в день остаётся 18 часов на свершение подвигов (и это довольно много).

Остаётся вопрос — как же воспользоваться этим временем? Как что-то создавать и реализовывать, много думать и при этом не перегореть?

🔋 Мы знаем, что для мыслительного процесса есть ограниченное количество часов в неделю: мозг не может работать на 100% постоянно. Для его разгрузки мы заполняем оставшееся время той деятельностью, которая использует ваш мозг по-другому.

Например, занятия спортом и переключают, и дают больше энергии в течение недели. Изучать языки или что-то по профессии - тоже подойдет. Преподавание - вообще супер: не нужно придумывать что-то с нуля, нужно донести то, что уже знаешь. Это все абсолютно разные форматы деятельности. А как известно, смена деятельности — это лучший отдых. И если разделить наши часы на разные форматы работы, то активным временем будет не период с 10 до 18 часов, а весь день.

📈 Я не рекомендую начинать с большого количества активностей. Включайте их постепенно. Начните с пары тренировок в спортзале. Позже добавите ещё. Дальше включите изучение чего-то нового. И распределяйте активности так, чтобы у вас оставалось время на работу, которая тоже может делиться на разные форматы.

💡 Ещё один лайфхак: подключайтесь к задаче в то время, которое вы уделили ей в расписании. На высоком уровне в карьере или бизнесе просто необходимо уметь мгновенно включаться в задачу.

Итак, мне помогают 3 вещи:
1. Чередовать форматы и занимать весь день
2. Наращивать активности постепенно
3. Быстро переключаться и сохранять регулярность

#вопрос_подписчика
👍67🫡1611🔥4❤‍🔥1👎1🥰1