Kantor.AI
11.6K subscribers
143 photos
12 videos
5 files
186 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Как мы с завкафом не поняли друг друга

Однажды заведующий кафедрой алгоритмов и технологий программирования МФТИ обратился ко мне с просьбой — прочитать курс по анализу изображений. Тогда свёрточные нейросетки ещё не были популярны, это была классическая обработка картинок + немного машинлёрнинга: всякие SIFT-дескрипторы, SURF-дескрипторы и поверх них ML-модели.

А я никогда не занимался изображениями. Мой максимум — это курс в ШАДе. Но заведующему кафедрой в личной просьбе сложно отказать, поэтому решил воспользоваться случаем погрузиться в тему. Ведь лучший способ узнать что-то новое — объяснить это новое другому.

В итоге курс я прочитал. Было сложно, к каждой теме приходилось готовиться по нескольку дней. Тут отдельное спасибо Антону Конушину, у которого есть замечательный авторский курс на тему. Он тогда разрешил воспользоваться своими материалами.

И не писал бы я этот пост, если бы не одно но. В конце семестра я подошёл к заведующему и спросил: «А почему, собственно, я?» Всё оказалось просто. Заведующий кафедрой перепутал, чем я занимаюсь — текстами или изображениями.

И за весь год ни он, ни я ни разу не решились об этом поговорить. Однако вывод позитивный. Из-за того, что меня по ошибке приняли за эксперта в изображениях, за год я круто прокачался в теме.

Поэтому не бойтесь браться за новые возможности. Если они приходят — очень вероятно, что вы готовы.

Kantor AI
😁139🔥62👍4818😎7
Три преподавателя ML, которые меня вдохновляют

Это наши соотечественники, их можно потрогать  увидеть, познакомиться и пообщаться.

Один из них — мой коллега, замечательный преподаватель ВШЭ Евгений Соколов. Мы работали с ним в Yandex Data Factory, после чего он перешёл в «Дзен». В какой-то момент Женя поразил всех. Вдумайтесь: человек, который был руководителем всего DS «Дзена», предпочёл работе в одной из лучших компаний России любимое дело. Преподавать. «Это было не просто смело, это было капец, как смело».

Мне на такое не хватало духа. Был момент, когда я ушёл из «Яндекса» в преподавание, но это была коммерция. А так, чтобы уволиться и пойти в вуз, — ребят, это мегасмело.

Другой человек, который меня вдохновляет, — это Алексей Драль. Лёша успел поработать в Amazon и «Яндексе». Исключительный профи во всём, что касается Big Data. Но в какой-то момент он понял, что ему надоело быть в найме, и он организовал свою образовательную компанию. В итоге у него дело по душе и по деньгам не прогорел.

И третий — это Анатолий Карпов. Его karpov.courses в прошлом году пробили 300 млн выручки. Я не проходил их, но уверен, что, если мы сравним DS-курсы на рынке, karpov.courses будут одними из самых качественных. Толя для меня второй пример того, что можно не только заниматься любимым делом, но и построить на этом рентабельный бизнес.

Я к чему. У нас преподаватель ассоциируется либо с голодным профессором в жилетке, либо с инфоцыганами и дыханием маткой. А Женя, Лёша и Толя показывают, что тут можно и нести людям свет, и прилично зарабатывать.

Поэтому, если вы хотите преподавать, но боитесь стереотипов выше, пост для вас. Можно вполне успешно организовать свою жизнь в этой сфере.

Kantor.AI
👍130🔥4627❤‍🔥10💯1
Почему не делаете что-то свое? Часть 1. Вопрос подписчика

На самом деле мой путь в анализ данных начался с двух стартапов. В первом у меня была доля, во втором я сам все устроил, т.е. была и доля, и лидерская функция. В первом все свелось к поднятию инвестиций и честному их пропрограммированию, т.к. мы еще не умели толком в data science, а уже взялись стартапить. Второй был больше не стартапом, а попыткой реабилитироваться и собрать что-то рабочее после опыта первого стартапа. Кстати, получилось, это был сервис для автоматической суммаризации текстов и плагин для браузера, делающий это по кнопке прямо на сайте (происходило все лет 10 назад). Но красивой коммерческой истории типа покупки Summly за сколько-то миллионов долларов из этого не вышло.

Дальше я подумал, что было бы неплохо прежде чем стартапить хоть чему-то научиться, и пошел получать опыт в больших компаниях. В процессе я посмотрел и на разные роли в команде, и на разные сферы бизнеса, и понял две вещи:
1) Свой бизнес, занимающийся Data Science консалтингом я точно не хочу
2) Свой стартап мне пока скучно делать, потому что для успешного стартапа нужна очень четкая фокусировка на максимально узком продукте, решающем максимально конкретную боль, а мне все еще интересно на работе образовываться «в ширь».

В стартапе, конечно, можно выполнять сразу много разных функций, и это тоже развитие «в ширь», но я про развитие именно в сфере работы с данными. Я не хочу на несколько лет подписаться делать только рекомендательные системы или только мониторинг качества чего-нибудь, мне хочется видеть как можно больше применений анализа данных в бизнесе и участвовать в них. Ближе всего к этому из «своего» - консалтинг, но этим я готов заниматься только внутри большой группы компаний, потому что уровень неопределенности и рисков в этой деятельности (когда их все знаешь и видел, как реализовываются) такой, что мало не покажется. Если у вас маленький DS консалтинг, все эти проблемы могут закрываться навыком продать снег зимой и спихнуть неудачный проект так, чтобы еще и заплатили, но мне это наперсточничество вот совсем не заходит.

#вопрос_подписчика
👍5119🔥133🫡2❤‍🔥1
Почему не делаете что-то свое? Часть 2. Вопрос подписчика

Впрочем, если «своим» считать то, где есть доля в выручке, то даже наша с коллегами специализация по Data Science на Coursera уже подходит под такое определение. И с учетом того, что специализации на Coursera больше нет, коммерческих онлайн-курсов у меня сейчас тоже больше нет, то запустить что-нибудь на замену нашей специализации это основной кандидат в моем short-листе «что бы сделать своего».

Вы резонно спросите: «зачем в 2023 году очередной курс по DS?». Да ни за чем, художник пишет картины так, как он видит. Если звезды примут правильное положение, картины становятся востребованы. Образование это мой формат творчества, а различные метрики - это способ оценить востребованность.

Сейчас я больше сконцентрирован на вузовском преподавании (МФТИ, Вышка) и на образовательных проектах МТС (Школа аналитиков данных, факультет ВШПИ в МФТИ совместно с Яндексом, кафедра по Gen AI в Вышке и еще пара секретных проектов, о которых позже будет известно). Там основные метрики - это количество активных слушателей, процент дохождения до конца курсов, распределение оценок на экзаменах и, что немаловажно, результат внешней валидации - какие оценки ставят студентам внешние преподаватели и успешно ли потом студенты проходят собеседования и работают. Последнее измерять очень долго, часто остается просто субъективным впечатлением «вот там и там работают наши ребята», но я работаю над этим и в какой-то момент буду понимать примерные числа.

В случае коммерческого образования все те же метрики остаются, но добавляется выручка. Можно скатиться в научпоп или инфоцыганство, и поднять метрики дохождения и выручку, но при этом уронить метрики востребованности выпускников, а можно наоборот - ценой выживаемости и выручки сделать хардкорный эксклюзив, который даже себя не окупит. Сейчас я в поиске оптимального варианта для себя, и буду очень признателен, если вы, дорогие подписчики, мне поможете. Пишите в комментариях свои мысли, а на днях я опубликую опрос для тех, кто уже работает в Data Science или пока только хочет туда попасть.

#вопрос_подписчика
👍4215🔥6❤‍🔥1👏1
Анкета для текущих и будущих ML специалистов

Как и обещал, выкладываю опрос: https://forms.gle/XKARpWpgm57mAGTa7

На основе результатов опроса и интервью с теми, кто оставит свой контакт, буду решать, запускаю ли какие-то курсы, и если да, то какие. Также это поможет мне приоритизировать образовательный контент в канале. Буду очень признателен всем, кто пройдет опрос!

#опрос
🔥23👍147🤔4🤬2
Три ошибки молодых AI-стартапов. Вопрос подписчика

Какое-то время я ревьюил стартапы перед тем, как им давали или не давали инвестиции (этот процесс называется due diligence, и в него входит как анализ бизнеса и его перспектив, так и техническое ревью). У многих стартапов повторялись одни и те же ошибки, перечислю их в порядке нарастания драматичности.

Первая — команда ничего не умеет. Популярная история: набирают смелых студентов или даже людей вообще без знаний. Основатель, который не понимает в технике, смотрит на их работу, радуется послушанию и выдаёт кривой результат за прорыв в AI. Денег поднять реально, но стабильный бизнес построить невозможно.

Вторая — отсутствие менторов. Скорее всего, стартап не потянет топового ML-спеца, они нынче дорогие. Но можно привлечь их как менторов: даже светила сферы порой согласны помочь. Мотивацией для ментора, помимо удовольствия от помощи людям, могут быть деньги, небольшая доля в компании или даже большое человеческое спасибо.

Третья проблема — это стандартный приговор стартапов с фаундерами-технарями. Стартап вряд ли взлетит, если вы делаете то, что интересно, а не то, на что есть спрос. Тут, понятное дело, есть две крайности. В одной вы делаете красивую пустышку, вроде компаний из Кремниевой долины, которые втупую штампуют обертки вокруг апишки ChatGPT. В другой вы тратите кучу времени на немонетизируемые исследования, надеясь, что рано или поздно они принесут успех.

Мораль: заботьтесь о прокачке команды и балансируйте между интересом и коммерцией. А лучше ищите их пересечение.

И пожалуйста, не делайте компанию по генерации промтов к ChatGPT. Ну пожалуйста!

#вопрос_подписчика
👍52😁3410🔥1👏1🙏1
Карьера вместо карьера. Часть 1.

Я родился в городе Губкине (в честь того же академика Губкина называется РГУ нефти и газа) в недалёком 92-м году. Градообразующее предприятие — Лебединский горно-обогатительный комбинат, где многие губкинцы работают на одном из самых больших железорудных карьеров в России.

Меня же в карьер с детства не особо тянуло, а тянуло к «высокому». Стоит заметить, что в родном городе я бываю часто и труд горняков очень уважаю, но вот у меня были слегка другие увлечения.

В детстве я окончил с отличием художку, играл на фортепиано, ходил несколько лет на айкидо. Классе в седьмом моего отца обеспокоила моя математическая подготовка (я не справлялся с задачками, которые, по его мнению, должен был в состоянии решить). И так началось моё более плотное знакомство с математикой, а затем и с физикой.

Однако в 9-м классе я делал ставку на гуманитарные предметы, участвовал в олимпиадах по литературе и английскому, хотел поступить в МГИМО и стать дипломатом. Помогали сформировать такое видение будущего и учителя, в один голос говорившие, что у меня гуманитарный склад ума :)

Но у гуманитарных наук есть проблема, которую я быстро понял, — необъективность. То есть ты написал сочинение, но с твоей позицией не согласился учитель — теряешь баллы. А в математике отсутствует такой критерий, как «настроение проверяющего», — ты либо решил задачу, либо нет (хотя, как выяснилось позже, всё чуточку сложнее, но общее направление мысли было верным).

Так я пошёл по олимпиадам по физике и поступил в заочную школу при МФТИ. Со школой большую роль сыграл мой дядя. Он в своё время учился в Бауманке, поэтому, во-первых, знал, что такое Физтех (который в городах вроде Губкина не пиарится вообще). А во-вторых, не только помог с учёбой, но ещё и открыл для меня красоту этого мира.

Ты не просто пишешь циферки. Тебе, как загадку, задают задачу на другом языке, языке физики, и ты, предполагая, как устроен наш мир, решаешь её, открываешь ответ и видишь то же самое число. Это меня завораживало.

В итоге я очень удачно написал олимпиады и экзамены в 11-м классе и поступил на Физтех (он же МФТИ). О Физтехе я расскажу в следующих постах.

#мойпуть

Kantor.AI
👍103🔥4731👏1😁1👌1💯1
Пост для гуманитариев

Если вы хотите поучаствовать в текущей ИИ-революции — есть возможность. Один из способов — вопросы права в сфере искусственного интеллекта и данных.

Совсем недавно в Сети появилось новое видео выступления Джорджа Карлина. Старик молод душой, до сих пор юморит. Ладно, шучу, это видео было сгенерировано с помощью AI.

Всем понравилось, все посмеялись. Все, кроме наследников Карлина. Они подали в суд на авторов, так как это была попытка заработать на имени Карлина без их разрешения. И таких ситуаций будет появляться всё больше.

Представьте, какая благодатная почва. Возможно, именно вы сможете построить карьеру в сфере интеллектуальных прав и AI-generated content.

Тема данных тоже заиграет новыми красками. Одна история, когда AI использует общедоступные данные для обучения или fine-tuning, и совсем другая — когда дело касается личных видео и украденных изображений.

Поэтому не верьте мемам про гуманитариев: мы ещё все будем просить их помочь :)

Kantor AI
31👍18🔥4😁1🤬1🫡1
Как обучать крутых исследователей. Вопрос подписчика

Честно? Не знаю. Дело в том, что у меня не было такого опыта. Да, я занимаюсь обучением, но более прикладным — для создания сильных кадров.

Однако у меня есть на этот счёт наблюдения — спасибо Физтеху. Университет давно готовит сильных учёных в физике. И помогают ему в этом, как мне кажется, две вещи.

✒️ Первая — сильные отцы-основатели, Пётр Леонидович Капица и Лев Давидович Ландау. Нобелевские лауреаты, которые обучали новое поколение крутых специалистов. При этом, если говорить совсем честно, я немного сомневаюсь, что они были сильными методистами.

Про Льва Давидовича, например, рассказывают такую историю: однажды он за лекцию прочитал полсеместра теоретической физики одному из первых наборов Физтеха. Мало того, что студенты были к такому не готовы — среди них были в том числе и фронтовики. И они пожаловались ректору. Ректор поговорил с учёным и убедил, что таким образом обучать всё-таки не стоит. 

Про сильных учёных редко говорят, что они были хорошими лекторами. Тот же Андрей Николаевич Колмогоров сделал безумное количество важных вещей для математики и крайне плохо вёл лекции. Но зато как сильный учёный придумывал изящные доказательства теорем. 

✒️ Вторая вещь — это с первых дней обучения вовлекать студентов в научную работу

Совмещать учёбу и исследования, успевая везде, сложно, но на Физтехе об этом шутят: суть системы в том, что отсутствие наказания является поощрением. В этом есть доля правды. Многие состоявшиеся учёные признавали, что невозможно воспитать сильного исследователя без перегрузок. 

А что насчёт machine learning?

Я считаю, что опыт Физтеха помог бы и тут. У нас уже есть крутые специалисты, которые могут стать отцами-основателями. В качестве базовых организаций (как на Физтехе) можно привлечь компании с сильными ресёрч-отделами. Главное - суметь собрать всех вместе и договориться о большом совместном проекте.

#вопросподписчика
👍3510🫡6🔥2🤔1🤯1
Кастдев перед запуском курсов ML

Как и грозились в опросе, мы с моей командой начали проводить интервью с прошедшими опрос подписчиками. Для этого мы выбрали по несколько человек из основных кластеров:

1) тех, кто уже работает в ML, но пока не обсеньорился;
2)тех, кто уже вкатывался в курсы, но пока не вкатился в карьеру в ML;
3) тимлидов и сеньоров, которые уже смотрят на всё происходящее с высоты своего опыта.

Совсем новичков в опросе оказалось экстремально мало, что было для меня неожиданностью. Я думал, будут в основном аналитики и немного менеджеров, а оказалось, что 50% аудитории уже работают ML’щиками.

Ещё одна вещь, насчёт которой я переживал, — это то, как много людей будут делиться в опросе контактами и диапазоном доходов. Но оказалось зря: почти 100% не боялись рассказать про деньги и около 80% делились своими контактами.

Из первых наблюдений: многие называют в числе хороших примеров курсов моих любимых Женю Соколова и Karpov.Courses, что для меня очень приятно. Часто упоминают Игоря SeeAll, постоянного комментатора в этом канале и автора собственного с абсолютно безумным количеством подписчиков. Вспоминают и физтеховскую Deep Learning School. Но что больше всего отзывается теплом в моём сердце — ещё не забыли нашу специализацию на Coursera и Data Mining in Action :)

В общем, пока полон энтузиазма и получаю очень много удовольствия от общения с подписчиками. А если пост соберёт 150 реакций, напишу здесь основные выводы из интервью и опроса.
212👍62🔥32🫡1
Выводы из опроса и интервью о курсах по ML

Итак, прошлый пост собрал намного больше 150 реакций, поэтому кратко раскрываю наблюдения на основе опроса. Тезисно, т.к. первая версия не влезла даже в два лимита символов на пост.

🦾Очень многие, с кем общались, чётко делят курсы по ML на «Skillfactory, Skillbox и всё такое», которые не воспринимают всерьёз, и «нормальные курсы». Нормальными являются Karpov Courses и ряд вузовских курсов. Кроме Жени Соколова и Deep Learning School, которых я уже упоминал выше, рассказывают про AI Talent Hub в ИТМО, в котором, к слову, замечательный курс по RecSys читает Даня Потапов и другие выходцы из Big Data МТС при нашей посильной поддержке.

😨При этом есть люди, которые проходят различные курсы, но так и не начинают работать ML-специалистами. Они отмечают, что обещания, что в ML можно вкатиться «с нуля» сильно оптимистичные. Это подогревает общее недоверие к курсам.

🤯Есть группы с противоположными потребностями: одни обучающиеся хотят разбираться с задачей до потери пульса самостоятельно (им так лучше запоминается), а другие хотят максимально разложенную информацию, чтобы не приходилось получать знания через боль. Как ни странно, совсем несложно давать возможность выбора и удовлетворять оба запроса.

Все хотят практики, разборы кейсов обязательны. Причём хорошо бы разбавить избитые датасеты и задачи чем-то новеньким.

📚От тех, кто уже работает в ML, часто встречается запрос на «обучение для мидлов и сеньоров». При этом наши собеседники чётко понимают, что «научить на мидла» нельзя и это вопрос опыта, поэтому запрос не на «сделайте меня на уровень круче», а на «дайте мне интересный на моём уровне контент».

🥷 Многим на senior-позиции и выше интересно учиться профессиональному управлению и построению команды.

🧪 В отношении базовых курсов есть запрос на более глубокое изложение: как алгоритмы устроены, как их реализовать.

⌛️Изменилось отношение к образованию: если ещё лет десять назад те, кто не был готов выучиться сам по туториалам, книгам и статьям, считались изгоями, то теперь профессиональное сообщество признаёт, что наличие всех знаний в открытом доступе не отменяет экономии времени с помощью курсов.

🔥При этом стремление обучаться по-прежнему очень высокое. Многие готовы выделять по 15–20 часов в неделю на одно только обучение при наличии основной работы. Представьте, чего можно достичь, скажем, за год, если это время тратится на уже готовые курсы, а не на поиск релевантного контента в интернете.

В действительности мы выявили более 20 важных инсайтов о том, чего не хватает обучающимся для более эффективного достижения поставленных перед собой целей. Обо всех рассказывать не буду, попробуем сначала сделать, а потом уже хвастаться.

А если этот пост наберёт больше 250 реакций, обещаю выложить распределение возраста, образования, опыта и зарплат среди участников опроса :)
🔥340👍3519💯4🎅3😁2🤔2🎉2
Прежде чем показывать распределение респондентов в опросе, как обещал выше, небольшой интерактив. На картинке 4 большие сегмента - это уровни от полного новичка до senior. Попробуйте угадать, где кто :)
👍133🔥1
А теперь отгадаем еще одно распределение - по доходам
🔥16
😱32🔥13👍52
Ну и теперь показываю распределения по категориям вместе с легендой.

Из неожиданного:

🥳 Огромное количество людей с ML-образованием. Коллеги, мы дожили до этого момента! Теперь не надо учить ML по подворотням, можно полноценно в университете, и многие так и делают

💪 Думал, что аналитиков и менеджеров будет побольше, а MLщиков наоборот будет маловато, но нет. Тех, кто работает ML-специалистом в канале много

🔥 Не ожидал такой большой процент синьоров, очень приятно, что вы тоже с нами

😎 Как уже верно заметили в комментариях, зарплаты неплохо бьются с распределением по уровням, на которые респонденты себя оценивают. Кстати, на мой взгляд самооценка влияет на доход даже больше, чем напрямую знания. Кто ищет хорошие предложения, в конце-концов всегда доищется (в том или ином смысле). Ну и в обратную сторону это очевидно тоже работает: хорошие знания при низкой самооценке - плохой рецепт получения высоких доходов.

👨‍🎓 Студентов маловато, видимо эффект того, что несколько лет недорабатывал на эту аудиторию. А еще того, что студентам своих курсов хватает, а опрос же был про курсы.

Конечно еще интереснее смотреть на разные пересечения категорий. Но об этом я расскажу когда-нибудь потом, а сейчас в очереди скопилось много других тем для постов (пока я прокрастинировал и не писал этот :)
🔥458👍5🎉4😎2
Пример алгоритма ML, выводимого 3+ способами.

Возобновляю образовательно-развивательные посты. Рассказывать буду не как что-то работает, а интересные (мне 😂) факты про алгоритмы. Например, знали ли вы, что к логистической регрессии - простому, но очень популярному алгоритму машинного обучения, можно прийти как минимум тремя разными способами:

1️⃣ Просто рассмотрев бинарный линейный классификатор с логистическими потерями и каким-нибудь регуляризатором (или без него, но так обычно не делают).

2️⃣ Из соображений максимизации расстояния Кульбака-Лейблера между распределением, которое мы получаем для вероятности принадлежности к классу, и равномерным распределением.

3️⃣ Из соображений максимизации энтропии.

Все три варианта возникли исторически, в разные моменты к одному и тому же алгоритму приходили разные люди.

🖋️ Пример из моего опыта: в одной компании, где я работал, люди не имели академического образования по машинному обучению. И при этом построили свой аналог логистической регрессии, даже не зная про логистические потери — просто вручную придумали функцию потерь с нужными свойствами, гладко «сшив» экспоненту и прямую.

Спустя годы после этого, когда я рассказал авторам того алгоритма о логистической регрессии, они были приятно удивлены и обрадованы, что сами смогли изобрести то же самое.

Но вообще способов «вывести» логистическую регрессию гораздо больше, пишите в комментариях, кто какие еще знает :)

Подсказка: как минимум можно получить её и как байесовский классификатор
29👍10
Деньги против хайпа

Говорят, есть три стадии деградации инженера: сначала ты не можешь взять простой интеграл, потом забываешь формулу площади круга, а потом вешаешь на пиджак значок «Я — инженер». Не знаю, какие первые две стадии в data science, но третья — точно давать комментарии СМИ о перспективах развития ИИ, так что тролльте меня в комментах полностью 😂.

Мой посыл был очень простой. Есть конкретные применения ML, дающие измеримые в AB тестах экономические эффекты, и мы можем во всех компаниях сделать упор на это. А есть всякие модные применения нейросеток: для генерации картинок, ответов на вопросы и тому подобные штуки.

Я верю, что в России бизнес мыслит очень конкретно, и поэтому мы все будем налегать на первое. И тут главным трендом будет повсеместность проникновения машинного обучения, приносящего реальные деньги. Что же касается более модных в последние пару лет штук, то им в западных компаниях тоже начнут закручивать гайки инвесторы в ожидании денег. А когда это все выйдет на более монетизируемые истории, тогда уже наберет обороты и у нас.

Можно воскликнуть: «Доколе мы будем в догоняющей позиции?» Но если присмотреться, это не совсем так. Да, строить рекомендательные системы или динамический прайсинг мы придумали не первыми. Но вот внедряем их в каждый утюг от высокой природной технократичности мы и правда лучше всех. Ну, или уж точно будем в этом первыми в ближайшие несколько лет.
45👍14😁12👏3🤔3