Kantor.AI
11.6K subscribers
143 photos
12 videos
5 files
186 links
Канал Виктора Кантора про Data Science, образование и карьеру в сфере анализа данных. По вопросам сотрудничества: @mariekap

РКН: 5140322136
Download Telegram
Люблю, когда работу можно совместить с удовольствием. Прижать спамеров или мошенников к стенке - всегда в радость.

Что мы сделали: вместо того, чтобы заниматься одним только кредитным скорингом, как это годами принято у телекомов, мы расширили скоуп до скоринга мошенников на маркетплейсах. Это те самые ребята, которые как будто вам что-то продают, а на самом деле хотят кинуть на деньги. Теперь наши данные позволят крупным маркетплейсам быстрее пресекать эти темные делишки.

https://safe.cnews.ru/news/line/2023-11-24_tsentr_big_data_mts_razrabotal
🔥95👍23🎉7👏1🤔1
Тролль или нет

Один очень уважаемый (но способный на довольно едкие высказывания) человек, когда Яндекс выпустил библиотеку CatBoost для градиентного бустинга, сказал:

«Вот видно отставание отечественных компаний. Когда кто-то выпускает TensorFlow для современного deep learning, Яндекс релизит градиентный бустинг, которому сто лет».

Высказывание, конечно, то ещё передёргивание: алгоритм может быть старым, а современные версии будут продолжать появляться. Тот же самый LightGBM от Microsoft появился не намного раньше CatBoost. И был далеко не «ванильным» градиентным бустингом, а очень полезной на практике реализацией, используемой всеми до сих пор.

Но рациональное зерно в этом замечании всё же есть. Делать простые и понятные инструменты для устоявшихся задач и подходов — это важно и нужно, но всегда остаётся вопрос: а что-нибудь более «прорывное» сможем?

А вы как думаете: герой моего поста всё же зелёный жирный тролль или дело говорит?
👍39😈19🤔9🎄743😁3🫡2
Open source data tools

Как кто-то из вас знает, я уже несколько лет пушу свои команды в МТС делать вклад в open source инструменты для ML и работы с данными в целом. Пробираться в большой корпорации через согласование выкатки в открытый доступ кода — это одна часть этого удовольствия, другая часть — убедить людей, что либы делать нужно. Вы бы знали, сколько я выслушал отговорок от коллег и сотрудников, что, например, RecTools (нашу библиотеку для рекомендательных систем) делать не надо, и ей не будут пользоваться. Как бы не так, пользуются и благодарят команду.

Ещё у нас внутри команды возникла своя ETL-библиотека OnETL. Она даёт разработчику интерфейсы, более удобные, чем то, что есть из коробки в Spark, и её мы тоже недавно заопенсорсили. Казалось бы, простая и безобидная вещь, а многие сотрудники, даже уже переходящие в другую компанию из Big Data МТС, отмечают удобство работы у нас благодаря OnETL. Конкуренты, берите на вооружение. Нам не жалко :)

И всё же, возвращаясь к мотиву из предыдущего поста и теме нетривиальных библиотек, теперь на этот счёт нам тоже есть что сказать.

Подробнее расскажу в следующем посте.
🔥43👍2413❤‍🔥1
CoolGraph от Big Data МТС

Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.

Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных (чтобы все перечисленное выше было их частным случаем)? Ответ есть: графовые. Если вы можете по своим данным построить граф, отражающий взаимосвязь их отдельных частей (в компьютерном зрении пиксель связан с соседними пикселями, в тексте слово связано с другими словами), то дальше встаёт вопрос построения нейросети на основе этого графа.

Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.

Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.

Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
🔥81👍1912❤‍🔥1🤩1🎅1
Погубит ли человечество машинное обучение или принесёт всеобщее благо? Вопрос подписчика

Недавно я считал разговоры на подобные темы уделом людей, которые не имеют отношения к нашей области. Но любят поговорить и сделать на этом репутацию. Зачастую такие люди ничего не делали руками. Но, к сожалению, моя практика и появление на рынке ChatGPT показали, что это серьёзный вопрос.

Есть такая вещь, называется surge pricing. Это множитель цены в разных сервисах, например такси. Допустим, вы делаете приложение, где surge pricing балансирует спрос и клиент всегда может получить машину. Пусть и за дорого.

И вот представьте, что в вашем городе произошло трагическое событие. Бездушный алгоритм расценит это как идеальную возможность озолотиться — люди готовы заплатить любые деньги.

С одной стороны, зарабатывать на чужом горе возмутительно. С другой, surge pricing решает проблему доступности — и с ним водитель всегда найдётся (что в критической ситуации очень важно). Где этическая граница?

Ещё хуже — огромная языковая модель. Какова вероятность, что она не научится распространять фейки и вбросы?

Для решения этой задачи нужно не столько играть в Азимова, разрабатывая новые законы роботехники, сколько понять, как инженерно заложить в алгоритм рамки морального поведения.

В тех же моделях ценообразования можно ставить максимальные и минимальные ограничения на повышение стоимости. Алгоритм не сможет радикально влиять на ситуацию.

А вот как научить нейросети не обучаться на определённых картинках, не рассказывать какие-то вещи — серьёзное направление исследований. Это задача с большой инженерной и математической составляющей, которой сейчас люди только учатся.

Так вот, принесёт ли машинное обучение всеобщее счастье? Если мы пересмотрим приоритеты, начнём серьёзно относиться к этике, научимся её закладывать в модели, есть шанс, что ML будет работать во благо человечества.

Если же мы пустим всё на самотёк, рано или поздно алгоритмы начнут обрушивать финансовые рынки, зарабатывать на трагедиях и делать другие опасные вещи.

А что думаете вы?

#вопрос_подписчика
👍4511🔥7😁4🤔4💯1🫡1
ML-тренировки МТС х ФКН ВШЭ

Вчера вместе с Никитой Зелинским и великолепным Сашей Абрамовым @dealerAI открыли тренировки по ML от МТС и ВШЭ. Первое соревнование, которое будем решать с ребятами, посвящено распознаванию сгенерированных LLM текстов (будем отличать их от человеческих).

Я даже наивно надеюсь успеть и сам поучаствовать - всегда хотел поучиться решать каггл. Особенно приятно, что когда-то Саша учился у нас на Data Mining in Action, а теперь и у меня есть возможность поучиться у него :)

Btw, многие, наверно, подумали: "А как же private sharing?". Для тех, кто не знает, на kaggle можно делиться своими наработками по соревнованию: внутри своей команды или на всех участников соревнования. Третьего не дано, за передачу и использование "втихую" могут быть проблемы. Из фото вы видите, что для одной команды у нас многовато людей, поэтому все наработки и идеи, которые мы будем обсуждать в классе, будут собираться вместе, а затем публиковаться в открытом доступе на форуме соревнования. Так что если кто-то хочет к нам присоединиться в удаленном и асинхронном режиме - милости просим, материалы будут.

Спасибо коллегам из ВШЭ, с которыми у нас уже много совместных активностей, а в следующем году будет еще больше. И, конечно, спасибо Саше, что согласился поучаствовать в роли тренера.

P.S.: На фото есть пасхалка: подсказка, с кем еще мы сейчас обсуждаем грядущие образовательные активности (и может быть, до чего-то договоримся). Кто первый догадается? :)
39🔥15🤬3
Как внедрить в бэклог научный research? Вопрос подписчика

Ответ универсальный — как внедрить в бэклог любую непрофильную историю.

Есть два пути, выберите свой по темпераменту.

Первый — это культурные методы. Когда вы берёте и договариваетесь, что есть такой бюджет, мы закладываем его на науку, бюджет регулярно перезащищаете. А если нужно уменьшить расходы — что-то сокращаете.

Второй путь потребует больше воли. Ведь придётся постоянно доносить команде, что обычные задачи теперь нужно решить, ещё написав статью или, например, выпустив open source либу. А затем доказать это заказчикам, которые платят за задачи. Если воли не принимать здесь отказ не хватит, то подойдёт только первый путь, когда вы всё аккуратно забюджетировали.

Правда, чтобы забюджетировать, тоже нужно отстоять точку зрения. И убедить коллег, что наука и публикации важны и, вообще, необходимо выходить на солидные конфы.

Расскажу свой пример. Когда я пушил развитие open source у себя в Big Data МТС, моей главной болью было убедить коллег, что для нас должно быть важно создавать опенсорсные инструменты. Когда никто не видит работу, человек расслабляется и думает:
«Это я для себя так плохо написал, никто не заметит. Ну, коллеги увидят, поругают чуть, и всё».

Не всё. Мне было важно, чтобы команда чувствовала ответственность. Что есть люди, которые наблюдают и в любой момент могут написать: «А это у меня не работает». Поэтому долгими днями, ночами, а иногда и по утрам, на куче встреч так или иначе продавалась идея нашего вклада в open source. Спустя время начало получаться.

Я исключил вариант, что open source библиотек у нас просто не будет. Любые меры, сколько угодно организационных изменений и административных рычагов — всё применимо. Звучит страшно, но либо вы готовы всех задолбать, либо не так уж вам оно и надо :)

Так что выбирайте ваш путь. Но будьте готовы, что после изменений в бэклоге к вам постучатся и скажут:
«Слушай, а эти деньги мы же планировали на бизнесовые задачи». И надо доказать, что научный research, open source или что-то другое не просто необходимо, но все ещё должны быть рады, что вы до этого додумались.

#вопрос_подписчика
🔥42👍199❤‍🔥5👏1🙏1
Что бы я делал, если бы начинал карьеру в ML с нуля. Вопрос подписчика

Давайте порассуждаем о пути начинающего специалиста. Итак, начиная карьеру в 2023 году, я бы:

1. Поступил в университет на факультет с сильным направлением больших данных или машинного обучения. Если бы мне хотелось боли, страданий и превозмогания — МФТИ, а если в приоритете учеба полайтовее и сбалансированное развитие — ВШЭ.

И не надо думать, что «полайтовее» это значит, что вы будете меньше знать. На старте не стоит жестить. Адская учёба приучает пахать на износ, но не учит работать в обычном регулярном режиме. А в жизни нужно как раз это. Так что во всем есть свои плюсы и минусы.

2. После вуза пошёл в магистратуру писать научную работу.
Сейчас, к сожалению, основные центры науки по ML сосредоточены не у нас в стране. Но к выпуску из университета всё может поменяться. Мы всегда славились математиками и программистами. Даже если у нас будут определённые трудности с вычислительными мощностями, уж с алгоритмами и математикой мы точно можем справляться лучше всех.

3. Особо инвестировал в научную карьеру. На Западе уже давно самые дорогие Chief Data Scientist’ы в первую очередь хорошие учёные. Хотя в России другая турбулентность и горизонт планирования, однажды это к нам тоже придёт.

4. Параллельно знакомился с большими языковыми моделями и с темой мультимодальных моделей. После базовых курсов устроился на работу в этих направлениях.

5. Дальше двигался в область этичности AI. С этим нас явно ждёт много развлечений: нужно будет придумывать инженерные методы, как задавать нейросетям определенные рамки.

6. А затем — по ситуации, на основе кругозора и нетворка из университета и с работы.

А как бы вы сегодня делали карьеру в нашей сфере? Поделитесь в комментариях своими советами начинающим: что стоит делать, а чего лучше избегать?

#вопрос_подписчика
👍8012🔥11❤‍🔥4🤔4🤯3👏1🎉1🙏1🍾1
Как перебор победил метод наименьших квадратов

Контент про мои фейлы стал лидером в опросе. Вспомнил одну давнюю и поучительную историю, делюсь.

На старте моей карьеры в больших компаниях я работал в компании ABBYY. Моя коллега занималась распознаванием определенных удостоверений, имеющих свой формат в разных регионах. Удостоверения могли быть отсканированы в разных масштабах и качестве, поэтому чтобы понять, какой шаблон подходит, скан растягивали на нужное число процентов, сопоставив края удостоверения с шаблоном, и перебирали шаблоны всех регионов «в лоб». После выбора шаблона делалось распознавание.

Юный и бодрый я на это посмотрел и подумал: «Да это ж какое-то топорное решение! Я же знаю ML, в университетах учился. Надо сначала сделать классификатор сканов по регионам (на мешке визуальных слов, если кому-то это о чем-то говорит в конце 2023), т.к. у каждого региона есть своя уникальная картинка на удостоверении, затем подобрать правильное преобразование картинки, дающее совпадение ключевых точек. Обычная задача с системой уравнений, решаемой методом наименьших квадратов».

Ну что же, реализовал я такое решение, полный гордости за свои познания в анализе изображений.

В итоге оказалось, что мой «умный» метод решал задачу сильно медленнее, чем «грубый» перебор шаблонов всех регионов.

Мораль: не задирайте нос раньше времени и не относитесь к машинному обучению с какой-то уж совсем наивной фанатичностью.

#факап
72😁23💯23👍7🔥2🎉2🤔1
Отличный пост вышел недавно у Тани Савельевой: как масштаб ошибок показывает масштаб задач и реальную ответственность.

Вопрос для собеседований реально классный и работает. Еще минуту назад человек рассказывал, как он был главным боссом по всем вопросам, а через мгновение уже оправдывает фиаско тем, что оказывается это начальство решало :)

Что касается меня, тут уж извините, не так устроена российская корпоративная культура, чтобы я в своем канале гордо рассказывал о потерях компании из-за своих неверных решений. Даже если следом оправдаюсь, что положительные эффекты от команды составили десятки миллиардов рублей в год.

Но говоря о личном, мне тема ошибок особенно близка в контексте людей. Например, сейчас, когда Таня сделала карьеру в Яндексе, поработала СЕО и круто вырастила пару стартапов и вообще излучает уверенность в себе, нереально представить, что когда я Таню собеседовал 6 лет назад в Яндекс, она достаточно сильно нервничала. Мне это было понятно: она на 5 курсе, учит ML и программирование всего год, вчера я ей лекции читаю, и она смотрит меня на Курсере, а сегодня собеседование. И мы с коллегой (Ильей Ирхиным, тоже моим бывшим студентом, с недавних пор CDO Яндекс.Еды) решили дать Тане еще одно тестовое задание.
С тестовым Таня отлично справилась, мы взяли её в команду, и с тех пор ни одного дня не было, чтобы я пожалел об этом решении.
Не было бы его - конечно никто не знает, что бы было, но скорее всего Яндекс не запустил бы Support AI, EVA AI не нарастила бы выручку в 10 раз и не попала бы в топ СМИ так быстро. Поэтому, принимая решение по каждому человеку (отказ, найм, увольнение, повышение), я постоянно думаю, где и как именно этот человек раскроется лучше.

Но что касается фейлов, не переживайте, я не слился. Рубрика с фейлами продолжит жить в канале, ждите новых постов :)
🔥45👍117
Размер ваших ошибок определяет ваш масштаб и реальную ответвенность.

Вопрос про самые большие ошибки для меня на собесе один из главных. И я супер всем советую подумать над этим вопросом.
Помимо очевидных вещей типо «посмотреть как человек процессит свой опыт» есть еще более важная сторона этого вопроса. А именно, что размер ваших ошибок, а не то, что вы делали во многом определяет масштаб вашей работы и вашу реальную ответсвенность.

Расскажу на примере.
У меня как то был опыт найма и просмотра большн 20 человек в маркетинг (да, в последнее время я много работала с маркетингом)
Приходит кандидат, который говорит что он отвечал за направление маркетинга в небольшом стартапе - прям за весь маркетинг. Описывает, как он участвовал в разных брейнштормах и митингах по тому, как мы привлекаем юзеров, про продукт и про коммуникацию бренда. Потом спрашиваешь про самую большую ошибку. И человек говорит, что он случайно неправильно настроил рекламные кампании в кабинете фейсбука. При более подробных вопросах вокруг этой темы выясняется, что решения о обьемах закупки трафыика, гипотезы про эффективность, юнит экономика, послание бренда, связка маркетинг и продукт были на CEO. А чувак руками делал то, что ему говорили, предварительно это обсуждая.
Короче по этому ответу можно с уверенностью сказать, что чел не CMO.

Короче если масштаб ваших файлов малекий и очень конкретный задумайтесь. Возможность лажать по крупному - одна из лучших вещей для карьеры и если есть простор и такая потенциальная возможность это повод благодарить судьбу, а не грустить. Про условии конечно, что вы учитесь на ошибках и делаете это быстро.

Если этот пост наберёт 200 огонечков поделюсь своими самыми большими ошибками.
🔥2086😁2🎄1
Как меня не хотели пускать на контрольную

Или почему полезно быть вежливым.

Как-то, когда я был еще юным семинаристом, мы с коллегами проводили у студентов контрольную. И так получилось, что я на нее слегка опаздывал. Но я знал, что коллеги раздадут варианты, поэтому не сильно переживал. Но при этом мы с некоторыми из них ни разу не виделись.

Вот я захожу в аудиторию, тишина, все пишут. У доски сидит коллега-семинарист, я подаю ему руку, и тут надо было видеть его лицо. Он принимает очень возмущенный вид и говорит: «Молодой человек, вы в своём уме? Почему опаздываете?» Всё это показательно громким тоном. Студенты разом перестают писать и начинают посмеиваться.

Я отхожу от наглости и отвечаю: «Да я вообще-то препод». Тут уж коллега начинает смущаться вперемежку со смехом, а студенты совсем уже не стесняются ржать в голос. Надо сказать, что я был в тот день не последним опоздавшим, и новые приходящие в аудиторию люди уже получали на входе вопрос: «Ты препод или студент?».

В целом с молодыми преподавателями это стандартная история: однажды, когда я был студентом, преподаватель кафедры высшей математики пытался заставить нашего замдекана (пришедшего нас проведать) сдавать экзамен по матану или удалиться из аудитории. И ходил красный как рак, когда ему объяснили, до кого он докопался :)

Можно ли тут придумать какую-то мораль? Конечно можно, например такую: нас красит культура, друзья. Будьте вежливыми, чтобы не быть дураками. И не обижайтесь, если кто-то по лицу не понял, какой вы важный куриц :)
😁89🔥5914👍5❤‍🔥2👏2
Необходимо ли быть магистром математики, чтобы работать в ML? Вопрос подписчика

Вопрос планки. Если её понизить, то в целом и без сильных знаний в математике, и без какого-либо развития можно обойтись.

Но для серьёзного ML research однозначно нужен базовый институтский курс. Причём не столько магистратура, сколько бакалавриат. Оффтоп — если вы ещё в институте, не игнорируйте какие-либо разделы математики полностью. Они могут пригодятся вам дальше, а будет поздно.

Начнём с того, что погружение в математику поможет не выполнять бестолковую работу.

Пример. Человек пытается с помощью логарифмирования признаков добавить что-то качеству ансамблей деревьев. Но он не понимает, что деревья работают на основе отсечений по пороговым значениям признака. И т.к. логарифм это монотонное преобразование, ничего он вам as is не добавит. Пример специально максимально простой, можем в комментариях собрать и более требовательные к математике. Все же понять, как работают деревья, можно и из документации, а логарифмам учат и в школе.

Чем дальше выходим за рамки банального перебора различных действий с данными и моделью, тем сильнее нужны математические знания. Если вы хотите разрабатывать собственные алгоритмы, тут даже программы топового вуза может не хватить (как минимум, не каждого топового вуза). В течение жизни нужно быть готовым постоянно открывать для себя новые области.

Конечно, можно сделать карьеру и без глубокого погружения в математические нюансы. Сейчас, например, много инженерного research, когда мы собираем много слоёв в нейросетях и применяем на понятных задачах. Но хорошая математическая база всегда будет хорошей инвестицией в long term.

#вопрос_подписчика
👍6710🔥7🤔1🙏1
Как получать удовольствие от решения рутинных задач. Вопрос подписчика

У меня будет три совета.

Первый — придумайте поводы для маленьких радостей. Нарезайте большой проект на части, их — на более мелкие и отмечайте то, что сделали. Я предлагаю отмечать хотя бы просто в списке задач или завершенных дел за день, но конечно в преддверии Нового года можно и бокалом игристого. Кроме шуток, придумать себе награду после каждого этапа вполне жизнеспособная идея.

Пример: вы преподаватель и проверяете работы студентов. После каждой десятой/двадцатой разрешите себе сходить выпить чай или кофе. Во-первых, приятно. Во-вторых, отдых. В-третьих, вы отметите прогресс и, возможно, будете лучше себя чувствовать. Это уже внесёт удовольствие во всю работу. Несомненный плюс рутинных задач в том, что это понятная работа с понятным прогрессом. После нарезания на небольшие шаги цикл обратной связи короткий, а значит рутина будет давать много поводов порадоваться выполненным задачам.

Второй совет. Превращайте рутинные задачи в привычку. Тогда они перестанут напрягать и органично встроятся в ваш день, как чистка зубов. Привычка формируется периодичностью. Например, несколько лет назад я решил делать значительную часть рутинных дел в последние часы рабочего дня. В итоге привык, что вечером уже можно немного расслабить мозг и заняться понятными вещами, а заканчивать на приятной ноте, когда кучу дел переделал. Раньше у меня для этого был утренний слот, чтобы к обеду уже чувствовать, что день прошел не зря (тоже очень мотивирует), но последние годы на утро в календарь встает много встреч, и пришлось поменять подход.
Очень важно, что периодичность не в том, чтобы делать что-то в одно и то же время по часам, а в том, чтобы делать что-то с одним и тем же настроем: подумайте, что помогает вам создать какое-то определенное настроение (время дня важный фактор, но не единственный) и восполнить запас сил, если его не хватает, и делайте это перед тем, как приступать к периодичному действию.

Третий. Рутина хороша медитативностью. Ты отключаешь мозг и занимаешься монотонной работой — это отдых. Обращайте на свое состояние до и после рутины. Частый пример - наведение порядка (как в комнате, так и в коде, в оргструктуре, в рабочих договоренностях). Обычно после этого становится чуточку спокойнее на душе. Помните про этот эффект и цените его. Часто нам сложно начать, но в процессе затягивает, а в конце становится легче и радостнее.

И напоследок бонус: секретный прием, как справляться с рутиной, включающий все данные выше советы. Находите в себе ребёнка, который пытается идти, не наступая на стыки плиток. Каждый шаг для него это маленький успех, он играет в эту игру регулярно и полностью ей отдается. Когда начинаешь играть, мозг легко заменяет минусы на плюсы.

#вопрос_подписчика
58👍18🔥9💯8👌6❤‍🔥3🥰1
Дорогие друзья!

Этот год был очередным испытанием для нас всех, но жаловаться сейчас не приходится, потому что на каждые трудности найдется много людей, перенесших гораздо больше невзгод. Поэтому для начала давайте поблагодарим свою судьбу за то, что имеем. По крайней мере, мы с вами пережили еще один год, что уже неплохо.

В то же время, Новый Год - это пора надежд, а в нашей жизни, пока она продолжается, всегда есть то, на что мы можем влиять лично. Поэтому я хочу пожелать вам в новом году три важные вещи.

Во-первых, понимать, что вы хотите от этой жизни, и всегда находить силы идти к этим целям.

Во-вторых, окружать себя людьми, с которыми вы хотите прожить свою жизнь.

А в-третьих, оставлять в своей жизни место для любви, тепла и непосредственности, а не только лишь шагать навстречу желаемому. Порой идти медленнее сейчас значит идти быстрее в горизонте десятка лет или всей жизни. Всему свое время, место и люди, с которыми у вас все получится. Не торопите события так, чтобы не успевать их проживать.

Пусть Новый год не только превратит всё задуманное в реальность, но и оставит место для того, что случается как-то само, но дарит вам тепло, радость и счастье.

С наступающим! С Новым 2024м годом. 🎄🎉🎇
Please open Telegram to view this post
VIEW IN TELEGRAM
157🎉20🔥14👍62🎄2🍾1
Как мы с завкафом не поняли друг друга

Однажды заведующий кафедрой алгоритмов и технологий программирования МФТИ обратился ко мне с просьбой — прочитать курс по анализу изображений. Тогда свёрточные нейросетки ещё не были популярны, это была классическая обработка картинок + немного машинлёрнинга: всякие SIFT-дескрипторы, SURF-дескрипторы и поверх них ML-модели.

А я никогда не занимался изображениями. Мой максимум — это курс в ШАДе. Но заведующему кафедрой в личной просьбе сложно отказать, поэтому решил воспользоваться случаем погрузиться в тему. Ведь лучший способ узнать что-то новое — объяснить это новое другому.

В итоге курс я прочитал. Было сложно, к каждой теме приходилось готовиться по нескольку дней. Тут отдельное спасибо Антону Конушину, у которого есть замечательный авторский курс на тему. Он тогда разрешил воспользоваться своими материалами.

И не писал бы я этот пост, если бы не одно но. В конце семестра я подошёл к заведующему и спросил: «А почему, собственно, я?» Всё оказалось просто. Заведующий кафедрой перепутал, чем я занимаюсь — текстами или изображениями.

И за весь год ни он, ни я ни разу не решились об этом поговорить. Однако вывод позитивный. Из-за того, что меня по ошибке приняли за эксперта в изображениях, за год я круто прокачался в теме.

Поэтому не бойтесь браться за новые возможности. Если они приходят — очень вероятно, что вы готовы.

Kantor AI
😁139🔥62👍4818😎7
Три преподавателя ML, которые меня вдохновляют

Это наши соотечественники, их можно потрогать  увидеть, познакомиться и пообщаться.

Один из них — мой коллега, замечательный преподаватель ВШЭ Евгений Соколов. Мы работали с ним в Yandex Data Factory, после чего он перешёл в «Дзен». В какой-то момент Женя поразил всех. Вдумайтесь: человек, который был руководителем всего DS «Дзена», предпочёл работе в одной из лучших компаний России любимое дело. Преподавать. «Это было не просто смело, это было капец, как смело».

Мне на такое не хватало духа. Был момент, когда я ушёл из «Яндекса» в преподавание, но это была коммерция. А так, чтобы уволиться и пойти в вуз, — ребят, это мегасмело.

Другой человек, который меня вдохновляет, — это Алексей Драль. Лёша успел поработать в Amazon и «Яндексе». Исключительный профи во всём, что касается Big Data. Но в какой-то момент он понял, что ему надоело быть в найме, и он организовал свою образовательную компанию. В итоге у него дело по душе и по деньгам не прогорел.

И третий — это Анатолий Карпов. Его karpov.courses в прошлом году пробили 300 млн выручки. Я не проходил их, но уверен, что, если мы сравним DS-курсы на рынке, karpov.courses будут одними из самых качественных. Толя для меня второй пример того, что можно не только заниматься любимым делом, но и построить на этом рентабельный бизнес.

Я к чему. У нас преподаватель ассоциируется либо с голодным профессором в жилетке, либо с инфоцыганами и дыханием маткой. А Женя, Лёша и Толя показывают, что тут можно и нести людям свет, и прилично зарабатывать.

Поэтому, если вы хотите преподавать, но боитесь стереотипов выше, пост для вас. Можно вполне успешно организовать свою жизнь в этой сфере.

Kantor.AI
👍130🔥4627❤‍🔥10💯1
Почему не делаете что-то свое? Часть 1. Вопрос подписчика

На самом деле мой путь в анализ данных начался с двух стартапов. В первом у меня была доля, во втором я сам все устроил, т.е. была и доля, и лидерская функция. В первом все свелось к поднятию инвестиций и честному их пропрограммированию, т.к. мы еще не умели толком в data science, а уже взялись стартапить. Второй был больше не стартапом, а попыткой реабилитироваться и собрать что-то рабочее после опыта первого стартапа. Кстати, получилось, это был сервис для автоматической суммаризации текстов и плагин для браузера, делающий это по кнопке прямо на сайте (происходило все лет 10 назад). Но красивой коммерческой истории типа покупки Summly за сколько-то миллионов долларов из этого не вышло.

Дальше я подумал, что было бы неплохо прежде чем стартапить хоть чему-то научиться, и пошел получать опыт в больших компаниях. В процессе я посмотрел и на разные роли в команде, и на разные сферы бизнеса, и понял две вещи:
1) Свой бизнес, занимающийся Data Science консалтингом я точно не хочу
2) Свой стартап мне пока скучно делать, потому что для успешного стартапа нужна очень четкая фокусировка на максимально узком продукте, решающем максимально конкретную боль, а мне все еще интересно на работе образовываться «в ширь».

В стартапе, конечно, можно выполнять сразу много разных функций, и это тоже развитие «в ширь», но я про развитие именно в сфере работы с данными. Я не хочу на несколько лет подписаться делать только рекомендательные системы или только мониторинг качества чего-нибудь, мне хочется видеть как можно больше применений анализа данных в бизнесе и участвовать в них. Ближе всего к этому из «своего» - консалтинг, но этим я готов заниматься только внутри большой группы компаний, потому что уровень неопределенности и рисков в этой деятельности (когда их все знаешь и видел, как реализовываются) такой, что мало не покажется. Если у вас маленький DS консалтинг, все эти проблемы могут закрываться навыком продать снег зимой и спихнуть неудачный проект так, чтобы еще и заплатили, но мне это наперсточничество вот совсем не заходит.

#вопрос_подписчика
👍5119🔥133🫡2❤‍🔥1