Data Science изнутри

🔥4👍1

825 viewsKirill Gelvan, 16:00

#рабочее_место

PS Благодаря комментариям можно задавать вопросы под каждым постом, поэтому вместо Q&A сессии сделаем фото рабочего места!

🔥5👏2👍1

857 viewsKirill Gelvan, 19:32

Data Science изнутри

Появляются вопросы по поводу темпа ведения канала. Отвечаю: гость может в течение недели писать посты в любом темпе, затем недельный перерыв, после чего следующий гость.
Так что на следующей неделе постов не будет, но с 12 сентября ждите следующего гостя, он уже найден =)

ps добавил в закреп

👍6

948 viewsKirill Gelvan, 14:54

Data Science изнутри

Появляются вопросы по поводу темпа ведения канала. Отвечаю: гость может в течение недели писать посты в любом темпе, затем недельный перерыв, после чего следующий гость. Так что на следующей неделе постов не будет, но с 12 сентября ждите следующего гостя,…

Что-то мне не понравилось как канал простаивал целую неделю, так что дальше попробуем несколько недель подряд приглашать по новому гостю.

👍8🔥3

750 viewsKirill Gelvan, 11:36

Data Science изнутри

#о_себе

Меня зовут Ильдус; почти везде, где нужно, меня можно найти как isadrtdinov. Мне 22 года, живу и работаю в Москве. Я закончил бакалавриат ПМИ ФКН ВШЭ (2017-2021), сейчас учусь на совместной программе магистратуры ВШЭ и Сколтеха с кликбейтным названием “Math of Machine Learning”. Кроме того, преподаю на разных курсах по машинному обучению на ФКНе и занимаюсь исследованиями в Центре глубинного обучения и байесовских методов (a.k.a bayesgroup). Так уж вышло, что Кирилл доверил мне быть первым университетским рисерчером, который расскажет о себе, поэтому вместо стека и задач мне видится разумным рассказать о своих исследовательских интересах (так что дальше идут несколько абзацев духоты, я предупредил).

Те недолгие два года, что я варюсь в рисерческой тусовке, я занимаюсь темой self-supervised learning. Это направление исследований изучает различные алгоритмы, позволяющие предобучать нейронки на больших массивах неразмеченных данных, что особенно актуально, принимая во внимание бюджеты выплат ассесорам и иные проблемы типа шумной разметки. Предобучение без разметки давно доминирует в области NLP (вспоминаем огромное множество моделей типа *BERT). Последние пару лет self-supervision завоевывает и сферу зрения, где достойно конкурирует с предобучением на имадженете. И даже новомодный DALLE-2 базируется на CLIP, который проецирует картинки и тексты в одно векторное пространство, являясь логическим продолжением разработанных ранее self-supervised методов.

У нас в лаборатории, конечно, нет таких бюджетов и мощностей, как у OpenAI/DeepMind, поэтому мы не занимаемся выбиванием сот. Нас больше интересуют фундаментальные свойства нейронок и процесса их обучения. Пожалуй, нас можно сравнить с естествоиспытателем, который препарирует лягушку: инструментарий ограничивается запуском огромного числа экспериментов, поскольку любые попытки что-то объяснить теоретически сильно остают от того, что используется на практике. Поподробнее, наверное, расскажу в теме о топ проекте.

В данный момент я не гонюсь за длинным рублем и считаю, что могу потратить еще несколько лет на образование и саморазвитие, в идеале хочется защититься. Когда меня спрашивают, а зачем тебе степень, я отвечаю, что можно будет выбирать позицию “Dr.” вместо “Mr.” при регистрации на авиарейсы. Чистая з/п в лабе: <1к$, но с учетом стипендий, надбавок и преподавания в среднем отношусь ко второму уровню. Рабочее время — случайная величина с большой дисперсией, иногда провожу с пользой только 2-3 часа за день, а иногда засиживаюсь до полуночи, потому что приходится менеджить эксперименты, готовить материалы для преподавания да и успевать что-то по своей учебе.

👍17🔥3

919 viewsIldus Sadrtdinov, 08:24

Data Science изнутри

#мой_день

Как я говорил выше, мое расписание очень непостоянно, но вот один конкретный семпл с этой недели:
8:30-10:00
Проснулся, улыбнулся, выпил утренний кофе, немного позалипал в ютуб.
10:00-11:00
Проверил, как поживают мои эксперименты, запустил несколько новых.
11:00-11:30
Написал пост в этот канал. Решил привести как пример социального взаимодействия, все равно почти каждый день есть какое-то общение с менеджерами, студентами и/или созвоны по научке.
11:30-12:00
Наконец позавтракал.
12:00-16:00
Забронировал лекционные аудитории для занятий. Процесс выдался сложным, в этом году катастрофическая проблема с большими аудиториями. Общался с менеджером по расписанию и провел небольшой созвон с коллегами, преподающими на других курсах, чтобы все могли уместить свои пары.
Параллельно занимался разработкой домашек для курса по глубинному обучению, на котором буду читать лекции.
16:00-16:30
Решил, что можно и пообедать.
16:30-18:30
Подробно разбирал статью, которую буду рассказывать через неделю на студенческой ридинг-группе. Статья вот: https://arxiv.org/pdf/2202.10054.pdf. Редко читаю статьи настолько дотошно, но тут довольно много теории, поэтому решил хорошенько переварить ее. Планирую объяснить основную интуицию, но не лезть в слишком глубокие дебри.
18:30-20:00
Поботал домашку по курсу случайных матриц, который прохожу в вышке. Занятие приятное, но скилл решения математических задач очень быстро выветривается, если несколько месяцев его не практиковать.
20:00-0:00
Ужин, вечерний чилл

👍8❤2👏1

971 viewsIldus Sadrtdinov, edited 09:30

Data Science изнутри

#топ_проект

Последний год моих рисерческих потуг едва ли можно назвать удачным, поскольку ничего хоть немного публикабельного сгенерировать не получилось. Поэтому немножко расскажу о том, как мне удалось загнать дипломную работу из бакалавриата на воркшоп ICML. Сама статья, в строгом смысле, публикацией считаться не может, поскольку относится к воркшопу, а не к конференции, но оставшаяся на память пдфка на архиве и опыт участия в постерной сессии — это то, что приятно греет душу. Вот она, кстати (минутка самопиара): https://arxiv.org/abs/2107.10143

На самом деле надеяться на какие-либо цитирования с самого начала было очень наивной затеей, потому что исследование отличается большой специфичностью и, будем откровенны, имеет весьма сомнительную полезность, но зато предлагает несколько выводов, на которые смотришь и думаешь: “о, прикольно”. Некоторое время назад были популярны исследования меморизации нейронок, которые пытались пролить свет на вопрос “а как же все-таки нейронные сети запоминают обучающую выборку?”. Распространненым сетапом в этих работах является обучение модели на датасеты с перемешенными метками: таким образом, от нейронки требуется выучить какую-то несуществующую зависимость. Если модель достаточно большая, то через некоторое время обучения она справляется с этим заданием. Оказывается, что в такой постановке модели плюс-минус все равно, в каком порядке запоминать картинки из обучающей выборки, что сильно расходится с происходящим при обучении на нормальные датасеты, когда легко выделяются простые и сложные для выучивания картинки. Главным выводом нашего исследования стало то, что при обучении в self-supervised режиме (то есть не на разметку, а на некоторую вспомогательную задачу) наблюдается картина, схожая с обучением на перемешанные метки: обучающие объекты имеют примерно одинаковые сложности.

О том, что будет проводится воркшоп по сходной теме (он носил название OPPO — Over-Parametrization: Pitfails and Opportunities), мы узнали примерно за неделю до дедлайна подачи. В срочном порядке перевели текст с русского на английский, отсеяли все ненужное и незначительное и стали дожидаться результатов. Мне сложно оценить, насколько серьезным был процесс ревью: с одной стороны, это всего лишь воркшоп, с другой, он под крылом топ-2 конференций по ML, но в любом случае, он был. Спустя несколько недель пришел accept, и волею судьбы я участвовал в онлайн-постерной сессии (тогда ковид все еще силен) во время отпуска в Карелии. Повезло, что в месте ночлега, где я провел ту ночь, был хороший и стабильный интернет. Участников было немного, но ко мне заглянул один из организаторов воркшопа (кажется, я тогда нехило его помучил — не забываем про специфичность темы) и какой-то парниша, видимо, тоже студент, с постера рядом (я потом отплатил ему тем же). В целом, опыт скорее положительный. Жалко только, что я пришел в науку самый разгар ковида, и про тусовки на конференциях могу слышать только от коллег.

А потом наличие препринта на английском позволило залутать мне надбавку в Вышке. Так что если не хирш, так небольшой денежный бонус был весьма кстати :)

👍9

1.13K viewsIldus Sadrtdinov, 10:55

Data Science изнутри

#свободная

Хочется немного рассказать о том, как я пришел в преподавание. Когда меня в первый раз спросили, почему я решил вести пары, я почти не задумываясь ответил, что это похоже на дневник Принца-полукровки. Когда я учился сам, мне очень нравилось возиться с нейронками, что-то крутить в пайплайнах, запускать всякие эксперименты, и хотелось поделиться натренированной интуицией с «новыми поколениями».

Начинал я с семинаров по курсам «Машинное обучение» и «Введение в глубинное обучение», спустя год появилось много идей, как можно улучшить курс по intro-to-dl под студентов, которые становятся все жестче с каждым годом, и я решился читать лекции сам. Вот, на следующей неделе нас ждёт первая лекция.

Также мы с коллегой взялись разрабатывать полноценный курс про self-supervision, который должен увидеть свет после Нового года. Аналогичных курсов я не встречал больше нигде (по крайней мере на русском языке). Вообще мне очень нравится идея авторских курсов, когда можно рассказать что-то более оригинальное, чем дефолтные матан и линал. Очень рад, что на ФКНе есть возможность организовывать подобное.

👍13👏1

1.39K viewsIldus Sadrtdinov, 06:04

Data Science изнутри

#рабочее_место

Вообще даже дома постоянного рабочего места у меня нет. Обычно в течение дня перемещаюсь между письменным столом, кроватью и кухней. В Вышке иногда появляюсь в этом маленьком кабинете. Вот как раз фотка, которую я сделал, когда в нем возникло несколько лишних мониторов)

Раз уж это мой последний пост о себе, то готов ответить на какие-нибудь вопросы в комментариях). Ну и еще раз спасибо Кириллу за приглашение! ☺️👉👈

❤11👍1

1.66K viewsIldus Sadrtdinov, 12:37

Data Science изнутри

❗️Навигация по каналу❗️
- О чем этот канал, формат и частые вопросы -> тут
- Зарплатные «уровни» -> тут

Гости:
1) Кирилл (NLP Engineer ifriend)
2) Ильдус (Исследователь ВШЭ)

1.92K viewsKirill Gelvan, 17:32

Data Science изнутри

#о_себе

Меня зовут Арсений. Везде в интернете у меня ник cene655. Мне 17 лет, я из Челябинска, учусь в 11 классе в Челябинске. Работаю в Сбере. Начинал с nlp 2 года назад. Потом получилось выиграть в олимпиаде по ии для школьников ии нто. Затем начал интересоваться генеративными моделями и сейчас ими в основном и занимаюсь.

👍38🤯12❤5😢1💔1

7.67K viewscene655, 18:10

About

Blog

Apps

Platform