Data Science изнутри
214 subscribers
7 photos
1 video
8 links
Стать гостем: @Kirili4ik

Аватарка: Dalle 2 x @neuroticleah
Download Telegram
Channel photo updated
Channel photo updated
О чем этот канал
Этот канал о том, чем на самом деле занимаются датасентисты. TL;DR - коллективный блог в строгом формате.
В области data science уже большое количество разных должностей, компаний и вообще направлений. Я бы хотел разобраться сам и рассказать вам - в чем их отличие и особенности. Однако, делать это в стиле статьи «Разница ML-инженера и DL-ресерчера», на мой взгляд, не показательно. Другое дело когда из первых уст узнаешь то, чем они занимаются, откуда у них берутся задачи, сколько им платят и все остальное. Именно об этом и будет канал!
Приглашенные гости из разных компаний, вузов, должностей и направлений будут рассказывать о своей деятельности в деталях

Это где то уже было
Я бы хотел сразу отдать должное ребятам из ds underhood. Это был похожий проект - дата саентисты по неделе ведут общий твиттер, делятся интересными постами и рассказывают свои истории.
Поскольку, к сожалению, проект закрылся, а людей и профессий все больше - я бы хотел оживить формат с некоторыми правками. Если угодно - что-то типа текстового подкаста с фиксированными вопросами

Какой формат
От каждого приглашенного гостя в течение недели будет 5 постов с хештегами:
1) #о_себе: откуда, должность/степень/опыт, компания, зарплата по вилке, цели и ворк-лайф баланс

2) #мой_день : почасовое описание того, как прошел один конкретный рабочий день гостя

3) #топ_проект : (по желанию подробное) техническое описание любимого/самого интересного проекта на текущей должности, трудности, общение с командой

4) #свободная : свободная тема от гостя. Рассказ о любимой статье/инструменте/пет-проекте/процессах или что угодно еще)

5) #рабочее_место : фотография (и по желанию комментарий) своего рабочего места

Также приветствуются вопросы к гостю в комментариях!

Когда следующий гость или Как мне стать гостем
Новый гость каждую неделю! Если хотите стать гостем пишите мне (@kirili4ik) в лс.
👏4👍2
👎6🤔4
Поскольку говорить о зарплате не всем может быть до конца комфортно, предлагается использовать шкалу из 5 уровней (на руки)
👍7👎1
Также спешу сообщить, что в ближайшие дни я расскажу о себе и своей работе, stay tuned!
👍3🏆1
#о_себе

Меня зовут Кирилл, а в интернете - Kirili4ik😎 Мне 22, я из Москвы, но уже полгода живу в Стамбуле🇹🇷 Я учился на ПМИ ФКН в высшей школе экономики (2017-2021), затем немного занимался обработкой естественного язка (NLP) в Сбере, а теперь разрабатываю iFriend.ai - виртуального друга на основе ИИ.
Я бы назвал себя ML NLP Engineer, по зп во втором уровне. Стек: Python, Pytorch, Huggingface, git. Примеры задач такие: обучить и внедрить классификатор секстинга, обучить модель генерации вопросов по диалогу, оформить на fastapi/в телеграм боте сервис для тестирования моделей.
Задачи где-то 50/50 - часть придумываем мы сами внутри ML команды в соответствии с новыми технологиями и статьями, часть нам сверху придумывает бизнес (а мы уже ищем решение).
Мне интересны примерно в равном отношении как продукт, так и моя роль. Слежу за процессами, стараюсь участвовать в планированиях и принимать решения не только исходя из технологий, но и из бизнес задач. Работаю по факту 6-8 часов в день удаленно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
#мой_день

9:30-10:30
Проснулся, потянулся, завтрак
10:30-11:30
Сажусь за стол, работаю. Провожу эксперименты с классификатором секстинга и эмоций по диалогу
11:30-12:00
Дейли. Делимся на встрече с коллегами кто что делал и будет делать
12:30-13:40
Заканчиваю где-то недельную работу с классификатором, пишу код для запуска в продакшене (на пользователей)
14:20-15:30
Еду на скейте на набережную и обедаю
15:30-16:20
По результатам классификатора пишу тред про итоговое качество и скорость работы
17:00-19:00
Заворачиваю классификатор в сервис, интегрирую с основным кодом, обсуждаю с коллегами из бекенда контракт взаимодействия
19:20-19:50
Пишу в jira про то что сегодня сделал и придумываю себе несколько задач на завтра
19:50-20:00
Медитирую чтобы переключиться с рабочих задач
20:00-...
Грею пиццу на ужин, играю в vr, смотрю нетфликс и так далее

В дырках по времени - перерывы. Строго не заставляю себя работать каждый день сколько-то часов, сегодня получилось 6, вчера - 9.5
👍82🤔1
#топ_проект

Расскажу о том, как занимался генератором вопросов по диалогу
Откуда взялась задача и мотивация: У бота-ботлатки долгосрочной памяти или нет, или очень мало. В нашем случае ее по сути нет. Да, можно изобретать ретриверы, QA-модели и много чего другого, но в то время требовалось быстрое решение для создания ощущения длинной памяти. Решили попробовать так: после сессии общения с ботом генерировать вопрос по самой важной из обсужденных тем.
Кратко: сделал в 2 этапа (2 модели) - сжатие диалога и генерация вопроса по тексту. Пример: *длинный диалог, где-то речь зашла о китах* —суммаризация—> … . Паша и Маша говорили о китах. Паше нравятся синие киты, а Мага их боится. —генерация_вопроса—> Маш, а почему ты боишься китов?
По срокам: По сути заняло пару недель (на написание контентом датасета, дообучение, эксперименты и тд)

Для суммаризации диалога на английском языке уже существуют неплохие предобученные модели на основе моделей BART и T5. Это по сути достаточно нынче стандартная задача text-to-text, но в данном случае слева диалог, а справа - сжатое описание. Примеры таких моделей: huggingface-1, huggingface-2. Пример: *длинный диалог, где-то речь зашла о машинах* —суммаризация—> … . У Андрея есть синяя BMW, а у Паши - серая хонда.
Часть именно с генерацией вопроса достаточно специфичная и для этого было решено дообучить модель T5 на небольшом датасете. Взяли диалоги пользователей, суммаризовали, контентная команда написала желаемые вопросы - файнтьюн Т5. Взяли ее как одну из лучших моделей text-to-text для файнтьюна. В целом эта задача тоже похожа на суммаризацию, но по сути надо зацепиться за один из обсужденных фактов и что-то дополнительно спросить по этому поводу. Пример: … . У Андрея есть синяя BMW, а у Паши - серая хонда. —генерация_вопароса—> Есть ли у тебя еще машины кроме хонды? / Хочешь ли ты купить еще одну машину?
Для неплохого дообучения генерации вопросов хватило буквально несколько сотен вопросов в датасете. По оценке качества тут конечно только разметчиками или а/б-тест.
👍9
#свободная

Расскажу об а-ля пет-проекте боте - Кратко бот (@summarization_bot). Это телеграм бот для суммаризации диалогов. Он работает на русском языке и его реально используют в более чем сотне чатов. Да, ни о каком факт-чекинге речи не идет (он может немного врать), но лично у меня всегда возникало желание сжать 50-100-500 сообщений из какой-то флудилки в телеграме в некоторый краткий пересказ.

Дело было в начале 2022 в Сириусе. Смена длилась 10 дней, но благодаря современным инструментам (в первую очередь huggingface) три парня без опыта работы с глубинным обучением под моим руководством и с небольшой помощью сделали реально рабочий, смешной и, наверное, потенциально полезный продукт. С тех пор про него написали в паре каналов в телеграмме, а также люди просто сами добавляли его во все новые и новые чаты. Проект явно имеет проблемы как с железом, так и с инфрой (там вообще нет датабазы например), но дорабатывать его пока ни у кого сил нет. В планах, если все участники придут к такому решению, открыть код на гитхабе и дать возможность широкому кругу знакомых разработчиков контрибьютить и таким образом доработать проект.
В открытом доступе лежит моделька на HuggingFace с инструкциями по запуску. Под капотом решается задача абстрактивной суммаризации, а именно там лежит модель mBart дообученная на суммаризацию диалогов из чатов (датасет SamSum, который мы перевели на русский язык при помощи GoogleTranslateAPI)

Дальше отправлю видео-демо работы, посмотрите, по-моему оно бомбезное! Для интересующихся еще есть презентация с ~идеями и метриками.
👍3
#рабочее_место

PS Благодаря комментариям можно задавать вопросы под каждым постом, поэтому вместо Q&A сессии сделаем фото рабочего места!
🔥5👏2👍1
Появляются вопросы по поводу темпа ведения канала. Отвечаю: гость может в течение недели писать посты в любом темпе, затем недельный перерыв, после чего следующий гость.
Так что на следующей неделе постов не будет, но с 12 сентября ждите следующего гостя, он уже найден =)

ps добавил в закреп
👍6
#о_себе

Меня зовут Ильдус; почти везде, где нужно, меня можно найти как isadrtdinov. Мне 22 года, живу и работаю в Москве. Я закончил бакалавриат ПМИ ФКН ВШЭ (2017-2021), сейчас учусь на совместной программе магистратуры ВШЭ и Сколтеха с кликбейтным названием “Math of Machine Learning”. Кроме того, преподаю на разных курсах по машинному обучению на ФКНе и занимаюсь исследованиями в Центре глубинного обучения и байесовских методов (a.k.a bayesgroup). Так уж вышло, что Кирилл доверил мне быть первым университетским рисерчером, который расскажет о себе, поэтому вместо стека и задач мне видится разумным рассказать о своих исследовательских интересах (так что дальше идут несколько абзацев духоты, я предупредил).

Те недолгие два года, что я варюсь в рисерческой тусовке, я занимаюсь темой self-supervised learning. Это направление исследований изучает различные алгоритмы, позволяющие предобучать нейронки на больших массивах неразмеченных данных, что особенно актуально, принимая во внимание бюджеты выплат ассесорам и иные проблемы типа шумной разметки. Предобучение без разметки давно доминирует в области NLP (вспоминаем огромное множество моделей типа *BERT). Последние пару лет self-supervision завоевывает и сферу зрения, где достойно конкурирует с предобучением на имадженете. И даже новомодный DALLE-2 базируется на CLIP, который проецирует картинки и тексты в одно векторное пространство, являясь логическим продолжением разработанных ранее self-supervised методов.

У нас в лаборатории, конечно, нет таких бюджетов и мощностей, как у OpenAI/DeepMind, поэтому мы не занимаемся выбиванием сот. Нас больше интересуют фундаментальные свойства нейронок и процесса их обучения. Пожалуй, нас можно сравнить с естествоиспытателем, который препарирует лягушку: инструментарий ограничивается запуском огромного числа экспериментов, поскольку любые попытки что-то объяснить теоретически сильно остают от того, что используется на практике. Поподробнее, наверное, расскажу в теме о топ проекте.

В данный момент я не гонюсь за длинным рублем и считаю, что могу потратить еще несколько лет на образование и саморазвитие, в идеале хочется защититься. Когда меня спрашивают, а зачем тебе степень, я отвечаю, что можно будет выбирать позицию “Dr.” вместо “Mr.” при регистрации на авиарейсы. Чистая з/п в лабе: <1к$, но с учетом стипендий, надбавок и преподавания в среднем отношусь ко второму уровню. Рабочее время — случайная величина с большой дисперсией, иногда провожу с пользой только 2-3 часа за день, а иногда засиживаюсь до полуночи, потому что приходится менеджить эксперименты, готовить материалы для преподавания да и успевать что-то по своей учебе.
👍17🔥3