❓О чем этот канал❓
Этот канал о том, чем на самом деле занимаются датасентисты. TL;DR - коллективный блог в строгом формате.
В области data science уже большое количество разных должностей, компаний и вообще направлений. Я бы хотел разобраться сам и рассказать вам - в чем их отличие и особенности. Однако, делать это в стиле статьи «Разница ML-инженера и DL-ресерчера», на мой взгляд, не показательно. Другое дело когда из первых уст узнаешь то, чем они занимаются, откуда у них берутся задачи, сколько им платят и все остальное. Именно об этом и будет канал!
Приглашенные гости из разных компаний, вузов, должностей и направлений будут рассказывать о своей деятельности в деталях
❓Это где то уже было❓
Я бы хотел сразу отдать должное ребятам из ds underhood. Это был похожий проект - дата саентисты по неделе ведут общий твиттер, делятся интересными постами и рассказывают свои истории.
Поскольку, к сожалению, проект закрылся, а людей и профессий все больше - я бы хотел оживить формат с некоторыми правками. Если угодно - что-то типа текстового подкаста с фиксированными вопросами
❓Какой формат❓
От каждого приглашенного гостя в течение недели будет 5 постов с хештегами:
1) #о_себе: откуда, должность/степень/опыт, компания, зарплата по вилке, цели и ворк-лайф баланс
2) #мой_день : почасовое описание того, как прошел один конкретный рабочий день гостя
3) #топ_проект : (по желанию подробное) техническое описание любимого/самого интересного проекта на текущей должности, трудности, общение с командой
4) #свободная : свободная тема от гостя. Рассказ о любимой статье/инструменте/пет-проекте/процессах или что угодно еще)
5) #рабочее_место : фотография (и по желанию комментарий) своего рабочего места
Также приветствуются вопросы к гостю в комментариях!
❓Когда следующий гость или Как мне стать гостем❓
Новый гость каждую неделю! Если хотите стать гостем пишите мне (@kirili4ik) в лс.
Этот канал о том, чем на самом деле занимаются датасентисты. TL;DR - коллективный блог в строгом формате.
В области data science уже большое количество разных должностей, компаний и вообще направлений. Я бы хотел разобраться сам и рассказать вам - в чем их отличие и особенности. Однако, делать это в стиле статьи «Разница ML-инженера и DL-ресерчера», на мой взгляд, не показательно. Другое дело когда из первых уст узнаешь то, чем они занимаются, откуда у них берутся задачи, сколько им платят и все остальное. Именно об этом и будет канал!
Приглашенные гости из разных компаний, вузов, должностей и направлений будут рассказывать о своей деятельности в деталях
❓Это где то уже было❓
Я бы хотел сразу отдать должное ребятам из ds underhood. Это был похожий проект - дата саентисты по неделе ведут общий твиттер, делятся интересными постами и рассказывают свои истории.
Поскольку, к сожалению, проект закрылся, а людей и профессий все больше - я бы хотел оживить формат с некоторыми правками. Если угодно - что-то типа текстового подкаста с фиксированными вопросами
❓Какой формат❓
От каждого приглашенного гостя в течение недели будет 5 постов с хештегами:
1) #о_себе: откуда, должность/степень/опыт, компания, зарплата по вилке, цели и ворк-лайф баланс
2) #мой_день : почасовое описание того, как прошел один конкретный рабочий день гостя
3) #топ_проект : (по желанию подробное) техническое описание любимого/самого интересного проекта на текущей должности, трудности, общение с командой
4) #свободная : свободная тема от гостя. Рассказ о любимой статье/инструменте/пет-проекте/процессах или что угодно еще)
5) #рабочее_место : фотография (и по желанию комментарий) своего рабочего места
Также приветствуются вопросы к гостю в комментариях!
❓Когда следующий гость или Как мне стать гостем❓
Новый гость каждую неделю! Если хотите стать гостем пишите мне (@kirili4ik) в лс.
👏4👍2
Также спешу сообщить, что в ближайшие дни я расскажу о себе и своей работе, stay tuned!
👍3🏆1
#о_себе
Меня зовут Кирилл, а в интернете - Kirili4ik😎 Мне 22, я из Москвы, но уже полгода живу в Стамбуле🇹🇷 Я учился на ПМИ ФКН в высшей школе экономики (2017-2021), затем немного занимался обработкой естественного язка (NLP) в Сбере, а теперь разрабатываю iFriend.ai - виртуального друга на основе ИИ.
Я бы назвал себяML NLP Engineer, по зп во втором уровне. Стек: Python, Pytorch, Huggingface, git. Примеры задач такие: обучить и внедрить классификатор секстинга, обучить модель генерации вопросов по диалогу, оформить на fastapi/в телеграм боте сервис для тестирования моделей.
Задачи где-то 50/50 - часть придумываем мы сами внутри ML команды в соответствии с новыми технологиями и статьями, часть нам сверху придумывает бизнес (а мы уже ищем решение).
Мне интересны примерно в равном отношении как продукт, так и моя роль. Слежу за процессами, стараюсь участвовать в планированиях и принимать решения не только исходя из технологий, но и из бизнес задач. Работаю по факту 6-8 часов в день удаленно.
Меня зовут Кирилл, а в интернете - Kirili4ik
Я бы назвал себя
Задачи где-то 50/50 - часть придумываем мы сами внутри ML команды в соответствии с новыми технологиями и статьями, часть нам сверху придумывает бизнес (а мы уже ищем решение).
Мне интересны примерно в равном отношении как продукт, так и моя роль. Слежу за процессами, стараюсь участвовать в планированиях и принимать решения не только исходя из технологий, но и из бизнес задач. Работаю по факту 6-8 часов в день удаленно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11
#мой_день
9:30-10:30
Проснулся, потянулся, завтрак
10:30-11:30
Сажусь за стол, работаю. Провожу эксперименты с классификатором секстинга и эмоций по диалогу
11:30-12:00
Дейли. Делимся на встрече с коллегами кто что делал и будет делать
12:30-13:40
Заканчиваю где-то недельную работу с классификатором, пишу код для запуска в продакшене (на пользователей)
14:20-15:30
Еду на скейте на набережную и обедаю
15:30-16:20
По результатам классификатора пишу тред про итоговое качество и скорость работы
17:00-19:00
Заворачиваю классификатор в сервис, интегрирую с основным кодом, обсуждаю с коллегами из бекенда контракт взаимодействия
19:20-19:50
Пишу в jira про то что сегодня сделал и придумываю себе несколько задач на завтра
19:50-20:00
Медитирую чтобы переключиться с рабочих задач
20:00-...
Грею пиццу на ужин, играю в vr, смотрю нетфликс и так далее
В дырках по времени - перерывы. Строго не заставляю себя работать каждый день сколько-то часов, сегодня получилось 6, вчера - 9.5
9:30-10:30
Проснулся, потянулся, завтрак
10:30-11:30
Сажусь за стол, работаю. Провожу эксперименты с классификатором секстинга и эмоций по диалогу
11:30-12:00
Дейли. Делимся на встрече с коллегами кто что делал и будет делать
12:30-13:40
Заканчиваю где-то недельную работу с классификатором, пишу код для запуска в продакшене (на пользователей)
14:20-15:30
Еду на скейте на набережную и обедаю
15:30-16:20
По результатам классификатора пишу тред про итоговое качество и скорость работы
17:00-19:00
Заворачиваю классификатор в сервис, интегрирую с основным кодом, обсуждаю с коллегами из бекенда контракт взаимодействия
19:20-19:50
Пишу в jira про то что сегодня сделал и придумываю себе несколько задач на завтра
19:50-20:00
Медитирую чтобы переключиться с рабочих задач
20:00-...
Грею пиццу на ужин, играю в vr, смотрю нетфликс и так далее
В дырках по времени - перерывы. Строго не заставляю себя работать каждый день сколько-то часов, сегодня получилось 6, вчера - 9.5
👍8❤2🤔1
#топ_проект
Расскажу о том, как занимался генератором вопросов по диалогу
Откуда взялась задача и мотивация: У бота-ботлатки долгосрочной памяти или нет, или очень мало. В нашем случае ее по сути нет. Да, можно изобретать ретриверы, QA-модели и много чего другого, но в то время требовалось быстрое решение для создания ощущения длинной памяти. Решили попробовать так: после сессии общения с ботом генерировать вопрос по самой важной из обсужденных тем.
Кратко: сделал в 2 этапа (2 модели) - сжатие диалога и генерация вопроса по тексту. Пример: *длинный диалог, где-то речь зашла о китах* —суммаризация—> … . Паша и Маша говорили о китах. Паше нравятся синие киты, а Мага их боится. —генерация_вопроса—> Маш, а почему ты боишься китов?
По срокам: По сути заняло пару недель (на написание контентом датасета, дообучение, эксперименты и тд)
Для суммаризации диалога на английском языке уже существуют неплохие предобученные модели на основе моделей BART и T5. Это по сути достаточно нынче стандартная задача text-to-text, но в данном случае слева диалог, а справа - сжатое описание. Примеры таких моделей: huggingface-1, huggingface-2. Пример: *длинный диалог, где-то речь зашла о машинах* —суммаризация—> … . У Андрея есть синяя BMW, а у Паши - серая хонда.
Часть именно с генерацией вопроса достаточно специфичная и для этого было решено дообучить модель T5 на небольшом датасете. Взяли диалоги пользователей, суммаризовали, контентная команда написала желаемые вопросы - файнтьюн Т5. Взяли ее как одну из лучших моделей text-to-text для файнтьюна. В целом эта задача тоже похожа на суммаризацию, но по сути надо зацепиться за один из обсужденных фактов и что-то дополнительно спросить по этому поводу. Пример: … . У Андрея есть синяя BMW, а у Паши - серая хонда. —генерация_вопароса—> Есть ли у тебя еще машины кроме хонды? / Хочешь ли ты купить еще одну машину?
Для неплохого дообучения генерации вопросов хватило буквально несколько сотен вопросов в датасете. По оценке качества тут конечно только разметчиками или а/б-тест.
Расскажу о том, как занимался генератором вопросов по диалогу
Откуда взялась задача и мотивация: У бота-ботлатки долгосрочной памяти или нет, или очень мало. В нашем случае ее по сути нет. Да, можно изобретать ретриверы, QA-модели и много чего другого, но в то время требовалось быстрое решение для создания ощущения длинной памяти. Решили попробовать так: после сессии общения с ботом генерировать вопрос по самой важной из обсужденных тем.
Кратко: сделал в 2 этапа (2 модели) - сжатие диалога и генерация вопроса по тексту. Пример: *длинный диалог, где-то речь зашла о китах* —суммаризация—> … . Паша и Маша говорили о китах. Паше нравятся синие киты, а Мага их боится. —генерация_вопроса—> Маш, а почему ты боишься китов?
По срокам: По сути заняло пару недель (на написание контентом датасета, дообучение, эксперименты и тд)
Для суммаризации диалога на английском языке уже существуют неплохие предобученные модели на основе моделей BART и T5. Это по сути достаточно нынче стандартная задача text-to-text, но в данном случае слева диалог, а справа - сжатое описание. Примеры таких моделей: huggingface-1, huggingface-2. Пример: *длинный диалог, где-то речь зашла о машинах* —суммаризация—> … . У Андрея есть синяя BMW, а у Паши - серая хонда.
Часть именно с генерацией вопроса достаточно специфичная и для этого было решено дообучить модель T5 на небольшом датасете. Взяли диалоги пользователей, суммаризовали, контентная команда написала желаемые вопросы - файнтьюн Т5. Взяли ее как одну из лучших моделей text-to-text для файнтьюна. В целом эта задача тоже похожа на суммаризацию, но по сути надо зацепиться за один из обсужденных фактов и что-то дополнительно спросить по этому поводу. Пример: … . У Андрея есть синяя BMW, а у Паши - серая хонда. —генерация_вопароса—> Есть ли у тебя еще машины кроме хонды? / Хочешь ли ты купить еще одну машину?
Для неплохого дообучения генерации вопросов хватило буквально несколько сотен вопросов в датасете. По оценке качества тут конечно только разметчиками или а/б-тест.
👍9
#свободная
Расскажу об а-ля пет-проекте боте - Кратко бот (@summarization_bot). Это телеграм бот для суммаризации диалогов. Он работает на русском языке и его реально используют в более чем сотне чатов. Да, ни о каком факт-чекинге речи не идет (он может немного врать), но лично у меня всегда возникало желание сжать 50-100-500 сообщений из какой-то флудилки в телеграме в некоторый краткий пересказ.
Дело было в начале 2022 в Сириусе. Смена длилась 10 дней, но благодаря современным инструментам (в первую очередь huggingface) три парня без опыта работы с глубинным обучением под моим руководством и с небольшой помощью сделали реально рабочий, смешной и, наверное, потенциально полезный продукт. С тех пор про него написали в паре каналов в телеграмме, а также люди просто сами добавляли его во все новые и новые чаты. Проект явно имеет проблемы как с железом, так и с инфрой (там вообще нет датабазы например), но дорабатывать его пока ни у кого сил нет. В планах, если все участники придут к такому решению, открыть код на гитхабе и дать возможность широкому кругу знакомых разработчиков контрибьютить и таким образом доработать проект.
В открытом доступе лежит моделька на HuggingFace с инструкциями по запуску. Под капотом решается задача абстрактивной суммаризации, а именно там лежит модель mBart дообученная на суммаризацию диалогов из чатов (датасет SamSum, который мы перевели на русский язык при помощи GoogleTranslateAPI)
Дальше отправлю видео-демо работы, посмотрите, по-моему оно бомбезное! Для интересующихся еще есть презентация с ~идеями и метриками.
Расскажу об а-ля пет-проекте боте - Кратко бот (@summarization_bot). Это телеграм бот для суммаризации диалогов. Он работает на русском языке и его реально используют в более чем сотне чатов. Да, ни о каком факт-чекинге речи не идет (он может немного врать), но лично у меня всегда возникало желание сжать 50-100-500 сообщений из какой-то флудилки в телеграме в некоторый краткий пересказ.
Дело было в начале 2022 в Сириусе. Смена длилась 10 дней, но благодаря современным инструментам (в первую очередь huggingface) три парня без опыта работы с глубинным обучением под моим руководством и с небольшой помощью сделали реально рабочий, смешной и, наверное, потенциально полезный продукт. С тех пор про него написали в паре каналов в телеграмме, а также люди просто сами добавляли его во все новые и новые чаты. Проект явно имеет проблемы как с железом, так и с инфрой (там вообще нет датабазы например), но дорабатывать его пока ни у кого сил нет. В планах, если все участники придут к такому решению, открыть код на гитхабе и дать возможность широкому кругу знакомых разработчиков контрибьютить и таким образом доработать проект.
В открытом доступе лежит моделька на HuggingFace с инструкциями по запуску. Под капотом решается задача абстрактивной суммаризации, а именно там лежит модель mBart дообученная на суммаризацию диалогов из чатов (датасет SamSum, который мы перевели на русский язык при помощи GoogleTranslateAPI)
Дальше отправлю видео-демо работы, посмотрите, по-моему оно бомбезное! Для интересующихся еще есть презентация с ~идеями и метриками.
👍3
#рабочее_место
PS Благодаря комментариям можно задавать вопросы под каждым постом, поэтому вместо Q&A сессии сделаем фото рабочего места!
PS Благодаря комментариям можно задавать вопросы под каждым постом, поэтому вместо Q&A сессии сделаем фото рабочего места!
🔥5👏2👍1
Появляются вопросы по поводу темпа ведения канала. Отвечаю: гость может в течение недели писать посты в любом темпе, затем недельный перерыв, после чего следующий гость.
Так что на следующей неделе постов не будет, но с 12 сентября ждите следующего гостя, он уже найден =)
ps добавил в закреп
Так что на следующей неделе постов не будет, но с 12 сентября ждите следующего гостя, он уже найден =)
ps добавил в закреп
👍6
Data Science изнутри
Появляются вопросы по поводу темпа ведения канала. Отвечаю: гость может в течение недели писать посты в любом темпе, затем недельный перерыв, после чего следующий гость. Так что на следующей неделе постов не будет, но с 12 сентября ждите следующего гостя,…
Что-то мне не понравилось как канал простаивал целую неделю, так что дальше попробуем несколько недель подряд приглашать по новому гостю.
👍8🔥3