Митап по гипотезе лотерейного билета - 27 февраля 18:00
Make offline great again
Снижение затрат на вычисления горячая тема. Можно ли, сжав нейронную сеть в 2 раза без доучивания весов, получить качество не хуже, чем в полной версии? А существует ли золотой лотерейный билет, который позволит еще и улучшить качество?
Об этом 27 февраля на офлайн-митапе нам собираются рассказать Влад Голощапов и Денис Кузнеделев. У Дениса на тему лотерейного билета есть статья на Хабре (и не только!), а у Влада - много наработок, которыми он поделится на митапе.
Всех, кому интересна тема оптимизации нейронных сетей, ждем на 27 февраля вечером. Регистрация и детали тут.
С собой можно брать печеньки и вопросы по прунингу сеток.
Ваш @Reliable ML
#tech #offline #meetup #reliable_ml
Make offline great again
Снижение затрат на вычисления горячая тема. Можно ли, сжав нейронную сеть в 2 раза без доучивания весов, получить качество не хуже, чем в полной версии? А существует ли золотой лотерейный билет, который позволит еще и улучшить качество?
Об этом 27 февраля на офлайн-митапе нам собираются рассказать Влад Голощапов и Денис Кузнеделев. У Дениса на тему лотерейного билета есть статья на Хабре (и не только!), а у Влада - много наработок, которыми он поделится на митапе.
Гипотеза лотерейного билета
Случайно инициализированная плотная нейронная сеть содержит в себе подсеть, способную достичь того же качества на тестовых данных, что и исходная сеть за то же или меньшее число итераций, что и исходная плотная сеть.
(Frankle & Carbin, 2019)
Всех, кому интересна тема оптимизации нейронных сетей, ждем на 27 февраля вечером. Регистрация и детали тут.
С собой можно брать печеньки и вопросы по прунингу сеток.
Ваш @Reliable ML
#tech #offline #meetup #reliable_ml
🔥19👍2❤1👾1
ИИшница от AIRI
Рассказываем про интересное
Уже завтра AIRI проводит первую в этом году ИИшницу.
В программе:
- Работа с графами знаний с помощью языковых моделей
- Интерпретация языковых моделей
- Оценка неопределенности и галлюцинации LLM
- Проблема генерализации LLM
- Открытый бенчмарк Мера
Трансляция будет тут.
Ваш @Reliable ML
#анонс #tech
Рассказываем про интересное
Уже завтра AIRI проводит первую в этом году ИИшницу.
В программе:
- Работа с графами знаний с помощью языковых моделей
- Интерпретация языковых моделей
- Оценка неопределенности и галлюцинации LLM
- Проблема генерализации LLM
- Открытый бенчмарк Мера
Трансляция будет тут.
Ваш @Reliable ML
#анонс #tech
👍26❤1
Winter is coming - Цикл постов про академиков в депрессии - Часть 3
Завершение серии постов по статье Togelius, Yannakakis (2023)
Помните - по мотивам нашумевшей статьи - мы рассказывали вам о том, почему академики сферы AI все чаще оказываются в депрессии? Вспомнить можно вот тут:
- Часть 1: почему грустят AI-академики
- Часть 2: что предлагается делать академикам, впавшим в депрессию.
Далее мы обещали рассказать вам о том, что нас ждет в связи со всем вышеперечисленным, и что же можно сделать.
Ну что ж, прошло всего полгода с этого момента. Самое время выполнить обещание!
Что нас ждет
- Рост зависимости от вычислительных ресурсов. С увеличением потребности в больших вычислительных мощностях, процессы исследований в области AI будут все больше концентрироваться в крупных организациях с доступом к огромным вычислительным ресурсам.
- Более жесткая конкуренция в области AI. Неспособность конкурировать с корпорациями и зависимость от pretrained моделей снизят степень инноваций в академической сфере.
- Смещение приоритетов в академической среде. Как следствие первых двух пунктов, приоритеты в исследованиях академии вынужденно могут сдвинуться - от решения фундаментальных вопросов к сотрудничеству с индустрией и практически ориентированным направлениям (привет, коммерческий эффект!).
Что можно сделать
- Объединения для обмена ресурсами. Помогать созданию и распространению различные объединения (между университетами и не только) для обмена и объединения вычислительных ресурсов и идей. Это может помочь уменьшить зависимость от индивидуальных возможностей каждого университета и лаборатории. Развитию таких объединений также могут способствовать программы госфондирования - по аналогии с недавней историей с вычислительными ваучерами от государства для стартапов в Китае. Как вам идея "талонов на AI" для научных лабораторий?
- Развивать методы анализа малых наборов данных. Продвижение в алгоритмах, позволяющих делать ценные выводы из малых наборов данныхи может повысить эффективность исследований в условиях ограниченных ресурсов.
- Создавать площадки для коммерциализации идей. Поддержка площадок, объединяющих исследователей и предпринимателей, для коммерциализации перспективных идей и создания стартапов на базе академических исследований. Источниками финансирования могут быть как университеты, так и их объединения друг с другом и корпорациями.
А что думаете вы? Есть ли еще пути для разогрева академических исследований в области AI?
P.S. В размышлениях на тему решения проблемы депрессии AI-академиков поучаствовала GPT-3.5-turbo. Нам показалось, что сети будет важно сказать свое мнение. Будущее AI-академии, это ведь и ее будущее.
Ваш @Reliable ML
#business #tech #thoughts #reliable_ml
Завершение серии постов по статье Togelius, Yannakakis (2023)
Помните - по мотивам нашумевшей статьи - мы рассказывали вам о том, почему академики сферы AI все чаще оказываются в депрессии? Вспомнить можно вот тут:
- Часть 1: почему грустят AI-академики
- Часть 2: что предлагается делать академикам, впавшим в депрессию.
Далее мы обещали рассказать вам о том, что нас ждет в связи со всем вышеперечисленным, и что же можно сделать.
Ну что ж, прошло всего полгода с этого момента. Самое время выполнить обещание!
Что нас ждет
- Рост зависимости от вычислительных ресурсов. С увеличением потребности в больших вычислительных мощностях, процессы исследований в области AI будут все больше концентрироваться в крупных организациях с доступом к огромным вычислительным ресурсам.
- Более жесткая конкуренция в области AI. Неспособность конкурировать с корпорациями и зависимость от pretrained моделей снизят степень инноваций в академической сфере.
- Смещение приоритетов в академической среде. Как следствие первых двух пунктов, приоритеты в исследованиях академии вынужденно могут сдвинуться - от решения фундаментальных вопросов к сотрудничеству с индустрией и практически ориентированным направлениям (привет, коммерческий эффект!).
Что можно сделать
- Объединения для обмена ресурсами. Помогать созданию и распространению различные объединения (между университетами и не только) для обмена и объединения вычислительных ресурсов и идей. Это может помочь уменьшить зависимость от индивидуальных возможностей каждого университета и лаборатории. Развитию таких объединений также могут способствовать программы госфондирования - по аналогии с недавней историей с вычислительными ваучерами от государства для стартапов в Китае. Как вам идея "талонов на AI" для научных лабораторий?
- Развивать методы анализа малых наборов данных. Продвижение в алгоритмах, позволяющих делать ценные выводы из малых наборов данныхи может повысить эффективность исследований в условиях ограниченных ресурсов.
- Создавать площадки для коммерциализации идей. Поддержка площадок, объединяющих исследователей и предпринимателей, для коммерциализации перспективных идей и создания стартапов на базе академических исследований. Источниками финансирования могут быть как университеты, так и их объединения друг с другом и корпорациями.
А что думаете вы? Есть ли еще пути для разогрева академических исследований в области AI?
P.S. В размышлениях на тему решения проблемы депрессии AI-академиков поучаствовала GPT-3.5-turbo. Нам показалось, что сети будет важно сказать свое мнение. Будущее AI-академии, это ведь и ее будущее.
Ваш @Reliable ML
#business #tech #thoughts #reliable_ml
👍13🔥5
Опубликован новый пример дизайна ML системы по шаблону Reliable ML
Пополняем базу примеров хороших дизайн-документов
Сегодня добавили новый пример дизайн-документа - проект от Симулятора ML. Даниил Картушов и команда представляют pet project по разработке чат-бота для поиска ответов на разные запросы в телеграм-каналах.
Опубликованный дизайн-док - пример хорошо проработанного и не перегруженного лишней информацией документа. Для более глубокого погружения в потребности пользователей в части про бизнес-требования команда проекта добавила User Story Map и Customer Journey Map. Это, кстати, может стать отличным дополнением к шаблону дизайн-документов.
Огромное спасибо авторам документа за вклад в развитие ML-дизайна.
Шаблон дизайн-документа ML-систем от Reliable ML
Материалы по работе с дизайн-доком
Как написать док вместе с Reliable ML
Stay tuned!
Ваш @Reliable ML
#business #tech #ml_system_design
Пополняем базу примеров хороших дизайн-документов
Сегодня добавили новый пример дизайн-документа - проект от Симулятора ML. Даниил Картушов и команда представляют pet project по разработке чат-бота для поиска ответов на разные запросы в телеграм-каналах.
Опубликованный дизайн-док - пример хорошо проработанного и не перегруженного лишней информацией документа. Для более глубокого погружения в потребности пользователей в части про бизнес-требования команда проекта добавила User Story Map и Customer Journey Map. Это, кстати, может стать отличным дополнением к шаблону дизайн-документов.
Огромное спасибо авторам документа за вклад в развитие ML-дизайна.
Шаблон дизайн-документа ML-систем от Reliable ML
Материалы по работе с дизайн-доком
Как написать док вместе с Reliable ML
Stay tuned!
Ваш @Reliable ML
#business #tech #ml_system_design
🔥29👍8🤣1
Data-роли и где они обитают - Секция Career - Data Fest 2024
Обсуждение доклада Иры Голощаповой, CDO Operations, Raiffeisenbank
Всем привет!
Материалы секций Reliable ML уже опубликованы на ODS.ai: Career, Data Strategy, Reliable ML.
В этом году мы решили попробовать экспериментальный формат - публиковать по одному докладу каждой нашей секции - со всеми важными материалами и ссылками - и главное - возможностью обсуждения доклада с его автором.
Для авторов это замечательная возможность получить вашу обратную связь и улучшить подачу материала и его полезность, а для читателей - прояснить любые вопросы по теме.
Вроде win-win strategy! Давайте попробуем.
Начнем с первого доклада в первой нашей секции на Data Fest в этом году - Career. И доклад этот, по иронии судьбы (или по хитрому замыслу оргов), от Иры Голощаповой. Поэтому призыв автора в тред должен вполне получиться.
Data-роли и где они обитают
В докладе обсудили ключевые роли в работе с данными: data engineer, DWH analyst, data steward, data analyst, data scientist, data product manager. Рассмотрели суть работы каждой роли в терминах цепочки ценности данных и процесса работы над дата-продуктом, определили главные навыки, которые отличают роли, узнали о том, какие есть карьерные треки для данных ролей, а также поговорили о том, над какими навыками стоит работать, чтобы расти по выбранному треку.
Презентацию доклада можно найти здесь, видеозапись - тут.
В тред жду любые ваши вопросы по теме.
Все ли важные дата-роли охвачены? Есть ли важные навыки, или карьерные советы, которые вы бы добавили от себя?
Давайте затестим формат!
Ваш @Reliable ML
#tech #business #datafest2024 #career
Обсуждение доклада Иры Голощаповой, CDO Operations, Raiffeisenbank
Всем привет!
Материалы секций Reliable ML уже опубликованы на ODS.ai: Career, Data Strategy, Reliable ML.
В этом году мы решили попробовать экспериментальный формат - публиковать по одному докладу каждой нашей секции - со всеми важными материалами и ссылками - и главное - возможностью обсуждения доклада с его автором.
Для авторов это замечательная возможность получить вашу обратную связь и улучшить подачу материала и его полезность, а для читателей - прояснить любые вопросы по теме.
Вроде win-win strategy! Давайте попробуем.
Начнем с первого доклада в первой нашей секции на Data Fest в этом году - Career. И доклад этот, по иронии судьбы (или по хитрому замыслу оргов), от Иры Голощаповой. Поэтому призыв автора в тред должен вполне получиться.
Data-роли и где они обитают
В докладе обсудили ключевые роли в работе с данными: data engineer, DWH analyst, data steward, data analyst, data scientist, data product manager. Рассмотрели суть работы каждой роли в терминах цепочки ценности данных и процесса работы над дата-продуктом, определили главные навыки, которые отличают роли, узнали о том, какие есть карьерные треки для данных ролей, а также поговорили о том, над какими навыками стоит работать, чтобы расти по выбранному треку.
Презентацию доклада можно найти здесь, видеозапись - тут.
В тред жду любые ваши вопросы по теме.
Все ли важные дата-роли охвачены? Есть ли важные навыки, или карьерные советы, которые вы бы добавили от себя?
Давайте затестим формат!
Ваш @Reliable ML
#tech #business #datafest2024 #career
🔥31👍7
Десять вопросов, которые нужно задать перед трудоустройством - Секция Career - Data Fest 2024
Обсуждение доклада Евгения Смирнова, Head of ML Laboratory, Alfa Bank
Продолжаем серию обсуждения докладов секции Career на Data Fest 2024.
Следующий доклад в обсуждении - от Жени Смирнова, руководителя ML Лаборатории в Альфа банке, автора канала Нескучный Data Science.
Десять вопросов, которые нужно задать перед трудоустройством
Женя рассказал, о чем - кроме размера заработной платы - стоит спросить работодателя на этапе собеседований. Чтобы потом на испытательном сроке не было мучительно больно за бесцельно... (ну, вы понимаете).
От себя добавим, что умение задать правильные вопросы на собеседовании - это важнейший, и часто недооцененный кандидатами навык. Собеседование на знания, фит и культуру проходите не только вы, но и ваш потенциальный работодатель. И только при его детальном прохождении обеими сторонами случаетсясерендипити - велью и кайф от работы. Поэтому доклад считаем очень важным для просмотра, а также для того, чтобы составить (если еще не), и пополнить ваш список важных вопросов для работодателя.
Презентацию доклада можно найти здесь, видеозапись - тут.
В треде Женя готов ответить на любые ваши вопросы по теме доклада.
А какие вопросы вы считаете важным задать работодателю, чтобы понять, что вам точно будет комфортно и драйвово на новом месте?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
Обсуждение доклада Евгения Смирнова, Head of ML Laboratory, Alfa Bank
Продолжаем серию обсуждения докладов секции Career на Data Fest 2024.
Следующий доклад в обсуждении - от Жени Смирнова, руководителя ML Лаборатории в Альфа банке, автора канала Нескучный Data Science.
Десять вопросов, которые нужно задать перед трудоустройством
Женя рассказал, о чем - кроме размера заработной платы - стоит спросить работодателя на этапе собеседований. Чтобы потом на испытательном сроке не было мучительно больно за бесцельно... (ну, вы понимаете).
От себя добавим, что умение задать правильные вопросы на собеседовании - это важнейший, и часто недооцененный кандидатами навык. Собеседование на знания, фит и культуру проходите не только вы, но и ваш потенциальный работодатель. И только при его детальном прохождении обеими сторонами случается
Презентацию доклада можно найти здесь, видеозапись - тут.
В треде Женя готов ответить на любые ваши вопросы по теме доклада.
А какие вопросы вы считаете важным задать работодателю, чтобы понять, что вам точно будет комфортно и драйвово на новом месте?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
🔥19👍4❤3
Из Geoscience в Data Science. Плюсы, минусы, подводные камни - Секция Career - Data Fest 2024
Обсуждение доклада Натальи Ковальчук, разработчика ML-алгоритмов, SmartGeoAdviser
Продолжаем обсуждение докладов секции Career на Data Fest 2024.
Наташа Ковальчук рассказала о плюсах и минусах мягкого карьерного перехода из геологических исследований в data science, а также детально раскрыла особенности применения Data Science в нефтегазовой отрасли.
Спасибо Наташе за то, что поделилась своим опытом. Такой искренний рассказ с большой любовью к своему делу дает мощное вдохновение на преодоление трудностей на пути к выбранному карьерному треку в DS.
Презентацию доклада можно найти здесь, видеозапись - тут.
Наташа готова ответить в треде к этому посту на любые ваши вопросы по теме доклада.
Есть ли среди наших подписчиков те, кто перешел в data science из других сфер? Поделитесь вашими историями! В чем были сложности? Как удалось справиться и прийти к своей цели?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
Обсуждение доклада Натальи Ковальчук, разработчика ML-алгоритмов, SmartGeoAdviser
Продолжаем обсуждение докладов секции Career на Data Fest 2024.
Наташа Ковальчук рассказала о плюсах и минусах мягкого карьерного перехода из геологических исследований в data science, а также детально раскрыла особенности применения Data Science в нефтегазовой отрасли.
Спасибо Наташе за то, что поделилась своим опытом. Такой искренний рассказ с большой любовью к своему делу дает мощное вдохновение на преодоление трудностей на пути к выбранному карьерному треку в DS.
Презентацию доклада можно найти здесь, видеозапись - тут.
Наташа готова ответить в треде к этому посту на любые ваши вопросы по теме доклада.
Есть ли среди наших подписчиков те, кто перешел в data science из других сфер? Поделитесь вашими историями! В чем были сложности? Как удалось справиться и прийти к своей цели?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
👍19❤1
Дюжина советов по работе с командой - Секция Career - Data Fest 2024
Обсуждение доклада Ильи Алтухова, руководителя группы экспериментальных технологий, AI VK
В секции Карьера на Data Fest в этом году было два блока докладов: взгляд со стороны работника/кандидата, и - со стороны работодателя. Первый блок мы обсудили в трех постах выше, а теперь переходим к следующему.
Первый доклад со стороны работодателя - от Ильи Алтухова - про полезные советы и инструменты работы с командой.
Илья поделился своими находками, полученными за почти 10 лет опыта работы тимлидом data science команд. Предложил практические рекомендации, которые можно применять в работе. Обсудили темы: с чего начать тимлидство, как повысить эффективность поиска специалистов в команду, как спланировать рост компетенций в команде, как наладить коммуникацию и работу с ОС, можно ли ходить в отпуск и не работать, работа с вовлеченностью команды.
Презентацию доклада можно найти здесь, видеозапись - тут.
Илья с нами и готов ответить в треде на любые ваши вопросы по теме доклада.
А какие инструменты используете вы в работе с командой? Что помогает вам в руководстве командой, или что нравится вам в том, как организует работу команды ваш лид?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
Обсуждение доклада Ильи Алтухова, руководителя группы экспериментальных технологий, AI VK
В секции Карьера на Data Fest в этом году было два блока докладов: взгляд со стороны работника/кандидата, и - со стороны работодателя. Первый блок мы обсудили в трех постах выше, а теперь переходим к следующему.
Первый доклад со стороны работодателя - от Ильи Алтухова - про полезные советы и инструменты работы с командой.
Илья поделился своими находками, полученными за почти 10 лет опыта работы тимлидом data science команд. Предложил практические рекомендации, которые можно применять в работе. Обсудили темы: с чего начать тимлидство, как повысить эффективность поиска специалистов в команду, как спланировать рост компетенций в команде, как наладить коммуникацию и работу с ОС, можно ли ходить в отпуск и не работать, работа с вовлеченностью команды.
Презентацию доклада можно найти здесь, видеозапись - тут.
Илья с нами и готов ответить в треде на любые ваши вопросы по теме доклада.
А какие инструменты используете вы в работе с командой? Что помогает вам в руководстве командой, или что нравится вам в том, как организует работу команды ваш лид?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
👍17
Личный опыт: построить дата-команду в сформировавшемся коллективе - Секция Career - Data Fest 2024
Обсуждение доклада Артема Каледина, team lead-а команды геоаналитики в билайне
Завершаем обсуждение докладов в секции Карьера на Data Fest вторым докладом, отражающим взгляд со стороны работодателя - а именно, тимлида, который приходит в давно работающую по своим практикам команду, и которому необходимо значительно перестроить существующие процессы.
В своем докладе Артем Каледин рассказал о личном опыте сильной перестройки работы команды и построения новых практик, влияющих на развитие геоаналитики в билайне. Рассказал также о своем росте в тимлида, радостях и сложностях этого перехода.
Презентацию доклада можно найти здесь, видеозапись - тут.
Артем готов ответить в треде на любые ваши вопросы по теме доклада.
Был ли у вас подобный опыт перестройки сформировавшихся коллективов? Как преодолевали сложности?
О жизни и росте в тимлиды мы тоже всегда готовы потереть!
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
Обсуждение доклада Артема Каледина, team lead-а команды геоаналитики в билайне
Завершаем обсуждение докладов в секции Карьера на Data Fest вторым докладом, отражающим взгляд со стороны работодателя - а именно, тимлида, который приходит в давно работающую по своим практикам команду, и которому необходимо значительно перестроить существующие процессы.
В своем докладе Артем Каледин рассказал о личном опыте сильной перестройки работы команды и построения новых практик, влияющих на развитие геоаналитики в билайне. Рассказал также о своем росте в тимлида, радостях и сложностях этого перехода.
Презентацию доклада можно найти здесь, видеозапись - тут.
Артем готов ответить в треде на любые ваши вопросы по теме доклада.
Был ли у вас подобный опыт перестройки сформировавшихся коллективов? Как преодолевали сложности?
О жизни и росте в тимлиды мы тоже всегда готовы потереть!
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
👍14🔥2🤝2
Дата-стратегия в крупной группе компаний - Секция Data Strategy - Data Fest 2024
Обсуждение доклада Виктора Кантора, ex-CDO MTS, founder MLinside
В этом году на Data Fest мы с Димой провели экспериментальную секцию - Data Strategy. Тем самым расширили охват тем, обсуждаемых на фесте, добавив к data science проблематике историю с построением и развитием команд данных.
Опыт считаем успешным - запрос стратегического взгляда на дата-офисы оказался большим. Секция собрала аншлаг участников и после каждого доклада были интереснейшие обсуждения, которые потом продолжились на афтепати. Поэтому предлагаем дообсуждать недообсужденное с каждым из наших прекрасных CDO - авторов докладов.
Первым на секции выступил Виктор Кантор, у которого есть замечательный тг-канал Kantor.AI, а также школа по ML - MLinside. Витя в своем докладе задал провокационный вопрос: а нужна ли вообще стратегия по данным компании? И далее, с помощью интересных кейсов и примеров раскрыл пользу наличия стратегии, а также наиболее важные аспекты, которые там должны быть продуманы.
Презентацию доклада можно найти здесь, видеозапись - тут.
Витя готов ответить в треде на ваши вопросы по теме доклада.
Есть ли в вашей команде/компании дата-стратегия? Насколько, на ваш взгляд, она полезна?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
Обсуждение доклада Виктора Кантора, ex-CDO MTS, founder MLinside
В этом году на Data Fest мы с Димой провели экспериментальную секцию - Data Strategy. Тем самым расширили охват тем, обсуждаемых на фесте, добавив к data science проблематике историю с построением и развитием команд данных.
Опыт считаем успешным - запрос стратегического взгляда на дата-офисы оказался большим. Секция собрала аншлаг участников и после каждого доклада были интереснейшие обсуждения, которые потом продолжились на афтепати. Поэтому предлагаем дообсуждать недообсужденное с каждым из наших прекрасных CDO - авторов докладов.
Первым на секции выступил Виктор Кантор, у которого есть замечательный тг-канал Kantor.AI, а также школа по ML - MLinside. Витя в своем докладе задал провокационный вопрос: а нужна ли вообще стратегия по данным компании? И далее, с помощью интересных кейсов и примеров раскрыл пользу наличия стратегии, а также наиболее важные аспекты, которые там должны быть продуманы.
Презентацию доклада можно найти здесь, видеозапись - тут.
Витя готов ответить в треде на ваши вопросы по теме доклада.
Есть ли в вашей команде/компании дата-стратегия? Насколько, на ваш взгляд, она полезна?
***
Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:
- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06
Ваш @Reliable ML
#tech #business #datafest2024 #career
👍14❤6🙏1
Дата-стратегия в крупной группе компаний - Секция Data Strategy - Data Fest 2024
Обсуждение #2 - доклад Виктора Кантора, ex-CDO MTS, founder MLinside
Как вы могли заметить, наши публикации докладов с Data Fest 2024 несколько притормозились с середины августа. А все почему? Потому чтомного работы очень много работы Виктор Кантор, многоуважаемый докладчик секции Data Strategy, дал нам справедливый фидбек о том, что публикации обсуждений выглядят однообразно и их не особо хочется обсуждать.
Мы покумекали, согласились, и решили учесть фидбек Вити. И попробовать обсуждения в другом формате - делиться с вами своими мыслями о содержании доклада, и задавать вопросы вместе с вами.
И начнем мы с доклада Вити 😈
Ключевым слайдом доклада мне показался слайд про акценты дата стратегии. Но к этим акцентам у нас есть комменты. Пройдемся по пунктам.
1. Сбор и хранение данных. Если группа достаточно большая, а данных достаточно много, то важно также учитывать, какие данные нам не нужны, и когда и как от них избавляться. Сюда я бы также добавила безжалостное ревью архитектуры данных и целевого технологического стека, и избавление от legacy и технического долга.
2. Монетизация. Все здорово, только важно, чтобы ответы на вопросы были привязаны к стратегии самой компании. То, в каких сферах мы развиваем ML внутри и вне должно быть нужно самой компании и вписываться в ее вектор развития.
3. Качество данных. Одного наличия данных мало, нужно думать о качестве. Но и качества данных мало, они чаще всего не работают без окружения полноценными процессами data governance. Само качество данных состоит из мониторинга с инфраструктурой ("научиться автоматически выявлять ошибки") и процессов решения инцидентов, найденных с помощью мониторинга ("исправить ошибки"). Без решения проблем - мониторинг сам по себе - не имеет смысла. А когда мы ступаем на тропу процессов... то тут и выясняется, что чтобы они появились и в итоге заработали, нам нужно подумать о миллионе аспектов владения данными, ответственности и пр. Это и составляет data governance.
4. Реализация "сверху вниз": KPI, индексы, поручения руководства. Тут и добавить нечего, это очень нужно. Особенно на первых порах, когда закладывается фундамент цифровой трансформации. Правда. это не значит, что дата команде нужно сидеть и ждать безоговорочной поддержки руководства. Чтобы она была, CDO и его команде нужно работать: объяснять и аргументировать.
5. Реализация "снизу вверх". Если под наполнением компании data people Витя имеет в виду не только найм дата команды, но и обращение бизнес стейкхолдеров в data people, то полностью разделяем. В компании может быть много людей, но если они не стремятся поделиться знаниями и научить своим ценностям бизнес-стейкхолдеров, то это будет приводить к обособлению дата-людей и накоплению непонимания друг друга. Есть мы, кто делает реальное дело, общается с клиентом и зарабатывает деньги. И есть дата-ребята, которые делают какую-то свою математику и дашборды, и зачем-то долго копаются в данных. Настоящее value для компании достигается через взаимопонимание и партнерство.
А какие акценты добавили бы вы в стратегию по данным?
Доклад: YouTube | RUTube | ODS.ai | Преза
Ваш @Reliable ML
#tech #business #datafest2024 #data_strategy
Обсуждение #2 - доклад Виктора Кантора, ex-CDO MTS, founder MLinside
Как вы могли заметить, наши публикации докладов с Data Fest 2024 несколько притормозились с середины августа. А все почему? Потому что
Мы покумекали, согласились, и решили учесть фидбек Вити. И попробовать обсуждения в другом формате - делиться с вами своими мыслями о содержании доклада, и задавать вопросы вместе с вами.
И начнем мы с доклада Вити 😈
Ключевым слайдом доклада мне показался слайд про акценты дата стратегии. Но к этим акцентам у нас есть комменты. Пройдемся по пунктам.
1. Сбор и хранение данных. Если группа достаточно большая, а данных достаточно много, то важно также учитывать, какие данные нам не нужны, и когда и как от них избавляться. Сюда я бы также добавила безжалостное ревью архитектуры данных и целевого технологического стека, и избавление от legacy и технического долга.
2. Монетизация. Все здорово, только важно, чтобы ответы на вопросы были привязаны к стратегии самой компании. То, в каких сферах мы развиваем ML внутри и вне должно быть нужно самой компании и вписываться в ее вектор развития.
3. Качество данных. Одного наличия данных мало, нужно думать о качестве. Но и качества данных мало, они чаще всего не работают без окружения полноценными процессами data governance. Само качество данных состоит из мониторинга с инфраструктурой ("научиться автоматически выявлять ошибки") и процессов решения инцидентов, найденных с помощью мониторинга ("исправить ошибки"). Без решения проблем - мониторинг сам по себе - не имеет смысла. А когда мы ступаем на тропу процессов... то тут и выясняется, что чтобы они появились и в итоге заработали, нам нужно подумать о миллионе аспектов владения данными, ответственности и пр. Это и составляет data governance.
4. Реализация "сверху вниз": KPI, индексы, поручения руководства. Тут и добавить нечего, это очень нужно. Особенно на первых порах, когда закладывается фундамент цифровой трансформации. Правда. это не значит, что дата команде нужно сидеть и ждать безоговорочной поддержки руководства. Чтобы она была, CDO и его команде нужно работать: объяснять и аргументировать.
5. Реализация "снизу вверх". Если под наполнением компании data people Витя имеет в виду не только найм дата команды, но и обращение бизнес стейкхолдеров в data people, то полностью разделяем. В компании может быть много людей, но если они не стремятся поделиться знаниями и научить своим ценностям бизнес-стейкхолдеров, то это будет приводить к обособлению дата-людей и накоплению непонимания друг друга. Есть мы, кто делает реальное дело, общается с клиентом и зарабатывает деньги. И есть дата-ребята, которые делают какую-то свою математику и дашборды, и зачем-то долго копаются в данных. Настоящее value для компании достигается через взаимопонимание и партнерство.
А какие акценты добавили бы вы в стратегию по данным?
Доклад: YouTube | RUTube | ODS.ai | Преза
Ваш @Reliable ML
#tech #business #datafest2024 #data_strategy
👍16🔥9❤🔥5❤3
Экономика дата офиса - Секция Data Strategy - Data Fest 2024
Доклад Павла Мягких, ex-CDO Gazprom ID, ex-директор Big Data Lenta
На Data Fest 2024 в нашей секции про стратегию данных выступил Павел Мягких - с непростой темой про экономику дата офиса.
Каждый менеджер и сотрудник дата-команды в большой и не очень корпорации знает, что бигдата и AI - это стильно, модно и молодежно. И, кажется, что сейчас каждый знает, что это еще и очень дорого.
Но далеко не каждый готов задумываться, а уж тем более, считать денежное value дата-продуктов, и, следовательно, окупаемость дата офиса. А не задумываться можно, как мы уже с вами как-то обсуждали, только когда с общемировой конъюнктурой все норм. То есть, сейчас прям самое время задумываться.
А еще более не каждый, или даже совсем редкий менеджер, готов делать это правильно, и инвестировать в это "правильно" ресурсы и время.
В докладе Паша рассказал про важность расчета окупаемости дата офиса, про общую логику её расчета, а также про категории проектов и их приоритезацию. При этом центровой темой как во время доклада, так и после него, стала тема про "правильный" расчет value дата-продуктов. Или, проще говоря, про АБ-тестирование (занудная ремарка: мы тут, конечно, немного упрощаем и в целом с вами знаем, что оценка эффектов описывается далеко не только АБ). При обсуждении доклада CDO так разошлись, что секция про дата стратегию чуть не стала митапом про АБ-тестирование.
Посыл доклада - надо инвестировать в построение методики АБ-тестирования и использовать его не только для проектов Big Data, но и вообще для инвестпроектов компании (где применимо). Ибо это способствует не только более корректному пониманию того, куда инвестировать, но еще и исправлению совокупной оценки эффекта инвестиционного потока с космической, на близкую к правде.
Дискуссию вызвал вопрос - а точно ли совокупный эффект всех АБ покажет правду, ведь тесты (чаще всего) не учитывают затухание эффекта в долгосрочном периоде? Да и Валера недавно поднимал важную тему про совокупный эффект АБ.
А как считаете вы? Стоит ли вписывать АБ-тестирование в жизнь компании, и где нужно остановиться?
Доклад: YouTube | RUTube | ODS.ai
Ваш @Reliable ML
#tech #business #datafest2024 #data_strategy
Доклад Павла Мягких, ex-CDO Gazprom ID, ex-директор Big Data Lenta
На Data Fest 2024 в нашей секции про стратегию данных выступил Павел Мягких - с непростой темой про экономику дата офиса.
Каждый менеджер и сотрудник дата-команды в большой и не очень корпорации знает, что бигдата и AI - это стильно, модно и молодежно. И, кажется, что сейчас каждый знает, что это еще и очень дорого.
Но далеко не каждый готов задумываться, а уж тем более, считать денежное value дата-продуктов, и, следовательно, окупаемость дата офиса. А не задумываться можно, как мы уже с вами как-то обсуждали, только когда с общемировой конъюнктурой все норм. То есть, сейчас прям самое время задумываться.
А еще более не каждый, или даже совсем редкий менеджер, готов делать это правильно, и инвестировать в это "правильно" ресурсы и время.
В докладе Паша рассказал про важность расчета окупаемости дата офиса, про общую логику её расчета, а также про категории проектов и их приоритезацию. При этом центровой темой как во время доклада, так и после него, стала тема про "правильный" расчет value дата-продуктов. Или, проще говоря, про АБ-тестирование (занудная ремарка: мы тут, конечно, немного упрощаем и в целом с вами знаем, что оценка эффектов описывается далеко не только АБ). При обсуждении доклада CDO так разошлись, что секция про дата стратегию чуть не стала митапом про АБ-тестирование.
Посыл доклада - надо инвестировать в построение методики АБ-тестирования и использовать его не только для проектов Big Data, но и вообще для инвестпроектов компании (где применимо). Ибо это способствует не только более корректному пониманию того, куда инвестировать, но еще и исправлению совокупной оценки эффекта инвестиционного потока с космической, на близкую к правде.
Дискуссию вызвал вопрос - а точно ли совокупный эффект всех АБ покажет правду, ведь тесты (чаще всего) не учитывают затухание эффекта в долгосрочном периоде? Да и Валера недавно поднимал важную тему про совокупный эффект АБ.
А как считаете вы? Стоит ли вписывать АБ-тестирование в жизнь компании, и где нужно остановиться?
Доклад: YouTube | RUTube | ODS.ai
Ваш @Reliable ML
#tech #business #datafest2024 #data_strategy
👍14❤3🔥2🤔2
Секция Data Strategy на Data Fest 2024
Обзор докладов секции и ссылки на материалы
В этом году на Data Fest мы провели аж три секции: Reliable ML (куда же без нее), Career и Data Strategy.
И одна из них была экспериментальной - Data Strategy [Youtube, Rutube]. Мы решили попробовать собрать CDO различных компаний - рассказать про проблематику и особенности работы со стратегией по данным. А заодно дать площадку для обсуждения общих болей и вопросов выхода из них. (На самом деле мне нужна была пара советов, вот и придумала секцию. Но это уже совсем другая история 😊).
Для Data Fest - это не совсем обычная тема, поскольку ключевой акцент в нем всегда оставался за data science. А стратегия по данным охватывает все этапы работы с ними, включая то, чему обычно на data science конференциях не уделяется большого внимания.
Стратегия по данным отвечает на вопрос, как нужно организовать работу с данными в организации в целом, чтобы была возможность их в итоге монетизировать. Для этого нужно данные качественно собрать, организовать их хранение, обеспечить качество (на уровне как инфры, так и процессов), а затем организовать в витрины, пригодные для применения методов продвинутой аналитики.
Так вот было невероятно приятно осознать, насколько аудитория на самом деле ждала появления таких тем! Насколько у многих наболели вопросы качественной организации всей цепочки работы с данными. На секции был аншлаг, успели обсудить кучу вопросов как по докладам, так и по общим болям. Сложно было только разойтись)
Секция получилась глубокой и целостной. Каждый докладчик закрыл по важному блоку, который неизбежно стоит продумывать для получения работающей стратегии по данным.
- Виктор Кантор [Youtube, Rutube] рассказал о том, почему вообще нужна стратегия по данным, и как ее наполнить конкретными кейсами монетизации с помощью инструментов продвинутой аналитики.
- Павел Мягких [Youtube, Rutube] углубил наполнение стратегии кейсами и виженом, куда двигаться - раскрыв тему про расчет экономики этих кейсов: как в ней разобраться, и как посчитать. Ибо не все то золото, что ML/AI/LLM.
- Александр Толмачев [Youtube, Rutube] погрузил аудиторию в техническую сторону вопроса - в организацию сквозной инфры и инструментария работы дата аналитиков, дата саентистов и дата инженеров. Это вызвало большое понимание и внимание зала - многие успели испытать сложности взаимодействия команд и боли от неоптимальной организации процессов и сервисов. А Саша предложил понятный пример унифицированных процессов и инфры.
- Ирина Голощапова [Youtube, Rutube] объединила предыдущие выступления, предложив общий фрейм для работы над стратегией по данным. В докладе я постаралась дать структуру стратегии по данным, обозначив ее критические блоки и объяснив логику работы над ними - и то, как они собираются в итоге в единую систему. По ходу доклада мы рассмотрели несколько примеров работы над блоками стратегии и лайфхаки, которые мне кажутся полезными. Сам фрейм хотелось бы в будущем выложить в open source и наполнять сообществом.
Расскажите, чем вам показалась полезной секция по дата стратегии? И о чем хотелось бы поговорить с CDO в 2025 году?
Ваш @Reliable ML
#tech #business #datafest2024 #data_strategy
Обзор докладов секции и ссылки на материалы
В этом году на Data Fest мы провели аж три секции: Reliable ML (куда же без нее), Career и Data Strategy.
И одна из них была экспериментальной - Data Strategy [Youtube, Rutube]. Мы решили попробовать собрать CDO различных компаний - рассказать про проблематику и особенности работы со стратегией по данным. А заодно дать площадку для обсуждения общих болей и вопросов выхода из них. (На самом деле мне нужна была пара советов, вот и придумала секцию. Но это уже совсем другая история 😊).
Для Data Fest - это не совсем обычная тема, поскольку ключевой акцент в нем всегда оставался за data science. А стратегия по данным охватывает все этапы работы с ними, включая то, чему обычно на data science конференциях не уделяется большого внимания.
Стратегия по данным отвечает на вопрос, как нужно организовать работу с данными в организации в целом, чтобы была возможность их в итоге монетизировать. Для этого нужно данные качественно собрать, организовать их хранение, обеспечить качество (на уровне как инфры, так и процессов), а затем организовать в витрины, пригодные для применения методов продвинутой аналитики.
Так вот было невероятно приятно осознать, насколько аудитория на самом деле ждала появления таких тем! Насколько у многих наболели вопросы качественной организации всей цепочки работы с данными. На секции был аншлаг, успели обсудить кучу вопросов как по докладам, так и по общим болям. Сложно было только разойтись)
Секция получилась глубокой и целостной. Каждый докладчик закрыл по важному блоку, который неизбежно стоит продумывать для получения работающей стратегии по данным.
- Виктор Кантор [Youtube, Rutube] рассказал о том, почему вообще нужна стратегия по данным, и как ее наполнить конкретными кейсами монетизации с помощью инструментов продвинутой аналитики.
- Павел Мягких [Youtube, Rutube] углубил наполнение стратегии кейсами и виженом, куда двигаться - раскрыв тему про расчет экономики этих кейсов: как в ней разобраться, и как посчитать. Ибо не все то золото, что ML/AI/LLM.
- Александр Толмачев [Youtube, Rutube] погрузил аудиторию в техническую сторону вопроса - в организацию сквозной инфры и инструментария работы дата аналитиков, дата саентистов и дата инженеров. Это вызвало большое понимание и внимание зала - многие успели испытать сложности взаимодействия команд и боли от неоптимальной организации процессов и сервисов. А Саша предложил понятный пример унифицированных процессов и инфры.
- Ирина Голощапова [Youtube, Rutube] объединила предыдущие выступления, предложив общий фрейм для работы над стратегией по данным. В докладе я постаралась дать структуру стратегии по данным, обозначив ее критические блоки и объяснив логику работы над ними - и то, как они собираются в итоге в единую систему. По ходу доклада мы рассмотрели несколько примеров работы над блоками стратегии и лайфхаки, которые мне кажутся полезными. Сам фрейм хотелось бы в будущем выложить в open source и наполнять сообществом.
Расскажите, чем вам показалась полезной секция по дата стратегии? И о чем хотелось бы поговорить с CDO в 2025 году?
Ваш @Reliable ML
#tech #business #datafest2024 #data_strategy
👍8🔥3❤1👏1
Секция Reliable ML на Data Fest 2024
Обзор докладов секции и ссылки на материалы
На Data Fest 2024 секция Reliable ML получилась стихийно. Мы с Димой планировали сделать только две офлайн секции: Data Strategy и Career. Но в первые же дни call for papers мы получили много хороших предложений докладов для нашей традиционной секции - Reliable ML. И поняли, что от судьбы не уйти.
Секция получилась классная и широкая по охвату. Ведь, чтобы ML был Reliable - и доходил до прода и положительного эффекта - думать нужно о каждом этапе работы над моделью.
- Артем Дуплинский [Youtube] [Rutube] рассказал вводный доклад про причинно-следственный анализ. На примерах показал, почему causal inference полезен для аналитических проектов, и объяснил, что означают базовые термины.
- Александр Ченцов [Youtube] [Rutube] раскрыл тему графового анализа для выявления причинно-следственных зависимостей на больших данных - для более продвинутых пользователей causal inference методов.
- Евгений Смирнов [Youtube] [Rutube] поделился видением и советами по выбору проектов в ML для успешного их внедрения в будущем. Важно грамотно оценивать экономическую целесообразность проектов, готовность инфраструктуры и интеграций, а также готовность бизнес-процессов.
- Андрей Лукьяненко [Youtube] [Rutube] рассказал об опыте построения антифрод ML-моделей на этапе предавторизации для заказа такси в компании Careem.
- Данил Картушев [Youtube] [Rutube] поделился опытом использования шаблона ML System Design Doc от Reliable ML для проекта по созданию бота по поиску нужных материалов в тг-каналах - PostFinder. Классно, что Данил не только описал свой пример применения дизайн-дока, но и предложил ценные дополнения к шаблону (Customer Journey Map и User Story Map), а также опубликовал свой дизайн-документ для PostFinder в открытый доступ.
- Иван Комаров [Youtube] [Rutube] показал возможности применения OLS-регрессии для АБ-тестирования - с детальным разбором примеров. Код доступен в презентации.
- Александр Калинин [Youtube] [Rutube] рассказал про метод Байесовской сыворотки правды (BTS) для разметки данных (когда не имеем в разметке объективной правды/no ground truth).
Пора изучать доклады и думать о том, о чем хотим поговорить в 2025 году!
Ваш @Reliable ML
#tech #business #datafest2024 #reliable_ml
Обзор докладов секции и ссылки на материалы
На Data Fest 2024 секция Reliable ML получилась стихийно. Мы с Димой планировали сделать только две офлайн секции: Data Strategy и Career. Но в первые же дни call for papers мы получили много хороших предложений докладов для нашей традиционной секции - Reliable ML. И поняли, что от судьбы не уйти.
Секция получилась классная и широкая по охвату. Ведь, чтобы ML был Reliable - и доходил до прода и положительного эффекта - думать нужно о каждом этапе работы над моделью.
- Артем Дуплинский [Youtube] [Rutube] рассказал вводный доклад про причинно-следственный анализ. На примерах показал, почему causal inference полезен для аналитических проектов, и объяснил, что означают базовые термины.
- Александр Ченцов [Youtube] [Rutube] раскрыл тему графового анализа для выявления причинно-следственных зависимостей на больших данных - для более продвинутых пользователей causal inference методов.
- Евгений Смирнов [Youtube] [Rutube] поделился видением и советами по выбору проектов в ML для успешного их внедрения в будущем. Важно грамотно оценивать экономическую целесообразность проектов, готовность инфраструктуры и интеграций, а также готовность бизнес-процессов.
- Андрей Лукьяненко [Youtube] [Rutube] рассказал об опыте построения антифрод ML-моделей на этапе предавторизации для заказа такси в компании Careem.
- Данил Картушев [Youtube] [Rutube] поделился опытом использования шаблона ML System Design Doc от Reliable ML для проекта по созданию бота по поиску нужных материалов в тг-каналах - PostFinder. Классно, что Данил не только описал свой пример применения дизайн-дока, но и предложил ценные дополнения к шаблону (Customer Journey Map и User Story Map), а также опубликовал свой дизайн-документ для PostFinder в открытый доступ.
- Иван Комаров [Youtube] [Rutube] показал возможности применения OLS-регрессии для АБ-тестирования - с детальным разбором примеров. Код доступен в презентации.
- Александр Калинин [Youtube] [Rutube] рассказал про метод Байесовской сыворотки правды (BTS) для разметки данных (когда не имеем в разметке объективной правды/no ground truth).
Пора изучать доклады и думать о том, о чем хотим поговорить в 2025 году!
Ваш @Reliable ML
#tech #business #datafest2024 #reliable_ml
👍9❤6🔥1
Секция Career на Data Fest 2024
Обзор докладов секции и ссылки на материалы
Публикуем в одном посте доклады секции по карьере, которую мы провели в мае 2024 г.
В секции было 2 блока: для сотрудников - про построение карьеры, развитие и трудоустройство, и для руководителей - лайфхаки про работу с командой от тимлидов.
- Ирина Голощапова [Youtube] [Rutube] рассказала про ключевые роли в работе с данными. Рассмотрели суть работы каждой роли, определили главные навыки, которые их отличают, узнали о том, какие для них есть карьерные треки, а также поговорили о том, над какими навыками стоит работать, чтобы расти по выбранному треку.
- Евгений Смирнов [Youtube] [Rutube] предложил десять вопросов, которые нужно задать перед трудоустройством кандидату на работу в сфере data science (и не только). То есть, о чем - кроме размера заработной платы - стоит спросить работодателя на этапе собеседований.
- Наталья Ковальчук [Youtube] [Rutube] рассказала о плюсах и минусах мягкого карьерного перехода из геологических исследований в data science, а также детально раскрыла особенности применения Data Science в нефтегазовой отрасли.
- Илья Алтухов [Youtube] [Rutube] поделился своими находками, полученными за почти 10 лет опыта работы тимлидом data science команд. Предложил практические рекомендации, которые можно применять в работе. Обсудили темы: с чего начать тимлидство, как повысить эффективность поиска специалистов в команду, как спланировать рост компетенций в команде, как наладить коммуникацию и работу с ОС, можно ли ходить в отпуск и не работать, как развивать вовлеченность команды.
- Артем Каледин [Youtube] [Rutube] рассказал о личном опыте сильной перестройки работы команды и построения новых практик, влияющих на развитие геоаналитики в билайне. Рассказал также о своем росте в тимлида, радостях и сложностях этого перехода.
Удачного вам карьерного пути в 2025 году!
Ваш @Reliable ML
#tech #business #datafest2024 #career
Обзор докладов секции и ссылки на материалы
Публикуем в одном посте доклады секции по карьере, которую мы провели в мае 2024 г.
В секции было 2 блока: для сотрудников - про построение карьеры, развитие и трудоустройство, и для руководителей - лайфхаки про работу с командой от тимлидов.
- Ирина Голощапова [Youtube] [Rutube] рассказала про ключевые роли в работе с данными. Рассмотрели суть работы каждой роли, определили главные навыки, которые их отличают, узнали о том, какие для них есть карьерные треки, а также поговорили о том, над какими навыками стоит работать, чтобы расти по выбранному треку.
- Евгений Смирнов [Youtube] [Rutube] предложил десять вопросов, которые нужно задать перед трудоустройством кандидату на работу в сфере data science (и не только). То есть, о чем - кроме размера заработной платы - стоит спросить работодателя на этапе собеседований.
- Наталья Ковальчук [Youtube] [Rutube] рассказала о плюсах и минусах мягкого карьерного перехода из геологических исследований в data science, а также детально раскрыла особенности применения Data Science в нефтегазовой отрасли.
- Илья Алтухов [Youtube] [Rutube] поделился своими находками, полученными за почти 10 лет опыта работы тимлидом data science команд. Предложил практические рекомендации, которые можно применять в работе. Обсудили темы: с чего начать тимлидство, как повысить эффективность поиска специалистов в команду, как спланировать рост компетенций в команде, как наладить коммуникацию и работу с ОС, можно ли ходить в отпуск и не работать, как развивать вовлеченность команды.
- Артем Каледин [Youtube] [Rutube] рассказал о личном опыте сильной перестройки работы команды и построения новых практик, влияющих на развитие геоаналитики в билайне. Рассказал также о своем росте в тимлида, радостях и сложностях этого перехода.
Удачного вам карьерного пути в 2025 году!
Ваш @Reliable ML
#tech #business #datafest2024 #career
👍12🔥3👏2
Data Ёлка 2024 - Итоги года от Reliable ML
О том, как мы праздновали ODS Новый Год 28 января 2025
Совсем недавно в офисе VK в Москве состоялась традиционная Data Ёлка 2024. Мы с Димой в этот раз тоже решили поделиться итогами года от Reliable ML.
У нас получилось два доклада:
- От Димы Колодезева - про hard-тренды 2024. Поговорили про conformal prediction, появление качественных материалов по causal inference в ML на русском (и вообще появление causal inference в ML!), прорыв в интерпретируемости трансформеров и больших языковых моделей, будущее мира на промптах и изоленте (стабилизацию вывода LLM в прод), а также антихрупкость в ML.
- От Иры Голощаповой - про полезные soft-фичи в управлении ML-разработкой. Обсудили важность того, чтобы не увлекаться шаблонами (да-да, даже дизайн-документами!), системно подходить к обучению дата-команд и бизнеса, погружаться в бизнес-процессы, для которых делаешь ML-решение, уметь брать на себя ответственность за результат, а также про то, что вдохновение - это тоже ответственность.
Будем рады, если материалы окажутся полезными для вас в этом году.
Прекрасного вам 2025го!
Ваш @Reliable ML
#tech #business #dataелка2024 #reliable_ml
О том, как мы праздновали ODS Новый Год 28 января 2025
Совсем недавно в офисе VK в Москве состоялась традиционная Data Ёлка 2024. Мы с Димой в этот раз тоже решили поделиться итогами года от Reliable ML.
У нас получилось два доклада:
- От Димы Колодезева - про hard-тренды 2024. Поговорили про conformal prediction, появление качественных материалов по causal inference в ML на русском (и вообще появление causal inference в ML!), прорыв в интерпретируемости трансформеров и больших языковых моделей, будущее мира на промптах и изоленте (стабилизацию вывода LLM в прод), а также антихрупкость в ML.
- От Иры Голощаповой - про полезные soft-фичи в управлении ML-разработкой. Обсудили важность того, чтобы не увлекаться шаблонами (да-да, даже дизайн-документами!), системно подходить к обучению дата-команд и бизнеса, погружаться в бизнес-процессы, для которых делаешь ML-решение, уметь брать на себя ответственность за результат, а также про то, что вдохновение - это тоже ответственность.
Будем рады, если материалы окажутся полезными для вас в этом году.
Прекрасного вам 2025го!
Ваш @Reliable ML
#tech #business #dataелка2024 #reliable_ml
🔥17❤9👍2
Применение Generative AI в компаниях США
Обзор обзора - 2024: The State of Generative AI in the Enterprise
В декабре 2024 был опубликован обзор от фонда Menlo Ventures - про применение Generative AI моделей в корпорациях. Данные собраны с 600+ ИТ-руководителей компаний в США с 50+ сотрудниками - в октябре-ноябре 2024.
Cделали для вас краткий обзор этого обзора - того, что показалось интересным.
- Топ-5 сценариев применения GenAI в корпорациях: code generation, support chat-bots, enterprise search + retrieval, data extraction + transformation, meeting summarization. Ну и, конечно, все экспериментируют с агентами. В целом, ничего удивительного, но может быть полезно при приоритезации кейсов для вашей компании - в этих популярных сценариях LLM показывают себя пока наиболее успешно. Для каждой категории в статье приведены примеры успешных стартапов/решений со ссылками - наглядно и полезно.
- Закрытые модели все еще широко используются. Преобладает использование моделей с закрытым исходным кодом (81% компаний, основные решения - GPT от Open.AI и Claude от Anthropic). Открытые модели у себя разворачивает только 19% компаний. При этом на уровне компании обычно полноценно развивают около трех моделей, которые адаптируют под различные сценарии использования.
- О чем стоит подумать при внедрении. При покупке AI решений организации обращают внимание в основном на легкость вычисления ROI и учет специфики деятельности компании. Однако часто недооценивают на старте сложности внедрения моделей: технические интеграции, будущую поддержку и масштабирование. Топ причин разочарований в моделях: затраты на внедрение (26%), вопросы конфиденциальности данных (21%), неоправдавшиеся ожидания по ROI (18%), галлюцинации моделей (15%).
- Где внедрять. В среднем компании выделяют финансирование для разработки AI-решений во всех подразделениях. Наибольшая доля - у IT (22%). Возможно, что это за счет централизованного владения инфраструктурой, хотя напрямую это не написано. Второе и третье место у инженерных задач (19%) и клиентской поддержки (9%).
- От горизонтальных решений к вертикально-интегрированным приложениям для отдельных бизнес-областей. Если раньше решения были в основном про сервисы создания картинок и генерации текста, то в 2024 году - это полноценные приложения для конкретных задач в здравоохранении, юриспруденции, финансах и медиа:
- Для медицины это $500 млн инвестиций в решения по автоматизации клинических процессов: от ведения записей (Abridge, Ambience) до управления доходами (Adonis, Rivet).
- Юристы ($350 млн) используют GenAI для работы с большими объемами данных и автоматизации задач. Примеры: Everlaw (литигация), Harvey (проверка договоров и умный поиск), Garden (патенты и интеллектуальная собственность), и др.
- В финансах ($100 млн) выделяют стартапы вроде Numeric (автоматизация процессов бухучета), Arch (помогает собирать и агрегировать внешние данные о компаниях для управления инвестициями) и Norm AI (агентов, помогающих работать по комплаенс задачам: от сбора новых документов и рисков из внешних данных до помощи в проверке транзакций).
- В медиа ($100 млн) популярны как профессиональные студии (Runway), так и инструменты для независимых авторов (Descript, Captions).
Ваш @Reliable ML
#tech #business #reliable_ml
Обзор обзора - 2024: The State of Generative AI in the Enterprise
В декабре 2024 был опубликован обзор от фонда Menlo Ventures - про применение Generative AI моделей в корпорациях. Данные собраны с 600+ ИТ-руководителей компаний в США с 50+ сотрудниками - в октябре-ноябре 2024.
Cделали для вас краткий обзор этого обзора - того, что показалось интересным.
- Топ-5 сценариев применения GenAI в корпорациях: code generation, support chat-bots, enterprise search + retrieval, data extraction + transformation, meeting summarization. Ну и, конечно, все экспериментируют с агентами. В целом, ничего удивительного, но может быть полезно при приоритезации кейсов для вашей компании - в этих популярных сценариях LLM показывают себя пока наиболее успешно. Для каждой категории в статье приведены примеры успешных стартапов/решений со ссылками - наглядно и полезно.
- Закрытые модели все еще широко используются. Преобладает использование моделей с закрытым исходным кодом (81% компаний, основные решения - GPT от Open.AI и Claude от Anthropic). Открытые модели у себя разворачивает только 19% компаний. При этом на уровне компании обычно полноценно развивают около трех моделей, которые адаптируют под различные сценарии использования.
- О чем стоит подумать при внедрении. При покупке AI решений организации обращают внимание в основном на легкость вычисления ROI и учет специфики деятельности компании. Однако часто недооценивают на старте сложности внедрения моделей: технические интеграции, будущую поддержку и масштабирование. Топ причин разочарований в моделях: затраты на внедрение (26%), вопросы конфиденциальности данных (21%), неоправдавшиеся ожидания по ROI (18%), галлюцинации моделей (15%).
- Где внедрять. В среднем компании выделяют финансирование для разработки AI-решений во всех подразделениях. Наибольшая доля - у IT (22%). Возможно, что это за счет централизованного владения инфраструктурой, хотя напрямую это не написано. Второе и третье место у инженерных задач (19%) и клиентской поддержки (9%).
- От горизонтальных решений к вертикально-интегрированным приложениям для отдельных бизнес-областей. Если раньше решения были в основном про сервисы создания картинок и генерации текста, то в 2024 году - это полноценные приложения для конкретных задач в здравоохранении, юриспруденции, финансах и медиа:
- Для медицины это $500 млн инвестиций в решения по автоматизации клинических процессов: от ведения записей (Abridge, Ambience) до управления доходами (Adonis, Rivet).
- Юристы ($350 млн) используют GenAI для работы с большими объемами данных и автоматизации задач. Примеры: Everlaw (литигация), Harvey (проверка договоров и умный поиск), Garden (патенты и интеллектуальная собственность), и др.
- В финансах ($100 млн) выделяют стартапы вроде Numeric (автоматизация процессов бухучета), Arch (помогает собирать и агрегировать внешние данные о компаниях для управления инвестициями) и Norm AI (агентов, помогающих работать по комплаенс задачам: от сбора новых документов и рисков из внешних данных до помощи в проверке транзакций).
- В медиа ($100 млн) популярны как профессиональные студии (Runway), так и инструменты для независимых авторов (Descript, Captions).
Ваш @Reliable ML
#tech #business #reliable_ml
👍13❤5🔥4🤔2
Reasoning vs. Instruct (GPT) models
Перевод: о различиях в применении Reasoning и GPT моделей
Решили сделать краткий перевод недавней статьи от Open.AI про различия в применении reasoning (o-series) и GPT-моделей. Тема горячая, иметь идеи на эту тему в понятном виде под рукой кажется полезным. Если текст наберет много лайков, будем и дальше публиковать подобные посты с тегом "перевод" - на актуальные темы.
Ключевые различия Instruct (GPT) vs. Reasoning LLM
Reasoning (в случае Open.AI - o-series) и привычные нам чат-модели или instruct-модели (в случае Open.AI - GPT) решают разные задачи и требуют разных подходов.
- Reasoning-модели - планировщики. Созданы для сложных задач, требующих глубокого анализа, стратегического планирования и работы с большими объемами неоднозначной информации. Они медленнее, но точнее Instruct LLM. Идеальны для областей, где важны точность и надежность: математика, наука, инженерия, финансы, юриспруденция.
- GPT-модели (и другие instruct-модели) - рабочие лошадки. Оптимизированы для быстрого выполнения четко определенных задач и подходят для случаев, где важны скорость и низкая стоимость. Меньше подходят для сложных, многошаговых задач.
Успешные кейсы использования Reasoning-моделей (на примере o-series)
- Работа с неоднозначными задачами. Модели задают уточняющие вопросы и обрабатывают сложные документы. Hebbia использует o1 для анализа сложных платежных ограничений в кредитных соглашениях.
- Поиск иголки в стоге сена. Модели находят важные детали в огромных объемах неструктурированной информации. Endex использовал o1 значимой информации в документах компании (контракты, договоры аренды, и проч.), которая может повлиять на сделку о ее покупке. Модель выявила важное положение о «смене контроля» в сносках: если бы компания была продана, ей пришлось бы выплатить кредит в размере $75 млн.
- Выявление взаимосвязей и выводов из сложносоставных данных. Модели находят связи между документами и делают выводы на основе контекста. Blue J улучшила производительность в 4 раза, используя o1 для налоговых исследований, когда нужно было прийти к логическим выводам, которые не были очевидны ни в одном отдельном документе. BlueFlame AI применила o1 для анализа влияния фандрайзинга на существующих акционеров - получив в итоге корректную расчетную таблицу на основе множества документов, на создание которых у финаналитиков ушло бы существенно больше времени.
- Многошаговое планирование. O-series выступает как «планировщик», разбивая задачи на шаги и делегируя их GPT для выполнения. Lindy.AI использует o1 для автоматизации рабочих процессов. Модель забирает информацию из календаря или эл. почты, а затем автоматически помогает пользователю планировать встречи, отправлять e-mail-ы, и др. Декомпозиция и планирование задач были полностью переключены на o1.
- Визуальный анализ. O1 лучше GPT-4o справляется с интерпретацией сложных изображений (графики, чертежи). SafetyKit достигла 88% точности в классификации изображений с помощью o1 - в задаче проверки комплаенс-рисков для миллионов товаров в Интернете, включая подделки ювелирных изделий класса люкс, исчезающие виды и контролируемые вещества.
- Рецензирование и улучшение кода. Модели эффективно анализируют код, находя ошибки, которые могут пропустить люди. CodeRabbit увеличил конверсию в 3 раза, перейдя на o-series для ревью кода - во многом за счет того, что o1 способен обнаруживать ошибки и несоответствия между множеством файлов в репозитории. Кроме того, o1 на голову выше GPT при помощи разработчикам в проектировании сложных систем.
- Оценка и бенчмаркинг. O-series используется для проверки качества ответов других моделей. Braintrust улучшила F1-оценку с 0.12 до 0.74, используя o1 для оценки ответов GPT-4o.
Для нас будет очень ценно, если в комментах вы напишете, насколько такой пост полезен.
Ваш @Reliable ML
#tech #business #перевод #reliable_ml #llm
Перевод: о различиях в применении Reasoning и GPT моделей
Решили сделать краткий перевод недавней статьи от Open.AI про различия в применении reasoning (o-series) и GPT-моделей. Тема горячая, иметь идеи на эту тему в понятном виде под рукой кажется полезным. Если текст наберет много лайков, будем и дальше публиковать подобные посты с тегом "перевод" - на актуальные темы.
Ключевые различия Instruct (GPT) vs. Reasoning LLM
Reasoning (в случае Open.AI - o-series) и привычные нам чат-модели или instruct-модели (в случае Open.AI - GPT) решают разные задачи и требуют разных подходов.
- Reasoning-модели - планировщики. Созданы для сложных задач, требующих глубокого анализа, стратегического планирования и работы с большими объемами неоднозначной информации. Они медленнее, но точнее Instruct LLM. Идеальны для областей, где важны точность и надежность: математика, наука, инженерия, финансы, юриспруденция.
- GPT-модели (и другие instruct-модели) - рабочие лошадки. Оптимизированы для быстрого выполнения четко определенных задач и подходят для случаев, где важны скорость и низкая стоимость. Меньше подходят для сложных, многошаговых задач.
Успешные кейсы использования Reasoning-моделей (на примере o-series)
- Работа с неоднозначными задачами. Модели задают уточняющие вопросы и обрабатывают сложные документы. Hebbia использует o1 для анализа сложных платежных ограничений в кредитных соглашениях.
- Поиск иголки в стоге сена. Модели находят важные детали в огромных объемах неструктурированной информации. Endex использовал o1 значимой информации в документах компании (контракты, договоры аренды, и проч.), которая может повлиять на сделку о ее покупке. Модель выявила важное положение о «смене контроля» в сносках: если бы компания была продана, ей пришлось бы выплатить кредит в размере $75 млн.
- Выявление взаимосвязей и выводов из сложносоставных данных. Модели находят связи между документами и делают выводы на основе контекста. Blue J улучшила производительность в 4 раза, используя o1 для налоговых исследований, когда нужно было прийти к логическим выводам, которые не были очевидны ни в одном отдельном документе. BlueFlame AI применила o1 для анализа влияния фандрайзинга на существующих акционеров - получив в итоге корректную расчетную таблицу на основе множества документов, на создание которых у финаналитиков ушло бы существенно больше времени.
- Многошаговое планирование. O-series выступает как «планировщик», разбивая задачи на шаги и делегируя их GPT для выполнения. Lindy.AI использует o1 для автоматизации рабочих процессов. Модель забирает информацию из календаря или эл. почты, а затем автоматически помогает пользователю планировать встречи, отправлять e-mail-ы, и др. Декомпозиция и планирование задач были полностью переключены на o1.
- Визуальный анализ. O1 лучше GPT-4o справляется с интерпретацией сложных изображений (графики, чертежи). SafetyKit достигла 88% точности в классификации изображений с помощью o1 - в задаче проверки комплаенс-рисков для миллионов товаров в Интернете, включая подделки ювелирных изделий класса люкс, исчезающие виды и контролируемые вещества.
- Рецензирование и улучшение кода. Модели эффективно анализируют код, находя ошибки, которые могут пропустить люди. CodeRabbit увеличил конверсию в 3 раза, перейдя на o-series для ревью кода - во многом за счет того, что o1 способен обнаруживать ошибки и несоответствия между множеством файлов в репозитории. Кроме того, o1 на голову выше GPT при помощи разработчикам в проектировании сложных систем.
- Оценка и бенчмаркинг. O-series используется для проверки качества ответов других моделей. Braintrust улучшила F1-оценку с 0.12 до 0.74, используя o1 для оценки ответов GPT-4o.
Для нас будет очень ценно, если в комментах вы напишете, насколько такой пост полезен.
Ваш @Reliable ML
#tech #business #перевод #reliable_ml #llm
10👍36❤8🔥4👀1
Data Fest 2025 - Call for Papers
Собираем доклады на Reliable ML и Career
Дорогие друзья, уже месяц как наступила весна, а значит пора готовиться к Data Fest!
В этом году мы с Димой решили вложиться в 2 секции: Reliable ML и Career. Секции будут офлайн в Мск в конце мая.
Ждем от вас заявок на доклады!
Отправляйте их в форму сюда. Или - при любых вопросах - можно напрямую написать мне или Диме.
На чем хотим сфокусироваться в этом году?
Reliable ML - на земле все только и говорят об агентах и LLM, а кто уже внедрил, преодолел граблии написал костыли, измерил эффект и готов этим поделиться? Давайте поговорим о кейсах работы с LLM и агентами, а также о том, как повысить их надежность и полезность в реальных процессах.
Career - что меняется в карьерных навыках и ожиданиях от дата-ролей в связи с активным развитием больших языковых моделей? Может быть, появляются новые роли? Или какие-то роли, связанные с работой дата-специалистов, становятся критичными для успеха ML-проектов. Хотелось бы сконцентрироваться на том, что делать как работнику, так и работодателю в дивном новом мире.
Ждем ваших заявок!
Ваш @Reliable ML
#business #tech #reliable_ml #career #data_fest
Собираем доклады на Reliable ML и Career
Дорогие друзья, уже месяц как наступила весна, а значит пора готовиться к Data Fest!
В этом году мы с Димой решили вложиться в 2 секции: Reliable ML и Career. Секции будут офлайн в Мск в конце мая.
Ждем от вас заявок на доклады!
Отправляйте их в форму сюда. Или - при любых вопросах - можно напрямую написать мне или Диме.
На чем хотим сфокусироваться в этом году?
Reliable ML - на земле все только и говорят об агентах и LLM, а кто уже внедрил, преодолел грабли
Career - что меняется в карьерных навыках и ожиданиях от дата-ролей в связи с активным развитием больших языковых моделей? Может быть, появляются новые роли? Или какие-то роли, связанные с работой дата-специалистов, становятся критичными для успеха ML-проектов. Хотелось бы сконцентрироваться на том, что делать как работнику, так и работодателю в дивном новом мире.
Ждем ваших заявок!
Ваш @Reliable ML
#business #tech #reliable_ml #career #data_fest
👍10✍2🔥1🤔1
Reliable ML на Data Fusion 2025
Ждем всех на конференции сегодня
Сегодня с Димой помогаем в проведении конференции Data Fusion 2025.
- Лучшие практики CDO: как оседлать волну популярности AI? В 18:00-19:00 в зале Физика с крутыми CDO поговорим о том, какова реальная полезность LLM, как это измерить и что вообще может сделать CDO для улучшения пути компании с внедрением AI-решений. Ведущий - Ира Голощапова.
- Кейс-сессия «Малые генеративные модели». В 18:50-19:20 в зале Фотон поговорим о возможностях, перспективах и сценариях применения малых генеративных моделей. Какими техническими, организационными и экономическими преимуществами они обладают? Обсудим все этапы - от постановки задачи и обучения до внедрения и поддержки. Ведущий - Дмитрий Колодезев.
Все, кто на месте, подходите пообщаться!
Ваш @Reliable ML
#business #tech #reliable_ml #data_fusion
Ждем всех на конференции сегодня
Сегодня с Димой помогаем в проведении конференции Data Fusion 2025.
- Лучшие практики CDO: как оседлать волну популярности AI? В 18:00-19:00 в зале Физика с крутыми CDO поговорим о том, какова реальная полезность LLM, как это измерить и что вообще может сделать CDO для улучшения пути компании с внедрением AI-решений. Ведущий - Ира Голощапова.
- Кейс-сессия «Малые генеративные модели». В 18:50-19:20 в зале Фотон поговорим о возможностях, перспективах и сценариях применения малых генеративных моделей. Какими техническими, организационными и экономическими преимуществами они обладают? Обсудим все этапы - от постановки задачи и обучения до внедрения и поддержки. Ведущий - Дмитрий Колодезев.
Все, кто на месте, подходите пообщаться!
Ваш @Reliable ML
#business #tech #reliable_ml #data_fusion
👍4🔥4❤3