Reliable ML
6.55K subscribers
111 photos
1 file
225 links
Reliable ML - фреймворк о том, как управлять внедрением и развитием аналитики и data science/machine learning/AI, чтобы результат был применим в бизнес-процессах и приносил компании финансовую пользу.

Admin: @irina_goloshchapova @promsoft
Download Telegram
Оценка неопределенности, как быть?
Пост от читателя канала — Максима Кочурова, партнера PyMC Labs

Для построения надежных ML-систем нам нужно не только построить систему, предсказывающую интересующие нас переменные, но и оценить неопределенность предсказания. Эту проблему решают с помощью conformal prediction. Байесовские модели тоже оценивают неопределенность, но делают это немного иначе - различается сам подход к моделированию.

Conformal prediction позволяет получить оценку неопределенности в виде, например, интервалов, содержащих истинное значение с заданной вероятностью. Это model-agnostic подход, который может быть использован с любой моделью машинного обучения. Но эта оценка дается только для целевой переменной.

В противоположность этому байесовские методы явно описывают неопределенности процесса, которым генерируются данные. Мы получаем не только оценку неопределенности нашей целевой переменной, но и вероятностную оценку параметров модели. Когда это может быть важно?

В целом, можно разделить прикладные задачи датасаентиста по степени их «прозрачности»: white, grey, black. Вы наверняка слышали эти термины, между ними принципиальная разница в том, как вообще обычно формулируется постановка, и что в ней на самом деле важно. Условно, это качественная градация задач на “предсказывать” (black box), “предсказывать и делать интервенции”(causal grey box), “предсказывать, делать интервенции, находить неэффективности” (white box).

Если с black box задачами все понятно, то во многих чувствительных приложениях нам важен не только результат, но и параметры процесса. Когда нам нужно организовать валидацию модели экспертами, перенос знаний экспертов доменной области в модель, а так же валидацию экспертами закономерностей, выявленных моделями, нам нужны прозрачные модели, явно формулирующие предположения о процессе генерации данных.

Байесовские модели — самый очевидный выбор для построения таких white-box моделей.

В статье от нашего читателя Максима Кочурова из PyMC Labs выясняем что, как и зачем. Максим также прочитал прекрасный вводный доклад о байесовских методах в июне на секции Reliable ML на Data Fest 2023.

Ваш @Reliable ML

#tech #reliable_ml #bayes_in_ml
👍124🔥1
Опубликован новый пример дизайна ML системы по шаблону Reliable ML
Пишем ML System Design Doc вместе с Reliable ML

Для нас большая гордость добавлять дизайны ML систем, написанные на основе нашего шаблона, в открытый доступ. Огромное спасибо авторам, которые вкладываются в развитие ML System Design своими силами и временем.

Сегодня был опубликован новый пример - дизайн сервиса по кластеризации магазинов, разработанного в компании Лента. Автор: Любава Ткаченко, Data Scientist. Бизнес-цель ML-решения – помочь бизнесу в быстром принятии решений с помощью инструмента для автоматической группировки магазинов по базовым метрикам, важным для ритейла. Один из типовых возможных сценариев использования инструмента - адаптация CVP (Customer Value Proposition) с учетом кластеров. А еще Любава сделала замечательный доклад об опыте составления дизайн-дока на недавнем Data Fest.

Успехов в дальнейшем развитии решения!

Шаблон дизайн-документа ML-систем от Reliable ML - тут.
Лекция о том, как с ним работать - тут.
Как написать док вместе с Reliable ML - тут.

Stay tuned!

P.S. Предыдущий дизайн-док был опубликован с похожими словами в посте. Но что поделать, ничего не изменилось - мы с Димой по-прежнему радуемся 😊 И уже знаем об опыте внедрения нашего дока в более чем 10 крупных компаний российского рынка. А еще больше мы радуемся, когда вы приходите к нам рассказать о своем опыте.

Ваш @Reliable ML

#business #tech #ml_system_design
🔥295👍4
Winter is coming: почему академики сферы AI все чаще оказываются в депрессии и есть ли у них шансы на выживание
Цикл постов: обзор статьи Togelius, Yannakakis (2023) от Reliable ML. Предисловие и часть 1

Прочитали с Димой статью от весны 2023 г. - Choose Your Weapon: Survival Strategies for Depressed AI Academics, Togelius J., Yannakakis G.N. - и впечатлились.

Впечатлились уже давно, но собрались с мыслями только сейчас :)

Шуточное название статьи обманчиво - в ней на полном серьезе приведена инструкция по выживанию для сотрудников научных лабораторий, выбравших путь теоретических исследований в области AI. Легкое настроение читателя от названия и бодрого резюме в начале статьи - к концу прочтения сменяется серьезной задумчивостью о том, что ждет наш мир уже в ближайшем будущем.

Поделимся с вами конспектом статьи и нашими мыслями о последствиях. По аналогии с размышлениями о тезисах конференции Gartner Data & Analytics про критичность финансовых эффектов дата-команд. Этот пост оказался одним из наиболее популярных в нашем канале.

Часть 1. Почему грустят AI академики

- Недостаток вычислительных ресурсов. Нет доступа к мощностям, или он несопоставимо ниже, чем в любой корпорации с AI отделом. Ресурса критически не хватает для конкурентоспособных исследований, тогда как еще всего 5-10 лет назад для того, чтобы двигать науку в AI, достаточно было локальной машины. Сейчас же большинство прорывов базируется на больших мощностях и сериях крупных экспериментов.

- Несправедливая конкуренция с корпорациями. Рост важности самого понятия конкуренции в академии. В идеальном мире научные эксперименты - это совместный труд ученых на благо развития науки - с признанием вклада каждого. В случае высокого влияния корпораций любая стоящая идея получает развитие в рамках той компании, которая первая вложила достаточно денег. Ученый в любом случае в проигрыше и его вклад незаметен. В статье исследование ученого и подключение к ним корпораций сравнивается с открытием Walmart напротив местного семейного магазинчика в небольшом городке.

В следующем посте обсудим, что предлагается делать академикам, впавшим в депрессию по причинам выше.

Ваш @Reliable ML

#business #tech #thoughts #reliable_ml
👍16🤣63🔥3🤔3
Winter is coming. Цикл постов про академиков в депрессии - Часть 2
Цикл постов по статье Togelius, Yannakakis (2023). Часть 2

Продолжаем цикл постов “Winter is coming: почему академики сферы AI все чаще оказываются в депрессии и есть ли у них шансы на выживание”. Обсудим, какие пути предлагают авторы для AI-академиков, погрузившихся в депрессию. Причины депрессии обсуждали в предыдущем посте цикла.

Что предлагается делать AI-академикам в депрессии

- Сдаться. Не пытаться совершить прорыв, а публиковать статьи в журналах невысоких рейтингов, улучшая технические детали и рассматривая под-под-вопросы различных тем.

- Все-таки пытаться масштабировать вычислительные ресурсы, а именно - тратить наибольшую возможную часть исследовательского гранта на CPU и GPU. Правда, стоит иметь в виду, что даже самые крутые по суммам научные гранты в мире позволяют выделить на вычисления несопоставимо меньше денег, чем нужно на один (один, не серию) норм эксперимент даже с GPT-3.

- Сужать масштаб экспериментов (анти-масштабирование). Сконцентрироваться на игрушечных проблемах, позволяющих продемонстрировать преимущества нового подхода в теории на каких-то сравнениях. Авторы приводят вполне рабочие примеры такого подхода: Shafiullah et al. (2022), Pearce et al. (2023), Paster, McIlraith, Ba (2022). Недостаток в том, что широкий круг людей обращает внимание на подобные прорывы, как правило, значительно позже - когда кто-то проведет крупный эксперимент на реальных данных.

- Использовать претренированные модели. Хороший вариант не делать все с нуля, но чаще всего недостаточно для значимых результатов.

- Анализировать нюансы работы уже существующих моделей, вместо того, чтобы пытаться создать что-то новое.

- Использовать RL! Данные не нужны! Главное, без фанатизма, ибо грань науки и научной фантастики будет пролегать в непосредственной близости от вас.

- Заниматься небольшими моделями. Как с помощью минимально-нагруженной модели и минимального объема данных сделать ценные выводы? Привет Томасу Байесу. Ценность подобных методов неуклонно растет от года к году, хотя и имеет значительные ограничения в использовании.

- Работать над областями, которые на данный момент неинтересны индустрии. Может быть, они не заметят, как вы совершите прорыв. На этом моменте делаем паузу, для того чтобы сходить за успокоительным, и продолжаем дальше.

- Найти области, о которых еще никто не подумал о вас. Или взять заброшенный всеми метод и дать ему шанс. Тут еще чуточку больше шансов остаться незамеченным до получения важных результатов.

- Пробовать методы, которые не должны работать. Ну, вы поняли логику.

- Развивать сомнительные с точки зрения этики направления, потому что корпорации ограничены общими правилами этики, PR-службами и репутационными рисками, а вы - нет. Ну разве что только законом иногда. Цитата: “if you can’t do the research they couldn’t do, do the research they wouldn’t do”.

- Попытаться скооперироваться с индустрией. Если продать перспективную идею бизнесу, то можно получить как финансирование, так и стартап с вашим участием. Правда, ваша идея должна быть в первую очередь практико-ориентированной (иметь кейс с получением денег на не очень большом временном горизонте), чем направленной на улучшение мира, или новые теоретические научные прорывы. Тут уж извините, nothing personal just business.

- Развивать коллаборации между разными университетами. Здорово, но перспективы не сильно видны.

В следующих постах цикла поделимся размышлениями о том, что нас ждет в связи со всем вышеперечисленным, и что же можно сделать.

Ваш @Reliable ML

#business #tech #thoughts #reliable_ml
👍219🤣6🔥2😢1
Иллюстрация к части 2 - Winter is coming. Цикл постов про академиков в депрессии

Картинка к части 2. Будьте бдительны!

Цикл постов “Winter is coming: почему академики сферы AI все чаще оказываются в депрессии и есть ли у них шансы на выживание”.

- Часть 1. Почему AI-академики оказываются в депрессии.

- Часть 2. Какие пути предлагают авторы дляAI-академиков, погрузившихся в депрессию.

Ваш @Reliable ML

#business #tech #thoughts #reliable_ml
😁21👍54🔥2🤣1
Reliable ML pinned «Видеозаписи докладов - Reliable ML - 3 июня 2023 - Data Fest Online Видео и презентации докладов первого дня секции Опубликованы видео и презентации докладов первого дня секции Reliable ML на Data Fest Online 2023. День был посвящен докладам по теме ML System…»
Курс ML System Design от Reliable ML
Старт с 28.08.2023

В понедельник стартует курс ML System Design от ReliableML. Бесплатный семестровый курс будет размещен на площадке ODS.AI, все лекции и дополнительные материалы будут публиковаться в нашем канале.

В курс входит:

* 15 видеолекций
* 14 семинаров
* работа над проектами
* разработка ML дизайн документа
* Доклады/туториалы участников курса по смежным темам
* лабораторные работы

Основная цель курса - развить кругозор и "насмотренность" будущих создателей ML-систем. Это не подготовка к собеседованию и не "вхождение в IT", а, скорее, экскурсия по зоопарку. Смотрите, вот тигры, вот слоны, вот потоковые данные, а здесь у нас пасутся большие языковые модели, их можно покормить и погладить.

Интереснее всего проходить курс, делая проект. Если хотите участвовать в проектной деятельности - лучше зарегистрироваться на курс на ODS.AI. У подписчиков канала будет доступ к лекциям и семинарам без дополнительной регистрации - и задавать вопросы по материалам можно прямо тут.

Ваш @Reliable ML

#tech #ml_system_design
👍84🔥4721
Вакансий пост
Команда данных Raiffeisenbank Operations

С началом осени открываем ряд позиций в нашу крутейшую команду данных операционного домена Райффайзен Банка.

Немного о команде

Домен Operations в Райффайзен Банке отвечает за работу ключевых функций: транзакции, банкоматы, поддержка кредитного процесса. По сути операции пронизывают все сферы деятельности банка. Поэтому для них критически важна структурированная система аналитики: иерархия метрик, отчетность, прогнозные и оптимизационные модели.

Наша команда обеспечивает домен Operations отчетностью, аналитикой и моделями для принятия правильных стратегических и операционных решений. А более правильные решения повышают эффективность управления процессами и имеют огромное влияние на бизнес.

Кого мы ищем

Ниже краткое описание к вакансий, подробнее – можно почитать по ссылкам.

- Middle/Senior Data Analyst – на задачи аналитики, отчетности и исследований в различных направлениях Operations. Кроме большого интереса к данным, будет полезен опыт в финансовой сфере, банках, и/или любовь к анализу процессов.

- Middle/Senior Data Scientist – строить, внедрять и развивать прогнозные и оптимизационные модели в области эффективности управления наличными денежными средствами (планирование спроса, выдача наличности, управление инкассацией, обслуживание АТМ).

Как откликнуться

Пишите мне в тг (@irina_goloshchapova) – с заголовком, на какую позицию откликаетесь.

#career #reliable_ml
🔥24👍105👎3💯1
Оффлайновая встреча ReliableML

Предлагаем встретиться за кофе или чаем в конце сентября, поговорить про анализ данных, машинное обучение, Reliable & UnReliable ML, ML System Design и все такое. Где-нибудь в центре. Нужно выбрать - что удобнее:
Anonymous Poll
23%
датаужин 29 сентября в пятницу с 18:30 до 21:00
17%
датазавтрак 30 сентября в субботу с 10:00 до 12:00
59%
Не пойду, просто интересно посмотреть результат
👍10🔥3
Оффлайн-встреча Reliable ML в Москве

30 сентября в 11:00 датазавтрак ReliableML в Хлеб Насущный https://go.2gis.com/l4lkg улица Солянка, 1/2 ст1

Большой стол забронирован на Ирину. Приходите, поговорим про Reliable и Unreliable ML, курс ML System Design, осенние митапы, датафесты, датахеллоуины, найм, карьеру, увольнение, синтетические данные и позавтракаем заодно, там хорошо.

Хотели устроить встречу в пятницу вечером, как вы и проголосовали выше, но жизнь и расписания самолетов внесли свои коррективы.

Ваш @Reliable ML

#tech #ml_system_design
🔥29👍82
Открытый фреймворк для A/B тестов Kolmogorov ABacus
Opensource от Kolmogorov.AI

Ребята из @noml_community @dmitry_zabavin, @egorshishkovets, @educauchy опубликовали опенсорсный фреймворк Kolmogorov ABacus:
▫️ Код на GitHub→
▫️ Документация→

Видеорассказ про ABacus :
▫️ Дмитрий Забавин, Егор Шишковец, Вадим Глухов - Kolmogorov ABacus: Фреймворк A/B-тестирования (1 час 20 минут).

На прошлой неделе коллеги из Альфа-Банка и GlowByte опубликовали пост на Хабре про кейс применения фреймворка:
▫️ Оценка эффекта персонализации баннеров в Альфа-Банке с применением библиотеки Kolmogorov ABacus (10 минут).

Доклад на весеннем митапе по теме A/B:
▫️ Любовь Кислинская (Альфа-Банк), Александр Косов (GlowByte AA) - Персонализация баннеров на главном экране "Альфа Мобайл" (30 минут).

Ваш @Reliable ML

#tech #ab_testing
👍3511
Офлайн-встреча Reliable ML #2
По следам встречи 30 сентября

Все-таки никакой онлайн не заменит живых встреч - спасибо всем заглянувшим вчера на огонек!

Хлеб Насущный грозился лопнуть от числа посетителей, жаждущих пообсуждать за ML. Это было неожиданно, приятно и очень круто.

Удалось обсудить кучу всего вкусного и интересного. Например:

- Митапу UnReliable ML быть. Мы с Димой давно вынашиваем идею собраться-поговорить о фейлах в ML-проектах.  У самих тоже есть, что рассказать. Ориентировочная дата - 9 декабря (можно забронить календари). Если готовы поделиться болью из своего опыта - можно уже писать @irina_goloshchapova или @promsoft.

- Тренды и карго-культы в АБ-тестировании: как отличить одно от другого и что делать, чтобы найти в АБ-тестах соль земли.

- Как выбрать ML-проект для реализации и вкатывания в DS.

- Как зайти с ноги в causal inference. Есть, например, шпаргалка от Димы и статья от Иры.

- Как понять, лежит ли душа к диссертации и кандидатству в науках, или к суровой индустрии. И в чем вообще смысл ученой степени для работы и жизни.

- Отличия дата-аналитиков и дата-саентистов.

- Ограничения LLM. Ну куда же без этого. Как построить рельсы для LLM и как модели по ним весело едут: в комментах к посту очень ждем скрины про оливье и форматирование жесткого диска.

- Устойчивость моделей: примеры Расемон Сет, статья в Nature про деградацию моделей, и выступление Димы.

- И немного о Confident Learning на пальцах

Очень рады были всех видеть! Будем продолжать!

В комментах пишите, что еще интересного успели обсудить на встрече. Мы написали только о том, что происходило вокруг нас)

Ваш @Reliable ML

#offline #reliable_ml #tech #business
🔥2923👍13
Где живет ODS?
Список чатов Open Data Science с офлайн-встречами

Мы провели 2 встречи сообщества Reliable ML. Получилось здорово. Ощущается, что все соскучились по живому общению - по тому, что когда-то помогло создать крупнейшее русскоязычное сообщество в области анализа данных - ods.ai.

Планируем делать это и дальше, расширяя формат до митапов. Но это в любом случае пока не очень регулярная и частная история, сильно зависимая от рабочего графика и загруза.

Давайте соберем известные нам сообщества-ответвления ODS с регулярными офлайн-встречами.
Ниже то, что знаем. Пишите еще варианты, будем добавлять!

- ODS MSK: дата-ужины в Москве. И иногда отдельные тематические сборы в другие дни недели.
- ODS SPB: душевные дата-встречи в Петербурге.
- ODS NSK: дата-завтраки в Академгородке и в центре Новосибирска.
- ODS TMK: дата-ужины в Томске
- ODS SRB: дата-завтраки в Нови-Саде.

Ваш @Reliable ML

#business #tech #offline
👍2219🔥2🙏2
Опубликован новый пример дизайна ML системы по шаблону Reliable ML
Учимся писать ML System Design Doc вместе

Сегодня добавили новый пример дизайн-документа - результат работы команды Дмитрия Науменко на экспериментальном контесте по составлению дизайн-доков ML System Design Doc Challenge, проведенном Мариной Завгородней на Data Fest 2023.

Команда Димы за два дня контеста продумала дизайн антифрод-системы для проведения транзакций в банке, а затем защитила его в финале мероприятия. Авторы документа: Дмитрий Науменко, Сергей Артюхин, Артем Савельев, Эдуард Поляков, Сабрина Садиех. Бизнес-цель ML-решения – увеличение эффективности банковской системы антифрода для снижения финансовых и репутационных рисков связанных с мошенническими действиями.

Со своей стороны очень рекомендуем изучить документ - это хороший пример детально проработанного дизайна ML-системы. Задача при этом - общая и актуальная для всех банков. Над постановкой задачи работала Марина Завгородняя, Owner ML Ops Platform в Райффайзенбанке.

Огромное спасибо авторам документа и Марине - это большой труд и крутой вклад в развитие управления ML-проектами.

Шаблон дизайн-документа ML-систем от Reliable ML - тут.
Материалы по работе с дизайн-доком - тут.
Как написать док вместе с Reliable ML - тут.

Stay tuned!

Ваш @Reliable ML

#business #tech #ml_system_design
👍37🔥103
Митап UnReliable ML 9 декабря - ждем заявок!
Разбираемся вместе в фейлах ML-проектов

Всем привет! Мы с Димой задумали офлайн failconf - UnReliable ML. Предлагаем затусить офлайн в Мск 9 декабря и вместе обсудить удивительные и не очень фейлы в ML проектах, а также то, как их преодолеть и что сделать, чтобы не допустить подобного в будущем.

Мы с Димой готовы рассказать разные кейсы из своей практики: про ML и про АБ. Но будет намного круче и ценнее для всех, если будут рассказы от вас!

Если готовы рассказать о любых сложностях, с которыми сталкивались при работе над ML-решениями, то напишите нам: @irina_goloshchapova и @promsoft . Для выступления достаточно пары слайдов.

После митапа сходим куда-нибудь поблизости перекусить и договорить про ML и боль в более неформальной обстановке.

Регистрироваться можно тут.

Ваш @Reliable ML

#reliable_ml #offline #tech #business
23👍11🔥6
Митап UnReliable ML 9 декабря - очень ждем заявок на выступления!
Открытый микрофон по опыту фейлов в ML проектах

По нашей задумке - митап UnReliable ML 9 декабря очень хотелось бы сделать в формате открытого микрофона: когда пришедшие делятся своим опытом, болями и сложностями из мира ML. Рассказывают, с чем столкнулись, как преодолели (или пока нет), на какие вопросы ещё ищут ответы.

Для выступления на открытом микрофоне достаточно 1-2 слайдов о вашем опыте и о том, чем вам хотелось бы поделиться с аудиторией, какие вопросы задать. На выступление и обсуждение: 5-10 минут.

Поэтому очень ждем ваших заявок. Пишите @irina_goloshchapova и @promsoft с вашими предложениями, или сразу присылайте слайды.

Давайте сделаем крутой митап вместе! 🔥

К сожалению, в случае малого количества заявок мы с Димой будем вынуждены немного поменять программу и сместить фокус с фейлов.

Ваш @Reliable ML

#reliable_ml #offline #tech #business
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍4🔥4
Mattermost ODS

После отключения ods.ai в slack сообщество разбежалось по разным каналам, чатам и мессенджерам. Кто-то кого-то банил, кто-то с кем-то спорил, где-то все тормозило и так далее.
Все это время нас регулярно спрашивали о площадке для общения сообщества, есть ли что-то "как раньше".
"Как раньше" уже не будет никогда, но мы подняли сервер Mattermost, на который может зайти любой, имеющий аккаунт на ods.ai.

Технические детали:
Авторизация сделана через OAuth, на бесплатной версии mattermost это работает только через Gitlab. Поэтому мы подняли сервер авторизации, который притворяется Gitlab сервером, а сам берет доступы с сайта ods.ai. Это объясняет, почему авторизация на сервере такая кривая ;-) Потихоньку прикрутим прямее.

Инструкция по подключению - здесь.

Ваш @Reliable ML

#ods #mattermost
🔥43👍83🎉3🥰1
Reliable ML pinned «Mattermost ODS После отключения ods.ai в slack сообщество разбежалось по разным каналам, чатам и мессенджерам. Кто-то кого-то банил, кто-то с кем-то спорил, где-то все тормозило и так далее. Все это время нас регулярно спрашивали о площадке для общения сообщества…»
FailConf - UnReliable ML - 9 декабря 2023
Офлайн митап про фейлы в ML проектах

Расписание на субботу готово! Всех очень ждем!
И напоминаем, что для участия необходима регистрация.

Митап ламповый, своими руками для своих, поэтому помощь в организации очень приветствуется.
Даже запись можем замутить, если с техникой на месте разберемся.

На месте будут чай и немного печенек. Для большей душевности можно приносить с собой еще печенек.

Все вопросы по митапу, фотки и движ будут в канале #reliable_ml в маттермосте ODS.

До встречи! 🤗

Ваш @Reliable ML

#tech #business #reliable_ml #meetup
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥133💊1
Материалы FailConf - UnReliable ML - декабрь 2023
Презентации спикеров

9 декабря мы провели крутой офлайн FailConf в Москве.
Получилось все очень здорово, лампово и интересно. И с печеньками!

Самый сок - это открытый микрофон в конце, который мы, конечно же, не записали.
А потому что приходите в следующий раз тоже)

Спасибо всем участникам за вашу вовлеченность, открытость и готовность делиться своим опытом. Такие мероприятия сильно заряжают на дальнейшее развитие сообщества.

Будем идти дальше. Планов много.

Материалы презентаций (без открытого микрофона):

- Дарья Шатько - О шишках... или что стоит помнить при решении задач персонализации

- Евгений Никитин - Three FuckUps Inside AI Startup

- Артем Каледин - Здесь могли быть ваши грабли - обзор банальных и не очень проблем, которые периодически нас преследуют

- Роман Бутов - Ожидания и реальность в ML криптотрейдинге

- Александр Гавриленко - Неправильная организация кода в научных проектах

- Ирина Голощапова и Дмитрий Колодезев - Почему ML-модели не доходят до прода

Stay tuned!

Ваш @Reliable ML

#tech #business #reliable_ml #meetup
26👍15🔥3😁1