Дата канальи — про «специалистов» в данных / ML / AI

#ML

Если вдруг кто-то пропустил МТСные курсы по RecSys на ODS и не знает как BigData МТС связана с рекомами, то вдогонку скажу что мы в МТС продолжаем развивать свою библиотеку для рекомендашек RecTools.
За эти году в либу успели законтрибьютить 20+ классных MLE) -- и сейчас ее развитие драйвит Даша Тихонович со своей командой

Новости о либе в канале

Звезды в гитхабе тоже приветствуются 😊

Итак, встречайте -- новый релиз 0.11.0 -- Трансформеры в RecTools!

BERT4Rec и SASRec в fit / recommend парадигме, без необходимости в специальной подготовке данных.

Поддерживают сборку с конфигов, кастомизацию, коллбэки, чекпойнты, логи, кастомную валидацию и мульти-гпу обучение.

Архитектура:
- Dot product связывание (+ можно кастомизировать свою логику)
- Из коробки используют в эмбеддингах категориальные фичи айтемов (+ можно подключать и отключать эмбеддинги на айди айтемов) (+ можно кастомизировать свою логику для эмбеддингов)
- Поддерживают softmax, BCE и gBCE лоссы с варьируемым количеством негативов (+ можно поддерживать кастомные лоссы)
- MLM и Shifted Sequence задачи обучения (+ как и всё остальное можно кастомизировать)

Все актуальные туториалы тут:
- Теория и практика
- Обучение с кастомной валидацией
- Модульная кастомизация моделей

Результаты на публичных бенчмарках против других имплементаций: наш BERT4Rec выиграл 2 из 4 датасетов, SASRec на софтмаксе 3 из 4.

Также в релизе:
- from_params метод для моделей и общая функция model_from_params для инициализации моделей с "плоского" словаря
- обучение на GPU для PureSVD
- TorchRanker для ранжирования айтемов по полученным скорам от моделей

GitHub

GitHub - MobileTeleSystems/RecTools: RecTools - library to build Recommendation Systems easier and faster than ever before

RecTools - library to build Recommendation Systems easier and faster than ever before - MobileTeleSystems/RecTools

🔥36👍10❤8

4.4K viewsedited 17:37

Дата канальи — про «специалистов» в данных / ML / AI

#ML Итак, про XAI, он же eXplainable AI Глубина глубин открываются с первого же найденного постера — 17 методов и 20 (!) метрик для сравнения в постере с последнего NIPS (декабрь 24го) Summary of Navigating the Maze of Explainable AI: A Systematic Approach…

#ML

Через час опубликую ссылку для подключения на обсуждения XAI (правда более чем уверен, что все забыли 😂), а пока откопал статью 2016 года с супер-известным первым автором Visualizing and understanding recurrent networks

UPD Сорри, сносим на время пораньше и другой день -- давайте выберем в комментариях, ориентировочно понедельник , 16 мск (в комментах под постом решим)

🔥9

3.7K viewsedited 16:00

Дата канальи — про «специалистов» в данных / ML / AI

Приходите сегодня послушать Диму, топ спец во временных рядах и не только )

3.12K views08:30

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from Александра Сытник

«SotA для TS forecasting, все ли так однозначно?»

➖

2️⃣

0️⃣ февраля состоится следующая встреча тренировок по машинному обучению

↩️

В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
⚪️переход от задачи прогнозирования временных рядов к задаче регрессии
⚪️как выбрать подходящую модель для вашей задачи временных рядов
⚪️какие есть нейронные архитектуры, в том числе Zero-shot

📢 Спикер:

⚪️

Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

📆 Когда: 20 февраля с 19:00
🗺️ Где: Покровский бульвар д. 11, ауд. R308

Подробнее про челленджи

🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре

▶️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥5

5.76K views08:30

Дата канальи — про «специалистов» в данных / ML / AI

Когда с подачи Виктора https://t.iss.one/kantor_ai начинали в декабре 23го — еле-еле 15 чел набирали , на онлайн приходило 4 , теперь нам аудитории не хватает 😂 будем стараться бронить потоковую 🤷‍♂️

🔥21❤11👍7👏2

3.98K viewsedited 16:05

Дата канальи — про «специалистов» в данных / ML / AI

#ML

Раз уж мы коллективно перенесли XAI-созвон на сегодня на 16 -- пытаюсь найти что-то релевантное и интересное.

Вот, например, в статье недельной давности TOWARDS MECHANISTIC INTERPRETABILITY OF GRAPH TRANSFORMERS VIA ATTENTION GRAPHS пытаются интерпретировать графовые трансформеры путем построения графов внимания.

А как представляются графы? Матрицей связности) Итого получаются картинки, безумно похожие на attention maps, которые к интерпретации GNN в бизнес-смысле не приближают от слова совсем 😔

UPD:
а вот gui для интерпретации , который прям совсем приятный и кликабельный

UPD2:
жду вас по ссылке https://meet.google.com/qjm-yzdu-qxf

спасибо пришедшим! записал идей, копаю дальше)

👍9❤3🤔2

3.39K viewsedited 08:57

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

Интересный опыт -- расшифровали выступление в ВШЭ и опубликовали, набросил немного про DS-центричность , но в обработке пиарщиков вышло почти безобидно 😆

Хабр

Куда расти Data Scientist и какие навыки для этого нужны

Привет! Меня зовут Никита Зелинский , я Chief Data Scientist МТС, руководитель центра компетенций Data Science и ML-платформ МТС Big Data. На конференциях я часто слышу один и тот же вопрос от...

👍19🔥6❤3👏1🦄1

3.75K viewsedited 07:57

Дата канальи — про «специалистов» в данных / ML / AI

Привет всем! Тех, кто не дойдет до нас оффлайн — ждём на трансляции в 17:30!

2.48K viewsedited 13:17

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from МТС True Tech

🔍 True Tech DS: митап для Data Scientists

Как находить новые решения, делать модели эффективнее и применять DS-инструменты в реальных задачах? На митапе эксперты поделятся свежими подходами и своим опытом.

🕔 28 февраля, 17:00
🔗 Прямая трансляция здесь

О чем поговорим? Спойлеры от Никиты Зелинского — CDS & Head of ML Platforms МТС в кружочке 🤭

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍5🦄3

2.72K views13:17

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from МТС True Tech

This media is not supported in your browser

VIEW IN TELEGRAM

0:41

2.99K views13:17

❤10🔥8👍7💊2

Дата канальи — про «специалистов» в данных / ML / AI

Нескучный Data Science

Всем привет! 28 февраля в 17:00 приходите на митап по Data Science в Москве. На встрече экспертами из Центра Big Data МТС и Лаборатории машинного обучения Альфа-Банка поделимся кейсами: 🎙️Гибкая калибровка: как одновременно попадать в KPI для сотен рекламных…

А вот состав докладов ребят

2.81K views13:17

Дата канальи — про «специалистов» в данных / ML / AI

Спасибо всем пришедшим сегодня на митап, были классные доклады, не менее классные вопросы и живые дискуссии после основной сессии! Обязательно повторим! Фоточки выложу как будут готовы)

🔥28👏7👍3🦄2

2.18K views20:07

Дата канальи — про «специалистов» в данных / ML / AI

Мне даже особо добавить нечего) Огромное спасибо Жене и ребятам из Альфы что откликнулись , и особое нашему деврелу Лене Гусаровой -- и ее команде конечно -- за организацию — получилось круто 🙌

Фоточки

🔥10❤3👏2🦄1

2.14K viewsedited 13:00

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from Нескучный Data Science (Евгений Смирнов)

🔥 МТС BIG DATA X Лаборатория Машинного обучения

🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.

🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!

📸 Фото вышли огонь, забирайте по ссылке.
📹 Видео и презентации на следующей неделе появятся в комментариях к посту 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥15👏3❤1

1.88K views13:00

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #ML

Митап прошел, пора возвращаться к историям, ради которых канал и создан.

Этот кейс вспомнил, когда говорил со своим хирургом о страховании осложнений от операций.
Когда дают подписать информированное согласие — пишут возможные осложнения и их частоту встречаемости со ссылкой на источник, так вот если ввести поправку на множественные сравнения
Он сначала чуть смеялся, даже не слышал о таком.
Тема действительно редкая, сходу гуглится программа у испанцев — осложнения обязательно страхуются.
Еще публикации 10-15 летней давности в пластической хирургии — что логично, ведь пластику, как правило, делают за свои, то есть вписаться в бюджет крайне желательно — и вот здесь-то страховка от осложнений не помешает.

Во времена ковида 🤢лично для себя прививаться или нет я принимал по соотношению стоимости страховки и выплаты при наступлении осложнений

Небольшой тест на глазомер.
Ниже частота наступления осложнений из информированного согласия (реального):

5%
0.5%
4,2%
6.7%
3.4%
22%

Давайте сделаем заведомо неверное предположение что все осложнения независимы, сразу два осложнения у одного пациента встречается пренебрежимо редко и зададимся вопросом «какова вероятность что после операции не наступит осложнений»?

Только, чур, на глаз 🧐

Ответ: 63,7% (проверяйте!)

А теперь, собственно, сама история.

Собеседовал DS из страховой (а мб и лизинговой) компании, попросил рассказать про кейс.
А уж его кандидат выбрал что надо: кластеризовать водителей по манере езды — найти лихачей и тех, кто экономит топливо.

Моей радости не было предела — ну наконец-то, разумное применение кластеризации!

Можно же по каждому построить распределение скоростей / ускорений в каком-то небольшом окне, а дальше у нас в руках очень разумная метрика — расстояние между распределениями (тот же PSI сгодится) — и кластеризируй на здоровье.
Не дожидаясь начала ответа, осыпал кандидата комплиментами)

Оказалось весьма преждевременно 😔:
Взяли много разных табличных фичей (включая даже цену автомобиля) и накинули k-means с евклидовым расстоянием 😬
Ну хоть про локоть / силуэтт сказала, не вспомнив что есть что.

Когда так делают, мне просто физически больно.
К сожалению, ЭТО (не буду писать ругательства) часто встречается.

Эффекты масштаба (как фичи друг относительно друга отмасштабируешь, такие кластеры и получишь) и проклятие размерности и начисто игнорируются.

Когда же все-таки делать кластеризация (именно unsupervised задачу)?
Например,
- когда фичи равнозначны и в одном масштабе (гео — широта и долгота подходят пд такие фичи)
- или когда есть разумная функция расстояния между объектами и мы умеем ее вычислять
- или когда данные в виде эмбеддингов, уже обученных на близость (см. Metric Learning)
- или когда есть разумные предположения почему эмбеддинги близких объектов будут близки по расстоянию

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍27🔥9❤3🤝1🦄1

2.32K viewsedited 04:23

Дата канальи — про «специалистов» в данных / ML / AI

Попробуем новый жанр по просьбе хорошего товарища

Ребята из Solva открывают банк в Казахстане, ищут четверых DS / DA в риски (позница и SME)
Если интересно — пишите Диме @viktorovd напрямую, если хотите чтобы ответили быстро — сошлитесь на канал
Локация на выбор – Алматы, Москва или полностью удалённо.
Вилки примерно 400 000 – 500 000 рублей Net + бонусы
Ниже формальные описания

UPD: длинные описания вакансий перенес в комменты под постом

👍11🔥3🦄2❤1

2.18K viewsedited 11:53

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

Трусость в карьере DS

Несколько лет собирался с силами сделать операцию на перегородку, лор-врачей трусил с детства – правда было с чего – на картинке почти такая же сцена как мне аденоиды удаляли в горбольнице Твери в 1994 году (только там ремни были на подлокотниках, ноги привязывали простынями, а тазик для крови не висел на шее, а держала медсестра).

Вот сделал (кстати, если кому вдруг нужно – поделюсь контактом топового хирурга) и задумался насколько страх двигатель карьеры – и тут к месту пришелся относительно недавний кейс.

Дано – Middle+ DS, которого зовут на два проекта: первый про LLM-агентов, там сделано несколько прототипов, много хаоса и менеджеров в 4 раза больше чем трудяг (у семи нянек дите без глазу). Второй – в технически зрелую команду разбираться с новым доменом данных.

2 варианта – 2 FOMO – в первом очевидно легко быстро дорасти до руководящей позиции – новое хайповое направление, у бизнеса большой аппетит – точно можно расти вместе с командой. Когда еще такая возможность представится? Бонусом идет хорошее повышение со старта.

А во втором можно серьезно прокачаться (под чутким и внимательным руководством) и в NLP и в написании продового кода, и тоже боязно, что если пойти по первому треку – не у кого будет hands on учиться. Здесь повышение вроде тоже возможно, но не так определенно. И рост в синьора а не лида.

Что сам выберешь, что DSу посоветуешь? Пишите в комментарии – будет любопытно обменять мнениями.

PS:
Как по мне,страх – главная причина неудачи в карьере.
И он же главный двигатель вперед.

Очень боишься потерять работу – собери портфель, который платит тебе твой же оклад дивидендами / купонами. Или собери ачивок чтобы ее легче находить – места на Kaggle, публикации. Или другие активы – свои проекты / продукты, доли в стартапах, курсы и т.д.

👍32🔥8❤5🦄2🙉1

2.48K viewsedited 07:07

Дата канальи — про «специалистов» в данных / ML / AI

#ML

Вот смотрю на micrograd и думаю — может быть это и есть лучшая задача на собеседовании на MLE?

Сразу и кодинг проверяет и backprop, меньше ста строчек кода

Что думаете?

Для ленивых: 👍 -- хорошая идея, 🤔 -- плохая

UPD: А почему? неужто задачки с литкода лучше?

🤔41👍13🥴7

2.28K viewsedited 06:11

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #ML после того поста вспомнился кейс когда нормальное отношение к мату помогло спасти денег -- учредитель засветился в юр связях с примерно таким ликвидированным ООО (в 2021 создано, в 2023 ликвидировано). прочитайте название наоборот . Словарь…

#кейсы #ML

Когда у меня бессоница и закончился Мелаксен, я не считаю овец и не втыкаю в шортсы.

Таймкиллер должен быть каждый раз разный, вот сегодня вернулся к тому посту и поискал еще компаний, они с годами регистрации в ФНС:

ООО «Адзип» 2010
ООО «Онвог» 2003
ООО «Куни» 2005
ООО СПК «Анал» 2009
ООО «Чорт» 2024
ООО «Тудранктуфак» 2008
ООО "Нли Ю" 2016
ООО «Эс как доллар» 2017
ООО "ПОЦ" 2009
ООО "СИК" 2014 (азерб.)
ООО "Сиким" 1999 (азерб.)

а вот другое ООО "Сиким" 2012 года, просуществовавшее меньше суток: дата регистрации 15.10.2012, дата ликвидации 15.10.2012, потому их однодневками и называли

UPD чет вспомнился похожий кейс с физиками, на днях расскажу

spark-interfax.ru

ООО АДЗИП, Самарская область, Тольятти (ИНН 7206042751), реквизиты, выписка из ЕГРЮЛ, адрес, почта, сайт, телефон, финансовые показатели

🔎Система СПАРК. ООО АДЗИП, Тольятти, Самарская область (ИНН 7206042751): ✓Риски и надежность компании ✓Выписка из ЕГРЮЛ ✓Финансовые показатели из бухгалтерской отчетности ☎Реквизиты, телефон, почта, адрес и сайт🔎2 арбитражных дела, 0 исполнительных производств…

😁12👍2🔥2🤔1🙏1🦄1

2.1K viewsedited 21:55

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #ML

О чем был пост выше?
Сейчас объясню на другом кейсе

Итак, в лучших традициях «продуктовой культуры» корпораций в одной компании по схеме MVP (как ее понимал корпоративный PO) запускался продукт — продажа неких предметов по схеме BNPL = buy now, pay later (в рассрочку в бытовом ее понимании – формально эти понятия часто разделяют по тому кто на себя берет кредитный риск дефолта покупателя – сервис или кредитная организация, но сейчас не об этом).

Деньги имеют свою стоимость, поэтому маржа должна стоимость фондирования перекрывать.
Такие продукты содержат, очевидно, еще и кредитный риск -- ведь клиент может перестать выплачивать деньги, и такой долг придется отдавать на взыскание (тоже косты, которые надо бы заложить).

А еще в продукте операционные косты и косты на маркетинг 🤓

А маркетинг штука недешевая
И вот приходит PO в панике:

“Деньги на маркетинг в песок уходят, приходят заявки, но по 80% приходит отказ от провайдера скоринга (причину в ответе не сообщают — просто refuse). Скоринг мы закупаем у внешнего поставщика — потенциальный клиент заполняет паспортные данные и телефон, через API от поставщика получаем решение — отказ или аппрув (даже не скорбалл и не PD !!!). Cделайте быстренько свою скоринговую модель чтобы отказов было в разы меньше. Вот прям щаз!!!!”

🤡🐓😱

Задачка на арифметику (числа относительно условные) – если тысяча показов баннера стоит в среднем 30 рублей, конверсия в клик 0.3%, а в покупку 1% от кликов, сколько стоит один лид?

1000 рублей. Со ста тысяч показов (3 000 рублей) будет 300 кликов и 3 покупки.
На тысяч лидов нужен миллион рублей рекламы

Начинаю разбираться, и понимаю что аналитика в продукте нет.
Почему?

Да потому что ФЛК нет
ФЛК – это формат-логический контроль – то есть проверки на поля формы.
Например, что в поле с типом date нельзя строку вписать.
Для ДУЛ (документ, удостоверяющий личность) эти проверки легко гуглятся

Итак, что же собрали за первую тысячу заявок:
▪️Имя и отчество в поле “имя” (вроде Егор Егорович)
▪️Не сходится контрольная сумма паспорта
▪️Паспорт выдан в день рождения – например, BirthDate 1954-06-13 и IssueDate 1999-06-13 – такой паспорт считается недействительным
▪️В поле “фамилия” указан телефон или “5рапр”
▪️Несуществующий номер телефона
▪️Орган, выдавший паспорт гражданина РФ (тип документа) – “Мвд”, “ЕАС”, “ТП 16”
▪️Дата выдачи и дата рождения – одна и та же дата
▪️Латиница в ФИО в общегражданском паспорте (Vasiliy, Ruslan,etc)
▪️Серия паспорта 9876, остальные поля заполнены нормально
▪️Число вместо имени
▪️и всякое нецензурное 🤡

Как мог бы выглядеть процесс, если бы не сэкономили на консультации кредитчика (хотя бы знакомому пивка бы поставили):

1. Верификация ДУЛ и полей ввода (ФЛК)
2.Проверка в стоп-листах (террористы, обнальщики, судимость и пр.)
3. Модели определения мошеннических заявок
4. Модели вероятности дефолта (PD), размера убытка – Loss Given Default (LGD) – предмет все же можно изъять при неплатеже, и Residual Value Prediction (RVP) – цена будет зависеть и от износа и от рыночных условий
5. Проверка на открытые дела о банкротстве ФЛ
6. Данные по кредитной нагрузке и просрочкам (бюро кредитных историй)
7. Определение предельной долговой нагрузки
8. Вычисление EL (expected losses)=PD*LGD*EAD
9. Сравнение EL + Costs vs Profit
10.Политики управления портфелем, кредитной нагрузкой, графиком погашения, мониторинг портфеля и пр

Вот уж MVP так MVP 😆
И не стоит бросаться делать модель если ломается совсем в другом месте

👍17❤6🔥5💯2🦄1

2.15K viewsedited 10:11

Дата канальи — про «специалистов» в данных / ML / AI

#ML

Чем мне нравится преподавать на физтехе и в вышке — студенты могут задать вопрос, на который сходу и не ответишь.

Вот и сегодня c семинара по рекомендашкам я ушел с домашним заданием —

«есть ли теоретические предпосылки к тому что оптимизируя BCE мы растим nDCG?»

При том что рассказать про связь BCE с ROCAUC, Precision и Recall проблем не составило, здесь я задумался.

Сначала сделаю оговорку, что можно оптимизировать сразу аппроксимацию nDCG:

ApproxNDCG
NeuralNDCG

Для торча оба лосса есть в allRank
Для любителей TF

Итак, ответ на вопрос студента в этой статье с NIPS 2009 года

В уравнении (2) pointwise loss чуть в более общем виде написан, но сразу после формулы указано что функцией ф может быть и сигмоида (что и приводит нас к BCE), а далее несколько страниц доказательства связи минимизации лоссов с максимизацией ранжирующих метрик (для примера в статье взяли MAP и nDCG) -- ровно то что нужно!.

Приятного вечернего чтения!
Под формулы так хорошо засыпается 😴

🔥26👍9❤5🤓3🦄1

2.7K viewsedited 19:59

About

Blog

Apps

Platform