Блог о Data Science 💻
4.17K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
Сегодня поспрашивал ребят, которые победили в контесте ML в ИТМО, все очень заряженные, очень крутые проекты. Сильно вдохновился от их проектов, даже немного депрессия от услышанного, не ожидал, что у некоторых настолько крутые проекты будут!)

Но очень заряжает, последнее время чувствовал себя как разряженная батарейка, как будто не в своей тарелке и тд. Меня всегда мотивировало сильное окружение, сейчас это стало проблемой. Да и хакатонов нет нормальных, жду их 🙈.

Сейчас в поиске крутых пет-проектов, дипломных работ. Хочется что-то комплексное, сложное и крутое...Какой нибудь матчинг, вся проблема в том что бы достать такие данные... Вы когда то сталкивались с такими проблемами? Есть идеи как решить?🤔
😢5
Какая же прекрасная книга, несмотря на то, что она на англ, там прекрасные иллюстрации по вышмату в мл.

Особенно мне понравилось раздел с GMM моделью, но я пока не вчитывался)
Наткнулся на небольшой набор задачек по программированию под CUDA.

Задачки представляет собой попытку научить начинающих программировать GPU полностью интерактивным способом.

В упражнениях используется NUMBA, которая работает с ядрами CUDA и в основном идентичен написанию низкоуровневого кода CUDA.

Думаю, что за несколько часов вы сможете перейти от основ к пониманию реальных алгоритмов, на которых сегодня основано 99% глубокого обучения.


Ссылка на github: https://github.com/srush/GPU-Puzzles
3
Forwarded from Записки Ппилифа (Ppilif Uliankin)
Мой друг Леша Царёв принес к нам в канал новость недели:

Брюс Хансен всё-таки дописал свои учебники по Теории вероятностей и статистике для экономистов, а также по Эконометрике. По моему мнению, это лучшие книги продвинутого уровня для изучения этой части науки о данных. Во-первых, потому что они достаточно глубокие и дотошные. Во-вторых, потому что Хансен хорошо и понятно пишет. И в-третьих, электронный формат не ограничивает автора и позволяет достигнуть бОльшей гибкости в плане эмпирических примеров, данных и кода.

В общем, как я уже сказал, отличная новость под конец недели!

P.S. Добавлю от себя, что это именно тот Хансен, который доказал, что из ТГМ можно выбросить одно из условий 🙂
1
Гут шабес.
Как говорится, хороший праздник можно праздновать не один день😉😉, поэтому сегодня как всегда скромный подгон моим любимым подписчикам: сливаю курсы VK made😎😎

Лекции по ссылке: Алгоритмы, ML, Компьютерное зрение, Методы Оптимизации, Дизайн эксперимента.
Решение на гитхабе.

Единственное, меня поражает: почему никто из организаторов не выложил их в открытый доступ?? Неужели не хотят позориться?? Вот он капитализм: человек человеку (((VK group)))!! Держу в курсе, что у Яндекса, Тиньки и прочих помоек полно качественных курсов для (((сотрудников))) или же просто базы данных с теми же проведенными AB-тестами, кодом и тд. Представьте, как ускорилось бы ваше обучение на реальных примерах. В общем, если будет много шэров и лайков, ломаю БД Яндекса😍😍
Также смотрим разбор варианта прошлого года, где сказано, как бороться с этой ужасной системой.
🔥191
Forwarded from Reliable ML
Подборка полезных материалов по ML System Design

- Круглый стол про ML System Design секции Reliable ML 2022 г. Подойдет для знакомства с темой. Обсуждение о том, что такое ML System Design, как его структурировать и применять. Для знакомства с темой также хорошо подойдет вот эта статья и вот эта.

- Конспекты лекций Стенфорда – курс CS 329S: Machine Learning Systems Design. Самые лучшие материалы для основательного изучения дисциплины. Структурированный разбор материалов: от паттернов ресерча до деплоя моделей. Для каждой темы есть текстовые записи лекций, слайды, ссылки на полезные материалы.

- Небольшая, хорошо структурированная и, что важно, краткая электронная книга в открытом доступе от одного из преподавателей Стенфордского курса Chip Huyen - ML Systems Design (собрана из статей автора в блоге). Если хочется для начала получить представление о книге и вообще о месте ML System Design в мире DS/ML можно сначала посмотреть это видео от Chip Huyen. Кроме того, в 2022 г. Chip Huyen опубликовала книгу Designing Machine Learning Systems как расширенную и дополненную версию статей своего блога.

Chip Huyen - один из авторов, внесших наибольший вклад в развитие ML System Design как дисциплины, как можно увидеть по подборке материалов. Кроме того, она является одним из самых популярных въетнамских художественных писаталей в жанре creative non-fiction. Списки книг можно увидеть на ее персональном сайте.

- Книга Machine Learning Design Patterns. Отличные обзоры книги есть у: тг-канала Варим МЛ и на towards data science. Книга хорошо подойдет для начинающих дата саентистов и МЛ-инженеров, кто хочет структурировать информацию о паттернах дизайна систем машинного обучения.

- Grokking the Machine Learning Interview. Уроки по ML System Design на стандартных примерах: Search Ranking, Feed Based System, Recommendation System, Self-Driving Car, Entity Linking System, Ad Prediction System. Платно. Есть акцент на system design вопросах (про system design дальше сделаем отдельную подборку).

- Серия видео от Валеры Бабушкина по ML System Design собеседованиям. В них подробно разбираются дизайны МЛ-систем для: ранжирования рекламы в новостной ленте соцсети, ценообразования и матчинга в маркетплейсе.

- Miro-доска от Богдана Печёнкина (X5, AliExpress, KazanExpress) с примерами ML дизайна различных систем: динамическое ценообразование, матчинг, антифрод, рекомендашки, ранжирование рекламы. Доска постоянно дорабатывается и пополняется. Рекомендуем также видео, где Богдан рассказывает про дизайн ML ценообразования на маркетплейсе.

Материалы, которых все очень ждут:

- Материалы курса Дмитрия Колодезева по ML System Design (2022)
- Книга от Валерия Бабушкина и Арсения Кравченко Principles of ML Design (2023)

Как выйдут – обязательно опубликуем ссылки!

#tech #ml_system_design
🔥9😢1
Нас уже 500🎉

скоро кое что выпущу, но пока я болею
🔥14
А/B тесты
Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼
Если нужно подтянуть матстат к ним, ниже подборка и для этого 😎
1. Практическое введение в А/B тесты
link
2. Проблема подглядываний
link
3.1. Размер выборки
link
3.2. Вокшоп от Глеба Михайлова 
(там, много ошибок и в целом чел кринжовый, но для понимания как оценить размер выборки и тд и тп кайф)
link [part 1] link [part 2] link [part 3] link [part 4] link [part 5]
4. Cuped
link
5. Cuped Геометрическая интерпретация
link
6. Улучшение А/B тестов
link
7. Бутстрап
link
8. Бутстрап 2
link
9. Когда остановить A/B тест
link
10. Воркшоп A/B
link
11. про A/B тесты от Саши Сахнова
link
12. Еще чуть чуть про A/B тесты
link
13. Танцы с бубнами и A/B тесты
link

Вспоминаем Матстат
1. Курс от ВШЭ, Подтягиваем основы
link
2. CSC, закрепляем познания, more extended then the previous one
link
3. А/B тесты с Филом, ускоренное погружение на практике
link
4. Теория и практика онлайн экспериментов ВШЭ
link

Cheet Sheets:
1.
VKGROUP
2.
random github cs
3.
Tradeoff I type error and II type error
37🔥26🎉1🐳1
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
Upd
Если вам не хватило этого, есть подборка, которой поделился @uberkinder, эксклюзивная подборка Валеры Бабушкина 👽

link
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
🔥72
Как тестировать рекомендательные системы

Под одним из прошлых постов было много вопросов о тестировании рек систем: как не выкатить на прод рекомендации в обратном порядке, например)

Я на практике использовал такие тесты:

1. Полнота данных
70% ошибок максимально глупые: упала база и не залились данные. Сменился год с 21 на 22 и у вас полетела часть запросов
Решается обычным assert-ом на кол-во строк, уникальных дат/юзеров/товаров

2. Качество фичей
Есть тысяча статей про distribution shift, детекцию выбросов и т.д., но обычно проблемы куда проще. Использовать np.mean вместо np.nanmean и получить 90% NaN в фиче? Иметь средние чеки в 1млрд руб, хотя реальные чеки до 5-10к? Вот с чем стоит побороться в первую очередь!
Решается также обычным assert-ом

3. ML и бизнес метрики
Assert-ы на ml метрики на тестовой выборке. Если позволяет инфра, то каждое переобучение модели сопровождать мини-АВ

4. Бизнес-адекватность
У 70% пользователей в топе рекомендаций рестораны с рейтингом < 3.0? Популярные товары не в топе? Тоже стоит с этим побороться

Лучше классическими автотестами на real-time / батчевых запросах к модели

Обычно хватает ~1к запросов и базовой логики с теми же assert-ами

5. Смотреть глазами
Никто не любит это делать, но потратьте 3 минуты своего времени и посмотрите рекомендации модели для себя и своего соседа на адекватность перед выкаткой. Это спасет вам много времени и денег 😅
🔥3
Рефлексия по поводу AMEX
Прошёл сорев от american express, с прогнозированием дефолта.

Плюсы сорева
× Познакомился с @yk4r2 и его классным каналом @train_test_split
× Много интересного FE, интересные решения от топов с seqformer и denoise autoencoder
(которые мы тоже собирались использовать)
× Много данных, которые сложно загрузить в 16 гигов озу, приходится оптимизировать

Минусы
× Составители сорева brainded'ы - 50% лидерборда было с метрикой 0.799
× При том что пол паблика, где челы просто брали паблик решения и чужие сабмиты, баланс lb pb 7:3 и pb был чище чем lb (то есть чел который взял паблик решения и сблендил мог победить у челов который все три месяца с нуля как не в себя работали и по фактам у них модель робастнее, ну как эмммм... Кегль вы обещали год назад, что таких соревов не будет)

Есть над чем работать, буду разбираться с seq Transformer и denoise autoencoder. 😏

Почти закончил ноут с A/B тестами, думаю к след неделе выйдет 😎
🔥72
666 подписчиков 🙈
🔥21😢2
Ноут по A/B задержится, прохожу тестовое кое куда 👀
2
Forwarded from NoML Digest (Pavel Snurnitsyn)
База по А/Б. Лайт версия

В честь Дня Знаний (и для тех, кто сегодня пошёл в первый класс😀) подборка с базовыми статьями по А/Б тестам:

📌 How Not To Run an A/B Test (2010) - хорошая старая статья про проблему подглядывания.

📌 Five ways to reduce variance in A/B testing (2021) - в блоге Marton Trencseni короткие интересные заметки. В основном они не про А/Б, например, прикидка на коленке с питоном правдива ли фраза "Over 70% of all Porsche vehicles ever built are still on the road today" (спойлер: да, похоже на правду).

📌 Множественные эксперименты: теория и практика (2019) - короткая и простая статья от Яндекса о том, как работают поправки с примерами кода.
10🔥5
Всем привет!👋🏻 Поздравляю всех учащихся с началом нового учебного года и желаю всем терпения!🎓

Хочу рассказать про небольшие изменения🔧, вот небольшой список того о чем будет в этом посте!
* Сменил место работы
* Диплом
* Про ноут по А/Б тестам и другие
* Новый формат

Сменил место работы
Я работал в лаборатории прикладного моделирования РЭУ им. Плеханова над достаточно интересной сферой reinforcement learning. Возможно я не состыковался интересами или неполностью смог реализовать там, было просто ощущение что я не в своей тарелке. В целом работу в науке несколько отличается от обычной, нет четких дедлайнов и системности.

Последние несколько месяцев меня интересует тема ранжирования и в начале августа меня позвали на собес в Яндекс.Маркет🎁, в целом у меня положительные ощущения как от компании, так и от собеса.
Нет, я не прошёл в маркет.

После собеса я начал потихоньку разбираться с дырками и начал с А/B тестов и бустингов. В это время познакомился с ребятами из Карпов.Курсес, некоторые из них немного поменяли взгляд на приобретение информации. ⚙️

Часто сижу там в чате и помогаю ребятам, на что мне написали почему бы мне не устроиться к ним🪄. Прошел собес, теперь еще больше понял насколько много я не знаю :). Собес был кстати достаточно долгий, но охватил много моих дырок в знаниях.

Я кстати сделал миро доску которую разделил по разделам, по темам и сабтемам. Советую всем сделать так же, еще взял на заметку читать статейки📄, буду стараться раз в ~день-два что-то читать пока еду в метро.

Теперь посты скорее всего будут редко, не хочу что бы информация с курсов конфликтовала с моей, так что велком на Симулятор МЛ!

Про диплом 👨🏼‍🎓
Выбираю тему для диплома, хочу ранжирования или предсказывания рынка труда, но пока не знаю. Можете накидать свои идеи, а так же магистратуры. Пока рассматриваю ИТМО, хочется бви все таки и не супер душные вузы типо мфти, что бы work-study-life-nobalance был 🧘🏼.

Про ноут по А/Б тестам и другие 💻
Сделал ноут по А/Б тестам, сыроват, буду дополнять по возможности, но скорее всего она будет очень редко. Пока что подзабью на кегль немного в сторону магистратуры и работы, но обещаю вернуться ближе к зиме.🏅
ноут по А/Б тестам

Новый формат постов 🖼
Некоторые посты ушли, но теперь будут другие, у меня есть проект по сбору инфы с определенных сайтов по трудоустройству, раз в месяц я буду скидывать вам аналитику по вакансиям📈 (не обещаю, но постараюсь).

Так же хочу теперь делать посты в формате пересказа научных статей📰, пока смотрю в сторону А/B и ранжирования опять же. Не каждый день, но какие то интересные сделаю, уже есть одна прикольная статейка от sber ai.
17🔥6
Хочу поделиться с вами вот таким видосиком, а ещё там в описании ссылоки выложили по которым можно подготовиться!)
https://youtu.be/Ec6EYbcF50k
10🔥2
Решил сделать опросик про ИИ💻, стало интересно посмотреть результаты среди около DS

ВЦИОМ🤦🏻‍♂️ какую то странную аналитику сделал, чуть ли не половина россиян готовы стать MLE уже завтра🎓 и вообще ИИ всему голова))

Если хотя бы каждый 5ый пройдет, будет что-то годное, скину резы потом)

Upd: немного косякнул с вопросами

Из интересного, больше 50% не удовлетворены экологией!

https://forms.gle/fUcHmfrQYGeN3hzk8
3
image_2022-09-16_13-20-38.png
16 KB
Ищите меня в интернетах
получил инвайт в матрикс ODS 😎✌🏻
🔥15
А че у нас на рынке то?
https://telegra.ph/Sentyabr-Data-Science-09-26

Да пикча просто идеальная я знаю😎

#аченарынкето #сен
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥253🐳1
Писал экзы

Завтра пост 👌
🔥11🐳3❤‍🔥1