А как насчет различных методов оптимизации для подбора гиперпараметров?
( я не про grid search и optuna, что-то более оригинальное)
( я не про grid search и optuna, что-то более оригинальное)
Final Results
96%
Just do it and take my money👍🏻
4%
it sucks👎🏻
Краткие план по этим двум постам
Временные ряды
1. Про временные ряды в целом и общие понятия, которые будем рассматривать.
2. Линейные модели ARIMA (autoTS)
3. Нелинейные модели CatBoost
4. PyCaret
5. Prophet
6. Трансфорсеры в TSS
Оптимизации подбора гиперпараметров
1. Свой собственный гридсерч, но умнее (based on Ambrosm)
2. Генетический алгоритм
3. Эволюционный алгоритм
4. Многорукие бандиты
5. Reinforcement learning ( если получиться )
Если есть идея, что добавить, пишите посмотрю ваши варианты
Кстати говоря все эти алгоритмы оптимизации лучше подходят для пайплайнов чем тот же гридсерч и оптуна (на мой взгляд), которые запускаются одноразово и по сути вам достаточно внести еще один параметр состояния и с его изменением будет запускать оптимизация и будет бесконечный цикл ее оптимизации)
Но они более трудоемкие
Временные ряды
1. Про временные ряды в целом и общие понятия, которые будем рассматривать.
2. Линейные модели ARIMA (autoTS)
3. Нелинейные модели CatBoost
4. PyCaret
5. Prophet
6. Трансфорсеры в TSS
Оптимизации подбора гиперпараметров
1. Свой собственный гридсерч, но умнее (based on Ambrosm)
2. Генетический алгоритм
3. Эволюционный алгоритм
4. Многорукие бандиты
5. Reinforcement learning ( если получиться )
Если есть идея, что добавить, пишите посмотрю ваши варианты
Кстати говоря все эти алгоритмы оптимизации лучше подходят для пайплайнов чем тот же гридсерч и оптуна (на мой взгляд), которые запускаются одноразово и по сути вам достаточно внести еще один параметр состояния и с его изменением будет запускать оптимизация и будет бесконечный цикл ее оптимизации)
Но они более трудоемкие
🔥10
image_2022-07-09_22-01-06.png
29.9 KB
Для тех кто интересовался RL, сделаю минианонс
Недавно делал preprint, сейчас уже делаются заключительные работы. Пока что она работало так 1 раз обучил 1 раз применил. А щас 1 раз обучил n раз применил.
Щас работаю над тем что бы можно было бы дообучать (главная задача при которой рисерч будет являться успехом)
PS можно сделать точнее, инференс ~ в 20 раз быстрее чем GA
Но обучение RL достаточно долгое, но не слишком требовательное. (+ у меня распределяется на 12ядер i7)
При желании можно ускорить на плюсах и GPU, RAPID
Возможно выложу чуть раньше в середине августа (постараюсь как можно раньше)
Недавно делал preprint, сейчас уже делаются заключительные работы. Пока что она работало так 1 раз обучил 1 раз применил. А щас 1 раз обучил n раз применил.
Щас работаю над тем что бы можно было бы дообучать (главная задача при которой рисерч будет являться успехом)
PS можно сделать точнее, инференс ~ в 20 раз быстрее чем GA
Но обучение RL достаточно долгое, но не слишком требовательное. (+ у меня распределяется на 12ядер i7)
При желании можно ускорить на плюсах и GPU, RAPID
Возможно выложу чуть раньше в середине августа (постараюсь как можно раньше)
🔥7
Forwarded from Машинное обучение RU
🎓 Глубокое погружение в ROC-AU
Я думаю, что большинство людей слышали о ROC-кривой или о AUC (площади под кривой) раньше. Особенно те, кто интересуется наукой о данных. Однако, что такое ROC-кривая и почему площадь под этой кривой является хорошей метрикой для оценки модели классификации?
Теория ROC-кривой
Полное название ROC — Receiver Operating Characteristic (рабочая характеристика приёмника). Впервые она была создана для использования радиолокационного обнаружения сигналов во время Второй мировой войны. США использовали ROC для повышения точности обнаружения японских самолетов с помощью радара. Поэтому ее называют рабочей характеристикой приемника.
AUC или area under curve — это просто площадь под кривой ROC. Прежде чем мы перейдем к тому, что такое ROC-кривая, нужно вспомнить, что такое матрица ошибок.
Читать дальше
@machinelearning_ru
Я думаю, что большинство людей слышали о ROC-кривой или о AUC (площади под кривой) раньше. Особенно те, кто интересуется наукой о данных. Однако, что такое ROC-кривая и почему площадь под этой кривой является хорошей метрикой для оценки модели классификации?
Теория ROC-кривой
Полное название ROC — Receiver Operating Characteristic (рабочая характеристика приёмника). Впервые она была создана для использования радиолокационного обнаружения сигналов во время Второй мировой войны. США использовали ROC для повышения точности обнаружения японских самолетов с помощью радара. Поэтому ее называют рабочей характеристикой приемника.
AUC или area under curve — это просто площадь под кривой ROC. Прежде чем мы перейдем к тому, что такое ROC-кривая, нужно вспомнить, что такое матрица ошибок.
Читать дальше
@machinelearning_ru
❤6
Forwarded from Поступашки - ШАД, Стажировки и Магистратура
#How_to_заботать
How to заботать собеседование на jun product-аналитика?
Уже не для кого не секрет, что из-за весны 2020 (пандемия) и 24-го февраля отечественные компании остро ощущают нехватку кадров. Джунов набирают тупо с улицы, а на Teamlead позицию ставят без внятного опыта работы. Такая "коррекция кадров" привела к тому, что стажер в другом финтехе спокойно залетает на Middle😳😳 В общем лучшего времени, чтобы начать карьеру может и не быть, а наименее требовательная по background область: конечно же product-аналитика. Отличный вариант для тех, у кого не срослись отношения с "программированием", но способны сложить 2 + 2. И недурное начало пути, если интересно попробовать себя в будущем как Data Scientist или Quantitative researcher🤓🤓. Могу заверить, что если ваша мама не употребляла алкоголь во время беременности, то у вас все получится, а подборка следующих материалов вам в этом поможет😎😎
Все книжки в комментариях, там же делимся любимыми материалами.
SQL
В принципе только это и стоит спрашивать джунов, ибо, похоже, ничем более они и не занимаются..
1. Интерактивный tutorial.
Кратенько ознакомитесь с возможностями sql и поймете о чем это вообще
2. Тренажер на stepik.
Хорошее продолжение, но дальше второго модуля точно не стоит смотреть. Также можете пропустить создания, удаление таблиц и прочее-прочее, спрашивать такое не будут, а при нужде загляните в документацию.
3. SQL ex
Куча упражнений с теорией, есть даже оконки
4. Документация PostgreSQL
Скорее всего, он и будет
5. Статьи про оконные функции
Джунов особо не спрашивают, скорее тема middle+, да и те на деле ими разве что строки нумеруют.
Статья_1 и Статья_2
Математическая Статистика
1. Курсы Карпова на stepik
Все на пальцах, но другого с вас на собесе и не спросят
Часть1, Часть2, Часть3
2. StatQuest
Дополнение к Карпову
3. "Практическая статистика для специалистов Data Science" Питер и Эндрю Брюс.
Недурно раскрыты важнейшие статистические понятия на куче примеров
4. "Теория вероятностей и математическая статистика" Л. Н. Фадеева, А. В. Лебедев.
Стандартный курс математической статистики для экономистов дополнит представления, полученные выше, в терминах теории вероятностей.
5. AB-тесты
Главное, что спросят на собесе. Смотрите How to заботать AB тесты
Cтатистика на python
1. Tutorial по python
Знакомит со всеми основными возможностями языка, нужными в работе. Если видите в первый раз, то там же можно и порешать задачки.
2. Numpy, Pandas, Matplotlib
1) Cтавим Jupyter Notebook
Вообще дедовский метод: освоить это все в процессе курса по статистическому практикум, скачать какой Data set с Kaggle и дрочить его, читая документацию. Но если очень охото можете посмотреть tutorialы для дебилов
1) Если знаем english, то смотрим freecodecamp:
https://www.youtube.com/watch?v=QUT1VHiLmmI&t=162.. – Numpy
https://www.youtube.com/watch?v=3Xc3CA655Y4&t=16s.. –Matplotlib
https://www.youtube.com/watch?v=vmEHCJofslg&t=151.. – Pandas
В целом канал очень крутой, куча всего классного по проге и мл.
2) Курс Хирьянова по анализу данных в МГУ (лекции 7,8,9,10, ноутбуки с кодом прилагаются на сосайте).
3. Курс по статистическому практикуму (notebook zip в комментах)
Много всего интересного: от библиотек до регрессий. Самое важно для собеса: научиться проверять гипотезы на независимых и парных выборках.
Продуктовое понимание
Здесь спрашивают представляете ли вы вообще, чем придется заниматься и как используется все вышеперечисленное.
1. Курс Тинькофф по аналитике
Темы разобраны поверхностно, но кратенько обобщит и структурирует все изученное на продуктовых примерах (notebook zip в комментах)
2. Наш файлик с основными метриками
3. ШМЯ
Здесь смотрим не раскрытые темы, смотреть полностью будет too mach
How to заботать собеседование на jun product-аналитика?
Уже не для кого не секрет, что из-за весны 2020 (пандемия) и 24-го февраля отечественные компании остро ощущают нехватку кадров. Джунов набирают тупо с улицы, а на Teamlead позицию ставят без внятного опыта работы. Такая "коррекция кадров" привела к тому, что стажер в другом финтехе спокойно залетает на Middle😳😳 В общем лучшего времени, чтобы начать карьеру может и не быть, а наименее требовательная по background область: конечно же product-аналитика. Отличный вариант для тех, у кого не срослись отношения с "программированием", но способны сложить 2 + 2. И недурное начало пути, если интересно попробовать себя в будущем как Data Scientist или Quantitative researcher🤓🤓. Могу заверить, что если ваша мама не употребляла алкоголь во время беременности, то у вас все получится, а подборка следующих материалов вам в этом поможет😎😎
Все книжки в комментариях, там же делимся любимыми материалами.
SQL
В принципе только это и стоит спрашивать джунов, ибо, похоже, ничем более они и не занимаются..
1. Интерактивный tutorial.
Кратенько ознакомитесь с возможностями sql и поймете о чем это вообще
2. Тренажер на stepik.
Хорошее продолжение, но дальше второго модуля точно не стоит смотреть. Также можете пропустить создания, удаление таблиц и прочее-прочее, спрашивать такое не будут, а при нужде загляните в документацию.
3. SQL ex
Куча упражнений с теорией, есть даже оконки
4. Документация PostgreSQL
Скорее всего, он и будет
5. Статьи про оконные функции
Джунов особо не спрашивают, скорее тема middle+, да и те на деле ими разве что строки нумеруют.
Статья_1 и Статья_2
Математическая Статистика
1. Курсы Карпова на stepik
Все на пальцах, но другого с вас на собесе и не спросят
Часть1, Часть2, Часть3
2. StatQuest
Дополнение к Карпову
3. "Практическая статистика для специалистов Data Science" Питер и Эндрю Брюс.
Недурно раскрыты важнейшие статистические понятия на куче примеров
4. "Теория вероятностей и математическая статистика" Л. Н. Фадеева, А. В. Лебедев.
Стандартный курс математической статистики для экономистов дополнит представления, полученные выше, в терминах теории вероятностей.
5. AB-тесты
Главное, что спросят на собесе. Смотрите How to заботать AB тесты
Cтатистика на python
1. Tutorial по python
Знакомит со всеми основными возможностями языка, нужными в работе. Если видите в первый раз, то там же можно и порешать задачки.
2. Numpy, Pandas, Matplotlib
1) Cтавим Jupyter Notebook
Вообще дедовский метод: освоить это все в процессе курса по статистическому практикум, скачать какой Data set с Kaggle и дрочить его, читая документацию. Но если очень охото можете посмотреть tutorialы для дебилов
1) Если знаем english, то смотрим freecodecamp:
https://www.youtube.com/watch?v=QUT1VHiLmmI&t=162.. – Numpy
https://www.youtube.com/watch?v=3Xc3CA655Y4&t=16s.. –Matplotlib
https://www.youtube.com/watch?v=vmEHCJofslg&t=151.. – Pandas
В целом канал очень крутой, куча всего классного по проге и мл.
2) Курс Хирьянова по анализу данных в МГУ (лекции 7,8,9,10, ноутбуки с кодом прилагаются на сосайте).
3. Курс по статистическому практикуму (notebook zip в комментах)
Много всего интересного: от библиотек до регрессий. Самое важно для собеса: научиться проверять гипотезы на независимых и парных выборках.
Продуктовое понимание
Здесь спрашивают представляете ли вы вообще, чем придется заниматься и как используется все вышеперечисленное.
1. Курс Тинькофф по аналитике
Темы разобраны поверхностно, но кратенько обобщит и структурирует все изученное на продуктовых примерах (notebook zip в комментах)
2. Наш файлик с основными метриками
3. ШМЯ
Здесь смотрим не раскрытые темы, смотреть полностью будет too mach
🔥4
Для любителей челленджей, если не знаете чем себя занять или просто хочется отвлечься, даже если вы просто хотите изучить питон. То можно начать с этого!
Глеб Михайлов, наверное, лучший кто может дать вам необычную подачу материала. Можно смотреть на три вещи бесконечно, как горит огонь, как течёт вода и как Глеб решает литкод!
Так же советую другие его видосы, особенно по вышмату для ДС, незамысловато, без углублений, только best practice.
https://youtu.be/Pp84Sv041xA
Глеб Михайлов, наверное, лучший кто может дать вам необычную подачу материала. Можно смотреть на три вещи бесконечно, как горит огонь, как течёт вода и как Глеб решает литкод!
Так же советую другие его видосы, особенно по вышмату для ДС, незамысловато, без углублений, только best practice.
https://youtu.be/Pp84Sv041xA
YouTube
LeetCode Марафон Easy (100 задач)
Записывайся на мой курс по алгоритмам: https://leopard.school/l/algorithms
Телеграмм: https://t.iss.one/mikhaylovgleb
Донат: https://www.donationalerts.com/r/glebmikh
Список задач: https://docs.google.com/spreadsheets/d/1dL-2ErGcCtjE_MgKPqJtDTX2OiA70O3n9gArd…
Телеграмм: https://t.iss.one/mikhaylovgleb
Донат: https://www.donationalerts.com/r/glebmikh
Список задач: https://docs.google.com/spreadsheets/d/1dL-2ErGcCtjE_MgKPqJtDTX2OiA70O3n9gArd…
🔥6
Пока я пишу пост, про временные ряды, хочу вам дать посмотреть две мои работы. Желательно лайк на них поставить, конечно.👀
Первый раз, когда я с ними познакомился, даже не знал как и что работает🙄, но все равно. Тут, конечно, все очень плохо и ужасно, но посмотреть можно 😄
https://www.kaggle.com/code/kartushovdanil/tps-jan-22-eda-atboost-prophet
А вот одна из последних 😎
https://www.kaggle.com/code/kartushovdanil/baseline-amex-catboost-blending-wandb
На что я бы хотел обратить внимание, что в целом, структура не сильно поменялась. Но если вы будете смотреть на детали. То можно заметить, что код и в целом понимание работы с данными прокачивается. Что отличает эти две работы это детали и внимание к коду, к оптимизации, к целям и осознанности с какими данными ты работаешь.
Первый раз, когда я с ними познакомился, даже не знал как и что работает🙄, но все равно. Тут, конечно, все очень плохо и ужасно, но посмотреть можно 😄
https://www.kaggle.com/code/kartushovdanil/tps-jan-22-eda-atboost-prophet
А вот одна из последних 😎
https://www.kaggle.com/code/kartushovdanil/baseline-amex-catboost-blending-wandb
На что я бы хотел обратить внимание, что в целом, структура не сильно поменялась. Но если вы будете смотреть на детали. То можно заметить, что код и в целом понимание работы с данными прокачивается. Что отличает эти две работы это детали и внимание к коду, к оптимизации, к целям и осознанности с какими данными ты работаешь.
🔥15
image_2022-07-18_18-15-49.png
130 KB
Пока по 60 лайков не будет на тех постах, ниче не выпущу 😬🥺🙉
Будем крипту прогнозировать🤸🏻♀️
Вот вам графики новые спойлерну, красивые (Это к гайду по временным рядам, которые я терпеть не могу, но что не сделаешь ради подписчиков)👀
Будем крипту прогнозировать🤸🏻♀️
Вот вам графики новые спойлерну, красивые (Это к гайду по временным рядам, которые я терпеть не могу, но что не сделаешь ради подписчиков)👀
❤19
Сегодня поспрашивал ребят, которые победили в контесте ML в ИТМО, все очень заряженные, очень крутые проекты. Сильно вдохновился от их проектов, даже немного депрессия от услышанного, не ожидал, что у некоторых настолько крутые проекты будут!)
Но очень заряжает, последнее время чувствовал себя как разряженная батарейка, как будто не в своей тарелке и тд. Меня всегда мотивировало сильное окружение, сейчас это стало проблемой. Да и хакатонов нет нормальных, жду их 🙈.
Сейчас в поиске крутых пет-проектов, дипломных работ. Хочется что-то комплексное, сложное и крутое...Какой нибудь матчинг, вся проблема в том что бы достать такие данные... Вы когда то сталкивались с такими проблемами? Есть идеи как решить?🤔
Но очень заряжает, последнее время чувствовал себя как разряженная батарейка, как будто не в своей тарелке и тд. Меня всегда мотивировало сильное окружение, сейчас это стало проблемой. Да и хакатонов нет нормальных, жду их 🙈.
Сейчас в поиске крутых пет-проектов, дипломных работ. Хочется что-то комплексное, сложное и крутое...Какой нибудь матчинг, вся проблема в том что бы достать такие данные... Вы когда то сталкивались с такими проблемами? Есть идеи как решить?🤔
😢5
Какая же прекрасная книга, несмотря на то, что она на англ, там прекрасные иллюстрации по вышмату в мл.
Особенно мне понравилось раздел с GMM моделью, но я пока не вчитывался)
Особенно мне понравилось раздел с GMM моделью, но я пока не вчитывался)
Forwarded from Пристанище Дата Сайентиста
Наткнулся на небольшой набор задачек по программированию под CUDA.
Задачки представляет собой попытку научить начинающих программировать GPU полностью интерактивным способом.
В упражнениях используется NUMBA, которая работает с ядрами CUDA и в основном идентичен написанию низкоуровневого кода CUDA.
Думаю, что за несколько часов вы сможете перейти от основ к пониманию реальных алгоритмов, на которых сегодня основано 99% глубокого обучения.
Ссылка на github: https://github.com/srush/GPU-Puzzles
Задачки представляет собой попытку научить начинающих программировать GPU полностью интерактивным способом.
В упражнениях используется NUMBA, которая работает с ядрами CUDA и в основном идентичен написанию низкоуровневого кода CUDA.
Думаю, что за несколько часов вы сможете перейти от основ к пониманию реальных алгоритмов, на которых сегодня основано 99% глубокого обучения.
Ссылка на github: https://github.com/srush/GPU-Puzzles
GitHub
GitHub - srush/GPU-Puzzles: Solve puzzles. Learn CUDA.
Solve puzzles. Learn CUDA. Contribute to srush/GPU-Puzzles development by creating an account on GitHub.
❤3
Forwarded from Записки Ппилифа (Ppilif Uliankin)
Мой друг Леша Царёв принес к нам в канал новость недели:
Брюс Хансен всё-таки дописал свои учебники по Теории вероятностей и статистике для экономистов, а также по Эконометрике. По моему мнению, это лучшие книги продвинутого уровня для изучения этой части науки о данных. Во-первых, потому что они достаточно глубокие и дотошные. Во-вторых, потому что Хансен хорошо и понятно пишет. И в-третьих, электронный формат не ограничивает автора и позволяет достигнуть бОльшей гибкости в плане эмпирических примеров, данных и кода.
В общем, как я уже сказал, отличная новость под конец недели!
P.S. Добавлю от себя, что это именно тот Хансен, который доказал, что из ТГМ можно выбросить одно из условий 🙂
Брюс Хансен всё-таки дописал свои учебники по Теории вероятностей и статистике для экономистов, а также по Эконометрике. По моему мнению, это лучшие книги продвинутого уровня для изучения этой части науки о данных. Во-первых, потому что они достаточно глубокие и дотошные. Во-вторых, потому что Хансен хорошо и понятно пишет. И в-третьих, электронный формат не ограничивает автора и позволяет достигнуть бОльшей гибкости в плане эмпирических примеров, данных и кода.
В общем, как я уже сказал, отличная новость под конец недели!
P.S. Добавлю от себя, что это именно тот Хансен, который доказал, что из ТГМ можно выбросить одно из условий 🙂
❤1
Forwarded from Поступашки - ШАД, Стажировки и Магистратура
Гут шабес.
Как говорится, хороший праздник можно праздновать не один день😉😉, поэтому сегодня как всегда скромный подгон моим любимым подписчикам: сливаю курсы VK made😎😎
Лекции по ссылке: Алгоритмы, ML, Компьютерное зрение, Методы Оптимизации, Дизайн эксперимента.
Решение на гитхабе.
Единственное, меня поражает: почему никто из организаторов не выложил их в открытый доступ?? Неужели не хотят позориться?? Вот он капитализм: человек человеку (((VK group)))!! Держу в курсе, что у Яндекса, Тиньки и прочих помоек полно качественных курсов для (((сотрудников))) или же просто базы данных с теми же проведенными AB-тестами, кодом и тд. Представьте, как ускорилось бы ваше обучение на реальных примерах. В общем, если будет много шэров и лайков, ломаю БД Яндекса😍😍
Также смотрим разбор варианта прошлого года, где сказано, как бороться с этой ужасной системой.
Как говорится, хороший праздник можно праздновать не один день😉😉, поэтому сегодня как всегда скромный подгон моим любимым подписчикам: сливаю курсы VK made😎😎
Лекции по ссылке: Алгоритмы, ML, Компьютерное зрение, Методы Оптимизации, Дизайн эксперимента.
Решение на гитхабе.
Единственное, меня поражает: почему никто из организаторов не выложил их в открытый доступ?? Неужели не хотят позориться?? Вот он капитализм: человек человеку (((VK group)))!! Держу в курсе, что у Яндекса, Тиньки и прочих помоек полно качественных курсов для (((сотрудников))) или же просто базы данных с теми же проведенными AB-тестами, кодом и тд. Представьте, как ускорилось бы ваше обучение на реальных примерах. В общем, если будет много шэров и лайков, ломаю БД Яндекса😍😍
Также смотрим разбор варианта прошлого года, где сказано, как бороться с этой ужасной системой.
🔥19❤1
Forwarded from Reliable ML
Подборка полезных материалов по ML System Design
- Круглый стол про ML System Design секции Reliable ML 2022 г. Подойдет для знакомства с темой. Обсуждение о том, что такое ML System Design, как его структурировать и применять. Для знакомства с темой также хорошо подойдет вот эта статья и вот эта.
- Конспекты лекций Стенфорда – курс CS 329S: Machine Learning Systems Design. Самые лучшие материалы для основательного изучения дисциплины. Структурированный разбор материалов: от паттернов ресерча до деплоя моделей. Для каждой темы есть текстовые записи лекций, слайды, ссылки на полезные материалы.
- Небольшая, хорошо структурированная и, что важно, краткая электронная книга в открытом доступе от одного из преподавателей Стенфордского курса Chip Huyen - ML Systems Design (собрана из статей автора в блоге). Если хочется для начала получить представление о книге и вообще о месте ML System Design в мире DS/ML можно сначала посмотреть это видео от Chip Huyen. Кроме того, в 2022 г. Chip Huyen опубликовала книгу Designing Machine Learning Systems как расширенную и дополненную версию статей своего блога.
Chip Huyen - один из авторов, внесших наибольший вклад в развитие ML System Design как дисциплины, как можно увидеть по подборке материалов. Кроме того, она является одним из самых популярных въетнамских художественных писаталей в жанре creative non-fiction. Списки книг можно увидеть на ее персональном сайте.
- Книга Machine Learning Design Patterns. Отличные обзоры книги есть у: тг-канала Варим МЛ и на towards data science. Книга хорошо подойдет для начинающих дата саентистов и МЛ-инженеров, кто хочет структурировать информацию о паттернах дизайна систем машинного обучения.
- Grokking the Machine Learning Interview. Уроки по ML System Design на стандартных примерах: Search Ranking, Feed Based System, Recommendation System, Self-Driving Car, Entity Linking System, Ad Prediction System. Платно. Есть акцент на system design вопросах (про system design дальше сделаем отдельную подборку).
- Серия видео от Валеры Бабушкина по ML System Design собеседованиям. В них подробно разбираются дизайны МЛ-систем для: ранжирования рекламы в новостной ленте соцсети, ценообразования и матчинга в маркетплейсе.
- Miro-доска от Богдана Печёнкина (X5, AliExpress, KazanExpress) с примерами ML дизайна различных систем: динамическое ценообразование, матчинг, антифрод, рекомендашки, ранжирование рекламы. Доска постоянно дорабатывается и пополняется. Рекомендуем также видео, где Богдан рассказывает про дизайн ML ценообразования на маркетплейсе.
Материалы, которых все очень ждут:
- Материалы курса Дмитрия Колодезева по ML System Design (2022)
- Книга от Валерия Бабушкина и Арсения Кравченко Principles of ML Design (2023)
Как выйдут – обязательно опубликуем ссылки!
#tech #ml_system_design
- Круглый стол про ML System Design секции Reliable ML 2022 г. Подойдет для знакомства с темой. Обсуждение о том, что такое ML System Design, как его структурировать и применять. Для знакомства с темой также хорошо подойдет вот эта статья и вот эта.
- Конспекты лекций Стенфорда – курс CS 329S: Machine Learning Systems Design. Самые лучшие материалы для основательного изучения дисциплины. Структурированный разбор материалов: от паттернов ресерча до деплоя моделей. Для каждой темы есть текстовые записи лекций, слайды, ссылки на полезные материалы.
- Небольшая, хорошо структурированная и, что важно, краткая электронная книга в открытом доступе от одного из преподавателей Стенфордского курса Chip Huyen - ML Systems Design (собрана из статей автора в блоге). Если хочется для начала получить представление о книге и вообще о месте ML System Design в мире DS/ML можно сначала посмотреть это видео от Chip Huyen. Кроме того, в 2022 г. Chip Huyen опубликовала книгу Designing Machine Learning Systems как расширенную и дополненную версию статей своего блога.
Chip Huyen - один из авторов, внесших наибольший вклад в развитие ML System Design как дисциплины, как можно увидеть по подборке материалов. Кроме того, она является одним из самых популярных въетнамских художественных писаталей в жанре creative non-fiction. Списки книг можно увидеть на ее персональном сайте.
- Книга Machine Learning Design Patterns. Отличные обзоры книги есть у: тг-канала Варим МЛ и на towards data science. Книга хорошо подойдет для начинающих дата саентистов и МЛ-инженеров, кто хочет структурировать информацию о паттернах дизайна систем машинного обучения.
- Grokking the Machine Learning Interview. Уроки по ML System Design на стандартных примерах: Search Ranking, Feed Based System, Recommendation System, Self-Driving Car, Entity Linking System, Ad Prediction System. Платно. Есть акцент на system design вопросах (про system design дальше сделаем отдельную подборку).
- Серия видео от Валеры Бабушкина по ML System Design собеседованиям. В них подробно разбираются дизайны МЛ-систем для: ранжирования рекламы в новостной ленте соцсети, ценообразования и матчинга в маркетплейсе.
- Miro-доска от Богдана Печёнкина (X5, AliExpress, KazanExpress) с примерами ML дизайна различных систем: динамическое ценообразование, матчинг, антифрод, рекомендашки, ранжирование рекламы. Доска постоянно дорабатывается и пополняется. Рекомендуем также видео, где Богдан рассказывает про дизайн ML ценообразования на маркетплейсе.
Материалы, которых все очень ждут:
- Материалы курса Дмитрия Колодезева по ML System Design (2022)
- Книга от Валерия Бабушкина и Арсения Кравченко Principles of ML Design (2023)
Как выйдут – обязательно опубликуем ссылки!
#tech #ml_system_design
🔥9😢1
А/B тесты
Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼
Если нужно подтянуть матстат к ним, ниже подборка и для этого 😎
Вспоминаем Матстат
Cheet Sheets:
1.
VKGROUP⛓
2.
random github cs⛓
3.
Tradeoff I type error and II type error⛓
Хотите разобраться в А/B тестах? Моя подборка, стоит смотреть поэтапно. 👮🏼
1. Практическое введение в А/B тесты
link⛓2. Проблема подглядываний
link⛓3.1. Размер выборки
link⛓3.2. Вокшоп от Глеба Михайловаlink [part 1]⛓ link [part 2]⛓ link [part 3]⛓ link [part 4]⛓ link [part 5]⛓
(там, много ошибок и в целом чел кринжовый, но для понимания как оценить размер выборки и тд и тп кайф)
4. Cuped
link⛓5. Cuped Геометрическая интерпретацияlink⛓
6. Улучшение А/B тестов
link⛓7. Бутстрап
link⛓8. Бутстрап 2
link⛓9. Когда остановить A/B тестlink⛓
10. Воркшоп A/Blink⛓
11. про A/B тесты от Саши Сахноваlink⛓
12. Еще чуть чуть про A/B тестыlink⛓
13. Танцы с бубнами и A/B тестыlink⛓
Вспоминаем Матстат
1. Курс от ВШЭ, Подтягиваем основы
link⛓2. CSC, закрепляем познания, more extended then the previous one
link⛓3. А/B тесты с Филом, ускоренное погружение на практике
link⛓4. Теория и практика онлайн экспериментов ВШЭ
link⛓Cheet Sheets:
1.
VKGROUP⛓
2.
random github cs⛓
3.
Tradeoff I type error and II type error⛓
❤37🔥26🎉1🐳1