Привет ✌️🏼👨🏼🎓, время близится к лету, а это значит сезон хаков и соревов.
Поэтому сегодня делюсь с вами как ускорить некоторые процессы на хакатоне. Процесс соревнований можно разделить на несколько этапов. Один из важных это синергия и мотивация команды, вы можете быть не самой сильной команде в начале, но выиграть в финале. Даже если вы участвуете один (допустим kaggle), это все равно вам поможет.
1) Ищем команду. По моему опыту не нужно набирать слишком много и слишком мало человек. На одну ds задачу хватает 3 человека. Самое главное ваша мотивация, даже если вы новичек, главное что бы вы во время хака не боялись работать со сложными вещами. Возможно в первый раз у вас ничего не получится, но потом снова и снова вы будете разбираться лучше. Тут главное попасть в свой сегмент, конечно, многие говорят, что если ты слабый, то лувше попасть к сильным, это да, но вы им там не особо нужны. А в команде с такими же как вы, будете развиваться вместе быстрее.
2) Настраиваем процессы. Посли того как вы собирали команду, вам нужно выстроить процессы в ней. То есть, знать кто чем занимается, быть готовым помочь в любой момент.
Чуть позже вернемся к этому вопоосу и посмотрим какие процессы нужны и как их ускорить. А пока займемся немного теоретической частью, это преподготовка к хаку.
3) Подготавливаем инструменты.
Одно из самых важных это трекинг задач. Многие пользуются agile и тд. Но мне нравится самый обычный блокнот из notion, который делишь на несколько частей.
Но недавно начал пользоваться workzen. Удобная штучка. Но все же. Обычно я создаю notion документ, в котором прописываю всю инфу о хаке, какие похожие хаки были, какие были там решения. Возможные данные которые пригодится. Какие то фичи и обработки данных которве могут пригодится. Как правило это все обсуждают в телеге конкретного хака. Раньше я добавлял туда метрики, валидации и тп, но сейчас это все автоматизировал.
4) Готовим окружение. Нам важно, что бы у всех сокомандников работала все идентично нам. Поэтому мы создаем докер, в котором создаем окружение ( я пользуюсь pip, сейчас хочу перейти на poetry, но можно и conda использовать если вы любитель винды и багов) теперь скачайте паттерн проекта с cookiecutter и считайте ваше начальное окружение готово. Осталось залить на гит. ( 1 эксперемент = 1 ветка )
5) Хакатон начался, тут мы должны автоматизировать процессы. Я любитель написать всю автоматизацию вручную, но тут делится все на 2 типа.
А) У вас есть изменяемость данных. То есть ваши данные в процессе построения пайплайнов как то меняются. Для этого стоит использовать DVC. Крутой инструмент, который будет смотреть изменились ли ваши данные и перерасчитать пайплайн при изменение. То есть вы можете починить какой то баг и у ваших тиммейтов перерасчитаются метрики.
Б) Если данные не меняются. Допустим задачи RF. Или вообще не DS. То тут я использую CLI (click)
Мы хотим трекать наши метрики или какие то данные и смотреть вообще как наши данные изменяются. Следовательно мы устанавливаем WB, WANDB или weighs and biases. Хорошо зарекомендовавшая себя либа. Соответственно, там же мы можем и смотреть репорты, и хранить артефакты. Всем советую.
Теперь когда у нас есть такие инструменты и автоматизация. Нам остается только работать с данными. Проводить различные тесты и эксперементы. И да кстати, не забудьте в ваш код добавить автотесты и мотивировать сокомандников.
( p.s. При использовании pip и cli могут возникнуть проблемы, что окружение не видит иерархие или видит ее неправильно, поэтому если столкнулись с такой проблемой либо создайте init.py, либо еще проще скачайте poetry у него намного больше возможностей в рамках mlops)
Запомните господа, эксперементы - jupyter.
Автоматизация - скрипты.
Поэтому не создавайте пайплайны в юпитерах я вас прошу, надеюсь теперь вы преисполнитесь в своем сознании и будете лутать хаки. Ведь время на них - самый важный ресурс.
Поэтому сегодня делюсь с вами как ускорить некоторые процессы на хакатоне. Процесс соревнований можно разделить на несколько этапов. Один из важных это синергия и мотивация команды, вы можете быть не самой сильной команде в начале, но выиграть в финале. Даже если вы участвуете один (допустим kaggle), это все равно вам поможет.
1) Ищем команду. По моему опыту не нужно набирать слишком много и слишком мало человек. На одну ds задачу хватает 3 человека. Самое главное ваша мотивация, даже если вы новичек, главное что бы вы во время хака не боялись работать со сложными вещами. Возможно в первый раз у вас ничего не получится, но потом снова и снова вы будете разбираться лучше. Тут главное попасть в свой сегмент, конечно, многие говорят, что если ты слабый, то лувше попасть к сильным, это да, но вы им там не особо нужны. А в команде с такими же как вы, будете развиваться вместе быстрее.
2) Настраиваем процессы. Посли того как вы собирали команду, вам нужно выстроить процессы в ней. То есть, знать кто чем занимается, быть готовым помочь в любой момент.
Чуть позже вернемся к этому вопоосу и посмотрим какие процессы нужны и как их ускорить. А пока займемся немного теоретической частью, это преподготовка к хаку.
3) Подготавливаем инструменты.
Одно из самых важных это трекинг задач. Многие пользуются agile и тд. Но мне нравится самый обычный блокнот из notion, который делишь на несколько частей.
Но недавно начал пользоваться workzen. Удобная штучка. Но все же. Обычно я создаю notion документ, в котором прописываю всю инфу о хаке, какие похожие хаки были, какие были там решения. Возможные данные которые пригодится. Какие то фичи и обработки данных которве могут пригодится. Как правило это все обсуждают в телеге конкретного хака. Раньше я добавлял туда метрики, валидации и тп, но сейчас это все автоматизировал.
4) Готовим окружение. Нам важно, что бы у всех сокомандников работала все идентично нам. Поэтому мы создаем докер, в котором создаем окружение ( я пользуюсь pip, сейчас хочу перейти на poetry, но можно и conda использовать если вы любитель винды и багов) теперь скачайте паттерн проекта с cookiecutter и считайте ваше начальное окружение готово. Осталось залить на гит. ( 1 эксперемент = 1 ветка )
5) Хакатон начался, тут мы должны автоматизировать процессы. Я любитель написать всю автоматизацию вручную, но тут делится все на 2 типа.
А) У вас есть изменяемость данных. То есть ваши данные в процессе построения пайплайнов как то меняются. Для этого стоит использовать DVC. Крутой инструмент, который будет смотреть изменились ли ваши данные и перерасчитать пайплайн при изменение. То есть вы можете починить какой то баг и у ваших тиммейтов перерасчитаются метрики.
Б) Если данные не меняются. Допустим задачи RF. Или вообще не DS. То тут я использую CLI (click)
Мы хотим трекать наши метрики или какие то данные и смотреть вообще как наши данные изменяются. Следовательно мы устанавливаем WB, WANDB или weighs and biases. Хорошо зарекомендовавшая себя либа. Соответственно, там же мы можем и смотреть репорты, и хранить артефакты. Всем советую.
Теперь когда у нас есть такие инструменты и автоматизация. Нам остается только работать с данными. Проводить различные тесты и эксперементы. И да кстати, не забудьте в ваш код добавить автотесты и мотивировать сокомандников.
( p.s. При использовании pip и cli могут возникнуть проблемы, что окружение не видит иерархие или видит ее неправильно, поэтому если столкнулись с такой проблемой либо создайте init.py, либо еще проще скачайте poetry у него намного больше возможностей в рамках mlops)
Запомните господа, эксперементы - jupyter.
Автоматизация - скрипты.
Поэтому не создавайте пайплайны в юпитерах я вас прошу, надеюсь теперь вы преисполнитесь в своем сознании и будете лутать хаки. Ведь время на них - самый важный ресурс.
🔥10❤2
Forwarded from Sergiusz
Добрый день, наша команда (NFT_explorators: @Sergiuuu, @tacobella9) опубликовала 3-й и последний гайд, ниже полный список:
1. "Менеджмент версий Python pyenv + менеджмент виртуальных окружений pyenv-virtualenv": https://yandex.ru/q/article/_1c795372/
2. Описание проекта, Axie Fair Price Prediction: https://yandex.ru/q/article/opisanie_komandnogo_proekta_dlia_ods_ai_0e248013/
3. "Установка Windows 10 + Ubuntu 20.04 LTS": https://yandex.ru/q/article/ustanovka_windows_10_ubuntu_20_04_lts_805db670/
4. Новый гайд: "Scrum: быстрый старт с использованием инструментов бесплатной подписки GitLab" - https://yandex.ru/q/article/scrum_bystryi_start_s_ispolzovaniem_bde36b23/
P.S. Также будем рады расширению профессиональных контактов - добавляйтесь:
1. https://www.linkedin.com/in/sergiusz-gusiew/ - Сергей Гусев
2. https://www.linkedin.com/in/ilia-mushkin-95a7a622a/ - Илья Мушкин
1. "Менеджмент версий Python pyenv + менеджмент виртуальных окружений pyenv-virtualenv": https://yandex.ru/q/article/_1c795372/
2. Описание проекта, Axie Fair Price Prediction: https://yandex.ru/q/article/opisanie_komandnogo_proekta_dlia_ods_ai_0e248013/
3. "Установка Windows 10 + Ubuntu 20.04 LTS": https://yandex.ru/q/article/ustanovka_windows_10_ubuntu_20_04_lts_805db670/
4. Новый гайд: "Scrum: быстрый старт с использованием инструментов бесплатной подписки GitLab" - https://yandex.ru/q/article/scrum_bystryi_start_s_ispolzovaniem_bde36b23/
P.S. Также будем рады расширению профессиональных контактов - добавляйтесь:
1. https://www.linkedin.com/in/sergiusz-gusiew/ - Сергей Гусев
2. https://www.linkedin.com/in/ilia-mushkin-95a7a622a/ - Илья Мушкин
Яндекс Кью
«Pyenv и pyenv-virtualenv» — Яндекс Кью
Авторы:
- Sergei Gusev, https://yandex.ru/q/profile/4zqbpknbberhfbr0h2ny30gu1r/
- Ilia Mushkin, https://yandex.ru/q/profile/39htby1xatdmdd961qbdavwzc8/
Pyenv – менеджер версий python. Позволяет лег...
- Sergei Gusev, https://yandex.ru/q/profile/4zqbpknbberhfbr0h2ny30gu1r/
- Ilia Mushkin, https://yandex.ru/q/profile/39htby1xatdmdd961qbdavwzc8/
Pyenv – менеджер версий python. Позволяет лег...
🔥4
Forwarded from Записки Ппилифа (Ppilif Ulyankin)
Вчера у меня прошёл последний семинар по машинному обучению на ФКН в этом сезоне. Семинарить у самого Жени Соколова было большой честью.
Коли курсера закрыта, курсы ещё не особо куда-то переехали, а на дворе лето — лучшее время для самообразования, держите плейлисты с видосами с курса.
лекции МО-1 лекции МО-2 мои семинары репозиторий
Знать всё невозможно. Поэтому в течение курса я узнал что-то, что не знал раньше. Хочу поделиться с вами самыми крупными открытиями. Некоторые из них довольно стыдные:
- Я очень мало знал про обучение эмбеддингов на графах. Семинарист Ильдус сделал про это богоподобный конспект [ru] и тетрадку в питоне.
- Я вообще ничего не знал про differential privacy и то, как можно добавить эту штуку в свои модели.
пост 1 [en] пост 2 [en] статья от apple [en]
- У нас был классный семинар про бустинг с ручными задачками [ru]. Кажется, что я перешёл в его понимании на какой-то качественно новый уровень.
- Я ничего не знал про uplift-моделирование и никогда не встречался с ним на практике. Узнал чуть больше из обзорной статьи [en]
- Я вообще ничего не знал о спектральной кластеризации. Ни разу не слышал о таком методе, а он есть даже в sklearn.
лекция [ru] семинар [ru] туториал [en]
- Я никогда не уважал ядра и SVM. После курса стал относиться к ним немного получше.
Коли курсера закрыта, курсы ещё не особо куда-то переехали, а на дворе лето — лучшее время для самообразования, держите плейлисты с видосами с курса.
лекции МО-1 лекции МО-2 мои семинары репозиторий
Знать всё невозможно. Поэтому в течение курса я узнал что-то, что не знал раньше. Хочу поделиться с вами самыми крупными открытиями. Некоторые из них довольно стыдные:
- Я очень мало знал про обучение эмбеддингов на графах. Семинарист Ильдус сделал про это богоподобный конспект [ru] и тетрадку в питоне.
- Я вообще ничего не знал про differential privacy и то, как можно добавить эту штуку в свои модели.
пост 1 [en] пост 2 [en] статья от apple [en]
- У нас был классный семинар про бустинг с ручными задачками [ru]. Кажется, что я перешёл в его понимании на какой-то качественно новый уровень.
- Я ничего не знал про uplift-моделирование и никогда не встречался с ним на практике. Узнал чуть больше из обзорной статьи [en]
- Я вообще ничего не знал о спектральной кластеризации. Ни разу не слышал о таком методе, а он есть даже в sklearn.
лекция [ru] семинар [ru] туториал [en]
- Я никогда не уважал ядра и SVM. После курса стал относиться к ним немного получше.
🔥8
Forwarded from Склад разработчика
Математика_на_Python.pdf
69.8 MB
Математика на Python
Год: 2022
#books #python #russian
Книга содержит большое количество практических примеров использования языка Python для решения математических задач. Каждая тема включает примеры решения типовых задач и задачи для самостоятельного решения.Авторы: Криволапов С.Я., Хрипунова М.Б.
Год: 2022
#books #python #russian
🔥5
Forwarded from Книги от Школы IT
Алгоритмы_эволюционной_оптимизации_2020_Дэн_Саймон.pdf
22.7 MB
Алгоритмы эволюционной оптимизации
Дэн Саймон (2020)
Дэн Саймон (2020)
Forwarded from Центр развития карьеры РЭУ
Онлайн-сервисы для создания резюме📝
«Как создать резюме?» — вопрос, который волнует практически всех, кто находится в поиске работы. Представляем подборку сервисов, которые помогут создать или улучшить резюме.
🔸MyResume
🔸Resume.com
🔸Enhancv
🔸I can choose
Сервисы являются бесплатными.
#полезное
«Как создать резюме?» — вопрос, который волнует практически всех, кто находится в поиске работы. Представляем подборку сервисов, которые помогут создать или улучшить резюме.
🔸MyResume
🔸Resume.com
🔸Enhancv
🔸I can choose
Сервисы являются бесплатными.
#полезное
Forwarded from Physics.Math.Code
📕 Практическая статистика для специалистов Data Science
50+ важнейших понятий с использованием R и Python [2022] Питер Брюс, Питер Гедек, Эндрю Брюс
💾 Скачать книгу
Питер Брюс (Peter Bruce)
50+ важнейших понятий с использованием R и Python [2022] Питер Брюс, Питер Гедек, Эндрю Брюс
💾 Скачать книгу
Питер Брюс (Peter Bruce)
основал и расширил Институт статистического образования Statistics.com, который теперь предлагает порядка 100 курсов в области статистики, из которых примерно половина предназначена для аналитиков данных.
Эндрю Брюс (Andrew Bruce) имеет более чем 30-летний стаж работы в области статистики и науки о данных в академической сфере, правительстве и бизнесе. Он обладает степенью кандидата наук в области статистики Вашингтонского университета и опубликовал несколько работ в рецензируемых журналах.
Питер Гедек (Peter Gedeck) имеет более чем 30-летний опыт работы в области научных вычислений и науки о данных. После 20 лет работы в качестве вычислительного химика в компании Novartis он занимает должность старшего исследователя данных в компании Collaborative Drug Discovery.
Сессия почти кончилась 😅
В течении недели, двух хочу написать о том как прокачать пет проекты и соответстаующие книги и видосы прикрепить. Но если честно сильно выгорел от учёбы, как же высшее образование убивает желание что либо делать вообще.
Upd: в июле хочу по большей части заниматься работой, мб какими то хакатонами и добить уже топ100 кегля.
Новостей про RF пока не будет, но думаю к августу что то смогу вам показать интересное.
В течении недели, двух хочу написать о том как прокачать пет проекты и соответстаующие книги и видосы прикрепить. Но если честно сильно выгорел от учёбы, как же высшее образование убивает желание что либо делать вообще.
Upd: в июле хочу по большей части заниматься работой, мб какими то хакатонами и добить уже топ100 кегля.
Новостей про RF пока не будет, но думаю к августу что то смогу вам показать интересное.
🔥5❤2😢1
Forwarded from C.M.Book | Программирование
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Книжный клад | IT
Иан_Милл,_Эйдан_Хобсон_Сейерс_Docker_на_практике_2020,_ДМК_Пресс.pdf
8.8 MB
Книга "Docker на практике"
Forwarded from Deleted Account
рекомендую ресурс: https://github.com/chekh/awesome-mlops
GitHub
GitHub - chekh/awesome-mlops: :sunglasses: A curated list of awesome MLOps tools
:sunglasses: A curated list of awesome MLOps tools - GitHub - chekh/awesome-mlops: :sunglasses: A curated list of awesome MLOps tools
🔥2
Forwarded from Physics.Math.Code
📕 Kubernetes в действии [2019] Лукша
💾 Скачать книгу
Kubernetes по-гречески означает “рулевой”. Это ваш проводник по неизведанным водам. Система контейнерной оркестровки Kubernetes безопасно управляет структурой распределенного приложения и последовательностью его выполнения, с максимальной эффективностью организуя контейнеры и службы. Kubernetes служит в качестве операционной системы для ваших кластеров, устраняя необходимость учитывать лежащую в основе сетевую и серверную инфраструктуру в ваших проектах.
💾 Скачать книгу
Kubernetes по-гречески означает “рулевой”. Это ваш проводник по неизведанным водам. Система контейнерной оркестровки Kubernetes безопасно управляет структурой распределенного приложения и последовательностью его выполнения, с максимальной эффективностью организуя контейнеры и службы. Kubernetes служит в качестве операционной системы для ваших кластеров, устраняя необходимость учитывать лежащую в основе сетевую и серверную инфраструктуру в ваших проектах.
Forwarded from Physics.Math.Code
Kubernetes в действии [2019] Лукша.pdf
10.8 MB
📕 Kubernetes в действии [2019] Лукша
Эта книга учит использовать Kubernetes для развертывания распределенных контейнеризированных приложений. Перед тем, как собрать свой первый кластер Kubernetes, вы начнете с обзора систем Docker и Kubernetes. Вы будете постепенно расширять свое начальное приложение, добавляя новые функциональные возможности и углубляя свои знания архитектуры и принципа работы Kubernetes. Также вы изучите такие важные темы, такие как мониторинг, настройка и масштабирование.
#linux #Docker #Kubernetes #web #программирование
Эта книга учит использовать Kubernetes для развертывания распределенных контейнеризированных приложений. Перед тем, как собрать свой первый кластер Kubernetes, вы начнете с обзора систем Docker и Kubernetes. Вы будете постепенно расширять свое начальное приложение, добавляя новые функциональные возможности и углубляя свои знания архитектуры и принципа работы Kubernetes. Также вы изучите такие важные темы, такие как мониторинг, настройка и масштабирование.
#linux #Docker #Kubernetes #web #программирование
Forwarded from hahacker_news
Bootstrapping_Microservices_with_Docker,_Kubernetes,_and_Terraform.pdf
13.7 MB
Bootstrapping Microservices with Docker, Kubernetes, and Terraform: A project-based guide (2021)
Автор: Ashley Davis
Автор: Ashley Davis
❤3
Если честно мой пост о том как прокачать свои пет проекты зашёл слишком далеко и я буквально от ML ушёл в fullstack. Я постараюсь минимизировать инфу...
И если заметить то книги по docker -> K8s -> bootstrapping microservices не просто так тут!)
Проблема в том, что инфы много, время мало, желания что то делать ещё меньше, но я надеюсь получиться более менее структурировать инфу, по крайней мере я помогу сделать roadmap и оценить сложность от времени, которое вы готовы на это потратить. Как дай человеку рыбу и он будет сыт один день, а дай ему удочку и он будет сыт всегда. Вот и я вам дам roadmap, а вы от него сможете как то отталкиваться и основные понятия что зачем нужно делать и какие инструменты вам нужны. (но чем глубжн это качается backend/devops, тем хуже могут быть мои советы 🙈, так что доверяйте, но проверяйте)
Upd постараюсь к концу следующей недели сделать, но не обещаю
И если заметить то книги по docker -> K8s -> bootstrapping microservices не просто так тут!)
Проблема в том, что инфы много, время мало, желания что то делать ещё меньше, но я надеюсь получиться более менее структурировать инфу, по крайней мере я помогу сделать roadmap и оценить сложность от времени, которое вы готовы на это потратить. Как дай человеку рыбу и он будет сыт один день, а дай ему удочку и он будет сыт всегда. Вот и я вам дам roadmap, а вы от него сможете как то отталкиваться и основные понятия что зачем нужно делать и какие инструменты вам нужны. (но чем глубжн это качается backend/devops, тем хуже могут быть мои советы 🙈, так что доверяйте, но проверяйте)
Upd постараюсь к концу следующей недели сделать, но не обещаю
❤14
Первая пошла
У нас тут кластерный анализ на кегле подъехал. Ухххх, держите меня, щас я эти кернели штопать буду...
Но пока сыровато, что за ночь успел. Сегодня сяду отредачу ещё кернел по млопс, надо его допилить.
Сделать про прокачку пет-проектов постик, это верно.
В планах ещё кернел
* про временные ряды
* хочу минигайд про RF сделать если получиться, не обещаю.
* хочу много маленьких гайдов про млопс инструменты типо wb и тд
* хочу про модели ещё сделать много маленьких кернелов. (в основном нелинейные)
* начать про сеточки что то делать? 🤔
Че думаете такой объем реально вообще сделать?) я, конечно, не Википедия, но очень круто если вы допустим идёте на собес, взяли мои кернелы посмотрели и вспомнили че там к чему)
https://www.kaggle.com/code/kartushovdanil/tps-jul-22-transformations
У нас тут кластерный анализ на кегле подъехал. Ухххх, держите меня, щас я эти кернели штопать буду...
Но пока сыровато, что за ночь успел. Сегодня сяду отредачу ещё кернел по млопс, надо его допилить.
Сделать про прокачку пет-проектов постик, это верно.
В планах ещё кернел
* про временные ряды
* хочу минигайд про RF сделать если получиться, не обещаю.
* хочу много маленьких гайдов про млопс инструменты типо wb и тд
* хочу про модели ещё сделать много маленьких кернелов. (в основном нелинейные)
* начать про сеточки что то делать? 🤔
Че думаете такой объем реально вообще сделать?) я, конечно, не Википедия, но очень круто если вы допустим идёте на собес, взяли мои кернелы посмотрели и вспомнили че там к чему)
https://www.kaggle.com/code/kartushovdanil/tps-jul-22-transformations
Kaggle
🔥TPS Jul 22 🔥 ADVANCED + 2% SOL
Explore and run machine learning code with Kaggle Notebooks | Using data from Tabular Playground Series - Jul 2022
❤6🔥3