Блог о Data Science 💻
4.18K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
Привет ✌️🏼👨🏼‍🎓, время близится к лету, а это значит сезон хаков и соревов.

Поэтому сегодня делюсь с вами как ускорить некоторые процессы на хакатоне. Процесс соревнований можно разделить на несколько этапов. Один из важных это синергия и мотивация команды, вы можете быть не самой сильной команде в начале, но выиграть в финале. Даже если вы участвуете один (допустим kaggle), это все равно вам поможет.

1) Ищем команду. По моему опыту не нужно набирать слишком много и слишком мало человек. На одну ds задачу хватает 3 человека. Самое главное ваша мотивация, даже если вы новичек, главное что бы вы во время хака не боялись работать со сложными вещами. Возможно в первый раз у вас ничего не получится, но потом снова и снова вы будете разбираться лучше. Тут главное попасть в свой сегмент, конечно, многие говорят, что если ты слабый, то лувше попасть к сильным, это да, но вы им там не особо нужны. А в команде с такими же как вы, будете развиваться вместе быстрее.

2) Настраиваем процессы. Посли того как вы собирали команду, вам нужно выстроить процессы в ней. То есть, знать кто чем занимается, быть готовым помочь в любой момент.
Чуть позже вернемся к этому вопоосу и посмотрим какие процессы нужны и как их ускорить. А пока займемся немного теоретической частью, это преподготовка к хаку.

3) Подготавливаем инструменты.
Одно из самых важных это трекинг задач. Многие пользуются agile и тд. Но мне нравится самый обычный блокнот из notion, который делишь на несколько частей.
Но недавно начал пользоваться workzen. Удобная штучка. Но все же. Обычно я создаю notion документ, в котором прописываю всю инфу о хаке, какие похожие хаки были, какие были там решения. Возможные данные которые пригодится. Какие то фичи и обработки данных которве могут пригодится. Как правило это все обсуждают в телеге конкретного хака. Раньше я добавлял туда метрики, валидации и тп, но сейчас это все автоматизировал.

4) Готовим окружение. Нам важно, что бы у всех сокомандников работала все идентично нам. Поэтому мы создаем докер, в котором создаем окружение ( я пользуюсь pip, сейчас хочу перейти на poetry, но можно и conda использовать если вы любитель винды и багов) теперь скачайте паттерн проекта с cookiecutter и считайте ваше начальное окружение готово. Осталось залить на гит. ( 1 эксперемент = 1 ветка )

5) Хакатон начался, тут мы должны автоматизировать процессы. Я любитель написать всю автоматизацию вручную, но тут делится все на 2 типа.
А) У вас есть изменяемость данных. То есть ваши данные в процессе построения пайплайнов как то меняются. Для этого стоит использовать DVC. Крутой инструмент, который будет смотреть изменились ли ваши данные и перерасчитать пайплайн при изменение. То есть вы можете починить какой то баг и у ваших тиммейтов перерасчитаются метрики.
Б) Если данные не меняются. Допустим задачи RF. Или вообще не DS. То тут я использую CLI (click)

Мы хотим трекать наши метрики или какие то данные и смотреть вообще как наши данные изменяются. Следовательно мы устанавливаем WB, WANDB или weighs and biases. Хорошо зарекомендовавшая себя либа. Соответственно, там же мы можем и смотреть репорты, и хранить артефакты. Всем советую.

Теперь когда у нас есть такие инструменты и автоматизация. Нам остается только работать с данными. Проводить различные тесты и эксперементы. И да кстати, не забудьте в ваш код добавить автотесты и мотивировать сокомандников.

( p.s. При использовании pip и cli могут возникнуть проблемы, что окружение не видит иерархие или видит ее неправильно, поэтому если столкнулись с такой проблемой либо создайте init.py, либо еще проще скачайте poetry у него намного больше возможностей в рамках mlops)

Запомните господа, эксперементы - jupyter.
Автоматизация - скрипты.

Поэтому не создавайте пайплайны в юпитерах я вас прошу, надеюсь теперь вы преисполнитесь в своем сознании и будете лутать хаки. Ведь время на них - самый важный ресурс.
🔥102
Forwarded from Sergiusz
Добрый день, наша команда (NFT_explorators: @Sergiuuu, @tacobella9) опубликовала 3-й и последний гайд, ниже полный список:

1. "Менеджмент версий Python pyenv + менеджмент виртуальных окружений pyenv-virtualenv": https://yandex.ru/q/article/_1c795372/

2. Описание проекта, Axie Fair Price Prediction: https://yandex.ru/q/article/opisanie_komandnogo_proekta_dlia_ods_ai_0e248013/

3. "Установка Windows 10 + Ubuntu 20.04 LTS": https://yandex.ru/q/article/ustanovka_windows_10_ubuntu_20_04_lts_805db670/

4. Новый гайд: "Scrum: быстрый старт с использованием инструментов бесплатной подписки GitLab" - https://yandex.ru/q/article/scrum_bystryi_start_s_ispolzovaniem_bde36b23/

P.S. Также будем рады расширению профессиональных контактов - добавляйтесь:
1. https://www.linkedin.com/in/sergiusz-gusiew/ - Сергей Гусев
2. https://www.linkedin.com/in/ilia-mushkin-95a7a622a/ - Илья Мушкин
🔥4
Forwarded from Записки Ппилифа (Ppilif Ulyankin)
Вчера у меня прошёл последний семинар по машинному обучению на ФКН в этом сезоне. Семинарить у самого Жени Соколова было большой честью.

Коли курсера закрыта, курсы ещё не особо куда-то переехали, а на дворе лето — лучшее время для самообразования, держите плейлисты с видосами с курса.

лекции МО-1 лекции МО-2 мои семинары репозиторий

Знать всё невозможно. Поэтому в течение курса я узнал что-то, что не знал раньше. Хочу поделиться с вами самыми крупными открытиями. Некоторые из них довольно стыдные:

- Я очень мало знал про обучение эмбеддингов на графах. Семинарист Ильдус сделал про это богоподобный конспект [ru] и тетрадку в питоне.

- Я вообще ничего не знал про differential privacy и то, как можно добавить эту штуку в свои модели.

пост 1 [en] пост 2 [en] статья от apple [en]

- У нас был классный семинар про бустинг с ручными задачками [ru]. Кажется, что я перешёл в его понимании на какой-то качественно новый уровень.

- Я ничего не знал про uplift-моделирование и никогда не встречался с ним на практике. Узнал чуть больше из обзорной статьи [en]

- Я вообще ничего не знал о спектральной кластеризации. Ни разу не слышал о таком методе, а он есть даже в sklearn.

лекция [ru] семинар [ru] туториал [en]

- Я никогда не уважал ядра и SVM. После курса стал относиться к ним немного получше.
🔥8
Математика_на_Python.pdf
69.8 MB
Математика на Python

Книга содержит большое количество практических примеров использования языка Python для решения математических задач. Каждая тема включает примеры решения типовых задач и задачи для самостоятельного решения.

Авторы: Криволапов С.Я., Хрипунова М.Б.
Год: 2022

#books #python #russian
🔥5
Алгоритмы_эволюционной_оптимизации_2020_Дэн_Саймон.pdf
22.7 MB
Алгоритмы эволюционной оптимизации
Дэн Саймон (2020)
Онлайн-сервисы для создания резюме📝

«Как создать резюме?» — вопрос, который волнует практически всех, кто находится в поиске работы. Представляем подборку сервисов, которые помогут создать или улучшить резюме.

🔸MyResume
🔸Resume.com
🔸Enhancv
🔸I can choose

Сервисы являются бесплатными.

#полезное
Forwarded from Physics.Math.Code
📕 Практическая статистика для специалистов Data Science
50+ важнейших понятий с использованием R и Python [2022] Питер Брюс, Питер Гедек, Эндрю Брюс

💾 Скачать книгу

Питер Брюс (Peter Bruce) основал и расширил Институт статистического образования Statistics.com, который теперь предлагает порядка 100 курсов в области статистики, из которых примерно половина предназначена для аналитиков данных.

Эндрю Брюс (Andrew Bruce) имеет более чем 30-летний стаж работы в области статистики и науки о данных в академической сфере, правительстве и бизнесе. Он обладает степенью кандидата наук в области статистики Вашингтонского университета и опубликовал несколько работ в рецензируемых журналах.

Питер Гедек (Peter Gedeck) имеет более чем 30-летний опыт работы в области научных вычислений и науки о данных. После 20 лет работы в качестве вычислительного химика в компании Novartis он занимает должность старшего исследователя данных в компании Collaborative Drug Discovery.
Сессия почти кончилась 😅

В течении недели, двух хочу написать о том как прокачать пет проекты и соответстаующие книги и видосы прикрепить. Но если честно сильно выгорел от учёбы, как же высшее образование убивает желание что либо делать вообще.

Upd: в июле хочу по большей части заниматься работой, мб какими то хакатонами и добить уже топ100 кегля.

Новостей про RF пока не будет, но думаю к августу что то смогу вам показать интересное.
🔥52😢1
Ура победа?)
Forwarded from Physics.Math.Code
📕 Kubernetes в действии [2019] Лукша

💾 Скачать книгу

Kubernetes по-­гречески означает “рулевой”. Это ваш проводник по неизведанным водам. Система контейнерной оркестровки Kubernetes безопасно управляет структурой распределенного приложения и последовательностью его выполнения, с максимальной эффективностью организуя контейнеры и службы. Kubernetes служит в качестве операционной системы для ваших кластеров, устраняя необходимость учитывать лежащую в основе сетевую и серверную инфраструктуру в ваших проектах.
Forwarded from Physics.Math.Code
Kubernetes в действии [2019] Лукша.pdf
10.8 MB
📕 Kubernetes в действии [2019] Лукша

Эта книга учит использовать Kubernetes для развертывания распределенных контейнеризированных приложений. Перед тем, как собрать свой первый кластер Kubernetes, вы начнете с обзора систем Docker и Kubernetes. Вы будете постепенно расширять свое начальное приложение, добавляя новые функциональные возможности и углубляя свои знания архитектуры и принципа работы Kubernetes. Также вы изучите такие важные темы, такие как мониторинг, настройка и масштабирование.
#linux #Docker #Kubernetes #web #программирование
Охх... Такими темпами и до devops недалеко...
Forwarded from hahacker_news
Bootstrapping_Microservices_with_Docker,_Kubernetes,_and_Terraform.pdf
13.7 MB
Bootstrapping Microservices with Docker, Kubernetes, and Terraform: A project-based guide (2021)
Автор: Ashley Davis
3
Если честно мой пост о том как прокачать свои пет проекты зашёл слишком далеко и я буквально от ML ушёл в fullstack. Я постараюсь минимизировать инфу...
И если заметить то книги по docker -> K8s -> bootstrapping microservices не просто так тут!)

Проблема в том, что инфы много, время мало, желания что то делать ещё меньше, но я надеюсь получиться более менее структурировать инфу, по крайней мере я помогу сделать roadmap и оценить сложность от времени, которое вы готовы на это потратить. Как дай человеку рыбу и он будет сыт один день, а дай ему удочку и он будет сыт всегда. Вот и я вам дам roadmap, а вы от него сможете как то отталкиваться и основные понятия что зачем нужно делать и какие инструменты вам нужны. (но чем глубжн это качается backend/devops, тем хуже могут быть мои советы 🙈, так что доверяйте, но проверяйте)

Upd постараюсь к концу следующей недели сделать, но не обещаю
14
THE EXAMINATION IS DONE
🔥91
This media is not supported in your browser
VIEW IN TELEGRAM
Первая пошла
У нас тут кластерный анализ на кегле подъехал. Ухххх, держите меня, щас я эти кернели штопать буду...
Но пока сыровато, что за ночь успел. Сегодня сяду отредачу ещё кернел по млопс, надо его допилить.
Сделать про прокачку пет-проектов постик, это верно.

В планах ещё кернел
* про временные ряды
* хочу минигайд про RF сделать если получиться, не обещаю.
* хочу много маленьких гайдов про млопс инструменты типо wb и тд
* хочу про модели ещё сделать много маленьких кернелов. (в основном нелинейные)
* начать про сеточки что то делать? 🤔

Че думаете такой объем реально вообще сделать?) я, конечно, не Википедия, но очень круто если вы допустим идёте на собес, взяли мои кернелы посмотрели и вспомнили че там к чему)

https://www.kaggle.com/code/kartushovdanil/tps-jul-22-transformations
6🔥3
АПВОУТ ОТ МОЕГО КРАША КЕГЛЯ :З
Так неожиданно и приятно... Если вы думаете, что вы круто делаете аналитику, то посмотрите просто что он творит, это просто гений. Он вдохновил меня вообще начать что то делать на кегле и думаю, что скоро получиться догнать его😏

Ps sharlto cope