Блог о Data Science 💻
4.19K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
У них ещё можно сделать тест с индивидуальным планом развития, но я не проходил.
По сути канал начинает набирать обороты, особенно когда я им занимаюсь, а не просто афк посты, как сейчас. Im so sorry, the сессия is coming...
Возможно сегодняшний день станет началом развития личного бренда. Меня интересует ваше мнение, хотели бы вы контент не только в телеграме, я обещал разбор моделей машинного обучения и написания их from scratch, я помню про это! Я имею ввиду формат видео, YouTube?
Создать YouTube
Final Results
76%
Yes
24%
No
Всем субботний привет! 👋

Сегодня хочу поделиться с вами накипевшими мыслями, очень люблю когда вы даёте какой то фидбек в комментах.

Хочу поднять три темы сегодня
1) Почему джуны приходят с нулевыми знаниями в компании и как не попасть на этот крючек
2) Что не так с IT образованием в рф/мире
3) Про ютуб канал

Почему джуны приходят с нулевыми знаниями в компании и как не попасть на этот крючек

Джуны - вероятнее всего недавние студенты, только только закончили вуз. И вот я недавно натолкнулся на вакансию, которая требовала минимум 2/3 критериев:
1) сбор данных с нуля
2) создание и улучшие модели
3) какой нибудь недопрод
И это очень стандартный кейс. И знаете что? Не все джуны с этим справятся. Даже в сбербанке иногда люди не знают отличие research от prod стадий (единичные случаи). Пишут prod stage код в юпитерах и тп... Это все происходит по причине того, что почти на всех стадиях обучения упускают этот момент, его сложно как то контролировать. Даже в том же яндекс практикуме (когда я учился) этому не уделяли внимания, несмотря на то, что качество обучения там отличное (на мой взгляд). А в университетах не все преподы python знают и ограничены написанием формул в екселе. Поэтому джуны/ интерны, которые приходят в компании просто не знают о том как правильно это делать, некоторые темы просто никто не освещает в широком круге и учаться этому уже внутри компании. Если вы не хотите опозориться и ответить на вопрос как вы реализовали пайплайн: sklearn.Pipeline, то гуглите другие проекты на гитхаб, смотрите гиты крупных компаний и тп. Учитись на ошибках других.

Что не так с IT образованием в рф/мире

Мы живём в мире высокой волатильности, изменчивости и то что актуально вчера, уже не релевантно для нас сегодня. Особенно вузы, которые не способны набирать актуальных преподавателей и в таком мире невозможно выработать и отследить стандарты, которые меняют из дня в день в добавок с появлением новых сфер и технологий. Вузы не могут научить вас всему, а вы должны заниматься в первую очередь самообразованием.

Про ютуб канал
В связи с этим возникла идея создания ютуб канала, ежедневно я сталкиваюсь с тем, что многие темы не освещают, а узконаправленные темы не шейрятся. Например нет хороший гайдов по фреймворку rllib и metaflow. Хотя их применимость довольно широка и эффективна.
Поэтому можно делать контент редко, но метко, я думаю многим нравится формат Птушкина, Топлеса или Карпова, они выпускают видео не часто, но всегда интересно. Пис ✌️
18🔥2
Ближайшие мероприятия, которые ждут вас в моем телеграм канале и не только!

1. Time to plump pet-project!
Ближайший пост, в котором я расскажу про то как прокачать свой пет проект и почему нельзя ограничиваться юпитером.
~конец июня

2. ?Reinforcement learning в задачах оптимизации
Пока что эта тема под вопросом, но уже есть определённые результаты. Сейчас автоматизирую процесс пайплайна, что бы проводить автоматические эксперименты.
~ пока не загадываю, но предлагаю между июль-сентябрь

3. Machine learning under the hood
Серия гайдов, где будем разбираться как работают те или иные модели под капотом и писать их на pytorch / numpy с нуля.
~ август

4. Как стать мастером kaggle.
Лекция совместно с rue ds club, в котором я расскажу о своём опыте в kaggle. А почему и как фармить медальки в kaggle вы сможете узнать уже в сентябре!
🔥18
Привет ✌️🏼👨🏼‍🎓, время близится к лету, а это значит сезон хаков и соревов.

Поэтому сегодня делюсь с вами как ускорить некоторые процессы на хакатоне. Процесс соревнований можно разделить на несколько этапов. Один из важных это синергия и мотивация команды, вы можете быть не самой сильной команде в начале, но выиграть в финале. Даже если вы участвуете один (допустим kaggle), это все равно вам поможет.

1) Ищем команду. По моему опыту не нужно набирать слишком много и слишком мало человек. На одну ds задачу хватает 3 человека. Самое главное ваша мотивация, даже если вы новичек, главное что бы вы во время хака не боялись работать со сложными вещами. Возможно в первый раз у вас ничего не получится, но потом снова и снова вы будете разбираться лучше. Тут главное попасть в свой сегмент, конечно, многие говорят, что если ты слабый, то лувше попасть к сильным, это да, но вы им там не особо нужны. А в команде с такими же как вы, будете развиваться вместе быстрее.

2) Настраиваем процессы. Посли того как вы собирали команду, вам нужно выстроить процессы в ней. То есть, знать кто чем занимается, быть готовым помочь в любой момент.
Чуть позже вернемся к этому вопоосу и посмотрим какие процессы нужны и как их ускорить. А пока займемся немного теоретической частью, это преподготовка к хаку.

3) Подготавливаем инструменты.
Одно из самых важных это трекинг задач. Многие пользуются agile и тд. Но мне нравится самый обычный блокнот из notion, который делишь на несколько частей.
Но недавно начал пользоваться workzen. Удобная штучка. Но все же. Обычно я создаю notion документ, в котором прописываю всю инфу о хаке, какие похожие хаки были, какие были там решения. Возможные данные которые пригодится. Какие то фичи и обработки данных которве могут пригодится. Как правило это все обсуждают в телеге конкретного хака. Раньше я добавлял туда метрики, валидации и тп, но сейчас это все автоматизировал.

4) Готовим окружение. Нам важно, что бы у всех сокомандников работала все идентично нам. Поэтому мы создаем докер, в котором создаем окружение ( я пользуюсь pip, сейчас хочу перейти на poetry, но можно и conda использовать если вы любитель винды и багов) теперь скачайте паттерн проекта с cookiecutter и считайте ваше начальное окружение готово. Осталось залить на гит. ( 1 эксперемент = 1 ветка )

5) Хакатон начался, тут мы должны автоматизировать процессы. Я любитель написать всю автоматизацию вручную, но тут делится все на 2 типа.
А) У вас есть изменяемость данных. То есть ваши данные в процессе построения пайплайнов как то меняются. Для этого стоит использовать DVC. Крутой инструмент, который будет смотреть изменились ли ваши данные и перерасчитать пайплайн при изменение. То есть вы можете починить какой то баг и у ваших тиммейтов перерасчитаются метрики.
Б) Если данные не меняются. Допустим задачи RF. Или вообще не DS. То тут я использую CLI (click)

Мы хотим трекать наши метрики или какие то данные и смотреть вообще как наши данные изменяются. Следовательно мы устанавливаем WB, WANDB или weighs and biases. Хорошо зарекомендовавшая себя либа. Соответственно, там же мы можем и смотреть репорты, и хранить артефакты. Всем советую.

Теперь когда у нас есть такие инструменты и автоматизация. Нам остается только работать с данными. Проводить различные тесты и эксперементы. И да кстати, не забудьте в ваш код добавить автотесты и мотивировать сокомандников.

( p.s. При использовании pip и cli могут возникнуть проблемы, что окружение не видит иерархие или видит ее неправильно, поэтому если столкнулись с такой проблемой либо создайте init.py, либо еще проще скачайте poetry у него намного больше возможностей в рамках mlops)

Запомните господа, эксперементы - jupyter.
Автоматизация - скрипты.

Поэтому не создавайте пайплайны в юпитерах я вас прошу, надеюсь теперь вы преисполнитесь в своем сознании и будете лутать хаки. Ведь время на них - самый важный ресурс.
🔥102
Forwarded from Sergiusz
Добрый день, наша команда (NFT_explorators: @Sergiuuu, @tacobella9) опубликовала 3-й и последний гайд, ниже полный список:

1. "Менеджмент версий Python pyenv + менеджмент виртуальных окружений pyenv-virtualenv": https://yandex.ru/q/article/_1c795372/

2. Описание проекта, Axie Fair Price Prediction: https://yandex.ru/q/article/opisanie_komandnogo_proekta_dlia_ods_ai_0e248013/

3. "Установка Windows 10 + Ubuntu 20.04 LTS": https://yandex.ru/q/article/ustanovka_windows_10_ubuntu_20_04_lts_805db670/

4. Новый гайд: "Scrum: быстрый старт с использованием инструментов бесплатной подписки GitLab" - https://yandex.ru/q/article/scrum_bystryi_start_s_ispolzovaniem_bde36b23/

P.S. Также будем рады расширению профессиональных контактов - добавляйтесь:
1. https://www.linkedin.com/in/sergiusz-gusiew/ - Сергей Гусев
2. https://www.linkedin.com/in/ilia-mushkin-95a7a622a/ - Илья Мушкин
🔥4
Forwarded from Записки Ппилифа (Ppilif Ulyankin)
Вчера у меня прошёл последний семинар по машинному обучению на ФКН в этом сезоне. Семинарить у самого Жени Соколова было большой честью.

Коли курсера закрыта, курсы ещё не особо куда-то переехали, а на дворе лето — лучшее время для самообразования, держите плейлисты с видосами с курса.

лекции МО-1 лекции МО-2 мои семинары репозиторий

Знать всё невозможно. Поэтому в течение курса я узнал что-то, что не знал раньше. Хочу поделиться с вами самыми крупными открытиями. Некоторые из них довольно стыдные:

- Я очень мало знал про обучение эмбеддингов на графах. Семинарист Ильдус сделал про это богоподобный конспект [ru] и тетрадку в питоне.

- Я вообще ничего не знал про differential privacy и то, как можно добавить эту штуку в свои модели.

пост 1 [en] пост 2 [en] статья от apple [en]

- У нас был классный семинар про бустинг с ручными задачками [ru]. Кажется, что я перешёл в его понимании на какой-то качественно новый уровень.

- Я ничего не знал про uplift-моделирование и никогда не встречался с ним на практике. Узнал чуть больше из обзорной статьи [en]

- Я вообще ничего не знал о спектральной кластеризации. Ни разу не слышал о таком методе, а он есть даже в sklearn.

лекция [ru] семинар [ru] туториал [en]

- Я никогда не уважал ядра и SVM. После курса стал относиться к ним немного получше.
🔥8
Математика_на_Python.pdf
69.8 MB
Математика на Python

Книга содержит большое количество практических примеров использования языка Python для решения математических задач. Каждая тема включает примеры решения типовых задач и задачи для самостоятельного решения.

Авторы: Криволапов С.Я., Хрипунова М.Б.
Год: 2022

#books #python #russian
🔥5
Алгоритмы_эволюционной_оптимизации_2020_Дэн_Саймон.pdf
22.7 MB
Алгоритмы эволюционной оптимизации
Дэн Саймон (2020)
Онлайн-сервисы для создания резюме📝

«Как создать резюме?» — вопрос, который волнует практически всех, кто находится в поиске работы. Представляем подборку сервисов, которые помогут создать или улучшить резюме.

🔸MyResume
🔸Resume.com
🔸Enhancv
🔸I can choose

Сервисы являются бесплатными.

#полезное
Forwarded from Physics.Math.Code
📕 Практическая статистика для специалистов Data Science
50+ важнейших понятий с использованием R и Python [2022] Питер Брюс, Питер Гедек, Эндрю Брюс

💾 Скачать книгу

Питер Брюс (Peter Bruce) основал и расширил Институт статистического образования Statistics.com, который теперь предлагает порядка 100 курсов в области статистики, из которых примерно половина предназначена для аналитиков данных.

Эндрю Брюс (Andrew Bruce) имеет более чем 30-летний стаж работы в области статистики и науки о данных в академической сфере, правительстве и бизнесе. Он обладает степенью кандидата наук в области статистики Вашингтонского университета и опубликовал несколько работ в рецензируемых журналах.

Питер Гедек (Peter Gedeck) имеет более чем 30-летний опыт работы в области научных вычислений и науки о данных. После 20 лет работы в качестве вычислительного химика в компании Novartis он занимает должность старшего исследователя данных в компании Collaborative Drug Discovery.
Сессия почти кончилась 😅

В течении недели, двух хочу написать о том как прокачать пет проекты и соответстаующие книги и видосы прикрепить. Но если честно сильно выгорел от учёбы, как же высшее образование убивает желание что либо делать вообще.

Upd: в июле хочу по большей части заниматься работой, мб какими то хакатонами и добить уже топ100 кегля.

Новостей про RF пока не будет, но думаю к августу что то смогу вам показать интересное.
🔥52😢1
Ура победа?)
Forwarded from Physics.Math.Code
📕 Kubernetes в действии [2019] Лукша

💾 Скачать книгу

Kubernetes по-­гречески означает “рулевой”. Это ваш проводник по неизведанным водам. Система контейнерной оркестровки Kubernetes безопасно управляет структурой распределенного приложения и последовательностью его выполнения, с максимальной эффективностью организуя контейнеры и службы. Kubernetes служит в качестве операционной системы для ваших кластеров, устраняя необходимость учитывать лежащую в основе сетевую и серверную инфраструктуру в ваших проектах.
Forwarded from Physics.Math.Code
Kubernetes в действии [2019] Лукша.pdf
10.8 MB
📕 Kubernetes в действии [2019] Лукша

Эта книга учит использовать Kubernetes для развертывания распределенных контейнеризированных приложений. Перед тем, как собрать свой первый кластер Kubernetes, вы начнете с обзора систем Docker и Kubernetes. Вы будете постепенно расширять свое начальное приложение, добавляя новые функциональные возможности и углубляя свои знания архитектуры и принципа работы Kubernetes. Также вы изучите такие важные темы, такие как мониторинг, настройка и масштабирование.
#linux #Docker #Kubernetes #web #программирование
Охх... Такими темпами и до devops недалеко...