Блог о Data Science 💻 – Telegram

Блог о Data Science 💻

@notedatascience

4.19K subscribers

75 photos

4 videos

21 files

115 links

Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir

Download Telegram

About

Blog

Apps

Platform

Блог о Data Science 💻

4.19K subscribers

Блог о Data Science 💻

У них ещё можно сделать тест с индивидуальным планом развития, но я не проходил.

738 views10:00

Блог о Data Science 💻

По сути канал начинает набирать обороты, особенно когда я им занимаюсь, а не просто афк посты, как сейчас. Im so sorry, the сессия is coming...
Возможно сегодняшний день станет началом развития личного бренда. Меня интересует ваше мнение, хотели бы вы контент не только в телеграме, я обещал разбор моделей машинного обучения и написания их from scratch, я помню про это! Я имею ввиду формат видео, YouTube?

724 views19:26

Блог о Data Science 💻

Создать YouTube

Final Results

58 voters757 views19:26

Блог о Data Science 💻

Всем субботний привет! 👋

Сегодня хочу поделиться с вами накипевшими мыслями, очень люблю когда вы даёте какой то фидбек в комментах.

Хочу поднять три темы сегодня
1) Почему джуны приходят с нулевыми знаниями в компании и как не попасть на этот крючек
2) Что не так с IT образованием в рф/мире
3) Про ютуб канал

Почему джуны приходят с нулевыми знаниями в компании и как не попасть на этот крючек

Джуны - вероятнее всего недавние студенты, только только закончили вуз. И вот я недавно натолкнулся на вакансию, которая требовала минимум 2/3 критериев:
1) сбор данных с нуля
2) создание и улучшие модели
3) какой нибудь недопрод
И это очень стандартный кейс. И знаете что? Не все джуны с этим справятся. Даже в сбербанке иногда люди не знают отличие research от prod стадий (единичные случаи). Пишут prod stage код в юпитерах и тп... Это все происходит по причине того, что почти на всех стадиях обучения упускают этот момент, его сложно как то контролировать. Даже в том же яндекс практикуме (когда я учился) этому не уделяли внимания, несмотря на то, что качество обучения там отличное (на мой взгляд). А в университетах не все преподы python знают и ограничены написанием формул в екселе. Поэтому джуны/ интерны, которые приходят в компании просто не знают о том как правильно это делать, некоторые темы просто никто не освещает в широком круге и учаться этому уже внутри компании. Если вы не хотите опозориться и ответить на вопрос как вы реализовали пайплайн: sklearn.Pipeline, то гуглите другие проекты на гитхаб, смотрите гиты крупных компаний и тп. Учитись на ошибках других.

Что не так с IT образованием в рф/мире

Мы живём в мире высокой волатильности, изменчивости и то что актуально вчера, уже не релевантно для нас сегодня. Особенно вузы, которые не способны набирать актуальных преподавателей и в таком мире невозможно выработать и отследить стандарты, которые меняют из дня в день в добавок с появлением новых сфер и технологий. Вузы не могут научить вас всему, а вы должны заниматься в первую очередь самообразованием.

Про ютуб канал
В связи с этим возникла идея создания ютуб канала, ежедневно я сталкиваюсь с тем, что многие темы не освещают, а узконаправленные темы не шейрятся. Например нет хороший гайдов по фреймворку rllib и metaflow. Хотя их применимость довольно широка и эффективна.
Поэтому можно делать контент редко, но метко, я думаю многим нравится формат Птушкина, Топлеса или Карпова, они выпускают видео не часто, но всегда интересно. Пис ✌️

❤18🔥2

820 viewsedited 10:11

Блог о Data Science 💻

Ближайшие мероприятия, которые ждут вас в моем телеграм канале и не только!

1. Time to plump pet-project!
Ближайший пост, в котором я расскажу про то как прокачать свой пет проект и почему нельзя ограничиваться юпитером.
~конец июня

2. ?Reinforcement learning в задачах оптимизации
Пока что эта тема под вопросом, но уже есть определённые результаты. Сейчас автоматизирую процесс пайплайна, что бы проводить автоматические эксперименты.
~ пока не загадываю, но предлагаю между июль-сентябрь

3. Machine learning under the hood
Серия гайдов, где будем разбираться как работают те или иные модели под капотом и писать их на pytorch / numpy с нуля.
~ август

4. Как стать мастером kaggle.
Лекция совместно с rue ds club, в котором я расскажу о своём опыте в kaggle. А почему и как фармить медальки в kaggle вы сможете узнать уже в сентябре!

🔥18

951 viewsedited 11:58

Блог о Data Science 💻

2_5215367186826140036.pdf

2_5215367186826140036.pdf

🔥11

862 views08:59

Блог о Data Science 💻

Привет ✌️🏼👨🏼‍🎓, время близится к лету, а это значит сезон хаков и соревов.

Поэтому сегодня делюсь с вами как ускорить некоторые процессы на хакатоне. Процесс соревнований можно разделить на несколько этапов. Один из важных это синергия и мотивация команды, вы можете быть не самой сильной команде в начале, но выиграть в финале. Даже если вы участвуете один (допустим kaggle), это все равно вам поможет.

1) Ищем команду. По моему опыту не нужно набирать слишком много и слишком мало человек. На одну ds задачу хватает 3 человека. Самое главное ваша мотивация, даже если вы новичек, главное что бы вы во время хака не боялись работать со сложными вещами. Возможно в первый раз у вас ничего не получится, но потом снова и снова вы будете разбираться лучше. Тут главное попасть в свой сегмент, конечно, многие говорят, что если ты слабый, то лувше попасть к сильным, это да, но вы им там не особо нужны. А в команде с такими же как вы, будете развиваться вместе быстрее.

2) Настраиваем процессы. Посли того как вы собирали команду, вам нужно выстроить процессы в ней. То есть, знать кто чем занимается, быть готовым помочь в любой момент.
Чуть позже вернемся к этому вопоосу и посмотрим какие процессы нужны и как их ускорить. А пока займемся немного теоретической частью, это преподготовка к хаку.

3) Подготавливаем инструменты.
Одно из самых важных это трекинг задач. Многие пользуются agile и тд. Но мне нравится самый обычный блокнот из notion, который делишь на несколько частей.
Но недавно начал пользоваться workzen. Удобная штучка. Но все же. Обычно я создаю notion документ, в котором прописываю всю инфу о хаке, какие похожие хаки были, какие были там решения. Возможные данные которые пригодится. Какие то фичи и обработки данных которве могут пригодится. Как правило это все обсуждают в телеге конкретного хака. Раньше я добавлял туда метрики, валидации и тп, но сейчас это все автоматизировал.

4) Готовим окружение. Нам важно, что бы у всех сокомандников работала все идентично нам. Поэтому мы создаем докер, в котором создаем окружение ( я пользуюсь pip, сейчас хочу перейти на poetry, но можно и conda использовать если вы любитель винды и багов) теперь скачайте паттерн проекта с cookiecutter и считайте ваше начальное окружение готово. Осталось залить на гит. ( 1 эксперемент = 1 ветка )

5) Хакатон начался, тут мы должны автоматизировать процессы. Я любитель написать всю автоматизацию вручную, но тут делится все на 2 типа.
А) У вас есть изменяемость данных. То есть ваши данные в процессе построения пайплайнов как то меняются. Для этого стоит использовать DVC. Крутой инструмент, который будет смотреть изменились ли ваши данные и перерасчитать пайплайн при изменение. То есть вы можете починить какой то баг и у ваших тиммейтов перерасчитаются метрики.
Б) Если данные не меняются. Допустим задачи RF. Или вообще не DS. То тут я использую CLI (click)

Мы хотим трекать наши метрики или какие то данные и смотреть вообще как наши данные изменяются. Следовательно мы устанавливаем WB, WANDB или weighs and biases. Хорошо зарекомендовавшая себя либа. Соответственно, там же мы можем и смотреть репорты, и хранить артефакты. Всем советую.

Теперь когда у нас есть такие инструменты и автоматизация. Нам остается только работать с данными. Проводить различные тесты и эксперементы. И да кстати, не забудьте в ваш код добавить автотесты и мотивировать сокомандников.

( p.s. При использовании pip и cli могут возникнуть проблемы, что окружение не видит иерархие или видит ее неправильно, поэтому если столкнулись с такой проблемой либо создайте init.py, либо еще проще скачайте poetry у него намного больше возможностей в рамках mlops)

Запомните господа, эксперементы - jupyter.
Автоматизация - скрипты.

Поэтому не создавайте пайплайны в юпитерах я вас прошу, надеюсь теперь вы преисполнитесь в своем сознании и будете лутать хаки. Ведь время на них - самый важный ресурс.

🔥10❤2

1.08K viewsedited 14:10

Блог о Data Science 💻

Forwarded from Sergiusz

Добрый день, наша команда (NFT_explorators: @Sergiuuu, @tacobella9) опубликовала 3-й и последний гайд, ниже полный список:

1. "Менеджмент версий Python pyenv + менеджмент виртуальных окружений pyenv-virtualenv": https://yandex.ru/q/article/_1c795372/

2. Описание проекта, Axie Fair Price Prediction: https://yandex.ru/q/article/opisanie_komandnogo_proekta_dlia_ods_ai_0e248013/

3. "Установка Windows 10 + Ubuntu 20.04 LTS": https://yandex.ru/q/article/ustanovka_windows_10_ubuntu_20_04_lts_805db670/

4. Новый гайд: "Scrum: быстрый старт с использованием инструментов бесплатной подписки GitLab" - https://yandex.ru/q/article/scrum_bystryi_start_s_ispolzovaniem_bde36b23/

P.S. Также будем рады расширению профессиональных контактов - добавляйтесь:
1. https://www.linkedin.com/in/sergiusz-gusiew/ - Сергей Гусев
2. https://www.linkedin.com/in/ilia-mushkin-95a7a622a/ - Илья Мушкин

Яндекс Кью

«Pyenv и pyenv-virtualenv» — Яндекс Кью

Авторы:
- Sergei Gusev, https://yandex.ru/q/profile/4zqbpknbberhfbr0h2ny30gu1r/
- Ilia Mushkin, https://yandex.ru/q/profile/39htby1xatdmdd961qbdavwzc8/
Pyenv – менеджер версий python. Позволяет лег...

🔥4

836 views15:05

Блог о Data Science 💻

Forwarded from Записки Ппилифа (Ppilif Ulyankin)

Вчера у меня прошёл последний семинар по машинному обучению на ФКН в этом сезоне. Семинарить у самого Жени Соколова было большой честью.

Коли курсера закрыта, курсы ещё не особо куда-то переехали, а на дворе лето — лучшее время для самообразования, держите плейлисты с видосами с курса.

лекции МО-1 лекции МО-2 мои семинары репозиторий

Знать всё невозможно. Поэтому в течение курса я узнал что-то, что не знал раньше. Хочу поделиться с вами самыми крупными открытиями. Некоторые из них довольно стыдные:

- Я очень мало знал про обучение эмбеддингов на графах. Семинарист Ильдус сделал про это богоподобный конспект [ru] и тетрадку в питоне .

- Я вообще ничего не знал про differential privacy и то, как можно добавить эту штуку в свои модели.

пост 1 [en] пост 2 [en] статья от apple [en]

- У нас был классный семинар про бустинг с ручными задачками [ru]. Кажется, что я перешёл в его понимании на какой-то качественно новый уровень.

- Я ничего не знал про uplift-моделирование и никогда не встречался с ним на практике. Узнал чуть больше из обзорной статьи [en]

- Я вообще ничего не знал о спектральной кластеризации. Ни разу не слышал о таком методе, а он есть даже в sklearn.

лекция [ru] семинар [ru] туториал [en]

- Я никогда не уважал ядра и SVM. После курса стал относиться к ним немного получше.

🔥8

668 views20:05

Блог о Data Science 💻

Forwarded from Склад разработчика

Математика_на_Python.pdf

Математика на Python

Книга содержит большое количество практических примеров использования языка Python для решения математических задач. Каждая тема включает примеры решения типовых задач и задачи для самостоятельного решения.

Авторы: Криволапов С.Я., Хрипунова М.Б.
Год: 2022

#books #python #russian

🔥5

636 views16:35

Блог о Data Science 💻

Forwarded from Книги от Школы IT

Алгоритмы_эволюционной_оптимизации_2020_Дэн_Саймон.pdf

Алгоритмы эволюционной оптимизации
Дэн Саймон (2020)

651 views20:19

Блог о Data Science 💻

Forwarded from Центр развития карьеры РЭУ

Онлайн-сервисы для создания резюме📝

«Как создать резюме?» — вопрос, который волнует практически всех, кто находится в поиске работы. Представляем подборку сервисов, которые помогут создать или улучшить резюме.

🔸MyResume
🔸Resume.com
🔸Enhancv
🔸I can choose

Сервисы являются бесплатными.

#полезное

641 views11:54

Блог о Data Science 💻

Forwarded from Physics.Math.Code

📕 Практическая статистика для специалистов Data Science
50+ важнейших понятий с использованием R и Python [2022] Питер Брюс, Питер Гедек, Эндрю Брюс

💾 Скачать книгу

Питер Брюс (Peter Bruce)

основал и расширил Институт статистического образования Statistics.com, который теперь предлагает порядка 100 курсов в области статистики, из которых примерно половина предназначена для аналитиков данных.

Эндрю Брюс (Andrew Bruce)

имеет более чем 30-летний стаж работы в области статистики и науки о данных в академической сфере, правительстве и бизнесе. Он обладает степенью кандидата наук в области статистики Вашингтонского университета и опубликовал несколько работ в рецензируемых журналах.

Питер Гедек (Peter Gedeck)

имеет более чем 30-летний опыт работы в области научных вычислений и науки о данных. После 20 лет работы в качестве вычислительного химика в компании Novartis он занимает должность старшего исследователя данных в компании Collaborative Drug Discovery.

637 views08:00

Блог о Data Science 💻

Сессия почти кончилась 😅

В течении недели, двух хочу написать о том как прокачать пет проекты и соответстаующие книги и видосы прикрепить. Но если честно сильно выгорел от учёбы, как же высшее образование убивает желание что либо делать вообще.

Upd: в июле хочу по большей части заниматься работой, мб какими то хакатонами и добить уже топ100 кегля.

Новостей про RF пока не будет, но думаю к августу что то смогу вам показать интересное.

🔥5❤2😢1

672 viewsedited 20:34

Блог о Data Science 💻

Ура победа?)

650 views19:29

Блог о Data Science 💻

Forwarded from C.M.Book | Программирование

Please open Telegram to view this post

VIEW IN TELEGRAM

19:29

Блог о Data Science 💻

Forwarded from Книжный клад | IT

Иан_Милл,_Эйдан_Хобсон_Сейерс_Docker_на_практике_2020,_ДМК_Пресс.pdf

Книга "Docker на практике"

723 views19:29

Блог о Data Science 💻

Forwarded from Deleted Account

рекомендую ресурс: https://github.com/chekh/awesome-mlops

GitHub - chekh/awesome-mlops: :sunglasses: A curated list of awesome MLOps tools

:sunglasses: A curated list of awesome MLOps tools - GitHub - chekh/awesome-mlops: :sunglasses: A curated list of awesome MLOps tools

🔥2

839 views21:30

Блог о Data Science 💻

Forwarded from Physics.Math.Code

📕 Kubernetes в действии [2019] Лукша

💾 Скачать книгу

Kubernetes по-гречески означает “рулевой”. Это ваш проводник по неизведанным водам. Система контейнерной оркестровки Kubernetes безопасно управляет структурой распределенного приложения и последовательностью его выполнения, с максимальной эффективностью организуя контейнеры и службы. Kubernetes служит в качестве операционной системы для ваших кластеров, устраняя необходимость учитывать лежащую в основе сетевую и серверную инфраструктуру в ваших проектах.

625 views22:45

Блог о Data Science 💻

Forwarded from Physics.Math.Code

Kubernetes в действии [2019] Лукша.pdf

📕 Kubernetes в действии [2019] Лукша

Эта книга учит использовать Kubernetes для развертывания распределенных контейнеризированных приложений. Перед тем, как собрать свой первый кластер Kubernetes, вы начнете с обзора систем Docker и Kubernetes. Вы будете постепенно расширять свое начальное приложение, добавляя новые функциональные возможности и углубляя свои знания архитектуры и принципа работы Kubernetes. Также вы изучите такие важные темы, такие как мониторинг, настройка и масштабирование.
#linux #Docker #Kubernetes #web #программирование

710 views22:45

Блог о Data Science 💻

Охх... Такими темпами и до devops недалеко...

709 views21:19