Блог о Data Science 💻

Книги по вышмату

Introduction to probability & statistics

В свое время долго разбирался с теорией вероятности и мат. статистикой. Большинство книг СНГ не используют единую систему обозначений. Не имеют актуальный и исчерпывающий материал. Какие то темы вообще пропускаются. Но книги от univeristy of callifornia просто находка. Мне очень нравиться их подача. Их примеры. Несмотря на том, что она на английском, но разобраться в твимсе с этой книгой будет в разы проще чем с какой либо еще. Тем более она именно практико-ориентированная. Вам не просто так дают формулы, а дают более менее реальные примеры использования с выходом в машинное обучение/эконометрику/аналитику/знание AB тестов.

Линейная Алгебра на Python

Если вы начали читать книги которые я советовал выше по анализу данных. То там нужно разбираться в линейной алгебре. Следовательно эта книга, она конечно не исчерпывающий материал. Но можно разобраться с реализацией многих алгоритмов и покрутить их самим.

Математика для Data Science [2021] Миронов, Минеева

Небольшой материал по подготовке от STEPIK. Тут именно практика, с разбором, с задачами, с конспектами.

Все ссылки в комментах

🔥15

1.72K views06:05

Блог о Data Science 💻

Книги по deep learning

Dive into deep learning


Одна из современных и актуальных книг по глубокому обучению. Актуальный код на 3 фреймворках. Есть курс видео лекций. Если вы только начинаете или мигрируете с разных фреймворках, то это отличный способ в пару кликов разобраться с основными паттернами. Советую!

Прикладное глубокое обучение Умберто Микелуччи


Отличная книга для начала, хоть и немного устаревшая. С понятными картинками, хорошо подойдёт для самых маленьких)

Глубокое обучение на python Франсуа Шолле


Во многом схожа с предыдущей, как альтернатива, если любите цветные картинки, но тут меня фундаментального матана.

🔥6

1.57K views12:52

Блог о Data Science 💻

Добавил ссылки к посту выше

🔥2

1.09K views15:25

Блог о Data Science 💻

🤔

1.05K views10:51

Блог о Data Science 💻

2_5422377833034946191.pdf

15.2 MB

Рекомендации SkillFactory по собесам, подготовке портфолио и английского языка.

🔥4

1.32K viewsedited 10:51

Блог о Data Science 💻

Книги DevOps [MLOps] + Reinforcement learning

Небольшой завал по времени, в коммах все выложу. ✌🏻

🔥3

1.21K views12:00

Блог о Data Science 💻

Какой у вас уровень ML

Anonymous Poll

27%

Я немного знаю python

41%

Я знаю python и теор. МЛ

22%

Я неплохо разбираюсь в МЛ

10%

У меня уже неплохой стаж ( 2-3 year+)

143 voters1.06K views16:49

Блог о Data Science 💻

Миникурс по MLOps [Docker + Workflows + Pipelines]

Миникурс

Если пройдете, то есть у ODS неплохой курс

 побольше и чуть интереснее

Курс ОДС

925 viewsedited 17:56

Блог о Data Science 💻

Оффтоп:
Вы часто в комменты заходите в разных пабликах? Мир с ума просто сходит, такое ощущение что вокруг не эпидемия ковида, а слобоумия.
Инфовойны, политика, пропаганда это, безусловно, все понятно, но неужели так сложно 2+2 сложить в 2022 году, что бы понять что к чему происходит ;)
Угнетать друг друга в соц. сетях, выглядит как драка обезьян за банан в зоопарке.
Земля круглая
Творите добро
Всем пис ✌️🇺🇦🇷🇺

❤3

747 views23:48

Блог о Data Science 💻

https://gopractice.ru/skills/data_analysts_levels/

GoPractice

ᐈ Навыки и требования к аналитикам данных на разных уровнях в «Яндексе». Профессия аналитика данных

Какими бывают уровни аналитика данных, как развиваться в профессии и какие компетенции нужны топовым аналитикам

804 views09:58

Блог о Data Science 💻

Личностный рост аналитиков от Intern до director. Полезно, что бы понять куда двигаться дальше.

723 views09:58

Блог о Data Science 💻

У них ещё можно сделать тест с индивидуальным планом развития, но я не проходил.

738 views10:00

Блог о Data Science 💻

По сути канал начинает набирать обороты, особенно когда я им занимаюсь, а не просто афк посты, как сейчас. Im so sorry, the сессия is coming...
Возможно сегодняшний день станет началом развития личного бренда. Меня интересует ваше мнение, хотели бы вы контент не только в телеграме, я обещал разбор моделей машинного обучения и написания их from scratch, я помню про это! Я имею ввиду формат видео, YouTube?

724 views19:26

Блог о Data Science 💻

Создать YouTube

Final Results

76%

Yes

24%

58 voters757 views19:26

Блог о Data Science 💻

Всем субботний привет! 👋

Сегодня хочу поделиться с вами накипевшими мыслями, очень люблю когда вы даёте какой то фидбек в комментах.

Хочу поднять три темы сегодня
1) Почему джуны приходят с нулевыми знаниями в компании и как не попасть на этот крючек
2) Что не так с IT образованием в рф/мире
3) Про ютуб канал

Почему джуны приходят с нулевыми знаниями в компании и как не попасть на этот крючек

Джуны - вероятнее всего недавние студенты, только только закончили вуз. И вот я недавно натолкнулся на вакансию, которая требовала минимум 2/3 критериев:
1) сбор данных с нуля
2) создание и улучшие модели
3) какой нибудь недопрод
И это очень стандартный кейс. И знаете что? Не все джуны с этим справятся. Даже в сбербанке иногда люди не знают отличие research от prod стадий (единичные случаи). Пишут prod stage код в юпитерах и тп... Это все происходит по причине того, что почти на всех стадиях обучения упускают этот момент, его сложно как то контролировать. Даже в том же яндекс практикуме (когда я учился) этому не уделяли внимания, несмотря на то, что качество обучения там отличное (на мой взгляд). А в университетах не все преподы python знают и ограничены написанием формул в екселе. Поэтому джуны/ интерны, которые приходят в компании просто не знают о том как правильно это делать, некоторые темы просто никто не освещает в широком круге и учаться этому уже внутри компании. Если вы не хотите опозориться и ответить на вопрос как вы реализовали пайплайн: sklearn.Pipeline, то гуглите другие проекты на гитхаб, смотрите гиты крупных компаний и тп. Учитись на ошибках других.

Что не так с IT образованием в рф/мире

Мы живём в мире высокой волатильности, изменчивости и то что актуально вчера, уже не релевантно для нас сегодня. Особенно вузы, которые не способны набирать актуальных преподавателей и в таком мире невозможно выработать и отследить стандарты, которые меняют из дня в день в добавок с появлением новых сфер и технологий. Вузы не могут научить вас всему, а вы должны заниматься в первую очередь самообразованием.

Про ютуб канал
В связи с этим возникла идея создания ютуб канала, ежедневно я сталкиваюсь с тем, что многие темы не освещают, а узконаправленные темы не шейрятся. Например нет хороший гайдов по фреймворку rllib и metaflow. Хотя их применимость довольно широка и эффективна.
Поэтому можно делать контент редко, но метко, я думаю многим нравится формат Птушкина, Топлеса или Карпова, они выпускают видео не часто, но всегда интересно. Пис ✌️

❤18🔥2

820 viewsedited 10:11

Блог о Data Science 💻

Ближайшие мероприятия, которые ждут вас в моем телеграм канале и не только!

1. Time to plump pet-project!
Ближайший пост, в котором я расскажу про то как прокачать свой пет проект и почему нельзя ограничиваться юпитером.
~конец июня

2. ?Reinforcement learning в задачах оптимизации
Пока что эта тема под вопросом, но уже есть определённые результаты. Сейчас автоматизирую процесс пайплайна, что бы проводить автоматические эксперименты.
~ пока не загадываю, но предлагаю между июль-сентябрь

3. Machine learning under the hood
Серия гайдов, где будем разбираться как работают те или иные модели под капотом и писать их на pytorch / numpy с нуля.
~ август

4. Как стать мастером kaggle.
Лекция совместно с rue ds club, в котором я расскажу о своём опыте в kaggle. А почему и как фармить медальки в kaggle вы сможете узнать уже в сентябре!

🔥18

951 viewsedited 11:58

Блог о Data Science 💻

2_5215367186826140036.pdf

777.7 KB

2_5215367186826140036.pdf

🔥11

862 views08:59

Блог о Data Science 💻

Привет ✌️🏼👨🏼‍🎓, время близится к лету, а это значит сезон хаков и соревов.

Поэтому сегодня делюсь с вами как ускорить некоторые процессы на хакатоне. Процесс соревнований можно разделить на несколько этапов. Один из важных это синергия и мотивация команды, вы можете быть не самой сильной команде в начале, но выиграть в финале. Даже если вы участвуете один (допустим kaggle), это все равно вам поможет.

1) Ищем команду. По моему опыту не нужно набирать слишком много и слишком мало человек. На одну ds задачу хватает 3 человека. Самое главное ваша мотивация, даже если вы новичек, главное что бы вы во время хака не боялись работать со сложными вещами. Возможно в первый раз у вас ничего не получится, но потом снова и снова вы будете разбираться лучше. Тут главное попасть в свой сегмент, конечно, многие говорят, что если ты слабый, то лувше попасть к сильным, это да, но вы им там не особо нужны. А в команде с такими же как вы, будете развиваться вместе быстрее.

2) Настраиваем процессы. Посли того как вы собирали команду, вам нужно выстроить процессы в ней. То есть, знать кто чем занимается, быть готовым помочь в любой момент.
Чуть позже вернемся к этому вопоосу и посмотрим какие процессы нужны и как их ускорить. А пока займемся немного теоретической частью, это преподготовка к хаку.

3) Подготавливаем инструменты.
Одно из самых важных это трекинг задач. Многие пользуются agile и тд. Но мне нравится самый обычный блокнот из notion, который делишь на несколько частей.
Но недавно начал пользоваться workzen. Удобная штучка. Но все же. Обычно я создаю notion документ, в котором прописываю всю инфу о хаке, какие похожие хаки были, какие были там решения. Возможные данные которые пригодится. Какие то фичи и обработки данных которве могут пригодится. Как правило это все обсуждают в телеге конкретного хака. Раньше я добавлял туда метрики, валидации и тп, но сейчас это все автоматизировал.

4) Готовим окружение. Нам важно, что бы у всех сокомандников работала все идентично нам. Поэтому мы создаем докер, в котором создаем окружение ( я пользуюсь pip, сейчас хочу перейти на poetry, но можно и conda использовать если вы любитель винды и багов) теперь скачайте паттерн проекта с cookiecutter и считайте ваше начальное окружение готово. Осталось залить на гит. ( 1 эксперемент = 1 ветка )

5) Хакатон начался, тут мы должны автоматизировать процессы. Я любитель написать всю автоматизацию вручную, но тут делится все на 2 типа.
А) У вас есть изменяемость данных. То есть ваши данные в процессе построения пайплайнов как то меняются. Для этого стоит использовать DVC. Крутой инструмент, который будет смотреть изменились ли ваши данные и перерасчитать пайплайн при изменение. То есть вы можете починить какой то баг и у ваших тиммейтов перерасчитаются метрики.
Б) Если данные не меняются. Допустим задачи RF. Или вообще не DS. То тут я использую CLI (click)

Мы хотим трекать наши метрики или какие то данные и смотреть вообще как наши данные изменяются. Следовательно мы устанавливаем WB, WANDB или weighs and biases. Хорошо зарекомендовавшая себя либа. Соответственно, там же мы можем и смотреть репорты, и хранить артефакты. Всем советую.

Теперь когда у нас есть такие инструменты и автоматизация. Нам остается только работать с данными. Проводить различные тесты и эксперементы. И да кстати, не забудьте в ваш код добавить автотесты и мотивировать сокомандников.

( p.s. При использовании pip и cli могут возникнуть проблемы, что окружение не видит иерархие или видит ее неправильно, поэтому если столкнулись с такой проблемой либо создайте init.py, либо еще проще скачайте poetry у него намного больше возможностей в рамках mlops)

Запомните господа, эксперементы - jupyter.
Автоматизация - скрипты.

Поэтому не создавайте пайплайны в юпитерах я вас прошу, надеюсь теперь вы преисполнитесь в своем сознании и будете лутать хаки. Ведь время на них - самый важный ресурс.

🔥10❤2

1.08K viewsedited 14:10

Блог о Data Science 💻

Forwarded from Sergiusz

Добрый день, наша команда (NFT_explorators: @Sergiuuu, @tacobella9) опубликовала 3-й и последний гайд, ниже полный список:

1. "Менеджмент версий Python pyenv + менеджмент виртуальных окружений pyenv-virtualenv": https://yandex.ru/q/article/_1c795372/

2. Описание проекта, Axie Fair Price Prediction: https://yandex.ru/q/article/opisanie_komandnogo_proekta_dlia_ods_ai_0e248013/

3. "Установка Windows 10 + Ubuntu 20.04 LTS": https://yandex.ru/q/article/ustanovka_windows_10_ubuntu_20_04_lts_805db670/

4. Новый гайд: "Scrum: быстрый старт с использованием инструментов бесплатной подписки GitLab" - https://yandex.ru/q/article/scrum_bystryi_start_s_ispolzovaniem_bde36b23/

P.S. Также будем рады расширению профессиональных контактов - добавляйтесь:
1. https://www.linkedin.com/in/sergiusz-gusiew/ - Сергей Гусев
2. https://www.linkedin.com/in/ilia-mushkin-95a7a622a/ - Илья Мушкин

Яндекс Кью

«Pyenv и pyenv-virtualenv» — Яндекс Кью

Авторы:
- Sergei Gusev, https://yandex.ru/q/profile/4zqbpknbberhfbr0h2ny30gu1r/
- Ilia Mushkin, https://yandex.ru/q/profile/39htby1xatdmdd961qbdavwzc8/
Pyenv – менеджер версий python. Позволяет лег...

🔥4

836 views15:05

Блог о Data Science 💻

Forwarded from Записки Ппилифа (Ppilif Ulyankin)

Вчера у меня прошёл последний семинар по машинному обучению на ФКН в этом сезоне. Семинарить у самого Жени Соколова было большой честью.

Коли курсера закрыта, курсы ещё не особо куда-то переехали, а на дворе лето — лучшее время для самообразования, держите плейлисты с видосами с курса.

лекции МО-1 лекции МО-2 мои семинары репозиторий

Знать всё невозможно. Поэтому в течение курса я узнал что-то, что не знал раньше. Хочу поделиться с вами самыми крупными открытиями. Некоторые из них довольно стыдные:

- Я очень мало знал про обучение эмбеддингов на графах. Семинарист Ильдус сделал про это богоподобный конспект [ru] и тетрадку в питоне .

- Я вообще ничего не знал про differential privacy и то, как можно добавить эту штуку в свои модели.

пост 1 [en] пост 2 [en] статья от apple [en]

- У нас был классный семинар про бустинг с ручными задачками [ru]. Кажется, что я перешёл в его понимании на какой-то качественно новый уровень.

- Я ничего не знал про uplift-моделирование и никогда не встречался с ним на практике. Узнал чуть больше из обзорной статьи [en]

- Я вообще ничего не знал о спектральной кластеризации. Ни разу не слышал о таком методе, а он есть даже в sklearn.

лекция [ru] семинар [ru] туториал [en]

- Я никогда не уважал ядра и SVM. После курса стал относиться к ним немного получше.

🔥8

668 views20:05

Блог о Data Science 💻

Forwarded from Склад разработчика

Математика_на_Python.pdf

69.8 MB

Математика на Python

Книга содержит большое количество практических примеров использования языка Python для решения математических задач. Каждая тема включает примеры решения типовых задач и задачи для самостоятельного решения.

Авторы: Криволапов С.Я., Хрипунова М.Б.
Год: 2022

#books #python #russian

🔥5

636 views16:35

About

Blog

Apps

Platform