Блог о Data Science 💻
4.18K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
Математика_на_Python.pdf
69.8 MB
Математика на Python

Книга содержит большое количество практических примеров использования языка Python для решения математических задач. Каждая тема включает примеры решения типовых задач и задачи для самостоятельного решения.

Авторы: Криволапов С.Я., Хрипунова М.Б.
Год: 2022

#books #python #russian
🔥5
Алгоритмы_эволюционной_оптимизации_2020_Дэн_Саймон.pdf
22.7 MB
Алгоритмы эволюционной оптимизации
Дэн Саймон (2020)
Онлайн-сервисы для создания резюме📝

«Как создать резюме?» — вопрос, который волнует практически всех, кто находится в поиске работы. Представляем подборку сервисов, которые помогут создать или улучшить резюме.

🔸MyResume
🔸Resume.com
🔸Enhancv
🔸I can choose

Сервисы являются бесплатными.

#полезное
Forwarded from Physics.Math.Code
📕 Практическая статистика для специалистов Data Science
50+ важнейших понятий с использованием R и Python [2022] Питер Брюс, Питер Гедек, Эндрю Брюс

💾 Скачать книгу

Питер Брюс (Peter Bruce) основал и расширил Институт статистического образования Statistics.com, который теперь предлагает порядка 100 курсов в области статистики, из которых примерно половина предназначена для аналитиков данных.

Эндрю Брюс (Andrew Bruce) имеет более чем 30-летний стаж работы в области статистики и науки о данных в академической сфере, правительстве и бизнесе. Он обладает степенью кандидата наук в области статистики Вашингтонского университета и опубликовал несколько работ в рецензируемых журналах.

Питер Гедек (Peter Gedeck) имеет более чем 30-летний опыт работы в области научных вычислений и науки о данных. После 20 лет работы в качестве вычислительного химика в компании Novartis он занимает должность старшего исследователя данных в компании Collaborative Drug Discovery.
Сессия почти кончилась 😅

В течении недели, двух хочу написать о том как прокачать пет проекты и соответстаующие книги и видосы прикрепить. Но если честно сильно выгорел от учёбы, как же высшее образование убивает желание что либо делать вообще.

Upd: в июле хочу по большей части заниматься работой, мб какими то хакатонами и добить уже топ100 кегля.

Новостей про RF пока не будет, но думаю к августу что то смогу вам показать интересное.
🔥52😢1
Ура победа?)
Forwarded from Physics.Math.Code
📕 Kubernetes в действии [2019] Лукша

💾 Скачать книгу

Kubernetes по-­гречески означает “рулевой”. Это ваш проводник по неизведанным водам. Система контейнерной оркестровки Kubernetes безопасно управляет структурой распределенного приложения и последовательностью его выполнения, с максимальной эффективностью организуя контейнеры и службы. Kubernetes служит в качестве операционной системы для ваших кластеров, устраняя необходимость учитывать лежащую в основе сетевую и серверную инфраструктуру в ваших проектах.
Forwarded from Physics.Math.Code
Kubernetes в действии [2019] Лукша.pdf
10.8 MB
📕 Kubernetes в действии [2019] Лукша

Эта книга учит использовать Kubernetes для развертывания распределенных контейнеризированных приложений. Перед тем, как собрать свой первый кластер Kubernetes, вы начнете с обзора систем Docker и Kubernetes. Вы будете постепенно расширять свое начальное приложение, добавляя новые функциональные возможности и углубляя свои знания архитектуры и принципа работы Kubernetes. Также вы изучите такие важные темы, такие как мониторинг, настройка и масштабирование.
#linux #Docker #Kubernetes #web #программирование
Охх... Такими темпами и до devops недалеко...
Forwarded from hahacker_news
Bootstrapping_Microservices_with_Docker,_Kubernetes,_and_Terraform.pdf
13.7 MB
Bootstrapping Microservices with Docker, Kubernetes, and Terraform: A project-based guide (2021)
Автор: Ashley Davis
3
Если честно мой пост о том как прокачать свои пет проекты зашёл слишком далеко и я буквально от ML ушёл в fullstack. Я постараюсь минимизировать инфу...
И если заметить то книги по docker -> K8s -> bootstrapping microservices не просто так тут!)

Проблема в том, что инфы много, время мало, желания что то делать ещё меньше, но я надеюсь получиться более менее структурировать инфу, по крайней мере я помогу сделать roadmap и оценить сложность от времени, которое вы готовы на это потратить. Как дай человеку рыбу и он будет сыт один день, а дай ему удочку и он будет сыт всегда. Вот и я вам дам roadmap, а вы от него сможете как то отталкиваться и основные понятия что зачем нужно делать и какие инструменты вам нужны. (но чем глубжн это качается backend/devops, тем хуже могут быть мои советы 🙈, так что доверяйте, но проверяйте)

Upd постараюсь к концу следующей недели сделать, но не обещаю
14
THE EXAMINATION IS DONE
🔥91
This media is not supported in your browser
VIEW IN TELEGRAM
Первая пошла
У нас тут кластерный анализ на кегле подъехал. Ухххх, держите меня, щас я эти кернели штопать буду...
Но пока сыровато, что за ночь успел. Сегодня сяду отредачу ещё кернел по млопс, надо его допилить.
Сделать про прокачку пет-проектов постик, это верно.

В планах ещё кернел
* про временные ряды
* хочу минигайд про RF сделать если получиться, не обещаю.
* хочу много маленьких гайдов про млопс инструменты типо wb и тд
* хочу про модели ещё сделать много маленьких кернелов. (в основном нелинейные)
* начать про сеточки что то делать? 🤔

Че думаете такой объем реально вообще сделать?) я, конечно, не Википедия, но очень круто если вы допустим идёте на собес, взяли мои кернелы посмотрели и вспомнили че там к чему)

https://www.kaggle.com/code/kartushovdanil/tps-jul-22-transformations
6🔥3
АПВОУТ ОТ МОЕГО КРАША КЕГЛЯ :З
Так неожиданно и приятно... Если вы думаете, что вы круто делаете аналитику, то посмотрите просто что он творит, это просто гений. Он вдохновил меня вообще начать что то делать на кегле и думаю, что скоро получиться догнать его😏

Ps sharlto cope
image_2022-07-05_23-31-18.png
9.1 KB
То самое чувство, когда ты смотришь смотришь код грандамстеров, а там твой линк...
8🔥6
Привет мои дорогие, многие ждали, да я и сам ждал и вот он долгожданный пост о том как прокачать свои пет-проекты.

Сегодня мы немного отойдем от идеи машинного обучения и посмотрим на все это дело с точки зрения рекрутмента или ревьюера.
Я предлагаю вам представить себя в роли тим-лида, который нанимает в свою команду интерна, джуна, мидла. И про это можно почитать вот в этом канале https://t.iss.one/start_ds, автором которого является @RAVasiliev
Конечно, мы не можем сделать идеальные пет проекты для каждого тех-лида, но можем набрать условный минимум, которым сможем как то апеллировать в будущем. Если интересно, можем пообщаться на эту тему в комментариях, я могу скинуть пару подкастов, которые помогут повысить ваши шансы уже на самом собесе (На мой взгляд).

И так, мы тех-лид IT или МЛ отдела, нам нужны джун/мидл разработчики. Представим что в нашем выдуманном мире остались 3 вакансии, которые мы готовы рассмотреть Вася, Петя и Федя.
У каждого из кандидата одинаковый опыт, хорошо составленные резюме. То-есть мы изолируем все факторы кроме пет-проектов, ведь речь идет о них. Тим лид заходит на гит каждого и смотрит.
Допустим наша компания - Яндекс Лавка/Еда. Следовательно нас будут интересовать рекомендательные системы, матчинг, отток клиентов и анализ данных и тп.
И так первый гит первого кандидата - три репозитория, без описания и лишь файлики Jupyter Notebook. Ну нам не сложно, откроем их в google colab. Смотрим, и понимаем, что Вася что-то делал, но проверить мы это не можем, потому что библиотеки устарели, а код его не работает на новых версиях и вообще работает он долго.
Да, такой кандидат совсем ничего не сказал о себе, мы его даже оценить никак не можем.
Ну тогда давайте посмотрим Петю, может у него что-то получше. Открываем гит, а там и описание уже есть, и активность коммитов есть. Есть какие то результаты репозиториев и даже ноутбук в гите отрендерили. Да, тут уже получше. Открываем первый проект, допустим Титаник и там даже прописаны версии и скачиваение зависимости. Вот это уже что-то. Такого кандидата можно и взять, но давайте посмотрим другие репозитории. Смотрим второй, третий репозиторий, а там вообще ничего про ритейл и то что хоть как то может быть для нас полезно.
Эх хороший кандидат был, а проекты совсем не релевантные, но на джуна можно взять, может переучиться. Но сначала следующий кондидат.
И так открываем мы репозиторий Феди и видим красивую картину. И описание в гите есть и резюме приложил, а активность ну каждый день что-то делает.
Смотрим на репозитории, а там так вообще сказка, там не только jupyternotebook, а целые проекты с бекендом в скриптах. И указано как все скачать и запустить, и результаты указаны.
А проекты то какие, релевантные, а самое главное бизнес ценность в описание написана.
🔥12
Вот и небольшая притча о том как делать пет проекты. А сейчас я бы хотел рассказать, что вообще стоит исследовать и с чего начинать.
Безусловно первое что мы делаем - ищем проблему которую нужно решить, почему проблему? Потому что спрос рождает предложение, а предложение не рождает спрос. Если вы сделаете что-то полезное, то можно будет даже продать это или сделать свой маленький стартап и вообще последующее развитие всегда лучше прокрастинации.
Допустим проблему мы определили - нам нужно собрать или взять данные, я вам рекомендую делать непрерывные парсинг данный, это будет несколько сложнее, придется заморочиться с системой мониторинга, но это круче чем ничего не делать и CI/CD опять же подключить можно. Второй вариант это просто скачать откуда то, тоже можно, почему нет, а можно скачать откуда то, а еще и парсить.
Наш следующий шаг правильно создать окружение тут нужны следующие инструменты на мой взгял: docker, git, github/gitlab, poetry + pyenv. И прописать установку окружения и в нем уже создавать свои контейнеры, которые можно запускать. Тот же парсер.
Теперь - рисерч. Допустим мы быстренько написали парсер уже у нас достаточные данные. Нам нужно почистить данные, проверсти тесты и убедиться что мы можем что-то прогназироватью. Сделайте презентацию какую то или дашборд по данным, что бы потом внедрить в мониторинг систему, я думаю это круто и в дальнейшем вам будет что показать.
И так после ричерча мы поняли, что данные очень волатильны и вообще непонятно что происходит с дисперсией, мы хотим использовать деревья для этого они нам дают прекрасный результат, они непараметрические и шумов у нас не так много в данных. Теперь мы будем строить пайплайн.
Что для этого нужно, помимо либ, которые вы используете в обучение: Соотвественно все перевести в скрипты, где каждый файл отдельный миниалгоритм pytest, pydantic для верификации данных и скриптов. Хотим мониторить обучение моделей и данных - WandB. Хотим что бы после изменения данных, пайплайн сам запускался - DVC.
Отлично, давайте посмотрим, что у нас есть:
docker и gitlab проект, так же у нас парсер, который сейчас все сохраняет в csv, какой то скрипт, который создает датасет. У нас есть скрипт по созданию дополнительных данных и чистке. У нас есть скрипт по обучению модели. Получение различных метрик и репортов. И какой то аля сохранение дашбордов в png.
Это, конечно, замечательно. Но как то хочется что бы оно само работало, да и вообще мы устали все вручную запускать через main.py так еще и забываем иногда парсер запускать.
Для этого нам нужно изучить CI/CD, GitLab CI, CLI и разобраться как пользоваться серверами. Допустим на Yandex Cloud.
Тут уже многое зависит от вас, как вы хотите все это сделать. Но что я могу посоветовать: MLOps у ODS и курс Yandex Practicum по Облокам

И так у в итоге кое как получилось создать сервер, теперь у нас парсинг запускается каждые 2 часа, после этого обучаются модели и мы получаем какие то output по метрикам и какие то png дашборды. Как то неправильно, мы хотим что бы вообще все работало автономно.
Теперь начинается наверное самое сложное - backend/ frontend.
И так во первых - нужно создать отдельно папку frontend/backend/database все они будут запускать 3 различных контейнера (в идеале):
Нам нужно знать REST API, gunicorn - что бы связать фронт и бек. А еще как то обращаться к БД. Я бы использовал FastApi для backend и react для фронта.
Теперь у нас есть фронтенд, который должен отсылать запрос к бекенду, бекенд отсылал бы ответ и реакт бы рендерил то что хочет пользователь, например наши дашборды. Они уже не PNG, а какая то динамично изменяющаяся картиночка.

А самое главное, даже если у нас ляжет сервер, так как мы использовали gitlab ci и gitops, мы сможем развернуть наш сервер без проблем на другом.

Возможно я упустил какие то точности и не претендую на лучшего эксперта фронтенда и бекенда, devops, но это то, что я изучал последние несколько недель, пришлось посмотреть достаточно много видос, особенно про gitops. Это не панацея, но на мой взгляд, так и нужно реализовывать проекты.

Еще советую linear.app!
🔥12