Блог о Data Science 💻
4.18K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
Капец вы быстрые 😱

Ладно, иду делать 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥227🐳3
💙 Привет друзья! Пока я составляю для вас подборочку по рекомендательным системам нашел такой интересный канал.

Он достаточно похож на тот формат к которому я бы хотел прийти.

Рассказывают про статьи

Буквально на пальцах объясняют сложные вещи

И все это с красивыми картинками и интересной подачей!

Мне очень понравился их пост про рекомендательные системы! Обязательно к просмотру 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥18
🔤🔤🔤🔤🔤🔤🔤

Дисклеймер
---------------------
Я не фитнес тренер и не Валера Бабушкин, все основано на личных убеждениях, неудачном опыте и или умение гуглить, читать научные статьи.

🖼 Миро-доска в конце

Зачем ходить в зал?
Ответ достаточно простой, если вы болеете депрессивными расстройствами, тревожный или паническими атаками - вам помогут только две вещи справиться со всем дерьмом меньше курить, больше заниматься спортом.

Курение сжимает ваши сосуды (и повышают дофамин) и НС в шоке пытается понять почему ваш организм умирает, спорт наоборот их расширяет, вырабатывает гармоны, которые как раз помогают справляться со стрессом.

Что делать, если я пошёл в зал
Первоначально вам стоит определиться, что вы хотите в результате получить. В целом тренировки можно грубо разделить на два типа:

• Высокоинтенсивые
• Силовые

Это не значит, что нужно делать, что то одно, как мы знаем мышцы состоят из двух типов волокон: медленные и быстрые. Если вы собираетесь тренировать какую то часть тела, то посмотрите какие волокна преобладают там. Если у вас не восстановились мышцы, то тренировку с силовой можно (нужно) поменять на высокоинтенсивную.

Как составить тренировку?
Есть несколько вариантов тренировок

• fullbody - тренировка всего тела, отлично подходит если вы только начали или не можете позволить себе часто ходить в зал (в целом 2-3 раза в неделю с переодичностью в 2-3 дня отличный вариант).

Есть один большой минус этой тренировки, вы будете долго тренироваться и дойдёте быстро до гипертрофии мышц, а она требует ресурсов у организма, поэтому если вы не плотно позавтракали, то после часа тренировки ресурсы будут забираться не из еды, а мышц.

Ознакомьтесь с терминами перетренированнность и время тренировки

• split - когда вы тренируете отдельные части тела в разные дни, которые должны сочетаться.

Из важных вещей

• Тренировка не больше часа ( по вашим ощущениям, когда уже не можете организм даст знать )

• Следить за мышцами и правильным выполнением техники, читайте почему и как ростут те или иные мышцы.

• Кроме протеина или гейнера, креатина и bcaa не надо ничего употреблять.

• Сохраняйте профицит или дефицит калорий

• Доходить до отказа не надо, можно увеличить вес, увеличить интенсивность, увеличить подходы, но не убивайте свои мышцы просто так.

• Добавляйте переодизацию в свои тренировки, без неё вы не будете рости.

• Не знаю работает или нет, но локальное жиросжигание кажется логичным

• Начинайте всегда с больших групп мышц - спина, ноги, потом грудь, плечи, кор в таком порядке.

У меня например фуллбади, который я немного поделил на два дня.

• Первый день грудь(жим), спина(широчайшие), плечи, бицепс, болгарский присед

• Второй день грудь(махи), спина(трапецивидная), трицепс, приседания, кор и низко интенсивное кардио (велик)

Но пока в процессе, очевидно потом это поменяется на сплит в три дня наверное из-за удобства

📚 Моя миро-доска

Велком ту комменты, если есть что обсудить, как вам вообще non-ds формат?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥255🏆3👨‍💻2
🔤🔤🔤 🔤🔤🔤

Ждали, а вот и они!

Список будет пополняться как минимум еще есть пару крутых книг и статей,
которые могу порекомендовать, но чуть позже

System design [1]

System design [2]

How rec sys work

Content Based

Collaborative filtering

HSE lecture

Rec Sys Google cloud

Cookbook

Trends in Rec Sys

NN rec sys

🔤🔤🔤🔤🔤🔤🔤🔤

Practice rec sys [1]

Practice rec sys [2]

Practice MTS [1]

Practice MTS [2]

Practice MTS [3]

Practice MTS [4]

🔤🔤🔤🔤🔤

Learning to Rank for Information Retrieval and NLP by Hang Li

Lerning to Rank from Implicit by Filip Andrej Radlinski (P.S. это диссер, а не статья)

Dive into Deep Learning

Миро-доска Богдана @uberkinder

#recsys

120 Эмодзи и делаю про парсинг 🙃
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥140👨‍💻1310🐳8❤‍🔥33
Книжечки сверху добавил 😏, расшейрите пост знакомым, давайте добьем 1200 подписчиков и 120 реаков 🥰

Возможно скоро будет ещё один интересный формат, а если вы поделитесь с друзьями, то возможно он станет более реальным 😘
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳27🔥3🎉2
1111 подписчиков загадывайте желание 👽
🔥37❤‍🔥11🐳1
🔤🔤🔤🔤🔤🔤

🔤🔤🔤🔤🔤🔤🔤

В будущем, когда роботы уже захватили власть на Земле, ученые изобрели искусственный интеллект, способный управлять всеми машинами, для того чтобы уничтожить людей, начинает захватывать мир. Наступает эпоха, когда все человечество находится в полной власти компьютерного интеллекта. В борьбе с ним человечеству нужна помощь, но как ее получить? 😱

На помощь человечеству приходят самые отважные умы вселенной. Лишь студенты Simulator ML способны остановить геноцид человечества и не дать роботам взять вверх над человечеством. 👨‍💻

Решайте реальные рабочие задачи на Симуляторе ML. Под руководством ведущих Data Scientists — Валерия Бабушкина и Богдана Печёнкина — вы не просто прокачаете отдельные навыки, а поймёте, как сводить бизнес-задачи к задачам машинного обучения. Поработав над проектами различного уровня сложности, вы научитесь:

- Понимать, какие у бизнеса есть проблемы и какими метриками их можно измерить 🙏
- Проводить А/В-тесты, чтобы подтверждать прирост метрик 🙃
- Формулировать задачу для модели 😯
- Выбирать подходящую модель и обучать её 😮
- Организовывать процесс доставки данных для модели 😶
- Оборачивать модель в сервис и деплоить его 😬

После симулятора вы сможете успешно пройти собеседование на позицию в сфере Machine Learning, получить хорошую работу и приносить пользу бизнесу уже с первых дней. 🛀

Симулятор работает в режиме подписки и постоянно пополняется новыми задачами. 👌
Присоединяйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉11🐳6👨‍💻2😢1
Forwarded from karpov.courses
Совсем забыли о самом главном! Среди участников Q&A мы разыграем [три] месячных подписки на Симулятор ML! Для этого нужно зарегистрироваться по ссылке ниже:

[Принять участие]

Увидимся на трансляции 😎
🔥6
Как будет время и силы я доделаю пост про парсинг, а пока можете поучаствовать в розыгрыше халявы и выиграть подписку на симулятор мл. Так же там будет Q/A, если я буду в состояние, то буду в чатике отвечать на ваши вопросы! ❤️
🐳12🔥51
🔤🔤🔤🔤🔤🔤🔤🔤1️⃣

Этот пост будет по большей части как self best practice. 🙃

Cпарсить можно абсолютно все что угодно!)

Если вы когда то проходили курсы по парсингу или веб скрапингу, то в жизни все не так просто, как на курсах. Большинство сайтов защищаются от ддос атак и подозрительных активностей, а парсеры могут сильно нагружать сайты. Поэтому вас на изи заблокать, но выход всегда есть.

Можно почувствовать себя немного хакером и бороться с системой, пытаться её обойти. Благо для этого есть достаточно инструментов. Знайте, что если у вас есть данные - у вас есть все.

🔵Шаг первый
Hello world + Dev Ops, потому что в дальнейшем хрен знает где мы вообще этот парсер запускать будем, а может распределенно придется парсить.

🔵Шаг второй
После чего мы можем начать писать первую версию парсера.
Хорошие парсер, адекватная программа не пишется в jupyter notebook, избавьте меня от этого пожалуйста.

Что нам для этого понадобиться?
• request
• BS4/selenium/scrapy
• json, csv, postgresql
• pytest
• superset (или че то такое, что бы картиночки смотреть)
• multiprocessing/joblib
• fakeuseragent, proxy server

Желательно создать отдельный скрипт бекапа данных на виртуальное хранилище и подгрузка в БД, которая находится на другом сервере.

🔵Шаг третий
Гуглим как парсить данные и пользоваться этим всем, поэтому вот вам гайд
- PythonToday[1][2][3] (Самое годное, что вы можете найти и повторить)
- Как спарсить что угодно?
- HTML не панацея [1][2]
- Request не панацея
- Distributed web parsing [1][2]

Вообще этот мужик годноту делает
Так же вам стоит знать, что запускать лучше всего свои парсеры несколько раз, на несколько параллельных джобах или серверах. (вообще лучше каждый сервер распределить на свой регион или участок, а джобы на один и тот же сектор, так получиться наиболее корректная валидация парсинга). Так вы валидируете результат, а потом просто смотрите по объему и удаляете дубликаты, это достаточно легко сделать.

🔵Шаг четвёртый
Парсим че угодно и радуемся жизни. Можно продать инфу конкурентам или сделать на ней аналитический отчет.

Если вам нужно что-то спарсить 👨‍💻 или вы хотите получить консультацию 📞
Можно всегда написать автору канала @redpf
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥342🐳2👨‍💻1
🔠🔠🔠🔠 💜
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉4311🐳3
Произошел ребрендинг
🔥21😢8🐳3
🔤🔤🔤🔤🔤🔤🔤🔤

Удалите Anaconda с вашего PC! 🔒

В чате Karpov Courses, где я являюсь одним из модератором часто сталкиваюсь с людьми у которых какие то проблемы с Anaconda, в основном они связаны с тем какими то библиотеками, неправильной установкой зависимостей и тп.

Как правило все эти юзеры - только только вкатываются в профессию и не умеют работать с виртуальным окружением. А в дальнейшем, когда они будут работать с прод кодом, они осознают, что постоянно переносить из одного окружения в другой - гемор, тем более в окружение анаконды. Давайте разбираться! 👨‍💻

Начнем с того, зачем вы пишите код?

🐍 Что бы быстро что-то исследовать без дальнейшего его использования.
В каком случае удобно использовать Jupyter Notebook - Когда можно быстро накидать какой-то код или вы делаете какое то исследования, аналитику (без дальнейшего использования этого кода). Однако мы все так же должны соблюдать pep8, R&R, писать код в скриптах и использовать как можно меньше локальных переменных.

🐍 Когда этот код будут использовать в проде.
Тогда лучше сразу писать в .py просто потому что когда вы будете переносить с юпитера, вероятнее всего вы будете сталкиваться с багами хранения глобальных перменных. А во вторых тестирования, валидации и запуск полного пайплайна. Что реализовывать в юпитере достаточно сложно. (Если вы не работаете в Netflix или не поехавший)

Что такое виртуальное окружение?
У вас есть глобальный Python, а теперь представьте что у вас 5 проектов, каждый из которых использует разные зависимости или версии этих зависимостей. Пока вы будете чинить один, у вас будет ломаться другой. Получается некая каша библиотек. Виртуальное окружение - некая независимая оболочка для хранения ваших зависимостей для вашего проекта. (Как правило она называется VENV от слова virtual environment). То есть теперь у вас для каждого проекта будет свое место для хранения библиотек, которые не будут путаться между собой.
Подробнее про виртуальное окружение и его активацию

Какое окружение использовать?
Есть несколько виртуальных окружений
- venv
- virtualenv
- conda (не анаконда)
etc
Я использую virtualenv + pyenv, мне кажется это наиболее удобная комбинация.
Подробнее про виртуальные окружение и как его установить

А как теперь поставить юпитер?
Все просто, активируем наше окружение и пишем
> pip install jupyter notebook
или
> pip install jupyterlab

Ого юпитер разве не привязан к анаконде?
Да, jupyter можно поставить отдельно и запускать его командой в bash (При активированном окружении)
> jupyter notebook
> jupyter-notebook
> jupyterlab

Best Practice:
Если вы хотите быстро сделать какой то draft - сделайте это в google colab!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥385😢3🐳1
🔤🔤🔤🔤

На этом новости не кончаются, я открыл чат для вас! 🙃

Уникальный контент будет приходить туда, можно обсуждать и высказывать свои довольства и недовольства. Но довольства желательно побольше. 😶

Уже есть пару идей, которые можно реализовать 😋, но как обычно на них нужно время. 😭

Ссылочка на чат: t.iss.one/notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3🐳2👨‍💻21🔥1
Нас 1700! 🎉🎉🎉

Не забываем заходить в чат, я там делюсь эксклюзивным контентом 😋
https://t.iss.one/notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉7
Срочная новость! 🙃😱👨‍💻

Игорь Котенков сделал канал :D 👷‍♂️👷‍♂️

Кто такой Игорь? 🙃

А вот тут его канал 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥3😢2🏆1
Привет всем! Я совместо с RUE DS CLUB проведу митап 16 февраля!

Расскажу о
Как войтивайти
Почему kaggle не панацея
Как сделать свой пет проект и какие инструменты для этого нужны
Как набрать опыта без оффера
Несколько фишек для вас 😋

UPD: постараемся сделать запись

Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
27🔥10🐳2👨‍💻1
Думаю о том, что бы купить вебку и микро и записывать видосы 😋

Кст можете задонатить мне 💳

А ещё не забываем заходить в чатик
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳28🔥3
New Post 😎

Soon... 23:59

Не забываем на нем набрать 250 китов!
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳47👨‍💻51
🔤🔤🔤🔤🔤🔤🔤🔤🔤🔤🔤

Подогреваю ваш интерес, перед митапом, на котором я более подробно расскажу про то как именно и где их можно развивать и дам парочку своих фишек!
В этот раз расскажу про то какими принципами я придерживаюсь в развитии хард скиллов.

> Ссылка на митап 😮


Soft Skills more than Hard
Представьте, что вы строите дом. Вам важно то, на чем он стоит? Будет ли он устойчив? Какого он будет размера? 🏠
Так это и есть софт скиллы это фундамент. А на него уже настаивают хард скиллы.
На позиции E3-E4 часто уделяют внимание развитие именно софт скиллам, потому как кандидат должен сначала правильно построить фундамент!

Возможно вы задаетесь вопросом, да ерунда это все, какой фундамент? Причем тут это всё?
Представьте, что у вас есть каждый день 16 часов, из которых работать в фокусе над одной задачей вы можете 6+-2 часа. Чем вы заполняете это время?
Ваши кирпичики фундамента уходят на тик-ток, ответы на сообщения и тп. Я с этим сам недавно столкнулся и сейчас потихоньку развиваю вектор этих навыков. 💪

Легкие инструменты
Не пользуйтесь какими то сложными нагруженными тулами, например анаконда, зачем она вам, если есть колаб?
Все доступно в облаке, все что вам нужно - написание кода и подключение к серверу. 👨‍💻
> vscode
> google colab
> etc

Следить на трендами
Знаете почему вымерли динозавры, а вы так сильно не любите своих преподов в вузах? Потому что они не адаптируются! Они не используют современные технологии, которые сильно ускоряют ваши затраты на написание кода. 🙄
> ChatGPT
> Adrenaline
> Bing
> Copilot
> etc

Беру те задачи, в которых ничего не понимаю
На них уходит больше времени, приходится дольше разбираться, но ты познаешь новые инструменты. Желательно их куда то внедрить. Например - если участвовать в Kaggle соревнования - то предпочтительно в тех задачах, где я буду не знать как решать и разбираться по ходу дела и после. 🙃
Если Pet-Project, то такой, в котором я аналогично мало, что понимаю и смогу внедрить много интересных вещей, например NLP + RL, DWH, System Design + ML, ETL, etc.

Не бояться сложностей
Ой, наверное, я не смогу участвовать с этими ребятами в команде, они сильнее меня😱
Ой, наверное, эта задача не по мне, слишком сложная😨
Ой, наверное, мл не мое😭

Вы боитесь ошибок? Огорчить маму и папу, что не справились? Или вы учитесь на своих ошибках? 🔒

Это нормально не уметь что-то делать и решать, но чего точно не стоит делать - бояться этого. Даже если у вас не получается сейчас - почему вы решили, что не сможете в этом разобраться?😎


Не забываем заходить в чат и советовать пост друзьям! 📞

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳1329👨‍💻2
120 китов 🐳 на пост выше и пишу про бесплатные AI инструменты или как написать диплом в 😀3️⃣0️⃣0️⃣.

Чем они могут вам помочь?
Storytelling
Media
Support with papers
Speed up coding
Picture & Audio generation
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳55👨‍💻1