Блог о Data Science 💻
4.18K subscribers
75 photos
4 videos
21 files
115 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.iss.one/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
А че там на рынке то?🗒

Часть первая - про аналитиков👨‍💻

Часть вторая - про DE, ML⌨️

#аченарынкето #окт
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15🐳2
🔔 A bit news about my life

Наконец-то релизнули мои задачи в Simulator ML

Задачки супер крутые, а те которые планируются ближе к НГ ещё лучше!

Вроде остался последний модуль перед дипломом, удачи мне 🔵

Собираюсь пойти в зал, очень сложно и много эмоциональной нагрузки, один раз я узнал что такое депрессия, больше желания нет повторять. Даже сделал миро доску, могу отдельный пост накатать (раньше занимался, потом из за травмы сустава перестал).

Что бы вывозить всё и вся нужно спать 8 часов, расставлять приоритеты и не брать слишком много на себя. Если где то просрете дедлайн это плохо, но хуже, если вы будете не работоспособны. (И правильно кушать, отказаться от курения и алкоголя, хотя бы уменьшить количество его потребление)

Собираюсь завести трекер и вести calendary. Недавно был дофаминовый детокс, было сложно, но щас уже +- в норме.

Дофамин - гармон, который отвечает за ожидание удовольствия. Чем больше и чаще вы его поощряете тем меньше он вырабатывается и тем больше у вас зависимость.

Очень сильно влияет на эмоциональное состояние, если отказаться от вредных привычек и допустим не так часто тратить деньги на еду (сори я лудоман в сфере еды), будете на чиле спустя время, + меньше стресса.

Особенно про курение, если вы часто курите вы не просто повышаете свой дофамин, но и вредите вегето-сосудистой системе, организм адаптируется под сужение сосудов и пытается расширить их частым сердцебиением - поэтому если вам тревожно курение вообще не вариант! (Так же кофе и тд, тп)

Когда нибудь я сделаю пост про пейперы, но пока руки не доходят

Точно про около рек системы будут ✌️
Please open Telegram to view this post
VIEW IN TELEGRAM
27🔥7🐳3🏆2❤‍🔥1
🆔 В закрепе есть пост про А/Б тесты.

Планирую сделать такой же про рекомендательные системы 😉

А потом ещё про парсинг может быть вспомню 😉

С вас 25 реактов 🐳
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳93❤‍🔥20🔥8
Капец вы быстрые 😱

Ладно, иду делать 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥227🐳3
💙 Привет друзья! Пока я составляю для вас подборочку по рекомендательным системам нашел такой интересный канал.

Он достаточно похож на тот формат к которому я бы хотел прийти.

Рассказывают про статьи

Буквально на пальцах объясняют сложные вещи

И все это с красивыми картинками и интересной подачей!

Мне очень понравился их пост про рекомендательные системы! Обязательно к просмотру 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥18
🔤🔤🔤🔤🔤🔤🔤

Дисклеймер
---------------------
Я не фитнес тренер и не Валера Бабушкин, все основано на личных убеждениях, неудачном опыте и или умение гуглить, читать научные статьи.

🖼 Миро-доска в конце

Зачем ходить в зал?
Ответ достаточно простой, если вы болеете депрессивными расстройствами, тревожный или паническими атаками - вам помогут только две вещи справиться со всем дерьмом меньше курить, больше заниматься спортом.

Курение сжимает ваши сосуды (и повышают дофамин) и НС в шоке пытается понять почему ваш организм умирает, спорт наоборот их расширяет, вырабатывает гармоны, которые как раз помогают справляться со стрессом.

Что делать, если я пошёл в зал
Первоначально вам стоит определиться, что вы хотите в результате получить. В целом тренировки можно грубо разделить на два типа:

• Высокоинтенсивые
• Силовые

Это не значит, что нужно делать, что то одно, как мы знаем мышцы состоят из двух типов волокон: медленные и быстрые. Если вы собираетесь тренировать какую то часть тела, то посмотрите какие волокна преобладают там. Если у вас не восстановились мышцы, то тренировку с силовой можно (нужно) поменять на высокоинтенсивную.

Как составить тренировку?
Есть несколько вариантов тренировок

• fullbody - тренировка всего тела, отлично подходит если вы только начали или не можете позволить себе часто ходить в зал (в целом 2-3 раза в неделю с переодичностью в 2-3 дня отличный вариант).

Есть один большой минус этой тренировки, вы будете долго тренироваться и дойдёте быстро до гипертрофии мышц, а она требует ресурсов у организма, поэтому если вы не плотно позавтракали, то после часа тренировки ресурсы будут забираться не из еды, а мышц.

Ознакомьтесь с терминами перетренированнность и время тренировки

• split - когда вы тренируете отдельные части тела в разные дни, которые должны сочетаться.

Из важных вещей

• Тренировка не больше часа ( по вашим ощущениям, когда уже не можете организм даст знать )

• Следить за мышцами и правильным выполнением техники, читайте почему и как ростут те или иные мышцы.

• Кроме протеина или гейнера, креатина и bcaa не надо ничего употреблять.

• Сохраняйте профицит или дефицит калорий

• Доходить до отказа не надо, можно увеличить вес, увеличить интенсивность, увеличить подходы, но не убивайте свои мышцы просто так.

• Добавляйте переодизацию в свои тренировки, без неё вы не будете рости.

• Не знаю работает или нет, но локальное жиросжигание кажется логичным

• Начинайте всегда с больших групп мышц - спина, ноги, потом грудь, плечи, кор в таком порядке.

У меня например фуллбади, который я немного поделил на два дня.

• Первый день грудь(жим), спина(широчайшие), плечи, бицепс, болгарский присед

• Второй день грудь(махи), спина(трапецивидная), трицепс, приседания, кор и низко интенсивное кардио (велик)

Но пока в процессе, очевидно потом это поменяется на сплит в три дня наверное из-за удобства

📚 Моя миро-доска

Велком ту комменты, если есть что обсудить, как вам вообще non-ds формат?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥255🏆3👨‍💻2
🔤🔤🔤 🔤🔤🔤

Ждали, а вот и они!

Список будет пополняться как минимум еще есть пару крутых книг и статей,
которые могу порекомендовать, но чуть позже

System design [1]

System design [2]

How rec sys work

Content Based

Collaborative filtering

HSE lecture

Rec Sys Google cloud

Cookbook

Trends in Rec Sys

NN rec sys

🔤🔤🔤🔤🔤🔤🔤🔤

Practice rec sys [1]

Practice rec sys [2]

Practice MTS [1]

Practice MTS [2]

Practice MTS [3]

Practice MTS [4]

🔤🔤🔤🔤🔤

Learning to Rank for Information Retrieval and NLP by Hang Li

Lerning to Rank from Implicit by Filip Andrej Radlinski (P.S. это диссер, а не статья)

Dive into Deep Learning

Миро-доска Богдана @uberkinder

#recsys

120 Эмодзи и делаю про парсинг 🙃
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥140👨‍💻1310🐳8❤‍🔥33
Книжечки сверху добавил 😏, расшейрите пост знакомым, давайте добьем 1200 подписчиков и 120 реаков 🥰

Возможно скоро будет ещё один интересный формат, а если вы поделитесь с друзьями, то возможно он станет более реальным 😘
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳27🔥3🎉2
1111 подписчиков загадывайте желание 👽
🔥37❤‍🔥11🐳1
🔤🔤🔤🔤🔤🔤

🔤🔤🔤🔤🔤🔤🔤

В будущем, когда роботы уже захватили власть на Земле, ученые изобрели искусственный интеллект, способный управлять всеми машинами, для того чтобы уничтожить людей, начинает захватывать мир. Наступает эпоха, когда все человечество находится в полной власти компьютерного интеллекта. В борьбе с ним человечеству нужна помощь, но как ее получить? 😱

На помощь человечеству приходят самые отважные умы вселенной. Лишь студенты Simulator ML способны остановить геноцид человечества и не дать роботам взять вверх над человечеством. 👨‍💻

Решайте реальные рабочие задачи на Симуляторе ML. Под руководством ведущих Data Scientists — Валерия Бабушкина и Богдана Печёнкина — вы не просто прокачаете отдельные навыки, а поймёте, как сводить бизнес-задачи к задачам машинного обучения. Поработав над проектами различного уровня сложности, вы научитесь:

- Понимать, какие у бизнеса есть проблемы и какими метриками их можно измерить 🙏
- Проводить А/В-тесты, чтобы подтверждать прирост метрик 🙃
- Формулировать задачу для модели 😯
- Выбирать подходящую модель и обучать её 😮
- Организовывать процесс доставки данных для модели 😶
- Оборачивать модель в сервис и деплоить его 😬

После симулятора вы сможете успешно пройти собеседование на позицию в сфере Machine Learning, получить хорошую работу и приносить пользу бизнесу уже с первых дней. 🛀

Симулятор работает в режиме подписки и постоянно пополняется новыми задачами. 👌
Присоединяйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉11🐳6👨‍💻2😢1
Forwarded from karpov.courses
Совсем забыли о самом главном! Среди участников Q&A мы разыграем [три] месячных подписки на Симулятор ML! Для этого нужно зарегистрироваться по ссылке ниже:

[Принять участие]

Увидимся на трансляции 😎
🔥6
Как будет время и силы я доделаю пост про парсинг, а пока можете поучаствовать в розыгрыше халявы и выиграть подписку на симулятор мл. Так же там будет Q/A, если я буду в состояние, то буду в чатике отвечать на ваши вопросы! ❤️
🐳12🔥51
🔤🔤🔤🔤🔤🔤🔤🔤1️⃣

Этот пост будет по большей части как self best practice. 🙃

Cпарсить можно абсолютно все что угодно!)

Если вы когда то проходили курсы по парсингу или веб скрапингу, то в жизни все не так просто, как на курсах. Большинство сайтов защищаются от ддос атак и подозрительных активностей, а парсеры могут сильно нагружать сайты. Поэтому вас на изи заблокать, но выход всегда есть.

Можно почувствовать себя немного хакером и бороться с системой, пытаться её обойти. Благо для этого есть достаточно инструментов. Знайте, что если у вас есть данные - у вас есть все.

🔵Шаг первый
Hello world + Dev Ops, потому что в дальнейшем хрен знает где мы вообще этот парсер запускать будем, а может распределенно придется парсить.

🔵Шаг второй
После чего мы можем начать писать первую версию парсера.
Хорошие парсер, адекватная программа не пишется в jupyter notebook, избавьте меня от этого пожалуйста.

Что нам для этого понадобиться?
• request
• BS4/selenium/scrapy
• json, csv, postgresql
• pytest
• superset (или че то такое, что бы картиночки смотреть)
• multiprocessing/joblib
• fakeuseragent, proxy server

Желательно создать отдельный скрипт бекапа данных на виртуальное хранилище и подгрузка в БД, которая находится на другом сервере.

🔵Шаг третий
Гуглим как парсить данные и пользоваться этим всем, поэтому вот вам гайд
- PythonToday[1][2][3] (Самое годное, что вы можете найти и повторить)
- Как спарсить что угодно?
- HTML не панацея [1][2]
- Request не панацея
- Distributed web parsing [1][2]

Вообще этот мужик годноту делает
Так же вам стоит знать, что запускать лучше всего свои парсеры несколько раз, на несколько параллельных джобах или серверах. (вообще лучше каждый сервер распределить на свой регион или участок, а джобы на один и тот же сектор, так получиться наиболее корректная валидация парсинга). Так вы валидируете результат, а потом просто смотрите по объему и удаляете дубликаты, это достаточно легко сделать.

🔵Шаг четвёртый
Парсим че угодно и радуемся жизни. Можно продать инфу конкурентам или сделать на ней аналитический отчет.

Если вам нужно что-то спарсить 👨‍💻 или вы хотите получить консультацию 📞
Можно всегда написать автору канала @redpf
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥342🐳2👨‍💻1
🔠🔠🔠🔠 💜
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉4311🐳3
Произошел ребрендинг
🔥21😢8🐳3
🔤🔤🔤🔤🔤🔤🔤🔤

Удалите Anaconda с вашего PC! 🔒

В чате Karpov Courses, где я являюсь одним из модератором часто сталкиваюсь с людьми у которых какие то проблемы с Anaconda, в основном они связаны с тем какими то библиотеками, неправильной установкой зависимостей и тп.

Как правило все эти юзеры - только только вкатываются в профессию и не умеют работать с виртуальным окружением. А в дальнейшем, когда они будут работать с прод кодом, они осознают, что постоянно переносить из одного окружения в другой - гемор, тем более в окружение анаконды. Давайте разбираться! 👨‍💻

Начнем с того, зачем вы пишите код?

🐍 Что бы быстро что-то исследовать без дальнейшего его использования.
В каком случае удобно использовать Jupyter Notebook - Когда можно быстро накидать какой-то код или вы делаете какое то исследования, аналитику (без дальнейшего использования этого кода). Однако мы все так же должны соблюдать pep8, R&R, писать код в скриптах и использовать как можно меньше локальных переменных.

🐍 Когда этот код будут использовать в проде.
Тогда лучше сразу писать в .py просто потому что когда вы будете переносить с юпитера, вероятнее всего вы будете сталкиваться с багами хранения глобальных перменных. А во вторых тестирования, валидации и запуск полного пайплайна. Что реализовывать в юпитере достаточно сложно. (Если вы не работаете в Netflix или не поехавший)

Что такое виртуальное окружение?
У вас есть глобальный Python, а теперь представьте что у вас 5 проектов, каждый из которых использует разные зависимости или версии этих зависимостей. Пока вы будете чинить один, у вас будет ломаться другой. Получается некая каша библиотек. Виртуальное окружение - некая независимая оболочка для хранения ваших зависимостей для вашего проекта. (Как правило она называется VENV от слова virtual environment). То есть теперь у вас для каждого проекта будет свое место для хранения библиотек, которые не будут путаться между собой.
Подробнее про виртуальное окружение и его активацию

Какое окружение использовать?
Есть несколько виртуальных окружений
- venv
- virtualenv
- conda (не анаконда)
etc
Я использую virtualenv + pyenv, мне кажется это наиболее удобная комбинация.
Подробнее про виртуальные окружение и как его установить

А как теперь поставить юпитер?
Все просто, активируем наше окружение и пишем
> pip install jupyter notebook
или
> pip install jupyterlab

Ого юпитер разве не привязан к анаконде?
Да, jupyter можно поставить отдельно и запускать его командой в bash (При активированном окружении)
> jupyter notebook
> jupyter-notebook
> jupyterlab

Best Practice:
Если вы хотите быстро сделать какой то draft - сделайте это в google colab!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥385😢3🐳1
🔤🔤🔤🔤

На этом новости не кончаются, я открыл чат для вас! 🙃

Уникальный контент будет приходить туда, можно обсуждать и высказывать свои довольства и недовольства. Но довольства желательно побольше. 😶

Уже есть пару идей, которые можно реализовать 😋, но как обычно на них нужно время. 😭

Ссылочка на чат: t.iss.one/notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3🐳2👨‍💻21🔥1
Нас 1700! 🎉🎉🎉

Не забываем заходить в чат, я там делюсь эксклюзивным контентом 😋
https://t.iss.one/notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉7
Срочная новость! 🙃😱👨‍💻

Игорь Котенков сделал канал :D 👷‍♂️👷‍♂️

Кто такой Игорь? 🙃

А вот тут его канал 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥3😢2🏆1
Привет всем! Я совместо с RUE DS CLUB проведу митап 16 февраля!

Расскажу о
Как войтивайти
Почему kaggle не панацея
Как сделать свой пет проект и какие инструменты для этого нужны
Как набрать опыта без оффера
Несколько фишек для вас 😋

UPD: постараемся сделать запись

Подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
27🔥10🐳2👨‍💻1
Думаю о том, что бы купить вебку и микро и записывать видосы 😋

Кст можете задонатить мне 💳

А ещё не забываем заходить в чатик
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳28🔥3