Заскуль питона (Data Science)

Всем привет, я вернулся из небытия и готов поделиться с вами над чем я работаю и какой вектор развития у меня сейчас

😬

Прошел уже второй месяц моего участия в Симулятор ML от 🔥. Отдельное спасибо @uberkinder за этот продукт. Спойлер: Прошел чуть больше 50% + взялся за проект 😘

Сейчас у меня висит оффер от 💙 на позицию дата-аналитика, но хочу уйти в Machine Learning Engineering 😎

Над чем работаю сейчас?

> RecSys. Недавно была защита проектов для прохождения в магистратуру ИТМО, очень понравилась концепция и реализация @redpf. Более подробно можете ознакомиться в этом посте

> A/B Testing. Планирую заняться разработкой платформы, для этого думаю взять курс по A/B тестам у тех же 🔥

> В следующем году буду пробовать в ШАД от 😀 или AI Masters от 💙, поэтому готовлюсь к созданию коммьюнити тех, кому это будет интересно.

Давайте наберём n-ное количество реакций, а я расскажу про то, как сходил на собеседования в различные компании: Avito, Ozon, MTC, Yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

Блог о Data Science💻

😬 My First Data Project
Недавно я защитил свой проект в ITMO AI Tallent hub и хочу поделиться с вами отзывом! Вы знаете, что сейчас я пишу диплом и поэтому немного забросил контент.

😯 Что он из себя представляет?
По сути это просто pet project, который курируют…

🔥103🐳18❤10🍌2👍1

3.56K views14:25

Заскуль питона (Data Science)

Собеседования или история о том, как Максим получил оффер в OZON

💙

Всем привет, в этом посте я расскажу о том, через какие вопросы на собеседованиях я прошел и компании, которые остались в моем сердечке навсегда

😘

Первую часть поста можете посмотреть тут

Многое поменялось с тех времен, однако, я добился того, чего хотел 😬

❤️

AVITO
Все проходят одинаковый набор на аналитиков данных. По сути процесс отбора кандидатов проходит следующим образом: ты собесишься по общим правилам, общему стеку и дальше команды занимаются продажей себя на общей встрече.

🚶‍♂️

Первый этап: созвон с HR, обсуждение того, над чем работал, первичный скрининг.

😐

Второй этап: созвон с аналитиком, решение задач по статистике и теории вероятностей. p-value, распределения, матожидание. Ранее я делал подборку, где можно углубиться по знаниям данных дисциплин.

😘

Третий этап: созвон с лидом одного из направлений + аналитика. Бизнес-кейсы, гипотезы, SQL + Python.

😮

Вопрос: У нас есть определение геопозиции на сайте. К нам приходит лид и говорит, что нужно улучшить качество клиентского сервиса, что будем делать?

Как плюс: это классный фидбек, который указывает на твои ошибки и над чем стоит поработать!

❤️ OZON
Аналогичный отбор, иду в направление СНГ.

🤨

Вопрос: Сколько такси в Москве?

❤️

Тинькофф
В этом мне посодействовала бывший продуктовый аналитик OZON. Если вы хотите узнать инсайты и то, чем занимаются аналитики в свободное время, вэлком сюда

🤔

МТС
Прикрепил тестовое на продуктового аналитика в Банк (успешно скипнул, потому что ценность снижается до нуля)

🤨 Интересный вопрос, также на подумать. Сеть ритейлов предоставляет информацию о чеках и проводит акцию по продажам подгузников. У нас есть расположение магазинов (широта и долгота), номер лояльной карты. Также мы имеем внутренний айдишник (в базе МТС), широту и долготу в любой промежуток времени. Как лучше всего сматчить 2 айдишника?

🤔

Я обновил гугл-диск, там можете посмотреть задание. Ссылка тут

Давайте наберём 100+ реакций и 60 репостов на этом посте, а я выложу то, к чему готовлюсь в ближайшее время

😏

Please open Telegram to view this post

VIEW IN TELEGRAM

Заскуль питона (DA/DS/ML) 🐸

Всем привет, в этом посте поделюсь задачами с различных собесов. Здесь буду кратко резюмировать то, что реально было на собесах, в тестовых заданиях 🧐

📦 OZON

👩‍💻 Задание на Python (pandas, numpy, знание функций, циклов, визуализаций, распределений)
> обработка…

🔥74🐳14❤3👍3

3.8K viewsedited 13:19

Заскуль питона (Data Science)

Заскуль питона (Data Science) pinned «Собеседования или история о том, как Максим получил оффер в OZON 💙 Всем привет, в этом посте я расскажу о том, через какие вопросы на собеседованиях я прошел и компании, которые остались в моем сердечке навсегда 😘 Первую часть поста можете посмотреть тут…»

13:21

Заскуль питона (Data Science)

Всем привет! В знаменательный день увольнения с прошлой компании и переход в 💙, хочу запилить отзыв про симулятор МЛ от 🔥.

Спойлер: это не курс, а реальные практические задачи, которые обычно решают MLE. Это и работа с продом, и выгрузка данных из БД, и A/B тесты, и применение различных алгоритмов и т.п.

🙈

В целом, все очень классно! Задачи разделены по уровням сложности от Intern до Senior (от решения базовых задач по типу fit predict до выстраивания взаимосвязанной системы). Очень сильно понравились задачи, связанные с расширением новых инструментов по типу MLFlow, FastAPI, Git, DVC, Docker и др. 😮

Также, я бы отметил и задачи с написанием логики на уровне Intern, например, построения с нуля Decision Tree и реализация Gradient Boosting также с нуля. Необходимая теория расписана достаточно кратко, что более, чем достаточно для прохождения 🗒

За 3 месяца я начал понимать то, как писать красиво код, как работать с ООП и применять ML там, где это действительно нужно 🧠

Важно! Этот ~~курс~~ нацелен на то, чтобы вы понимали бизнес-логику, а не использовали ML абсолютно везде. Про это кстати есть пост на Хабр от создателя курса

Огромное спасибо за то, что команда 🔥 раскачивается. Я застал запуск проектов, где люди объединяются, чтобы решать реальные проблемы при отсутствии явно поставленных задач (команда придумывает их вместе) 😐

Есть один человечек, который решает задачи с симулятора ML и делает выводы по каждым задачам в своем блоге, советую посмотреть обязательно! Я активно слежу за тем, что он делает и тоже что-то дополнительно черпаю, кстати, ссылочка тут, подписывайтесь

Please open Telegram to view this post

VIEW IN TELEGRAM

karpov.courses

Симулятор Data Science

Задачи для практики по анализу данных, машинному обучению и AI. Школа karpov.courses.

❤25🔥9👍7🐳3😈2

3.89K viewsedited 09:24

Заскуль питона (Data Science)

Продуктовое мышление или как лягушки стали экспертами в аналитике данных: от "ква" до инсайтов (1 часть?)

🤨

В этом посте я бы хотел поговорить о такой важной теме, как продуктовое мышление.

Спойлер: в один пост это все не уместить, поэтому если наберется много реакций, выпущу вторую часть

Зачастую, встречаются люди, которые меряются тем, какими инструментами владеют, что знают по части написания кода, в общем всё подряд, что есть так или иначе в любой документации

💪

По моему мнению, самое главное - это понимать то, что хочет конечный пользователь, для того чтобы это принесло нам деньги. Логично, ведь в этом заинтересован любой бизнес, как ни крути 💳

Предположим, вы формулируете гипотезу о том, что метрика CTR / CR повысится, если провести акцию по привлечению пользователей или допилить сайт. Хорошо, даже придумали то, как можно сплитить трафик для A/B тестирования, как можно это сделать весьма изящно. Однако, отражает ли эта метрика ценность нашего продукта и получаем мы с этого профит? Вопрос открытый 😮

Окей, вроде бы поняли. Давайте разберём кейс, например, сервис доставки еды. Кстати, про это есть отличный подкаст, советую послушать. Понятно, что для каких-то задач можно оперировать метриками, которые так или иначе везде встречаются, и что самое главное, могут отражать ценность для бизнеса 👍

Суть заключается в том, что у каждого продукта есть свои метрики, которые отражают ценность для покупателя и, исследуя которую, можно принести максимальную ценность как клиенту, так и бизнесу при верно сформулированной гипотезе. Для сервисов доставки еды важно, чтобы клиенты получали заказ вовремя, поэтому, они работают над оптимизацией метрики time-to-eat (время от оформления заказа до получения конечным пользователям)

🍪

Если бы было так все просто, можно было во все компании (будь это FinTech, Delivery, EdTech, Offline sales) внедрить шаблон, по которому вы имели возможность оценивать все подряд, однако, на практике это работает только с метриками, которые есть абсолютно в любом продукте (Retention, Churn rate, DAU / WAU / MAU и др.) 😐

Кстати, метрики можно еще и делить на составляющие, про это в свое время говорил Валера Бабушкин, ссылку оставлю здесь. Так например, метрику time-to-eat можно поделить на составляющие:

1. Время отправки информации по заказу в ресторан.
2. Время приготовления заказа.
3. Время, которое нужно курьеру для того, чтобы его забрать.
4. Время, которое нужно курьеру, чтобы вам доставить заказ.

И да, каждую метрику можно оптимизировать еще глубже, например, высылать пуш курьеру раньше, подбирать курьеров таким образом, чтобы их расстояние до ресторана было минимальным (подумайте, почему это может быть плохо), сократить время ожидания информации по заказу и многое другое. Важно, чтобы это приносило в конечном итоге деньги и удовлетворенность пользователей 🙈

Накидайте реакций ПОКА безработной лягушке, а я выложу вторую часть (возможно с детальными фреймворками) или подумаю над тем, как красиво описать то, чем я занимаюсь на работе

Please open Telegram to view this post

VIEW IN TELEGRAM

Бизнес‑секреты

Что такое коэффициент конверсии

Зачем бизнесу следить за этим показателем

🐳53🔥16❤8👍2⚡1

3.94K views10:03

Заскуль питона (Data Science)

Всем доброй ночи, сегодня прошел мой первый день в Ozon

❤️

Как думаете, нормальный ли выйдет формат, если я буду рассказывать то, как развиваюсь внутри компании, как обучаюсь? Пишите свои ответы в комменты, чтобы хотели реально увидеть и ставьте реакции, если вам это может быть интересно

🍪

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳93🔥24❤17👍8

3.72K viewsedited 19:06

Заскуль питона (Data Science)

Кстати, у моего друга из 🔥, вышел гайд по тому, как можно накатить GPT на Streamlit.

Это использовалось при защите проекта в ИТМО. Кому интересно, можете глянуть в этом посте.

Очень классно все расписано, даже если не разбираетесь в этом глубоко, лишним точно не будет 😮

Please open Telegram to view this post

VIEW IN TELEGRAM

Блог о Data Science 💻

🙃 Streamlit — как создать ChatGPT на коленке [~11 min]

Если мы начнем разговор о мире технологий и программирования, то невозможно обойти такой мощный инструмент, как Streamlit. С его помощью даже самые амбициозные проекты можно запустить в буквальном смысле…

👍4❤2🔥2🐳1

4.26K views21:52

Заскуль питона (Data Science)

Пост-знакомство

👉

Ну что ж, давайте поведаю о том, кто пишет для вас посты (да, на фотках я).

Всем привет, меня зовут Максим, мне 20 лет, учусь на 3 курсе в РАНХиГС по направлению «Менеджмент» 😁

Моя история в DS началась не так давно, а если быть точнее, год назад. В один момент я решил копать в сторону IT, потому что маркетинг, трейдинг и продажи (чем я раньше занимался, не приносят такого удовольствия) 😢

Я был тем человеком, который считал, что кейс-чемпионаты - это вышка, а выигрыш в них дает хоть какие-то плюшки. Единственный плюс, как по мне, это нетворкинг. С ребятами, которые участвовали в IT чемпионате, мы общаемся до сих пор 🍪

🍪

В свое время наткнулся на видео от Noukash по аналитике данных, кстати чат прикреплю тут, я там часто появляюсь. Очень благодарен коммьюнити за то, что заставляет развиваться, всех люблю ❤️

По классике все началось с Основ статистики от Анатолия Карпова (как по мне, все проходили через этот путь), потом начал пробоваться на различные стажировки, кстати, моей первой попыткой был Ozon Camp по треку аналитики, но что-то пошло не так, я временно забил 😂

Затем увидел хакатон от ВкусВилл, связанным с аналитикой данных и решил попробовать без знаний чего-то специфичного. Тратил я на все это по 10 часов в день, крутил данные и был горд за то, что могу смотреть данные на 30 млн строк, даже какие-то выводы делал. В итоге он длился 7 месяцев, а на команду из 4 человек выплатили 50 000 рублей 🗒

Далее, следующий этап - это трудоустройство, я устроился в компанию Faberlic без релевантного опыта и началось более глубокое погружение в то, чем занимаются компании сейчас. Было очень много откликов и огромный процент отказов 💳

Дополнительно я начал впитывать тонну курсов, смотреть лучшие практики и теперь я работаю в Ozon, the end…

Ставьте реакции, если вам было интересно, пишите комментарии, что бы вы хотели еще узнать, а я пока готовлюсь к следующей рабочей неделе

🙏

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤85🔥27🐳22💘4❤‍🔥2

6.03K views09:39

Заскуль питона (Data Science)

Заскуль питона (Data Science) pinned a photo

09:50

Заскуль питона (Data Science)

ПОДБОРКА КУРСОВ [RU]. 1 Часть 👨‍🔬

Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].

База всех баз:

—————————

📊

SQL. По сути хлеб каждого DS-специалиста - это данные. Учимся доставать их таким образом, чтобы это было полезно всем (в том числе и бизнесу). В 💙 мы работаем с Vertica + ClickHouse.

💯

Симулятор SQL от karpov.courses. В мое время не было данного курса, однако, сейчас советую абсолютно всем. Сжатая теория, постоянная практика + блок продуктовой секции, где предстоит решать продуктовые задачи для бизнеса (достать данные, правильно интерпретировать, сделать выводы). Must-have.

Набить руку можно также на других тренажерах, например, тут и тут ( однако, я советую сразу начать решать задачи с собеседований в крупные айти-компании, например, в FAANG на StrataScratch и Leetcode

Далее, переходим к документации + GPT + Google, если нам нужно что-то дополнительно узнать, не боимся гуглить и спрашивать - это нормально

💼

—————————

🐍

Python. Преобразование данных, работа с типами данных, функциями, циклами, классами

💯

Инди-курс программирования на Python и поколение Python (1 часть, 2 часть). В первом курсе все достаточно емко рассказано по основам, во втором же, более глубокое погружение.

😀

Хэндбук: Основы Python. От базовых вещей до работы с библиотеками. Советую туда не сразу нырять, а остановиться на первых двух.

➡️

Основы Python от karpov.courses. Доступно не все, полная версия к концу июля, однако, советую присмотреться, думаю будет также годно как и SQL

—————————

📊

Статистика и теория вероятностей. А кто говорил, что будет просто? Учимся понимать специфику данных, принимать решения на основе цифр.

💯 Основы статистики (первая и вторая часть). Здесь великий Анатолий Карпов проходит по базам. Проверка гипотез, распределения. Советую просмотреть первую часть и сразу применять все на практике в Python. В этом вам может помочь следующий плейлист от Глеба Михайлова + совмещение этого видео для понимания того, что вообще происходит.

🎲

Теория вероятностей от CSC на Stepik. Советую, чтобы более глубоко понимать, как работать со случайными величинами и с вероятностями в целом. Лично я смотрел тогда, когда необходимо было подготовиться к собеседованиям.

—————————

🧠

Продуктовое мышление. Понимаем более глубоко, а все ли мы делаем правильно, а приносим ли мы профит продукту, нашим пользователям.

💯 Советую присмотреться к лекциям Школы менеджеров Яндекса и совмещать это все с product-map, где собраны лучшие практики по части продукт- и продакт-менеджмента. Также, я недавно выкатывал пост по этому поводу, можете посмотреть тут

—————————
📈BI-Системы. Продвинутая визуализация для отражения текущего состояния бизнеса. Будь то различные метрики или графики, которые отражают ситуацию прямо сейчас.

Практически все сейчас сидят на PowerBI, Redash, SuperSet, DataLens. У Яндекса есть курс по DataLens, у SuperSet есть документация + разбор на YouTube от 🔥, работа в Redash идет в том же симуляторе SQL, который был выше. Все BI-системы похожи друг на друга, поэтому знание специфики работы в одной из них, позволит вам быстро адаптироваться к другой. Однако, функционал, может различаться. В 💙 мы работаем с SuperSet.

У моих друзей также недавно вышли посты с источниками по Data Science, также переходите. По мне, это очень классно, что каждый через призму своего опыта показывает, какие источники оказались наиболее полезными:

🐈

Dimension — ссылка на пост
🛞 Азим — ссылка на пост

🥰 Ставьте реакции, репостите запись, а я выложу вторую часть с подборкой курсов, где будет представлено более глубокое погружение в продуктовую аналитику, аналитику данных и Machine Learning. Также я пилю ноутбук с русской адаптацией курса по Deep Learning (Глубокое обучение), в ближайшем времени также анонсирую

Please open Telegram to view this post

VIEW IN TELEGRAM

❤98🔥50🤩29👍18🥰13

11.4K views09:19

Заскуль питона (Data Science)

ПОДБОРКА КУРСОВ [RU]. 2 Часть 🧠

Всем привет, нас уже 1600, благодарочка. Выпускаю 2 часть материалов для обучения в сфере Data Science 🤔

Ну что же, когда мы уже обучились базе, можно приступать к более интересным материалам.

Есть несколько путей развития, все зависит от специфики того, чем вы хотите заниматься в будущем. Однако, советую присмотреться ко всем материалам 😱

1. Анализ данных

👍

👦

Анализ данных [ВШЭ] - у курса очень разнообразное наполнение, советую присмотреться. Однако, уроков слишком много, поэтому не советую закапываться слишком глубоко.

🤨

Теория и практика онлайн-экспериментов [ВШЭ]
Теоретическая база по A/B тестам, советую сразу совмещать с кодом, в первой части я об этом писал.

😮

Computer Science Center. Анализ данных. По сути, все рассказывается весьма интересно, приведены куски кода, что я очень люблю.

2. Machine learning [ВШЭ + ODS + GPT + Networking]

😱

🤖

Основы машинного обучения - сочетание теории и практики. Советую проходить системно и сочетать с домашками, которые прикреплены к курсу. У ВШЭ очень много материалов, как вы поняли ❤️

🔑

Kaggle - место, где люди соревнуются в DS-соревнованиях от крупных компаний и получают за это различные призы. Здесь можно черпать различные фишки по написанию кода, реализации методов и поиска коммьюнити.

🦜

ods.ai - платформа, где представлены различные курсы, соревнования по Data Science. Недавно проходило соревнование по NLP от Alfa-Bank,но не нашлось времени в нем поучаствовать 😡

🎹 Продолжая писать о Machine Learning, также хочется упомянуть курс Юрия Кашницкого. Ближе к теории, однако, курс идет плавно и размеренно.

🗯

Да, да и еще раз да. Личный ментор, который местами галлюцинирует, но это исправляется.

😀

Хэндбук от Яндекс по Machine Learning (не советую приступать сразу, отобьете себе все желание). Математическое или около того обоснование, что происходит. Отсутствует как таковая практика

🕸 Если уж вы совсем преисполнились, тогда вэлком на курс по машинному обучению к Воронцову.

Есть также другие курсы, например, ВШЭ от своей магистратуры выпускала серии по NLP, разработке ML-сервиса и др.
————————————
Параллельно советую читать, смотреть различные бизнес-кейсы компаний, чтобы более глубоко понять специфику работы в компаниях:

> AvitoTech
> Ozon Tech
> Яндекс
————————————
3. Deep Learning

☺️

🔥

Deep Learning School от МФТИ - курс на Stepik, где сочетается теория и практика. Советую залетать тогда, когда уже есть база и когда есть команда, с которой можно будет это все запушить. Тяжелый курс 😡

😢

Глубокое обучение для текстовых данных - базовые концепции в NLP, кода нет

🦌

Хотите research? Идите на arxiv.org и разбирайте различные научные статьи. Кстати, их разбор есть у Игоря Котенкова на YouTube: Transformers, RLHF

Конечно же, это не все источники, есть еще и зарубежные.

Накидайте 🔥 реакций, пишите комментарии, а я выложу handbook [RU] по Deep Learning и расскажу про то, чем успел позаниматься в Ozon и как проходит мое обучение.

Please open Telegram to view this post

VIEW IN TELEGRAM

Заскуль питона (Data Science)

ПОДБОРКА КУРСОВ [RU]. 1 Часть 👨‍🔬

Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].

База всех баз:

—————————
📊SQL. По сути хлеб каждого…

🔥72❤13🐳10👍2💩1

7.82K viewsedited 09:51

Заскуль питона (Data Science)

Forwarded from Блог о Data Science 💻 (Danil Kartushov)

🎉

Анонс: Создание клуба Whale Data Science!

🐋

🔬

Если вы тоже замечаете магию, стоящую за гигантскими объемами данных, встречайте - клуб Whale Data Science! Наш новый современный коллектив состоит всего из восьми избранных участников, которые, несомненно, внесут свой уникальный вклад в область Data Science.

Наша цель - обмен знаниями, идеями и опытом в мире Data Science и Искусственного Интеллекта.

Следите за нашими обновлениями и постами. Вместе мы сможем раскрыть все возможности, которые дает нам Data Science, и открыть для себя новые горизонты знаний! 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

Friends Blog

Danil Kartushov invites you to add the folder “Friends Blog”, which includes 7 chats.

🐳13🔥8❤7💩1

3.99K views15:00

Заскуль питона (Data Science)

Как стать экономистом без регистрации и СМС

😅

Решил посмотреть на днях выписку на госуслугах с мест, где я работал и работаю сейчас 👍

Оказывается, код выполняемой функции в 💙 у меня следующий: 2511.8. Что это может значить? Может аналитик данных? Продуктовый аналитик? Не-а, я системный аналитик в расшифровке, что очень странно, но не суть. Сошлемся на то, что написание документации сразу меняет код в выписке. Но это еще не всё.

Ранее я также работал аналитиком данных, но в компании поменьше. Знаете, какой у меня код? Правильно - 2631.5. Я экономист по занятости и социально-трудовым вопросам. Найс тыкался в оракле, питончике и писал модельки 👦

А говорили, что экономистом без образования никуда не берут. Обманули, получается? 😮

А кто вы? Делитесь в комментариях, ставьте реакции 🎹

P.S: приложил в комментариях инструкцию, где это можно посмотреть 😅

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳20❤5🔥5👍2😁1

3.86K viewsedited 14:06

Заскуль питона (Data Science)

😨

Как прошел мой первый месяц в Ozon?

Первый день - получение всех доступов к базам данных, инструментов для активной работы. Сразу же запулили несколько курсов, которые необходимо пройти в течение месяца, иначе отключат VPN или вообще отрубят все сервисы. Мотивация - во! 👍

Когда мне проводили онбординг, показывали то, над чем работали в компании, я сначала думал, что у меня есть какой-то синдром самозванца и я попал сюда случайно. Сел я за первые курсы и мягко говоря был в шоке с того, что для отработки запросов нужно учитывать кучу мелочей, ранее я об этом даже и не задумывался. Кто хоть как-то знаком с компанией OZON и ее стеком знает, что в требованиях обычно указывается Vertica и ClickHouse, тому доказательство рандомная вакансия, которая размещена на их сайте.

Так вот, Vertica - эта такая штука, в которой приходится проводить большую часть времени, разбираться с тем, где что лежит, чтобы в конце концов сформировать витрину, которая далее будет перенаправлена в ClickHouse для формирования дашбордов в Superset. При формировании запроса нужно добиваться оптимального создания таблицы (распределения по кластерам, создание проекций и др.), поскольку в 💙 за этим активно следят. Ну и все изменения нужно мерджить в ветку master, как без этого, для этого используем GitLab (пушка-бомба с классной IDE).

Окей, нам нужно создать систему отчетности таким образом, чтобы люди пользовались ей регулярно и получали актуальную информацию по расписанию. В этом помогает AirFlow. Очень простой инструмент, но по сути он является ключевым. Прикиньте, я первый раз написал документацию и понимаю то, что так будет намного быстрее как мне разбираться с тем, что я делал, так и людям, которые будут искать похожие проекты, чувствуется профит и полезность ❤️

Я сейчас каждый день езжу в офис, знакомлюсь со всеми, в том числе и с заказчиками. Из плюсов, это кофе и вкусняшки на кофепоинтах, фрукты, овощи, ну и конечно же МИЛТИ, как без этого. Также приходится заниматься и другой работой, активно сижу и читаю исследования ребят из других команд, очень круто узнавать что-то новое для себя и в дальнейшем использовать 🧠

Поделитесь тем, кто где сейчас работает, с чем вам приходиться сталкиваться, очень интересно будет почитать, что-нибудь обсудить. Пишите, что бы вы хотели еще узнать, возможно, более подробно про задачи и что вообще нужно для того, чтобы комфортно себя чувствовать в команде. А я пойду писать пост про то, зачем вообще нужно отдыхать, какой от этого может быть плюс 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

❤35🔥11🐳10👍4😁3

5.61K views10:21

Заскуль питона (Data Science)

Друзья, как смотрите на то, чтобы я разбирал зарубежные статьи на том же arxiv.org или Хабр по ML, DS и другим крутым штукам? Ставьте реакции, если вам это интересно 😬

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥121🐳26❤10👍10🤩2

5.1K views12:45

Заскуль питона (Data Science)

Happy birthday to me!

🎁

♟ Изначально я создавал этот канал в сентябре / ноябре 2022 года для себя (может отметим юбилей с момента первого поста 😈), своих заметок, но потом это разрослось в нечто такое, которое позволяет объединять людей, обмениваться опытом и разбирать интересные кейсы.

🍆 Благодаря вам было набрано (почти) 2000 подписчиков, то ли еще будет. Спасибо что продолжаете смотреть, несмотря на то, что иногда постов не бывает. Пытаюсь наладить режим и заново сформировать привычку выкладывать регулярно полезные посты, правда 🐰

Спасибо за доверие, фидбек и интересные комментарии, люблю 🫶

Спасибо окружению (и pyenv тоже), которое выстраивается вокруг, вы заставляете развиваться и становиться сильней в сфере 😐

Кстати, у нас есть чатик, заходите, будет интересно пообщаться! 😮

Кто отрикролился?

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥52❤11💘4👍2🎉1

5.49K views21:00

Заскуль питона (Data Science)

С Днём знаний! Админу скоро в школу

🥰

Делитесь тем, как проводите 1-ое сентября 🥰

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24🐳9❤3🤩1🏆1

4.59K views06:32

Заскуль питона (Data Science)

Эх, постам быть 🥰

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2😁1

3.65K views15:47

Заскуль питона (Data Science)

Forwarded from Блог о Data Science 💻 (𝘿𝙖𝙣𝙞𝙡 𝙆𝙖𝙧𝙩𝙪𝙨𝙝𝙤𝙫)

А вот и осень, первые холода и депрессия

Сегодня закончилось мероприятие AI TALLENT HUB в рамках которого я совместно с @bogdanisssimo, @ai_minds и @AnTkDm делали AI INFLUENCE.

Идея в том, что бы создать инструмент для автоматизации работы с контентом.

Самые популярные каналы ~ обзорные каналы на какие-то новости, инструменты и тд.

Наш проект к сожалению не оценили ребята из ИТМО, меня честно задела фраза мол нет потенциала, АИ не умеет создавать ничего нового.

Сразу вспоминается следующее:
- ИИ никогда не сможет написать симфонию
- А вы сможете?

Вернёмся к каналам, вы, наверное все знаете канал Игоря Котенкова. Вам всем нравится как он обозревает те или иные вещи в сфере АИ. Почему бы не автоматизировать этот процесс. Да он не будет такой же углублённый или мемный. Если вы рисерчер, то вы очевидно следите за Женей из @j_links.

Так почему бы не автоматизировать процесс обработки папир?
Почему бы не автоматизировать новостные дайджесты?
Почему бы не автоматизировать перевод зарубежных подкастов, статей?

Сейчас бот умеет:
- В автономном или полуавтоном режиме писать в канал
- Делать обзор на посты других каналов
- Daily посты на тему X

Если вам стало интересно, что из этого получится подпишитесь на канал @ImNotAuthentic сделаю туда пост о том почему человек, как и GPT не создаёт ничего нового!

Жду от вас реакты тонну

🐳

и помните: новое — хорошо забытое старое @notedatasciencechat

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳22👍4❤2🔥1

4.89K views15:47

Заскуль питона (Data Science)

Hadoop - что это за зверь? 😤

Друзья, всем привет, в этом посте хотелось бы разобрать что такое Hadoop и зачем он вообще нужен для аналитики / машинного обучения.

Вообще, хотелось бы начать с того, что это вообще такое. Hadoop - экосистема из нескольких утилит и фреймворков, позволяющая работать с Big Data.

Три концепции Big Data:

💪

Volume - Объем.

🏃‍♀️

Velocity - Скорость поступления данных.

🏖

Variety - Разнородность данных.

Из чего состоит Hadoop и что лежит в основе?

🗂

HDFS - распределенное хранилище для хранения файлов больших размеров с возможностью потокового доступа к информации. Представьте, что вы перекачиваете данные из одной БД в другую, результаты вычислений хранятся в формате parquet, который, благодаря обработке занимает меньше памяти.

👹

MapReduce - Используется для распределенных задач с использованием нод, которые образуют кластер.

📖

Yarn - система планирования заданий и управления кластером (Yet Another Resource Negotiator), которую также называют MapReduce 2.0 (MRv2).

✨

Spark - фреймворк, который обрабатывает данные в оперативной памяти, используя кэширование (в 100 раз быстрее Hadoop, x10 при вычислении на диске).

🧺

Hive - интерфейс доступа к данным. Он позволяет выполнять запросы, используя SQL синтаксис и обращаться с данными, как с таблицами БД).

💻 А теперь представьте, что вы решаете ML-задачу, где ваша модель обучается на огромном количестве данных (взять любую крупную компанию, которая внедряет ML задачи повсеместно). Это и рекомендательные системы, и скоринг пользователей, и внедрение различных A/B тестов с дальнейшей раскаткой на всех пользователей. Кажется, что ресурсов, предоставляемых различными сервисами по типу AIRFLOW может быть недостаточно при выполнении базовых запросов в SQL и дальнейшей обработкой, например, в pandas

🐼

И представьте, можно выполнять простые SQL запросы с помощью spark.sql()

🤨

Возьмем pandas и Spark.

Spark может решать различные типы задач по обработке данных. Он поддерживает пакетную обработку, обработку в реальном времени и интерактивную обработку больших наборов данных.

Pandas в основном используется для обработки структурированных данных, включая табличные, временные ряды и столбчатые данные.

Более подробно можно почитать тут

🤔

Полезные материалы по Spark можно почитать в следующих статьях
Под капотом Apache Spark лежит несколько концепций, с которыми я предлагаю ознакомиться по ссылочке на Хабре
ML-pipeline и практическое применение Spark с разбором кода на Хабре
Документация по Spark здесь
Классная статья с основными концепциями Hadoop (фото к посту взято оттуда). Хабр линк here

🐘 Ставьте реакции, делитесь тем, приходилось ли вам использовать Hadoop.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤35🐳12👍6🔥6

7.85K viewsedited 10:45

About

Blog

Apps

Platform