Пост-знакомство 👉
Ну что ж, давайте поведаю о том, кто пишет для вас посты (да, на фотках я).
Всем привет, меня зовут Максим, мне 20 лет, учусь на 3 курсе в РАНХиГС по направлению «Менеджмент»😁
Моя история в DS началась не так давно, а если быть точнее, год назад. В один момент я решил копать в сторону IT, потому что маркетинг, трейдинг и продажи (чем я раньше занимался, не приносят такого удовольствия)😢
Я был тем человеком, который считал, что кейс-чемпионаты - это вышка, а выигрыш в них дает хоть какие-то плюшки. Единственный плюс, как по мне, это нетворкинг. С ребятами, которые участвовали в IT чемпионате, мы общаемся до сих пор🍪 🍪
В свое время наткнулся на видео от Noukash по аналитике данных, кстати чат прикреплю тут, я там часто появляюсь. Очень благодарен коммьюнити за то, что заставляет развиваться, всех люблю❤️
По классике все началось с Основ статистики от Анатолия Карпова (как по мне, все проходили через этот путь), потом начал пробоваться на различные стажировки, кстати, моей первой попыткой был Ozon Camp по треку аналитики, но что-то пошло не так, я временно забил😂
Затем увидел хакатон от ВкусВилл, связанным с аналитикой данных и решил попробовать без знаний чего-то специфичного. Тратил я на все это по 10 часов в день, крутил данные и был горд за то, что могу смотреть данные на 30 млн строк, даже какие-то выводы делал. В итоге он длился 7 месяцев, а на команду из 4 человек выплатили 50 000 рублей🗒
Далее, следующий этап - это трудоустройство, я устроился в компанию Faberlic без релевантного опыта и началось более глубокое погружение в то, чем занимаются компании сейчас. Было очень много откликов и огромный процент отказов💳
Дополнительно я начал впитывать тонну курсов, смотреть лучшие практики и теперь я работаю в Ozon, the end…
Ставьте реакции, если вам было интересно, пишите комментарии, что бы вы хотели еще узнать, а я пока готовлюсь к следующей рабочей неделе🙏
Ну что ж, давайте поведаю о том, кто пишет для вас посты (да, на фотках я).
Всем привет, меня зовут Максим, мне 20 лет, учусь на 3 курсе в РАНХиГС по направлению «Менеджмент»
Моя история в DS началась не так давно, а если быть точнее, год назад. В один момент я решил копать в сторону IT, потому что маркетинг, трейдинг и продажи (чем я раньше занимался, не приносят такого удовольствия)
Я был тем человеком, который считал, что кейс-чемпионаты - это вышка, а выигрыш в них дает хоть какие-то плюшки. Единственный плюс, как по мне, это нетворкинг. С ребятами, которые участвовали в IT чемпионате, мы общаемся до сих пор
В свое время наткнулся на видео от Noukash по аналитике данных, кстати чат прикреплю тут, я там часто появляюсь. Очень благодарен коммьюнити за то, что заставляет развиваться, всех люблю
По классике все началось с Основ статистики от Анатолия Карпова (как по мне, все проходили через этот путь), потом начал пробоваться на различные стажировки, кстати, моей первой попыткой был Ozon Camp по треку аналитики, но что-то пошло не так, я временно забил
Затем увидел хакатон от ВкусВилл, связанным с аналитикой данных и решил попробовать без знаний чего-то специфичного. Тратил я на все это по 10 часов в день, крутил данные и был горд за то, что могу смотреть данные на 30 млн строк, даже какие-то выводы делал. В итоге он длился 7 месяцев, а на команду из 4 человек выплатили 50 000 рублей
Далее, следующий этап - это трудоустройство, я устроился в компанию Faberlic без релевантного опыта и началось более глубокое погружение в то, чем занимаются компании сейчас. Было очень много откликов и огромный процент отказов
Дополнительно я начал впитывать тонну курсов, смотреть лучшие практики и теперь я работаю в Ozon, the end…
Ставьте реакции, если вам было интересно, пишите комментарии, что бы вы хотели еще узнать, а я пока готовлюсь к следующей рабочей неделе
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤82🔥27🐳22💘4❤🔥2💩2🎄2🤩1🌚1🍓1💋1
ПОДБОРКА КУРСОВ [RU]. 1 Часть 👨🔬
Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].
База всех баз:
—————————
📊 SQL. По сути хлеб каждого DS-специалиста - это данные. Учимся доставать их таким образом, чтобы это было полезно всем (в том числе и бизнесу). В 💙 мы работаем с Vertica + ClickHouse.
💯 Симулятор SQL от karpov.courses. В мое время не было данного курса, однако, сейчас советую абсолютно всем. Сжатая теория, постоянная практика + блок продуктовой секции, где предстоит решать продуктовые задачи для бизнеса (достать данные, правильно интерпретировать, сделать выводы). Must-have.
Набить руку можно также на других тренажерах, например, тут и тут ( однако, я советую сразу начать решать задачи с собеседований в крупные айти-компании, например, в FAANG на StrataScratch и Leetcode
Далее, переходим к документации + GPT + Google, если нам нужно что-то дополнительно узнать, не боимся гуглить и спрашивать - это нормально💼
—————————
🐍 Python. Преобразование данных, работа с типами данных, функциями, циклами, классами
💯 Инди-курс программирования на Python и поколение Python (1 часть, 2 часть). В первом курсе все достаточно емко рассказано по основам, во втором же, более глубокое погружение.
😀 Хэндбук: Основы Python. От базовых вещей до работы с библиотеками. Советую туда не сразу нырять, а остановиться на первых двух.
➡️ Основы Python от karpov.courses. Доступно не все, полная версия к концу июля, однако, советую присмотреться, думаю будет также годно как и SQL
—————————
📊 Статистика и теория вероятностей. А кто говорил, что будет просто? Учимся понимать специфику данных, принимать решения на основе цифр.
💯 Основы статистики (первая и вторая часть). Здесь великий Анатолий Карпов проходит по базам. Проверка гипотез, распределения. Советую просмотреть первую часть и сразу применять все на практике в Python. В этом вам может помочь следующий плейлист от Глеба Михайлова + совмещение этого видео для понимания того, что вообще происходит.
🎲 Теория вероятностей от CSC на Stepik. Советую, чтобы более глубоко понимать, как работать со случайными величинами и с вероятностями в целом. Лично я смотрел тогда, когда необходимо было подготовиться к собеседованиям.
—————————
🧠 Продуктовое мышление. Понимаем более глубоко, а все ли мы делаем правильно, а приносим ли мы профит продукту, нашим пользователям.
💯 Советую присмотреться к лекциям Школы менеджеров Яндекса и совмещать это все с product-map, где собраны лучшие практики по части продукт- и продакт-менеджмента. Также, я недавно выкатывал пост по этому поводу, можете посмотреть тут
—————————
📈 BI-Системы. Продвинутая визуализация для отражения текущего состояния бизнеса. Будь то различные метрики или графики, которые отражают ситуацию прямо сейчас.
Практически все сейчас сидят на PowerBI, Redash, SuperSet, DataLens. У Яндекса есть курс по DataLens, у SuperSet есть документация + разбор на YouTube от🔥 , работа в Redash идет в том же симуляторе SQL, который был выше. Все BI-системы похожи друг на друга, поэтому знание специфики работы в одной из них, позволит вам быстро адаптироваться к другой. Однако, функционал, может различаться. В 💙 мы работаем с SuperSet.
У моих друзей также недавно вышли посты с источниками по Data Science, также переходите. По мне, это очень классно, что каждый через призму своего опыта показывает, какие источники оказались наиболее полезными:
🐈 Dimension — ссылка на пост
🛞 Азим — ссылка на пост
🥰 Ставьте реакции, репостите запись, а я выложу вторую часть с подборкой курсов, где будет представлено более глубокое погружение в продуктовую аналитику, аналитику данных и Machine Learning. Также я пилю ноутбук с русской адаптацией курса по Deep Learning (Глубокое обучение), в ближайшем времени также анонсирую
Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].
База всех баз:
—————————
Набить руку можно также на других тренажерах, например, тут и тут ( однако, я советую сразу начать решать задачи с собеседований в крупные айти-компании, например, в FAANG на StrataScratch и Leetcode
Далее, переходим к документации + GPT + Google, если нам нужно что-то дополнительно узнать, не боимся гуглить и спрашивать - это нормально
—————————
—————————
—————————
—————————
Практически все сейчас сидят на PowerBI, Redash, SuperSet, DataLens. У Яндекса есть курс по DataLens, у SuperSet есть документация + разбор на YouTube от
У моих друзей также недавно вышли посты с источниками по Data Science, также переходите. По мне, это очень классно, что каждый через призму своего опыта показывает, какие источники оказались наиболее полезными:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤98🔥50🤩29👍18🥰13🐳13👏7❤🔥1🎉1💩1🍌1
ПОДБОРКА КУРСОВ [RU]. 2 Часть 🧠
Всем привет, нас уже 1600, благодарочка. Выпускаю 2 часть материалов для обучения в сфере Data Science🤔
Ну что же, когда мы уже обучились базе, можно приступать к более интересным материалам.
Есть несколько путей развития, все зависит от специфики того, чем вы хотите заниматься в будущем. Однако, советую присмотреться ко всем материалам😱
1. Анализ данных👍
👦 Анализ данных [ВШЭ] - у курса очень разнообразное наполнение, советую присмотреться. Однако, уроков слишком много, поэтому не советую закапываться слишком глубоко.
🤨 Теория и практика онлайн-экспериментов [ВШЭ]
Теоретическая база по A/B тестам, советую сразу совмещать с кодом, в первой части я об этом писал.
😮 Computer Science Center. Анализ данных. По сути, все рассказывается весьма интересно, приведены куски кода, что я очень люблю.
2. Machine learning [ВШЭ + ODS + GPT + Networking]😱
🤖 Основы машинного обучения - сочетание теории и практики. Советую проходить системно и сочетать с домашками, которые прикреплены к курсу. У ВШЭ очень много материалов, как вы поняли ❤️
🔑 Kaggle - место, где люди соревнуются в DS-соревнованиях от крупных компаний и получают за это различные призы. Здесь можно черпать различные фишки по написанию кода, реализации методов и поиска коммьюнити.
🦜 ods.ai - платформа, где представлены различные курсы, соревнования по Data Science. Недавно проходило соревнование по NLP от Alfa-Bank,но не нашлось времени в нем поучаствовать 😡
🎹 Продолжая писать о Machine Learning, также хочется упомянуть курс Юрия Кашницкого. Ближе к теории, однако, курс идет плавно и размеренно.
🗯 Да, да и еще раз да. Личный ментор, который местами галлюцинирует, но это исправляется.
😀 Хэндбук от Яндекс по Machine Learning (не советую приступать сразу, отобьете себе все желание). Математическое или около того обоснование, что происходит. Отсутствует как таковая практика
🕸 Если уж вы совсем преисполнились, тогда вэлком на курс по машинному обучению к Воронцову.
Есть также другие курсы, например, ВШЭ от своей магистратуры выпускала серии по NLP, разработке ML-сервиса и др.
————————————
Параллельно советую читать, смотреть различные бизнес-кейсы компаний, чтобы более глубоко понять специфику работы в компаниях:
> AvitoTech
> Ozon Tech
> Яндекс
————————————
3. Deep Learning☺️
🔥 Deep Learning School от МФТИ - курс на Stepik, где сочетается теория и практика. Советую залетать тогда, когда уже есть база и когда есть команда, с которой можно будет это все запушить. Тяжелый курс 😡
😢 Глубокое обучение для текстовых данных - базовые концепции в NLP, кода нет
🦌 Хотите research? Идите на arxiv.org и разбирайте различные научные статьи. Кстати, их разбор есть у Игоря Котенкова на YouTube: Transformers, RLHF
Конечно же, это не все источники, есть еще и зарубежные.
Накидайте🔥 реакций, пишите комментарии, а я выложу handbook [RU] по Deep Learning и расскажу про то, чем успел позаниматься в Ozon и как проходит мое обучение.
Всем привет, нас уже 1600, благодарочка. Выпускаю 2 часть материалов для обучения в сфере Data Science
Ну что же, когда мы уже обучились базе, можно приступать к более интересным материалам.
Есть несколько путей развития, все зависит от специфики того, чем вы хотите заниматься в будущем. Однако, советую присмотреться ко всем материалам
1. Анализ данных
Теоретическая база по A/B тестам, советую сразу совмещать с кодом, в первой части я об этом писал.
2. Machine learning [ВШЭ + ODS + GPT + Networking]
Есть также другие курсы, например, ВШЭ от своей магистратуры выпускала серии по NLP, разработке ML-сервиса и др.
————————————
Параллельно советую читать, смотреть различные бизнес-кейсы компаний, чтобы более глубоко понять специфику работы в компаниях:
> AvitoTech
> Ozon Tech
> Яндекс
————————————
3. Deep Learning
Конечно же, это не все источники, есть еще и зарубежные.
Накидайте
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
ПОДБОРКА КУРСОВ [RU]. 1 Часть 👨🔬
Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].
База всех баз:
—————————
📊SQL. По сути хлеб каждого…
Всем привет, многие спрашивали по поводу курсов. Так вот, публикую актуальный список того, что позволит вам в кратчайшие сроки окунуться в этот ваш Data Science [1 часть].
База всех баз:
—————————
📊SQL. По сути хлеб каждого…
🔥71❤13🐳10👍2💩1
Forwarded from Блог о Data Science 💻 (Danil Kartushov)
Если вы тоже замечаете магию, стоящую за гигантскими объемами данных, встречайте - клуб Whale Data Science! Наш новый современный коллектив состоит всего из восьми избранных участников, которые, несомненно, внесут свой уникальный вклад в область Data Science.
Наша цель - обмен знаниями, идеями и опытом в мире Data Science и Искусственного Интеллекта.
Следите за нашими обновлениями и постами. Вместе мы сможем раскрыть все возможности, которые дает нам Data Science, и открыть для себя новые горизонты знаний! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Friends Blog
Danil Kartushov invites you to add the folder “Friends Blog”, which includes 7 chats.
🐳13🔥8❤7💩1
Как стать экономистом без регистрации и СМС 😅
Решил посмотреть на днях выписку на госуслугах с мест, где я работал и работаю сейчас👍
Оказывается, код выполняемой функции в💙 у меня следующий: 2511.8. Что это может значить? Может аналитик данных? Продуктовый аналитик? Не-а, я системный аналитик в расшифровке, что очень странно, но не суть. Сошлемся на то, что написание документации сразу меняет код в выписке. Но это еще не всё.
Ранее я также работал аналитиком данных, но в компании поменьше. Знаете, какой у меня код? Правильно - 2631.5. Я экономист по занятости и социально-трудовым вопросам. Найс тыкался в оракле, питончике и писал модельки👦
А говорили, что экономистом без образования никуда не берут. Обманули, получается?😮
А кто вы? Делитесь в комментариях, ставьте реакции🎹
P.S: приложил в комментариях инструкцию, где это можно посмотреть😅
Решил посмотреть на днях выписку на госуслугах с мест, где я работал и работаю сейчас
Оказывается, код выполняемой функции в
Ранее я также работал аналитиком данных, но в компании поменьше. Знаете, какой у меня код? Правильно - 2631.5. Я экономист по занятости и социально-трудовым вопросам. Найс тыкался в оракле, питончике и писал модельки
А говорили, что экономистом без образования никуда не берут. Обманули, получается?
А кто вы? Делитесь в комментариях, ставьте реакции
P.S: приложил в комментариях инструкцию, где это можно посмотреть
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳20❤5🔥5👍2😁1🤩1
Первый день - получение всех доступов к базам данных, инструментов для активной работы. Сразу же запулили несколько курсов, которые необходимо пройти в течение месяца, иначе отключат VPN или вообще отрубят все сервисы. Мотивация - во!
Когда мне проводили онбординг, показывали то, над чем работали в компании, я сначала думал, что у меня есть какой-то синдром самозванца и я попал сюда случайно. Сел я за первые курсы и мягко говоря был в шоке с того, что для отработки запросов нужно учитывать кучу мелочей, ранее я об этом даже и не задумывался. Кто хоть как-то знаком с компанией OZON и ее стеком знает, что в требованиях обычно указывается Vertica и ClickHouse, тому доказательство рандомная вакансия, которая размещена на их сайте.
Так вот, Vertica - эта такая штука, в которой приходится проводить большую часть времени, разбираться с тем, где что лежит, чтобы в конце концов сформировать витрину, которая далее будет перенаправлена в ClickHouse для формирования дашбордов в Superset. При формировании запроса нужно добиваться оптимального создания таблицы (распределения по кластерам, создание проекций и др.), поскольку в
Окей, нам нужно создать систему отчетности таким образом, чтобы люди пользовались ей регулярно и получали актуальную информацию по расписанию. В этом помогает AirFlow. Очень простой инструмент, но по сути он является ключевым. Прикиньте, я первый раз написал документацию и понимаю то, что так будет намного быстрее как мне разбираться с тем, что я делал, так и людям, которые будут искать похожие проекты, чувствуется профит и полезность
Я сейчас каждый день езжу в офис, знакомлюсь со всеми, в том числе и с заказчиками. Из плюсов, это кофе и вкусняшки на кофепоинтах, фрукты, овощи, ну и конечно же МИЛТИ, как без этого. Также приходится заниматься и другой работой, активно сижу и читаю исследования ребят из других команд, очень круто узнавать что-то новое для себя и в дальнейшем использовать
Поделитесь тем, кто где сейчас работает, с чем вам приходиться сталкиваться, очень интересно будет почитать, что-нибудь обсудить. Пишите, что бы вы хотели еще узнать, возможно, более подробно про задачи и что вообще нужно для того, чтобы комфортно себя чувствовать в команде. А я пойду писать пост про то, зачем вообще нужно отдыхать, какой от этого может быть плюс
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35🔥11🐳10👍4😁3
Друзья, как смотрите на то, чтобы я разбирал зарубежные статьи на том же arxiv.org или Хабр по ML, DS и другим крутым штукам? Ставьте реакции, если вам это интересно 😬
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥121🐳26❤10👍10🤩2🌭2🥰1
Happy birthday to me! 🎁
♟ Изначально я создавал этот канал в сентябре / ноябре 2022 года для себя (может отметим юбилей с момента первого поста 😈 ), своих заметок, но потом это разрослось в нечто такое, которое позволяет объединять людей, обмениваться опытом и разбирать интересные кейсы.
🍆 Благодаря вам было набрано (почти) 2000 подписчиков, то ли еще будет. Спасибо что продолжаете смотреть, несмотря на то, что иногда постов не бывает. Пытаюсь наладить режим и заново сформировать привычку выкладывать регулярно полезные посты, правда 🐰
Спасибо за доверие, фидбек и интересные комментарии, люблю🫶
Спасибо окружению (и pyenv тоже), которое выстраивается вокруг, вы заставляете развиваться и становиться сильней в сфере😐
Кстати, у нас есть чатик, заходите, будет интересно пообщаться!😮
Кто отрикролился?
Спасибо за доверие, фидбек и интересные комментарии, люблю
Спасибо окружению (и pyenv тоже), которое выстраивается вокруг, вы заставляете развиваться и становиться сильней в сфере
Кстати, у нас есть чатик, заходите, будет интересно пообщаться!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52❤11💘4👍2🎉1
С Днём знаний! Админу скоро в школу 🥰
Делитесь тем, как проводите 1-ое сентября🥰
Делитесь тем, как проводите 1-ое сентября
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24🐳9❤3🤩1🏆1💘1
Forwarded from Блог о Data Science 💻 (𝘿𝙖𝙣𝙞𝙡 𝙆𝙖𝙧𝙩𝙪𝙨𝙝𝙤𝙫)
А вот и осень, первые холода и депрессия
Сегодня закончилось мероприятие AI TALLENT HUB в рамках которого я совместно с @bogdanisssimo, @ai_minds и @AnTkDm делали AI INFLUENCE.
Идея в том, что бы создать инструмент для автоматизации работы с контентом.
Самые популярные каналы ~ обзорные каналы на какие-то новости, инструменты и тд.
Наш проект к сожалению не оценили ребята из ИТМО, меня честно задела фраза мол нет потенциала, АИ не умеет создавать ничего нового.
Вернёмся к каналам, вы, наверное все знаете канал Игоря Котенкова. Вам всем нравится как он обозревает те или иные вещи в сфере АИ. Почему бы не автоматизировать этот процесс. Да он не будет такой же углублённый или мемный. Если вы рисерчер, то вы очевидно следите за Женей из @j_links.
Так почему бы не автоматизировать процесс обработки папир?
Почему бы не автоматизировать новостные дайджесты?
Почему бы не автоматизировать перевод зарубежных подкастов, статей?
Сейчас бот умеет:
- В автономном или полуавтоном режиме писать в канал
- Делать обзор на посты других каналов
- Daily посты на тему X
Если вам стало интересно, что из этого получится подпишитесь на канал @ImNotAuthentic сделаю туда пост о том почему человек, как и GPT не создаёт ничего нового!
Жду от вас реакты тонну🐳
и помните: новое — хорошо забытое старое @notedatasciencechat
Сегодня закончилось мероприятие AI TALLENT HUB в рамках которого я совместно с @bogdanisssimo, @ai_minds и @AnTkDm делали AI INFLUENCE.
Идея в том, что бы создать инструмент для автоматизации работы с контентом.
Самые популярные каналы ~ обзорные каналы на какие-то новости, инструменты и тд.
Наш проект к сожалению не оценили ребята из ИТМО, меня честно задела фраза мол нет потенциала, АИ не умеет создавать ничего нового.
Сразу вспоминается следующее:
- ИИ никогда не сможет написать симфонию
- А вы сможете?
Вернёмся к каналам, вы, наверное все знаете канал Игоря Котенкова. Вам всем нравится как он обозревает те или иные вещи в сфере АИ. Почему бы не автоматизировать этот процесс. Да он не будет такой же углублённый или мемный. Если вы рисерчер, то вы очевидно следите за Женей из @j_links.
Так почему бы не автоматизировать процесс обработки папир?
Почему бы не автоматизировать новостные дайджесты?
Почему бы не автоматизировать перевод зарубежных подкастов, статей?
Сейчас бот умеет:
- В автономном или полуавтоном режиме писать в канал
- Делать обзор на посты других каналов
- Daily посты на тему X
Если вам стало интересно, что из этого получится подпишитесь на канал @ImNotAuthentic сделаю туда пост о том почему человек, как и GPT не создаёт ничего нового!
Жду от вас реакты тонну
и помните: новое — хорошо забытое старое @notedatasciencechat
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳22👍4❤2🔥1
Hadoop - что это за зверь? 😤
Друзья, всем привет, в этом посте хотелось бы разобрать что такое Hadoop и зачем он вообще нужен для аналитики / машинного обучения.
Вообще, хотелось бы начать с того, что это вообще такое. Hadoop - экосистема из нескольких утилит и фреймворков, позволяющая работать с Big Data.
Три концепции Big Data:
💪 Volume - Объем.
🏃♀️ Velocity - Скорость поступления данных.
🏖 Variety - Разнородность данных.
Из чего состоит Hadoop и что лежит в основе?
🗂 HDFS - распределенное хранилище для хранения файлов больших размеров с возможностью потокового доступа к информации. Представьте, что вы перекачиваете данные из одной БД в другую, результаты вычислений хранятся в формате parquet, который, благодаря обработке занимает меньше памяти.
👹 MapReduce - Используется для распределенных задач с использованием нод, которые образуют кластер.
📖 Yarn - система планирования заданий и управления кластером (Yet Another Resource Negotiator), которую также называют MapReduce 2.0 (MRv2).
✨ Spark - фреймворк, который обрабатывает данные в оперативной памяти, используя кэширование (в 100 раз быстрее Hadoop, x10 при вычислении на диске).
🧺 Hive - интерфейс доступа к данным. Он позволяет выполнять запросы, используя SQL синтаксис и обращаться с данными, как с таблицами БД).
💻 А теперь представьте, что вы решаете ML-задачу, где ваша модель обучается на огромном количестве данных (взять любую крупную компанию, которая внедряет ML задачи повсеместно). Это и рекомендательные системы, и скоринг пользователей, и внедрение различных A/B тестов с дальнейшей раскаткой на всех пользователей. Кажется, что ресурсов, предоставляемых различными сервисами по типу AIRFLOW может быть недостаточно при выполнении базовых запросов в SQL и дальнейшей обработкой, например, в pandas 🐼
И представьте, можно выполнять простые SQL запросы с помощью spark.sql()
🤨 Возьмем pandas и Spark.
Spark может решать различные типы задач по обработке данных. Он поддерживает пакетную обработку, обработку в реальном времени и интерактивную обработку больших наборов данных.
Pandas в основном используется для обработки структурированных данных, включая табличные, временные ряды и столбчатые данные.
Более подробно можно почитать тут
🤔 Полезные материалы по Spark можно почитать в следующих статьях
Под капотом Apache Spark лежит несколько концепций, с которыми я предлагаю ознакомиться по ссылочке на Хабре
ML-pipeline и практическое применение Spark с разбором кода на Хабре
Документация по Spark здесь
Классная статья с основными концепциями Hadoop (фото к посту взято оттуда). Хабр линк here
🐘 Ставьте реакции, делитесь тем, приходилось ли вам использовать Hadoop.
Друзья, всем привет, в этом посте хотелось бы разобрать что такое Hadoop и зачем он вообще нужен для аналитики / машинного обучения.
Вообще, хотелось бы начать с того, что это вообще такое. Hadoop - экосистема из нескольких утилит и фреймворков, позволяющая работать с Big Data.
Три концепции Big Data:
Из чего состоит Hadoop и что лежит в основе?
Spark может решать различные типы задач по обработке данных. Он поддерживает пакетную обработку, обработку в реальном времени и интерактивную обработку больших наборов данных.
Pandas в основном используется для обработки структурированных данных, включая табличные, временные ряды и столбчатые данные.
Более подробно можно почитать тут
Под капотом Apache Spark лежит несколько концепций, с которыми я предлагаю ознакомиться по ссылочке на Хабре
ML-pipeline и практическое применение Spark с разбором кода на Хабре
Документация по Spark здесь
Классная статья с основными концепциями Hadoop (фото к посту взято оттуда). Хабр линк here
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35🐳12👍6🔥6
https://t.iss.one/zasql_python?boost истории ннада? 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
Проголосуйте за канал, чтобы он получил больше возможностей.
👎22🤮6👍3🐳3❤2🥱1🌭1🤨1
Всем привет! Сегодня напишу свое мнение об алгоритмах, постараюсь донести, а нужно это или нет.
Ну или базовый вопрос собеседующего: «А можно проще?»
#алгоритмы
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳18🔥7❤4🤣2🤩1
🆎 CUPED как метод сокращения дисперсии для проведения A/B экспериментов.
🤭 Всем привет! В этом посте хочу рассказать о том что такое CUPED, зачем он нужен?
🤩 CUPED (Controlled-experiment Using Pre-Experiment Data) - один из методов сокращения дисперсии при проведении экспериментов, используемый в индустрии на основе данных предэкспериментального периода. Обычно метрику, которая используется до эксперимента, называется ковариатой.
🔨 Предположим, мы дизайним эксперимент, рассчитываем MDE (Minimum Detectable Effect) и Sample Size (необходимый размер выборки для проведения A/B теста). Рассмотрим стандартную формулу для нахождения MDE подробней:
🕺 Обычно в экспериментах мы можем влиять на размер выборки (по сути длительность эксперимента и количество трафика и дисперсию метрики).
🍴 Отсюда два вопроса:
а) Можем ли мы нагенерить столько трафика, чтобы MDE стало допсутимым при выборе определенной метрики?
б) Можем ли мы что-то сделать с целевой метрикой и соответствующей дисперсией, чтобы сократить MDE?
🍿 А к чему вообще сокращать MDE? Для того чтобы детектировать большее количество прокрашиваемых экспериментов и сокращать время для проведения экспериментов.
Итак, к CUPED. Канонический вид:
😐 Давайте рассмотрим матожидание Ycuped
🤸 Вуаля, оценка получается несмещенной, то есть благодаря поправке на среднее значение ковариаты мы получили такое же матожидание.
😨 А что с дисперсией? Нам ведь нужно понять, как это повлияет на MDE при дизайне эксперимента
🫡 Нам нужно минимизировать дисперсию. Решим относительно параметра theta, можно взять производную, или посмотреть на вершину параболы.
Обратная замена:
🚘 Нашли точку, в которой дисперсия достигает минимума (вершина параболы). Вывели соответствующие значение theta.
😏 Чем больше ковариация, тем больше линейная связь между двумя случайными величинами, поэтому обычно и берут метрики до эксперимента, которые сильно коррелируют друг с другом (эта же метрика в предэкспериментальном периоде).
🫴 На практике выбор сильно коррелированной метрики в предэкспериментальном периоде позволяет сократить дисперсию в несколько раз, что приводит к увеличению чувствительности теста.
😱 НО! есть ограничения, которые также я опишу в следующих постах.
⌨️ А какие способы снижения дисперсии знаете вы? Пишите в комментариях, ставьте реакции. Следующая часть не заставит себя долго ждать 😀
#аб
MDE = (F(1-alpha / 2) + F(1 - beta)) * sqrt(Var(X)) / sqrt(sample_size)
F(1-alpha / 2) - квантильная функция для 1 - ошибки первого рода (двусторонняя гипотеза) aka критическое значение для H0
F(1 - beta) - квантильная функция для мощности
Var(X) - дисперсия метрики
sample_size - размер выборки (обычно рассчитывается на основе трафика, целевых действий)
а) Можем ли мы нагенерить столько трафика, чтобы MDE стало допсутимым при выборе определенной метрики?
б) Можем ли мы что-то сделать с целевой метрикой и соответствующей дисперсией, чтобы сократить MDE?
Итак, к CUPED. Канонический вид:
Ycuped = Y - theta * (X - Xmean)
Ycuped - модифицированная метрика CUPED
theta = некий коэффициент, про который я напишу ниже
X - значение ковариаты в предэкспериментальном периоде
Xmean - среднее значение ковариаты в предэкспериментальном периоде
E(Ycuped) = E(Y) - E(theta * X) + E(theta * Xmean) = E(Y) - theta * E(X) + theta * E(Xmean) = E(Y) - theta * E(X) + theta * E(X) = E(Y)
Проведем замену X - Xmean = k
Var(Ycuped) = Var(Y - theta * (X - Xmean))
Var(Ycuped) = Var(Y - theta * k) = Var(Y) - 2 * cov(Y, theta * k) + Var(theta * k) = Var(Y) - 2 * theta * cov(Y, k) + theta^2 * Var(k) = theta^2 * Var(k) - 2 * theta * cov(Y,K) + Var(Y)
theta (вершина) = - b / 2a = 2 * cov(Y,k) / 2 * Var(K) = cov(Y,k) / Var(k).
Обратная замена:
theta (вершина) = cov(Y, (X - Xmean)) / Var(X - Xmean) = cov(Y, X) / Var(X)
#аб
Please open Telegram to view this post
VIEW IN TELEGRAM
или как научиться понимать свой продукт
Представьте, вы как человек, который связан с бизнес-юнитом компании, решаете протестировать фичу, но у вас нет понимания того, как это может затронуть метрики. В крупных компаниях, обычно, есть стенд метрик, который позволяет отслеживать здоровье компании.
Так вот, иерархия помогает определить взаимосвязи между различными метриками и понять, почему изменилась «North Star».
Почему это необходимо? По моему мнению, это нужно для ускоренного принятия решений и понимания взаимосвязей между компонентами
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15 9🐳6❤3🦄3🌭1
(пока название не придумал).
Какие основные навыки нужны в сфере Data Science?
Одно из ключевых для меня это:
А как вы считаете, что является одним из самых важных навыков, что бы вы выделили для себя? Пишите в комментариях свой ТОП-3, ставьте
Please open Telegram to view this post
VIEW IN TELEGRAM
Заезженная задача, которую регулярно дают на собеседованиях.
Проверьте гипотезу H0: Пауль выбирает победителя футбольного матча случайно. Сделайте вывод.
Please open Telegram to view this post
VIEW IN TELEGRAM