Друзья, всем привет!
Мои кореша из🔥 , точнее их Content creator Симулятора ML организует митап, на котором с вами поделится различными лайфхаками, как сделать свой пет-проект и как войти в айти без опыта (это не всё).
💼 Дата проведения: 16 февраля, 19:00
📸 Формат: Оффлайн, РЭУ им. Г.В. Плеханова (г. Москва)
📍 Стремянный переулок, дом 36
UPD: по возможности выкатят запись.
Приходите, будем ждать🚪
Ссылка на регистрацию
Мои кореша из
UPD: по возможности выкатят запись.
Приходите, будем ждать
Ссылка на регистрацию
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳22👍7🤩2
Думаю сделать пост с задачами, которые попадались на позициях Data Analyst, Product Analyst в 😀 , 🏦 , 📱 , 📦
Накидайте реакций, если эта тема вам интересна😇
Накидайте реакций, если эта тема вам интересна
Please open Telegram to view this post
VIEW IN TELEGRAM
👍152🐳40🔥8🦄7⚡4❤3😍2💘2🥰1🤯1🎉1
Исторический момент, друзья. Спасибо, что остаётесь со мной. Напишите, чего бы хотели видеть на канале в будущем
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳52🦄4❤2🔥2😱2🎉2😍2⚡1🤯1🤩1🌭1
Всем привет, в этом посте поделюсь задачами с различных собесов. Здесь буду кратко резюмировать то, что реально было на собесах, в тестовых заданиях 🧐
📦 OZON
👩💻 Задание на Python (pandas, numpy, знание функций, циклов, визуализаций, распределений)
> обработка данных
> агрегирующие функции
> удаление выбросов.
> визуализация
Например: нужно было сгенерировать user_id из цифр и букв длиной 15, при этом это должно экстраполироваться на 10000 строк😏
👩💻 Задание на SQL (тетрис). Оконные функции, превращение «узкой» таблицы в «широкую», подзапросы, JOIN
Логика, тервер, стата, здравствуйте💪
😀 Яндекс
📞 На первом созвоне с HR дали тервер для того, чтобы быстро понять, нужен ты им или нет.
Ну и вопрос на подумать:
Когда продавцу на Яндекс.Маркете выгодней всего продавать товар ниже себестоимости? Ответы пишите в комментариях😬
📞 Второй созвон - теория вероятностей и математическая статистика. Поговорили про основные моменты, связанные с определением Sample Size через MDE, когда вариант A/B надо катить в прод и как выбрать систему сплитования, если на разработку даётся 2 дня. Если мы говорим про тервер, это типичные задачи на шарики с ящиками, условные вероятности, Байес и другие.
📞 Третий созвон -
алгоритмическая секция. Наводит ужас, не правда ли?
👩💻 Задача уровня LeetCode medium+
👩💻 Задача на оконные функции, не помню уже условия, но суть такая, что у нас есть таблица, которая имеет следующий вид:
id - int
time - int
value - varchar
Если мы видим пропуск в value (NULL) заполнить ненулевым значением, которое встречалось в партиции в сортированной таблице.
В конце поговорили про A/B тесты, различные сложности, которые могут возникать и другое.
🏦 Если вдруг решили устроиться 5/2 офис, мы вас ждём.
📞 Первый созвон
Больше про продуктовое мышление, дали кейс, по которому нужно было выбрать относительные метрики, как можно будет отдавать для разработки дешбордов.
📞 Второй созвон
👩💻 Из разряда, что выведет код, List comprehensions, функции, строки, словари. В библиотеки не залезали
👩💻 Какая ошибка в запросе, что выведет запрос
> нет группировки
> ошибка в JOIN и др.
Ну, конечно же, куда без тервера и шариков😬
😶 Вывод:
Если хотите в Яндекс, решайте алгоритмические задачи на LeetCode, находите оптимальные решения, потому что зачастую спрашивают следующее: а можно как-то проще, чтобы сложность понизить? Не забываем про статистику и тервер, конечно же😱
Если хотите в OZON, решайте более прикладные задачи, играйте с библиотеками, SQL, благо сейчас ресурсов тонны🤤
Если хотите в Сбер, также решайте прикладные задачи, но не упарываясь в оптимизацию, также и с SQL🫠
😍 В честь праздника, ловите небольшой подгон в виде самих заданий (часть из них удалось сохранить). Ссылка тут
Накидайте реакций, если понравился пост, и увидимся уже на митапе по ML в плешке (16 февраля)💪
> обработка данных
> агрегирующие функции
> удаление выбросов.
> визуализация
Например: нужно было сгенерировать user_id из цифр и букв длиной 15, при этом это должно экстраполироваться на 10000 строк
Логика, тервер, стата, здравствуйте
Ну и вопрос на подумать:
Когда продавцу на Яндекс.Маркете выгодней всего продавать товар ниже себестоимости? Ответы пишите в комментариях
алгоритмическая секция. Наводит ужас, не правда ли?
id - int
time - int
value - varchar
Если мы видим пропуск в value (NULL) заполнить ненулевым значением, которое встречалось в партиции в сортированной таблице.
В конце поговорили про A/B тесты, различные сложности, которые могут возникать и другое.
Больше про продуктовое мышление, дали кейс, по которому нужно было выбрать относительные метрики, как можно будет отдавать для разработки дешбордов.
> нет группировки
> ошибка в JOIN и др.
Ну, конечно же, куда без тервера и шариков
Если хотите в Яндекс, решайте алгоритмические задачи на LeetCode, находите оптимальные решения, потому что зачастую спрашивают следующее: а можно как-то проще, чтобы сложность понизить? Не забываем про статистику и тервер, конечно же
Если хотите в OZON, решайте более прикладные задачи, играйте с библиотеками, SQL, благо сейчас ресурсов тонны
Если хотите в Сбер, также решайте прикладные задачи, но не упарываясь в оптимизацию, также и с SQL
Накидайте реакций, если понравился пост, и увидимся уже на митапе по ML в плешке (16 февраля)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤82🔥21🐳15👍11🌚2🌭2❤🔥1🤯1😍1
Начал писать пост про Road-Map для Junior/Intern Data-Analyst 😱
Расскажу про:
🤔 Основные инструменты, hard-skills
🤩 Как бы я выстраивал план обучения сейчас
😅 Расскажу про то, как можно найти первую работу
🛍 Ну и расскажу про планы на будущее, в каком направлении хочу двигаться.
🚗 Накидайте реакций, если эта тема вам интересна. Пишите комментарии, что бы хотели видеть по данной тематике
Расскажу про:
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳147❤17👍12😍5🔥4⚡3🕊3🦄3💘2🎉1🌚1
Hello World, в сегодняшнем посте хочу рассказать про HARD-скиллы, которые помогут вам стать запакованным стажером / джуном дата-аналитиком. Да, тема достаточно заезженная, но можно составить какую-то Road-Map для этого. Хочу максимально разжевать это, чтобы было какое-то понимание. Вот, вы решили стать DA, потому что это достаточно перспективное направление. Окей, все классно, но с чего же начать?
Какой же «Истинный» пак дата-аналитика?
В какой же последовательности я бы изучал сейчас?
Казалось бы, зачем это всё надо? Оперативно найти вопрос по интересующей вас теме на зарубежных форумах и не тратить своё время и время других на решение какой-то проблемы. Сейчас так вообще, можно забить всё в ChatGPT и решить конкретную задачу. Здесь речь идет скорее про то, что гуглить - это важно и в этом нет ничего такого.
В целом, похож на pandas (Python library), выстроенная структура поможет быстро адаптироваться под Python и начать работать с реальными данными. Номер один сейчас, имхо - это
Окей, мы продвинулись дальше, на очереди Python. Его нужно знать хорошо, чтобы писать функции и применять к конкретным переменным, понимать работу циклов, работу со словарями, строками, списками. Здесь можно без ООП, нам нужно быстро прогнать теорию и научиться реализовывать это на практике. Есть классный
Далее, математическая статистика и теория вероятностей. Предлагаю совместить это с Python, поскольку голая теория по этим двум дисциплинам очень плохо запоминается, а практика важна. Предлагаю начать со статистики и теории вероятностей на Stepik. Ранее, я скидывал тестовое разных компаний, можно глянуть тут. Сгенерировать свои данные и посмотреть как это реально может работать, понимать распределения, описание статистики + подкрепить A/B тестами, если хотите. Можно посмотреть вот этот мини-курс, чтобы понять как статистика и теория вероятностей работает в Python.
Please open Telegram to view this post
VIEW IN TELEGRAM
karpov.courses
Симулятор SQL | karpov.courses
Запишитесь на бесплатный интерактивный симулятор SQL онлайн для практики: online-training в школе Karpov Courses.
🐳23👍12❤🔥4❤2👏2💘1
В основном, это средство визуализации, построение дешбордов, но на 1 шаге, мы уже их строили, более глубже можно узнать, посмотрев курс тут. Друг на друга они в целом похоже, поэтому выбрать BI-систему для изучения - не так важно.
Но зачем в итоге нужны аналитики, почему не может всех заменить OpenAI? Во-первых, кто будет составлять запросы для ИИ? Во-вторых, кто понимает специфику бизнеса и интерпретацию различных метрик?
Понимание этого помогает вам и компании, в которой вы работаете, расти. Однотипные выгрузки, преобразования данных без формулирования выводов не нужно. Мы должны видеть, где проблемы в нашем продукте, чтобы впоследствии можно было принять решение по его дальнейшему развитию. Тренажер для погружения в продакт-менеджмент
Если вдруг понимаете, что вам это нужно (для стажировки, работы), "ботается" за 3-4 дня. Курс по Excel c практикой
Ну, без опыта вас не берут на работу, а без работы у вас нет опыта. Всё, жизнь, ужасна. Посмотрите мой предыдущий пост, там написаны основные пути решения. Упакуйте участие в каких-либо проектах как релевантный опыт. Зачастую HR смотрят на стек, что вы делали на работе, а также стаж.
Хочу провести эксперимент над собой и запустить формат марафона по Machine Learning, Deep Learning, где буду делиться тем, как продвигается обучение, что смотрю. Начинаю с относительного нуля, но есть желание в этом разобраться. Пишите комментарии, интересно ли это будет вам.
По Hard-скиллам можете также посмотреть у моего друга с канала Блог о Data Science, ссылка на пост тут
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Живой курс по Power BI с нуля до устройства на работу
Share your videos with friends, family, and the world
👍49🐳17❤7❤🔥4
Беру курс, читаю статейки, делюсь с вами и вместе мы идём к изучению сложных направлений. Например, посмотрел линал, нашёл интересные конструкции на
Предлагаю выкладывать результаты каждую неделю, чтобы можно было более корректно отследить что-то новое.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32🐳21👍4👨💻3🥰2
Всем привет, выпускаю пилотный пост своего погружения в Machine Learning и Deep Learning. В целом, пока идёт всё нормально, смотрю про линал. Вопрос к тем, кто знает, зачем нужен линал в ML и DL, если мы все равно засовываем матрицы фич в модель, пытаясь добиться высоких показателей метрик качества? Или это нам нужно для того, чтобы понимать, как все работает под капотом?
Что посмотрел?
Прохожу курс ИИ Старт на Stepik от МФТИ и Deep Learning от МФТИ также, пользуюсь стандартной документацией под библиотеки (sklearn, pandas, numpy)
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳29❤8😍3❤🔥1
https://youtu.be/XyfIE77JQzU
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Мастер-класс "ML Practice"
Всем привет!
В этом видео Данил Картушов из Karpov.Courses расскажет как войти в машинное обучение, почему обработка данных перед обучением модели очень важна и с помощью каких инструментов нарабатывать практический опыт.
Данная лекция проходила в РЭУ…
В этом видео Данил Картушов из Karpov.Courses расскажет как войти в машинное обучение, почему обработка данных перед обучением модели очень важна и с помощью каких инструментов нарабатывать практический опыт.
Данная лекция проходила в РЭУ…
🐳15❤4🌚2⚡1❤🔥1
Мотивационный пост? Нет, практический.
Что для своего обучения в Machine Learning и Deep Learning использую я?
Открытые датасеты, решения других пользователей, можно что-то взять для себя, топовые соревнования
Речь идёт про зарубежные форумы, на которых выкладываются различные решения по запросам пользователей. Скорее всего, на вашу проблему напарывались другие люди.
Promt-инженеры обрадовались. На самом деле, очень классный инструмент, которым нужно пользоваться здесь и сейчас. Пишем запросы и радуемся ответу чудо-машины, берём что-то для себя.
оценка качества модели для машинного обучения на примере…
зачем нужна кросс-валидация и т.д.
Не ЖПТ, просто чаты с реальными людьми. Цель - познакомиться с крутыми специалистами, влиться в сильное комьюнити и вместе развиваться.
Документация, конечно же. Сидим, практикуем английский, если есть вопросы, пишем в чатики и отправляем запрос в AI
А как обучаетесь вы? Пишите в комментариях, ставьте реакции
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳24👍5❤3🔥3🌚1
Пошла вторая неделя моего изучения Machine Learning и Deep Learning.
В планах:
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳28🔥5❤3👍3👨💻3🏆1💋1
На днях я начал задумываться над тем, что ждет всё айти в течение десятилетия. Возможно, все будем жить без еды, кто-то выберет путь наименьшего сопротивления и уйдет в небытие
Ужаснула мысль о том, что с выходом ChatGPT и других AI продуктов в свет, можно по-разному с этим играться. Например, создать платформу, которая будет выступать в роли консалтинга и находить какие-то зависимости в данных и подстраиваться под каждый бизнес. Безусловно, здесь должна идти речь о какой-то конфиденциальности, поскольку никто не хочет в очередной раз видеть слитый ГИТ на 42 гб, как в Яндексе
Интересно вообще понимать, может ли данная платформа, если она будет существовать, разорить бедных аналитиков и тех, кто просто пишет запросики в БД. Что же тогда будет с рынком? Пока неясно
Как на основе каких-то нейросетей, которые обучаются на примерах, например, ищут инсайты в данных и являются promt-инженерами, можно выстроить эффективную работу и реализацию поставленных задач внутри компании? Не могут же уйти просто менеджеры, лиды, ведь именно они занимаются постановкой задач, которые необходимы бизнесу в настоящее время. Возможно, нас будет ждать нечто страшное, способное подстраиваться под любой бизнес и обучаться, спустя какое-то время, возможно, всех не станет
Безусловно, сейчас мы имеем работу с инструментами, которые позволяют в кратчайшие сроки обучаться и искать новую информацию. А что, если вместо этого будет сидеть AI, который будет подстраиваться под данные компаний (если возможно это будет сделать максимально безопасным) и в зависимости от этого, парсинга предстоящих мероприятий, например, будет продумывать решения и закидывать их в ChatGPT или обучаться на них
А что думаете вы по этому поводу? Пишите в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳7😢2❤1👎1
Atomic Heart в реальности?
Всем привет, в этом посте напишу о том, как решил спринтануть ML, чем я пользовался и к чему вообще пришёл. Оговорюсь сразу, мой марафон не закончился🤓
Представьте, у вас есть волшебная таблетка, проглотив которую вы получаете сразу знания по любой интересующей вас области: ML, DA, DE, DL и др.
Согласитесь, это достаточно круто, ведь можно значительно сократить время🏋️
Прикольная штука, но пока у нас нет подобных технологий, жаль. Ну, приходится довольствоваться тем, что имеем🙆
Вдохновившись тем, что ML, нейронные сети - крутое направление, вписался в различные курсы такие, как:
> Deep Learning School от МФТИ
> REU ML School
> ИИ старт от МФТИ
> Основы машинного обучения от ВШЭ
> Основы Data Science и машинное обучение
Используя ChatGPT и параллельно просматривая документацию, курсы, ноутбуки на Kaggle, видео на английском от индусов, я продолжал наращивать свои знания по этому направлению. Я даже составлял RoadMap’у для себя, ну и конечно же, сформировал базу знаний, основываясь на структуре различных курсов🧑🎓
Что посмотрел за 3 недели?
Градиентные спуски, Scalers, Encoders, эмбединги, A/B тесты, алгоритмы, перцептроны, линейные и нелинейные модели, кросс-валидация и сплитование, нейросетки, различные лайфхаки кеглеров, работа с дисбалансом классов, бустинги, сокращение размерности, EDA для моделей, тюн моделей и подбор гиперпараметров, скоры для оценки моделей, кластеризация (из Unsupervised) и многое другое😬
Конечно же, не в совершенстве, я же не ИИ, я лягушонок. Думал и думаю перейти к NLP и CV😶
Вообще, к чему я веду. Если вы думаете, что всемогущи и можете заботать что-то без базы, вэлком в мой мир. Делаю week-off по ML, готовлюсь морально к чемпионату по DS🔒
В сжатые сроки можно все выучить, понимать полезность действий для бизнеса, но смотрите на моральное состояние, а то, возможно, превратитесь в уголь😈
Накидайте реакций на этот пост, делитесь историей своего обучения, пока пойду отдохну на собесах🎁
P.S: Обещаю вернутся с чем-то интересным для вас😘
Всем привет, в этом посте напишу о том, как решил спринтануть ML, чем я пользовался и к чему вообще пришёл. Оговорюсь сразу, мой марафон не закончился
Представьте, у вас есть волшебная таблетка, проглотив которую вы получаете сразу знания по любой интересующей вас области: ML, DA, DE, DL и др.
Согласитесь, это достаточно круто, ведь можно значительно сократить время
Прикольная штука, но пока у нас нет подобных технологий, жаль. Ну, приходится довольствоваться тем, что имеем
Вдохновившись тем, что ML, нейронные сети - крутое направление, вписался в различные курсы такие, как:
> Deep Learning School от МФТИ
> REU ML School
> ИИ старт от МФТИ
> Основы машинного обучения от ВШЭ
> Основы Data Science и машинное обучение
Используя ChatGPT и параллельно просматривая документацию, курсы, ноутбуки на Kaggle, видео на английском от индусов, я продолжал наращивать свои знания по этому направлению. Я даже составлял RoadMap’у для себя, ну и конечно же, сформировал базу знаний, основываясь на структуре различных курсов
Что посмотрел за 3 недели?
Градиентные спуски, Scalers, Encoders, эмбединги, A/B тесты, алгоритмы, перцептроны, линейные и нелинейные модели, кросс-валидация и сплитование, нейросетки, различные лайфхаки кеглеров, работа с дисбалансом классов, бустинги, сокращение размерности, EDA для моделей, тюн моделей и подбор гиперпараметров, скоры для оценки моделей, кластеризация (из Unsupervised) и многое другое
Конечно же, не в совершенстве, я же не ИИ, я лягушонок. Думал и думаю перейти к NLP и CV
Вообще, к чему я веду. Если вы думаете, что всемогущи и можете заботать что-то без базы, вэлком в мой мир. Делаю week-off по ML, готовлюсь морально к чемпионату по DS
В сжатые сроки можно все выучить, понимать полезность действий для бизнеса, но смотрите на моральное состояние, а то, возможно, превратитесь в уголь
Накидайте реакций на этот пост, делитесь историей своего обучения, пока пойду отдохну на собесах
P.S: Обещаю вернутся с чем-то интересным для вас
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳38👍12❤4🔥1
Дорогие девушки, от имени лягушки-аналитика, поздравляю вас с Международным женским днём!
Хочу пожелать вам невероятных успехов в нашей общей страсти - Data Science! Не останавливайтесь на достигнутом, следите за новыми открытиями и не бойтесь экспериментировать🙅
Ведь именно благодаря вашей интуиции и креативности в Data Science можно достичь уникальных результатов. Пусть ваше знание Python, SQL и других аналитических инструментов всегда помогает вам решать сложнейшие аналитические задачи и приводит к блестящим результатам!🤩
Хочу пожелать вам всегда оставаться улыбчивыми и позитивными, ведь ваше настроение и энергия – это то, что заставляет нас вдохновляться и двигаться вперед. Желаю вам не только успешных и точных дешбордов, но и тех, которые будут не только информативными, но и красивыми😘
А ваше умение проводить классные A/B эксперименты – это несомненно круто. Пусть выборка всегда будет репрезентативной, а метрики – прекрасными, такими же, как и вы!😘
Пусть Accuracy (то, как вы точно знаете, как сделать мир лучше),
Precision (ваше остроумие), Recall (ваша забота) и F1-Score (ваш женский инстинкт) были всегда на высоте и стремились к 1😸
Хочу пожелать вам невероятных успехов в нашей общей страсти - Data Science! Не останавливайтесь на достигнутом, следите за новыми открытиями и не бойтесь экспериментировать
Ведь именно благодаря вашей интуиции и креативности в Data Science можно достичь уникальных результатов. Пусть ваше знание Python, SQL и других аналитических инструментов всегда помогает вам решать сложнейшие аналитические задачи и приводит к блестящим результатам!
Хочу пожелать вам всегда оставаться улыбчивыми и позитивными, ведь ваше настроение и энергия – это то, что заставляет нас вдохновляться и двигаться вперед. Желаю вам не только успешных и точных дешбордов, но и тех, которые будут не только информативными, но и красивыми
А ваше умение проводить классные A/B эксперименты – это несомненно круто. Пусть выборка всегда будет репрезентативной, а метрики – прекрасными, такими же, как и вы!
Пусть Accuracy (то, как вы точно знаете, как сделать мир лучше),
Precision (ваше остроумие), Recall (ваша забота) и F1-Score (ваш женский инстинкт) были всегда на высоте и стремились к 1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44👍8🥰4🐳2🤝1🫡1😘1
Почему нужно вписываться во все IT-инициативы?
Привет всем, в этом посте я расскажу о том, почему важно участвовать во всяких кейс-чемпионатах, хакатонах и прочей DS-движухе💼
Я поучаствовал в немалом количестве чемпионатов, где-то даже занимал призовые места, привет💙 . Треки были посвящены маркетингу, продвижению продукта. Вроде бы классно, однако, несмотря на то, что твоя идея могла решить проблему, ты все равно оставался недопонятым жюри, что печально. Есть специализированные кейс-школы, которые обучают по шаблонам как нужно решать задачи, оформлять презы, нет какой-то своей изюминки, а мыслишь ты абстрактными понятиями, которые непонятно откуда рождаются в твоей голове 🤔
Мой путь в аналитике начался с Хакатона, который длился 7 месяцев. Казалось бы, что очень много, но за это время можно было предложить столько гипотез, так покрутить данные, чтобы максимально быстро влиться в то, чем занимаются аналитики🍴
P.S: Была проблема с GPU, пришлось выкручиваться, залутал за хакатон money
Сейчас я работаю аналитиком и хочу подтянуть Machine Learning и Deep Learning для расширения кругозора и возможной переквалификации😎
Для этого я участвую в кейс-чемпионате по Data Science, задача связана с NLP, Machine Learning💃
Команда, кстати, называется «Заскуль Карпова»
Прохожу большое количество курсов, чтобы максимально быстро можно выйти на нормальный уровень в области ML, DL🍷
Это значительно бустит вас, поскольку вы работаете с реальными инструментами в области DS, а не крутите условные игрушечные данные и джойните таблички😮
Но как выжить в таком хаосе? Узнаем чуть позже😨
Накидайте реакций, а я напишу про то, как мы решаем кейс-чемпионат, к чему пришли и какие инсайты нашли в предложенных данных🤔
Привет всем, в этом посте я расскажу о том, почему важно участвовать во всяких кейс-чемпионатах, хакатонах и прочей DS-движухе
Я поучаствовал в немалом количестве чемпионатов, где-то даже занимал призовые места, привет
Мой путь в аналитике начался с Хакатона, который длился 7 месяцев. Казалось бы, что очень много, но за это время можно было предложить столько гипотез, так покрутить данные, чтобы максимально быстро влиться в то, чем занимаются аналитики
P.S: Была проблема с GPU, пришлось выкручиваться, залутал за хакатон money
Сейчас я работаю аналитиком и хочу подтянуть Machine Learning и Deep Learning для расширения кругозора и возможной переквалификации
Для этого я участвую в кейс-чемпионате по Data Science, задача связана с NLP, Machine Learning
Прохожу большое количество курсов, чтобы максимально быстро можно выйти на нормальный уровень в области ML, DL
Это значительно бустит вас, поскольку вы работаете с реальными инструментами в области DS, а не крутите условные игрушечные данные и джойните таблички
Но как выжить в таком хаосе? Узнаем чуть позже
Накидайте реакций, а я напишу про то, как мы решаем кейс-чемпионат, к чему пришли и какие инсайты нашли в предложенных данных
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳44👍12❤4🔥3
Возвращение короля текстов или как 5 аналитиков решали NLP 🤴
История о том, как я с командой участвовал в соревнованиях по Data Science (NLP). Расскажу о трудностях и о том, к чему пришли.
Относительно недавно я начал ботать DL / ML и решил, а почему бы не поучаствовать в NLP. Раскидали задачи и начали активно работать.
Основная задача - алгоритм ранжирования комментариев под текстом публикации.
Изначально, я думал, что речь идет по RecSys, как с карточками на маркетплейсах, когда вам предлагают похожие товары, но пока не будем про это😢
Первый этап: EDA
Похоже на танцы с бубном и поиск зависимостей в данных. Было выделено несколько фич: количество стоп-слов, слов, предложений, читабельность, тональность и кучу других.
Какие инсайты получили?
Длина текста, определенная тональность и наличие других символов определяют Score на размеченных данных. Дисбаланса классов не было, к over_sampling не приходили🤨
Второй этап: Обработка текста
Стеминг, лемматизация, создание эмбедингов (Word2Vec, TF-IDF, BERT, CountVectorizer), удаление знаков препинания (прикреплю классный слайд с презентации, который нашел на просторах GitHub). «Мешок слов» не использовали, потому что получается матрица, которая сжирает 1 терабайт памяти😢
Третий этап:
Перебор сочетаний с Logistic Regression, KNN, RandomForest, GradientBoosting. Самый лучший NDCG Score = 0,92. При обработке через BERT, возможно, получили бы результат лучше. Имеем, что имеем, ждём результатов🍷
Накидайте реакций, а я накачу пост про Deep Learning, а то немного выбился из режима🗒
История о том, как я с командой участвовал в соревнованиях по Data Science (NLP). Расскажу о трудностях и о том, к чему пришли.
Относительно недавно я начал ботать DL / ML и решил, а почему бы не поучаствовать в NLP. Раскидали задачи и начали активно работать.
Основная задача - алгоритм ранжирования комментариев под текстом публикации.
Изначально, я думал, что речь идет по RecSys, как с карточками на маркетплейсах, когда вам предлагают похожие товары, но пока не будем про это
Первый этап: EDA
Похоже на танцы с бубном и поиск зависимостей в данных. Было выделено несколько фич: количество стоп-слов, слов, предложений, читабельность, тональность и кучу других.
Какие инсайты получили?
Длина текста, определенная тональность и наличие других символов определяют Score на размеченных данных. Дисбаланса классов не было, к over_sampling не приходили
Второй этап: Обработка текста
Стеминг, лемматизация, создание эмбедингов (Word2Vec, TF-IDF, BERT, CountVectorizer), удаление знаков препинания (прикреплю классный слайд с презентации, который нашел на просторах GitHub). «Мешок слов» не использовали, потому что получается матрица, которая сжирает 1 терабайт памяти
Третий этап:
Перебор сочетаний с Logistic Regression, KNN, RandomForest, GradientBoosting. Самый лучший NDCG Score = 0,92. При обработке через BERT, возможно, получили бы результат лучше. Имеем, что имеем, ждём результатов
Накидайте реакций, а я накачу пост про Deep Learning, а то немного выбился из режима
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳35❤2❤🔥2👍2👾2😎1
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳33👍7🔥6❤3
Далее буду участвовать на Kaggle, раскачиваться в RecSys, CV, NLP, возможно поучаствовать в Хакатоне от Вышки
По планам параллельно заботать алгоритмы, сами понимаете для чего
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Блог о Data Science💻
Без сна без отдыха, без жизни: почему у нас больше данных, чем здравого смысла
Приглашаю вас в наш уютный чатик в это воскресенье (9 апреля 20:00 UTC+3) в котором мы поговорим про машинное обучение и ментальное здоровье!
Вход бесплатный!
Приглашаю вас в наш уютный чатик в это воскресенье (9 апреля 20:00 UTC+3) в котором мы поговорим про машинное обучение и ментальное здоровье!
Вход бесплатный!
👍12🐳4❤3🔥2👾2
Всем привет, я вернулся из небытия и готов поделиться с вами над чем я работаю и какой вектор развития у меня сейчас 😬
Прошел уже второй месяц моего участия в Симулятор ML от🔥 . Отдельное спасибо @uberkinder за этот продукт. Спойлер: Прошел чуть больше 50% + взялся за проект 😘
Сейчас у меня висит оффер от💙 на позицию дата-аналитика, но хочу уйти в Machine Learning Engineering 😎
Над чем работаю сейчас?
> RecSys. Недавно была защита проектов для прохождения в магистратуру ИТМО, очень понравилась концепция и реализация @redpf. Более подробно можете ознакомиться в этом посте
> A/B Testing. Планирую заняться разработкой платформы, для этого думаю взять курс по A/B тестам у тех же🔥
> В следующем году буду пробовать в ШАД от😀 или AI Masters от 💙 , поэтому готовлюсь к созданию коммьюнити тех, кому это будет интересно.
Давайте наберём n-ное количество реакций, а я расскажу про то, как сходил на собеседования в различные компании: Avito, Ozon, MTC, Yandex
Прошел уже второй месяц моего участия в Симулятор ML от
Сейчас у меня висит оффер от
Над чем работаю сейчас?
> RecSys. Недавно была защита проектов для прохождения в магистратуру ИТМО, очень понравилась концепция и реализация @redpf. Более подробно можете ознакомиться в этом посте
> A/B Testing. Планирую заняться разработкой платформы, для этого думаю взять курс по A/B тестам у тех же
> В следующем году буду пробовать в ШАД от
Давайте наберём n-ное количество реакций, а я расскажу про то, как сходил на собеседования в различные компании: Avito, Ozon, MTC, Yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Блог о Data Science💻
😬 My First Data Project
Недавно я защитил свой проект в ITMO AI Tallent hub и хочу поделиться с вами отзывом! Вы знаете, что сейчас я пишу диплом и поэтому немного забросил контент.
😯 Что он из себя представляет?
По сути это просто pet project, который курируют…
Недавно я защитил свой проект в ITMO AI Tallent hub и хочу поделиться с вами отзывом! Вы знаете, что сейчас я пишу диплом и поэтому немного забросил контент.
😯 Что он из себя представляет?
По сути это просто pet project, который курируют…
🔥103🐳18❤10🍌2👍1
Собеседования или история о том, как Максим получил оффер в OZON 💙
Всем привет, в этом посте я расскажу о том, через какие вопросы на собеседованиях я прошел и компании, которые остались в моем сердечке навсегда😘
Первую часть поста можете посмотреть тут
Многое поменялось с тех времен, однако, я добился того, чего хотел😬
❤️ AVITO
Все проходят одинаковый набор на аналитиков данных. По сути процесс отбора кандидатов проходит следующим образом: ты собесишься по общим правилам, общему стеку и дальше команды занимаются продажей себя на общей встрече.
🚶♂️ Первый этап: созвон с HR, обсуждение того, над чем работал, первичный скрининг.
😐 Второй этап: созвон с аналитиком, решение задач по статистике и теории вероятностей. p-value, распределения, матожидание. Ранее я делал подборку, где можно углубиться по знаниям данных дисциплин.
😘 Третий этап: созвон с лидом одного из направлений + аналитика. Бизнес-кейсы, гипотезы, SQL + Python.
😮 Вопрос: У нас есть определение геопозиции на сайте. К нам приходит лид и говорит, что нужно улучшить качество клиентского сервиса, что будем делать?
Как плюс: это классный фидбек, который указывает на твои ошибки и над чем стоит поработать!
❤️ OZON
Аналогичный отбор, иду в направление СНГ.
🤨 Вопрос: Сколько такси в Москве?
❤️ Тинькофф
В этом мне посодействовала бывший продуктовый аналитик OZON. Если вы хотите узнать инсайты и то, чем занимаются аналитики в свободное время, вэлком сюда
🤔 МТС
Прикрепил тестовое на продуктового аналитика в Банк (успешно скипнул, потому что ценность снижается до нуля)
🤨 Интересный вопрос, также на подумать. Сеть ритейлов предоставляет информацию о чеках и проводит акцию по продажам подгузников. У нас есть расположение магазинов (широта и долгота), номер лояльной карты. Также мы имеем внутренний айдишник (в базе МТС), широту и долготу в любой промежуток времени. Как лучше всего сматчить 2 айдишника?
🤔 Я обновил гугл-диск, там можете посмотреть задание. Ссылка тут
Давайте наберём 100+ реакций и 60 репостов на этом посте, а я выложу то, к чему готовлюсь в ближайшее время😏
Всем привет, в этом посте я расскажу о том, через какие вопросы на собеседованиях я прошел и компании, которые остались в моем сердечке навсегда
Первую часть поста можете посмотреть тут
Многое поменялось с тех времен, однако, я добился того, чего хотел
Все проходят одинаковый набор на аналитиков данных. По сути процесс отбора кандидатов проходит следующим образом: ты собесишься по общим правилам, общему стеку и дальше команды занимаются продажей себя на общей встрече.
Как плюс: это классный фидбек, который указывает на твои ошибки и над чем стоит поработать!
Аналогичный отбор, иду в направление СНГ.
В этом мне посодействовала бывший продуктовый аналитик OZON. Если вы хотите узнать инсайты и то, чем занимаются аналитики в свободное время, вэлком сюда
Прикрепил тестовое на продуктового аналитика в Банк (успешно скипнул, потому что ценность снижается до нуля)
Давайте наберём 100+ реакций и 60 репостов на этом посте, а я выложу то, к чему готовлюсь в ближайшее время
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (DA/DS/ML) 🐸
Всем привет, в этом посте поделюсь задачами с различных собесов. Здесь буду кратко резюмировать то, что реально было на собесах, в тестовых заданиях 🧐
📦 OZON
👩💻 Задание на Python (pandas, numpy, знание функций, циклов, визуализаций, распределений)
> обработка…
📦 OZON
👩💻 Задание на Python (pandas, numpy, знание функций, циклов, визуализаций, распределений)
> обработка…
🔥74🐳14❤3👍3