Заскуль питона (Data Science)
6.16K subscribers
109 photos
15 videos
4 files
142 links
Канал про Python, Data Science, SQL и многое другое

По вопросам сотрудничества и рекламе: @m459n9

Чат: https://t.iss.one/my_it_frogs
Download Telegram
Как перестать разочаровываться во всем и начать жить?

Всем привет, в
этом посте я накидаю мыслей про выгорание и расскажу про то, что делать с этим ☕️

Когда вы только начинаете искать предназначение в жизни, руки могут опускаться по ряду причин 👀

> Очень много конкурентов. Уже есть десятки тысяч классных специалистов, чем они хуже меня? Про это будет написано ниже.

> Знания, которые я получаю не дают того эффекта, который я изначально закладывал для себя.

> Работа превращается в день сурка и теряется смысл от того, что я делаю.

Когда я учился в школе, думал, что в IT итак много специалистов, поэтому поступал в ВУЗ по обществознанию. Скорее, здесь про уверенность в себе, ты не готов разобраться в структуре рынков, а у тебя внутри есть какой-то барьер 🔥

Начиная развиваться в IT, я перестал завидовать успеху других людей, даже если они достигли его в раннем возрасте. У них свой путь, у меня свой… На первое время я перестал смотреть на достижения окружающих людей, чтобы не тильтовать лишний раз. Потом постепенно начал интересоваться тем, чем занимаются «коллеги по несчастью», чтобы расширить кругозор, барьер преодолён 😮

Вот смотришь курсы, полезные материалы и в один момент понимаешь, что профита никакого нет. Да, это звучит весьма нормально, ты стоишь на месте и не можешь получить нормальный оффер. Я всегда был категоричен к себе и не давал себе отдохнуть, покручивая датасеты, смотря документацию, и в один прекрасный момент меня начало воротить от того, чем я занимаюсь. От того, что вы выделите себе время для отдыха, не будет хуже, а выгореть будет сложнее (для меня это тяжело, поскольку отдыхать нормально я не умею и лишний раз хочется прогрейдиться в короткое время) 😢

Но вот, свершилось чудо и вы получили оффер, но, проработав какое-то время, понимаете, что работа превратилась в рутину, а интерес пропал. Да, такое тоже бывает, нужно уже на стадии обучения понимать, что какие-то вещи будут привычными и ежедневными, однако, выход есть. Можете поговорить с руководителем и узнать, будут ли задачи, которые вам будут интересны. Если понимаете, что нет, советую походить по собеседованиям, кстати, пост можете глянуть тут 👧

Делитесь своей историей и тем, как вы боролись с выгоранием, будет интересно почитать.

Давайте наберём 150 🐳 и в следующем посте я расскажу про свой путь в IT 🧃
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳106👍62🤨1
Друзья, всем привет!

Мои кореша из 🔥, точнее их Content creator Симулятора ML организует митап, на котором с вами поделится различными лайфхаками, как сделать свой пет-проект и как войти в айти без опыта (это не всё).

💼 Дата проведения: 16 февраля, 19:00

📸 Формат: Оффлайн, РЭУ им. Г.В. Плеханова (г. Москва)
📍Стремянный переулок, дом 36
UPD: по возможности выкатят запись.

Приходите, будем ждать 🚪

Ссылка на регистрацию
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳22👍7🤩2
Думаю сделать пост с задачами, которые попадались на позициях Data Analyst, Product Analyst в 😀, 🏦, 📱, 📦

Накидайте реакций, если эта тема вам интересна 😇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍152🐳40🔥8🦄743😍2💘2🥰1🤯1🎉1
1️⃣0️⃣0️⃣0️⃣❗️

Исторический момент, друзья. Спасибо, что
остаётесь со мной. Напишите, чего бы хотели видеть на канале в будущем 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳52🦄42🔥2😱2🎉2😍21🤯1🤩1🌭1
Всем привет, в этом посте поделюсь задачами с различных собесов. Здесь буду кратко резюмировать то, что реально было на собесах, в тестовых заданиях 🧐

📦 OZON

👩‍💻 Задание на Python (pandas, numpy, знание функций, циклов, визуализаций, распределений)
> обработка данных
> агрегирующие функции
> удаление выбросов.
> визуализация

Например: нужно было сгенерировать user_id из цифр и букв длиной 15, при этом это должно экстраполироваться на 10000 строк 😏

👩‍💻 Задание на SQL (тетрис). Оконные функции, превращение «узкой» таблицы в «широкую», подзапросы, JOIN

Логика, тервер, стата, здравствуйте 💪

😀 Яндекс

📞 На первом созвоне с HR дали тервер для того, чтобы быстро понять, нужен ты им или нет.

Ну и вопрос на подумать:
Когда продавцу на Яндекс.Маркете выгодней всего продавать товар ниже себестоимости? Ответы пишите в комментариях 😬

📞 Второй созвон - теория вероятностей и математическая статистика. Поговорили про основные моменты, связанные с определением Sample Size через MDE, когда вариант A/B надо катить в прод и как выбрать систему сплитования, если на разработку даётся 2 дня. Если мы говорим про тервер, это типичные задачи на шарики с ящиками, условные вероятности, Байес и другие.

📞 Третий созвон -
алгоритмическая секция. Наводит ужас, не правда ли?

👩‍💻 Задача уровня LeetCode medium+

👩‍💻 Задача на оконные функции, не помню уже условия, но суть такая, что у нас есть таблица, которая имеет следующий вид:

id - int
time - int
value - varchar

Если мы видим пропуск в value (NULL) заполнить ненулевым значением, которое встречалось в партиции в сортированной таблице.

В конце поговорили про A/B тесты, различные сложности, которые могут возникать и другое.

🏦 Если вдруг решили устроиться 5/2 офис, мы вас ждём.

📞 Первый созвон

Больше про продуктовое мышление, дали кейс, по которому нужно было выбрать относительные метрики, как можно будет отдавать для разработки дешбордов.

📞 Второй созвон

👩‍💻 Из разряда, что выведет код, List comprehensions, функции, строки, словари. В библиотеки не залезали

👩‍💻 Какая ошибка в запросе, что выведет запрос

> нет группировки
> ошибка в JOIN и др.

Ну, конечно же, куда без тервера и шариков 😬

😶 Вывод:

Если хотите в Яндекс, решайте алгоритмические задачи на LeetCode, находите оптимальные решения, потому что зачастую спрашивают следующее: а можно как-то проще, чтобы сложность понизить? Не забываем про статистику и тервер, конечно же 😱

Если хотите в OZON, решайте более прикладные задачи, играйте с библиотеками, SQL, благо сейчас ресурсов тонны 🤤

Если хотите в Сбер, также решайте прикладные задачи, но не упарываясь в оптимизацию, также и с SQL 🫠

😍 В честь праздника, ловите небольшой подгон в виде самих заданий (часть из них удалось сохранить). Ссылка тут

Накидайте реакций, если понравился пост, и увидимся уже на митапе по ML в плешке (16 февраля) 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
82🔥21🐳15👍11🌚2🌭2❤‍🔥1🤯1😍1
Начал писать пост про Road-Map для Junior/Intern Data-Analyst 😱

Расскажу про:
🤔 Основные инструменты, hard-skills

🤩 Как бы я выстраивал план обучения сейчас

😅 Расскажу про то, как можно найти первую работу

🛍 Ну и расскажу про планы на будущее, в каком направлении хочу двигаться.

🚗 Накидайте реакций, если эта тема вам интересна. Пишите комментарии, что бы хотели видеть по данной тематике
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳14717👍12😍5🔥43🕊3🦄3💘2🎉1🌚1
🥪 ROAD-MAP DATA ANALYST

Hello World
, в сегодняшнем посте хочу рассказать про HARD-скиллы, которые помогут вам стать запакованным стажером / джуном дата-аналитиком. Да, тема достаточно заезженная, но можно составить какую-то Road-Map для этого. Хочу максимально разжевать это, чтобы было какое-то понимание. Вот, вы решили стать DA, потому что это достаточно перспективное направление. Окей, все классно, но с чего же начать?

🤤 P.S: я хочу выстроить план на основе того, через что мне предстояло пройти. Волшебной таблетки нет.

Какой же «Истинный» пак дата-аналитика?

👩‍💻 Python (pandas, numpy, matplotlib, based functions in python)
👩‍💻 SQL (оконные функции, джойны, группировки, подзапросы, работа с таблицами)
😎 BI-System (визуализация, дешборды, адаптация скриптов)
🤓 Probability theory and statistics (условная вероятность, ЦПТ, доверительные интервалы, проверка гипотез, распределения и др.)
📱 Google Searching (да, полезный навык, который сократит время ожидания ответа от других пользователей, любителям nometa.xyz привет)
🧑‍🎓 Product metrics, business thinking (понимание для чего вы проводите те или иные расчеты, какую пользу вы несете бизнесу / продукты, упор на метрики)
🔒 Excel*. Запрашивают на стажировках, иногда используется для выгрузки отчетов, создания сводных таблиц.

В какой же последовательности я бы изучал сейчас?

0️⃣ Google Searching

Казалось бы, зачем это всё надо? Оперативно найти вопрос по интересующей вас теме на зарубежных форумах и не тратить своё время и время других на решение какой-то проблемы. Сейчас так вообще, можно забить всё в ChatGPT и решить конкретную задачу. Здесь речь идет скорее про то, что гуглить - это важно и в этом нет ничего такого.

1️⃣ SQL

В целом, похож на pandas (Python library), выстроенная структура поможет быстро адаптироваться под Python и начать работать с реальными данными. Номер один сейчас, имхо - это 🔥, там есть и работа с SQL, а также работа с дешбордами и продуктовыми метриками, очень крутой курс. Окей, мы научились пользоваться оконными функциями, подзапросами, джойнами. Но аналитик - это не тот, кто пишет только SQL-запросы, не правда ли?

2️⃣ Default Python
Окей, мы продвинулись дальше, на очереди Python. Его нужно знать хорошо, чтобы писать функции и применять к конкретным переменным, понимать работу циклов, работу со словарями, строками, списками. Здесь можно без ООП, нам нужно быстро прогнать теорию и научиться реализовывать это на практике. Есть классный 👩‍💻 от ODS и Игоря Котенкова, всё достаточно классно разжевано, советую посмотреть.

3️⃣Probability Theory and statistics + Python
Далее, математическая статистика и теория вероятностей. Предлагаю совместить это с Python, поскольку голая теория по этим двум дисциплинам очень плохо запоминается, а практика важна. Предлагаю начать со статистики и теории вероятностей на Stepik. Ранее, я скидывал тестовое разных компаний, можно глянуть тут. Сгенерировать свои данные и посмотреть как это реально может работать, понимать распределения, описание статистики + подкрепить A/B тестами, если хотите. Можно посмотреть вот этот мини-курс, чтобы понять как статистика и теория вероятностей работает в Python.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳23👍12❤‍🔥42👏2💘1
4️⃣BI-Systems
В основном, это средство визуализации, построение дешбордов, но на 1 шаге, мы уже их строили, более глубже можно узнать, посмотрев курс тут. Друг на друга они в целом похоже, поэтому выбрать BI-систему для изучения - не так важно.

Но зачем в итоге нужны аналитики, почему не может всех заменить OpenAI? Во-первых, кто будет составлять запросы для ИИ? Во-вторых, кто понимает специфику бизнеса и интерпретацию различных метрик?

5️⃣Business and product thinking
Понимание этого помогает вам и компании, в которой вы работаете, расти. Однотипные выгрузки, преобразования данных без формулирования выводов не нужно. Мы должны видеть, где проблемы в нашем продукте, чтобы впоследствии можно было принять решение по его дальнейшему развитию. Тренажер для погружения в продакт-менеджмент

6️⃣*️⃣Excel
Если вдруг понимаете, что вам это нужно (для стажировки, работы), "ботается" за 3-4 дня. Курс по Excel c практикой

🏋️ Как же набрать опыт?
Ну, без опыта вас не берут на работу, а без работы у вас нет опыта. Всё, жизнь, ужасна. Посмотрите мой предыдущий пост, там написаны основные пути решения. Упакуйте участие в каких-либо проектах как релевантный опыт. Зачастую HR смотрят на стек, что вы делали на работе, а также стаж.

🛍 А теперь, что же у меня по планам?
Хочу провести эксперимент над собой и запустить формат марафона по Machine Learning, Deep Learning, где буду делиться тем, как продвигается обучение, что смотрю. Начинаю с относительного нуля, но есть желание в этом разобраться. Пишите комментарии, интересно ли это будет вам.

👍 Ставьте реакции, если пост понравился

По Hard-скиллам можете также посмотреть у моего друга с канала
Блог о Data Science, ссылка на пост тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🐳177❤‍🔥4
🚗 Спринт Machine learning и Deep Learning или как не сойти с ума

😅 Всем привет, пока что я готовлюсь по алгосам в 😀, параллельно просматриваю материалы по ML и DL с нуля. Хочу пройти этот путь и создать своего чат жпт, конечно же.

🤔 Как вообще я это вижу?

Беру курс, читаю статейки, делюсь с вами и вместе мы идём к изучению сложных направлений. Например, посмотрел линал, нашёл интересные конструкции на 👩‍💻, поделился с вами, Поучаствовал в соревнованиях, поделился своим видением и т.д.

Предлагаю выкладывать результаты каждую неделю, чтобы можно было более корректно отследить что-то новое.

😇 Пишите свои идеи по такому формату, поддержите реакциями если интересно будет посмотреть реалити-шоу с манагером из РАНХиГС (мой бекграунд, да-да)
Please open Telegram to view this post
VIEW IN TELEGRAM
32🐳21👍4👨‍💻3🥰2
🔤🔤 🔤 🔤🔤 1️⃣🔤

Всем привет, выпускаю пилотный пост своего погружения в Machine Learning и Deep Learning. В целом, пока идёт всё нормально, смотрю про линал. Вопрос к тем, кто знает, зачем нужен линал в ML и DL, если мы все равно засовываем матрицы фич в модель, пытаясь добиться высоких показателей метрик качества? Или это нам нужно для того, чтобы понимать, как все работает под капотом?

Что посмотрел?

🧑‍🎓 Теория вероятностей и статистика
🧮 Линейная алгебра (вектора и матрицы)
💻 ООП в Python, повторение синтаксиса с либами
💻 Рассмотрел KNN задачу классификации, линейную и логистическую регрессию
😱 Transform, Scalers
😨 Я также продолжаю решать алгоритмы для структуризации действий

Прохожу курс ИИ Старт на Stepik от МФТИ и Deep Learning от МФТИ также, пользуюсь стандартной документацией под библиотеки (sklearn, pandas, numpy)

😇 Расскажите, как практикуетесь вы? Ставьте реакции, если такой формат вам нравится
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳298😍3❤‍🔥1
😇 Как ускорить своё обучение в несколько раз?

Мотивационный пост? Нет, практический.

😡 Смотря на тенденции IT-рынка, мы скоро придём к тому, что всем будет заправлять ChatGPT и компании, которые используют соответствующие ИИ. Смерть кожаным мешкам? Не думаю, хотя сокращение сотрудников говорит об обратном.

😱 Сейчас из под каждого утюга слышно про какие-то «прикольные» AI-инструменты, которые могут написать курсовые, решить задачу или просто рассказать про то, как сделать самый вкусный в мире плов или отредактировать CV. Предлагаю использовать их с пользой для себя, но это не волшебная таблетка, лишь дополнительный инструмент в арсенал.

Что для своего обучения в Machine Learning и Deep Learning использую я?

🔤🔤🔤🔤🔤🔤

Открытые датасеты, решения других пользователей, можно что-то взять для себя, топовые соревнования

🔤🔤🔤🔤🔤🔤

Речь идёт про зарубежные форумы, на которых выкладываются различные решения по запросам пользователей. Скорее всего, на вашу проблему напарывались другие люди.

🔤🔤🔤🔤🔤🔤🔤

Promt-инженеры обрадовались. На самом деле, очень классный инструмент, которым нужно пользоваться здесь и сейчас. Пишем запросы и радуемся ответу чудо-машины, берём что-то для себя.

🗒 Например:

оценка качества модели для машинного обучения на примере…

зачем нужна кросс-валидация и т.д.

🔤🔤🔤🔤🔤

Не ЖПТ, просто чаты с реальными людьми. Цель - познакомиться с крутыми специалистами, влиться в сильное комьюнити и вместе развиваться.

🔤🔤🔤

Документация, конечно же. Сидим, практикуем английский, если есть вопросы, пишем в чатики и отправляем запрос в AI

😌 Использование этих инструментов в синергии, пока что, даёт какой-то космический буст, имхо

А как обучаетесь вы? Пишите в комментариях, ставьте реакции 🥺
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳24👍53🔥3🌚1
🔤🔤 🔤 🔤🔤 2️⃣🔤

Пошла вторая неделя моего изучения Machine Learning и Deep Learning.

😌 Потихоньку разбираюсь с метриками машинного обучения. В различных случаях использование одной метрики ничего не даёт. Например, accuracy в задаче классификации для дисбаланса классов. Узнал про то, как можно это пофиксить: например, с помощью over sampling и synthetic data

😏 Оказывается, GridSearch для поиска гиперпараметров - не панацея, работает очень медленно, если датасет большой или перебирать надо много. Лучше использовать другие инструменты для тюна (Optuna, например)

😳 Услышал про эмбеддинг товаров, начал копать в эту сторону. Word2vec (King - Man + Woman = Queen)

🤩 Готовлюсь к кейс-чемпионату по DS от Changellenge (заполняем GitHub)

🧐 Посмотрел пару задач на Kaggle, покрутил всеми любимый Titanic. Accuracy = 0.82 для логистической регрессии

🫠 Продолжаю плавиться в Deep Learning School и ИИ старт от МФТИ.

😦 Взял проект на работе по ML с предиктом уходящих пользователей, пока готовлю витрину данных.

В планах:

1️⃣ Установить и разобраться с AirFlow, DAGs

2️⃣ Продолжить ботать матан и линал для ML

3️⃣ Пройти курс по Docker для разворачивания ML-моделей
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳28🔥53👍3👨‍💻3🏆1💋1
🔤🔤🔤🔤 🔤🔤🔤🔤🔤

На днях я начал задумываться над тем, что ждет всё айти в течение десятилетия. Возможно, все будем жить без еды, кто-то выберет путь наименьшего сопротивления и уйдет в небытие 😐

Ужаснула мысль о том, что с выходом ChatGPT и других AI продуктов в свет, можно по-разному с этим играться. Например, создать платформу, которая будет выступать в роли консалтинга и находить какие-то зависимости в данных и подстраиваться под каждый бизнес. Безусловно, здесь должна идти речь о какой-то конфиденциальности, поскольку никто не хочет в очередной раз видеть слитый ГИТ на 42 гб, как в Яндексе 😈

Интересно вообще понимать, может ли данная платформа, если она будет существовать, разорить бедных аналитиков и тех, кто просто пишет запросики в БД. Что же тогда будет с рынком? Пока неясно 😶

Как на основе каких-то нейросетей, которые обучаются на примерах, например, ищут инсайты в данных и являются promt-инженерами, можно выстроить эффективную работу и реализацию поставленных задач внутри компании? Не могут же уйти просто менеджеры, лиды, ведь именно они занимаются постановкой задач, которые необходимы бизнесу в настоящее время. Возможно, нас будет ждать нечто страшное, способное подстраиваться под любой бизнес и обучаться, спустя какое-то время, возможно, всех не станет 🔒

Безусловно, сейчас мы имеем работу с инструментами, которые позволяют в кратчайшие сроки обучаться и искать новую информацию. А что, если вместо этого будет сидеть AI, который будет подстраиваться под данные компаний (если возможно это будет сделать максимально безопасным) и в зависимости от этого, парсинга предстоящих мероприятий, например, будет продумывать решения и закидывать их в ChatGPT или обучаться на них 🏋️

А что думаете вы по этому поводу? Пишите в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳7😢21👎1
Atomic Heart в реальности?

Всем привет, в этом посте напишу о том, как решил спринтануть ML, чем я пользовался и к чему вообще пришёл. Оговорюсь сразу, мой марафон не закончился 🤓

Представьте, у вас есть волшебная таблетка, проглотив которую вы получаете сразу знания по любой интересующей вас области: ML, DA, DE, DL и др.
Согласитесь, это достаточно круто, ведь можно значительно сократить время 🏋️

Прикольная штука, но пока у нас нет подобных технологий, жаль. Ну, приходится довольствоваться тем, что имеем 🙆

Вдохновившись тем, что ML, нейронные сети - крутое направление, вписался в различные курсы такие, как:

> Deep Learning School от МФТИ
> REU ML School
> ИИ старт от МФТИ
> Основы машинного обучения от ВШЭ
> Основы Data Science и машинное обучение


Используя ChatGPT и параллельно просматривая документацию, курсы, ноутбуки на Kaggle, видео на английском от индусов, я продолжал наращивать свои знания по этому направлению. Я даже составлял RoadMap’у для себя, ну и конечно же, сформировал базу знаний, основываясь на структуре различных курсов 🧑‍🎓

Что посмотрел за 3 недели?

Градиентные спуски, Scalers, Encoders, эмбединги, A/B тесты, алгоритмы, перцептроны, линейные и нелинейные модели, кросс-валидация и сплитование, нейросетки, различные лайфхаки кеглеров, работа с дисбалансом классов, бустинги, сокращение размерности, EDA для моделей, тюн моделей и подбор гиперпараметров, скоры для оценки моделей, кластеризация (из Unsupervised) и многое другое 😬

Конечно же, не в совершенстве, я же не ИИ, я лягушонок. Думал и думаю перейти к NLP и CV 😶

Вообще, к чему я веду. Если вы думаете, что всемогущи и можете заботать что-то без базы, вэлком в мой мир. Делаю week-off по ML, готовлюсь морально к чемпионату по DS 🔒

В сжатые сроки можно все выучить, понимать полезность действий для бизнеса, но смотрите на моральное состояние, а то, возможно, превратитесь в уголь 😈

Накидайте реакций на этот пост, делитесь историей своего обучения, пока пойду отдохну на собесах 🎁

P.S:
Обещаю вернутся с чем-то интересным для вас 😘
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳38👍124🔥1
Дорогие девушки, от имени лягушки-аналитика, поздравляю вас с Международным женским днём!

Хочу пожелать вам невероятных успехов в нашей общей страсти - Data Science! Не останавливайтесь на достигнутом, следите за новыми открытиями и не бойтесь экспериментировать 🙅

Ведь именно благодаря вашей интуиции и креативности в Data Science можно достичь уникальных результатов. Пусть ваше знание Python, SQL и других аналитических инструментов всегда помогает вам решать сложнейшие аналитические задачи и приводит к блестящим результатам! 🤩

Хочу пожелать вам всегда оставаться улыбчивыми и позитивными, ведь ваше настроение и энергия – это то, что заставляет нас вдохновляться и двигаться вперед. Желаю вам не только успешных и точных дешбордов, но и тех, которые будут не только информативными, но и красивыми 😘

А ваше умение проводить классные A/B эксперименты – это несомненно круто. Пусть выборка всегда будет репрезентативной, а метрики – прекрасными, такими же, как и вы! 😘

Пусть Accuracy (то, как вы точно знаете, как сделать мир лучше),
Precision (ваше остроумие), Recall (ваша забота) и F1-Score (ваш женский инстинкт) были всегда на высоте и стремились к 1 😸
Please open Telegram to view this post
VIEW IN TELEGRAM
44👍8🥰4🐳2🤝1🫡1😘1
Почему нужно вписываться во все IT-инициативы?

Привет всем, в этом посте я расскажу о том, почему важно участвовать во всяких кейс-чемпионатах, хакатонах и прочей DS-движухе 💼

Я поучаствовал в немалом количестве чемпионатов, где-то даже занимал призовые места, привет 💙. Треки были посвящены маркетингу, продвижению продукта. Вроде бы классно, однако, несмотря на то, что твоя идея могла решить проблему, ты все равно оставался недопонятым жюри, что печально. Есть специализированные кейс-школы, которые обучают по шаблонам как нужно решать задачи, оформлять презы, нет какой-то своей изюминки, а мыслишь ты абстрактными понятиями, которые непонятно откуда рождаются в твоей голове 🤔

Мой путь в аналитике начался с Хакатона, который длился 7 месяцев. Казалось бы, что очень много, но за это время можно было предложить столько гипотез, так покрутить данные, чтобы максимально быстро влиться в то, чем занимаются аналитики 🍴

P.S: Была проблема с GPU, пришлось выкручиваться, залутал за хакатон money

Сейчас я работаю аналитиком и хочу подтянуть Machine Learning и Deep Learning для расширения кругозора и возможной переквалификации 😎

Для этого я участвую в кейс-чемпионате по Data Science, задача связана с NLP, Machine Learning 💃

Команда, кстати, называется «Заскуль Карпова»

Прохожу большое количество курсов, чтобы максимально быстро можно выйти на нормальный уровень в области ML, DL 🍷

Это значительно бустит вас, поскольку вы работаете с реальными инструментами в области DS, а не крутите условные игрушечные данные и джойните таблички 😮

Но как выжить в таком хаосе? Узнаем чуть позже 😨

Накидайте реакций, а я напишу про то, как мы решаем кейс-чемпионат, к чему пришли и какие инсайты нашли в предложенных данных 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳44👍124🔥3
Возвращение короля текстов или как 5 аналитиков решали NLP 🤴

История о том, как я с командой участвовал в соревнованиях по Data Science (NLP). Расскажу о трудностях и о том, к чему пришли.

Относительно недавно я начал ботать DL / ML и решил, а почему бы не поучаствовать в NLP. Раскидали задачи и начали активно работать.

Основная задача - алгоритм ранжирования комментариев под текстом публикации.

Изначально, я думал, что речь идет по RecSys, как с карточками на маркетплейсах, когда вам предлагают похожие товары, но пока не будем про это 😢

Первый этап: EDA

Похоже на танцы с бубном и поиск зависимостей в данных. Было выделено несколько фич: количество стоп-слов, слов, предложений, читабельность, тональность и кучу других.

Какие инсайты получили?

Длина текста, определенная тональность и наличие других символов определяют Score на размеченных данных. Дисбаланса классов не было, к over_sampling не приходили 🤨

Второй этап: Обработка текста
Стеминг, лемматизация, создание эмбедингов (Word2Vec, TF-IDF, BERT, CountVectorizer), удаление знаков препинания (прикреплю классный слайд с презентации, который нашел на просторах GitHub). «Мешок слов» не использовали, потому что получается матрица, которая сжирает 1 терабайт памяти 😢

Третий этап:

Перебор сочетаний с Logistic Regression, KNN, RandomForest, GradientBoosting. Самый лучший NDCG Score = 0,92. При обработке через BERT, возможно, получили бы результат лучше. Имеем, что имеем, ждём результатов 🍷

Накидайте реакций, а я накачу пост про Deep Learning, а то немного выбился из режима 🗒
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳352❤‍🔥2👍2👾2😎1
Продолжаем 😘
P.S: 10-е место.
Увидимся в финале на презенташке)
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳33👍7🔥63
😤 Ну что ж, закончились соревнования по Data Science. В целом, эмоции неоднозначные, но это были мои первые соревнования, хоть какие-то.

🔥 5 место

Далее буду участвовать на Kaggle, раскачиваться в RecSys, CV, NLP, возможно поучаствовать в Хакатоне от Вышки

По планам параллельно заботать алгоритмы, сами понимаете для чего 🤐

🍴 Пишите, что бы вы хотели увидеть в следующих постах, а я пока настроюсь на подкастик от @redpf, который пройдёт в это воскресенье в 20:00. Ссылка на пост
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🐳43🔥2👾2