Библиотека собеса по Data Science | вопросы с собеседований
4.26K subscribers
467 photos
15 videos
1 file
560 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
🔜 Решает ли момент проблему затухающих и взрывных градиентов в глубоких нейросетях

Момент сам по себе не предназначен для прямого решения проблем vanishing или exploding gradients.

Он может частично смягчить взрывные градиенты, сглаживая резкие колебания обновлений (например, при частой смене знака градиента).

▶️ При затухающих градиентах момент может немного накопить малые сигналы и сдвинуть параметры из «мертвой зоны», но эффект обычно ограничен, если градиенты крайне малы.

▶️ Для устойчивой работы глубоких сетей чаще применяют BatchNorm, правильную инициализацию и адаптивные оптимизаторы.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
💡 Задача с собесеседования

Недавно в одном известном всем банке кандидату была предложена задача:

Есть клиент, который за месяц делает 1000 транзакций.
Нужно посчитать вероятность того, что среди них окажется хотя бы одна дублирующаяся сумма, если каждая сумма округляется до 2 знаков после запятой.


Вероятности, распределения, матожидание, градиенты — всё это может всплыть на интервью, и даже в продовых задачах.

🎓 Proglib запускает экспресс-курс «Математика для Data Science» — для тех, кто хочет закрыть эти пробелы и понять математику быстро, качественно и без боли.

🔍 На курсе вас ждет:

— линейная алгебра, анализ, теория вероятности и статистика;
— градиенты, матрицы и экстремумы функций;
— математики и алгоритмы машинного обучения;
— много практики.

📅 Старт: 6 ноября
Формат: 10 вебинаров и 3 практических проекта
💬 Поддержка: менторы + Telegram-чат
💰 Стоимость: 37 000 ₽ (есть рассрочка)

🔗 Узнать больше и записаться
👆 Как понять, когда стоит перейти к более крупной модели

Признаки необходимости более сложной модели:

🈁 Постоянно плохие или смещённые прогнозы, особенно если данные имеют сильно нелинейную природу (например, сложные временные ряды или изображения).

🈁 Значимая ценность небольшого прироста точности: если даже +2% точности существенно влияет на бизнес или снижает риски, более сложная модель может быть оправдана.

🈁 При принятии решения важно учитывать интерпретируемость, вычислительные затраты и регуляторные ограничения, сопоставляя их с потенциальной выгодой от увеличения мощности модели.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🔥 Новый курс «Математика для Data Science»

Записывайтесь до 19.10 и получите бонус-курс «Школьная математика» для быстрого освежения знаний! 🚀

🧠 Эксперты-спикеры на курсе:

▫️ Диана Миронидис — преподаватель ВШЭ, автор Яндекс Практикума;

▫️ Ксения Кондаурова — преподаватель Центрального Университета (Т-Банк);

▫️ Маргарита Бурова — академический руководитель программ Wildberries & Russ.

👉🏻 Не упустите шанс улучшить свои навыки
🟣 В каких случаях стоит выбрать другой алгоритм кластеризации вместо K-Means

K-Means популярен, но имеет свои ограничения, поэтому альтернативы могут быть предпочтительнее, если:

🆔 Кластеры не сферические или имеют сложную форму (например, изогнутые многообразия). В таких случаях подойдут DBSCAN или Mean-Shift.

🆔 Нужны вероятностные принадлежности к кластерам, а не жёсткие. Gaussian Mixture Models (GMM) позволяют «мягкое» распределение, полезное при сильном перекрытии кластеров.

🆔 Данные категориальные или смешанные. K-Means работает с непрерывными значениями, тогда как K-Modes или K-Prototypes подходят для категориальных признаков.

🆔 Много шума и выбросов, которые сильно смещают центроиды. DBSCAN устойчив к выбросам и может находить произвольное число кластеров.

Главная ошибка — использовать K-Means просто потому что он известен, не проверив форму кластеров и природу данных. Всегда оценивайте структуру данных перед выбором алгоритма.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
💥 Математика, которая не «для галочки»

Разработали курс «Математика для Data Science» специально для вас — чтобы закрыть все пробелы в математике и уверенно пройти любое собеседование на позицию Data Scientist.

🧠 За 2 месяца ты разберёшь:

➡️ линейную алгебру — работа с векторами и матрицами, их разложения, собственные значения и обратные матрицы;

➡️ мат. анализ — пределы, производные, экстремумы, применение градиентного спуска;

➡️ теорию вероятностей и статистику — случайные величины, распределения, статистические гипотезы, A/B-тесты;

➡️ математику в ML и аналитике — как использовать всё это в алгоритмах, логистической регрессии, методах ближайших соседей, байесовских подходах.

📚 Формат: 10 вебинаров, 3 практических проекта, тесты и чат с менторами.

🔥 При оплате до 19 октября получите курс по базовой математике в подарок.

🔗 Записаться на курс
➡️ Какие лучшие практики помогут убедиться, что выбранные признаки хорошо обобщаются на разные распределения или среды — например, в A/B-тестировании или после развертывания модели

Даже после тщательного отбора признаков модель может столкнуться с изменением распределений в реальных условиях. Чтобы гарантировать устойчивость и обобщающую способность признаков:

👆 Используйте несколько валидационных наборов. Проверяйте модель на разных временных периодах, географических регионах или пользовательских сегментах, чтобы убедиться, что признаки остаются предсказательными.

👆 Настройте постоянный мониторинг. Отслеживайте метрики (accuracy, precision, recall, калибровку) со временем. Если они начинают ухудшаться — это сигнал, что признаки теряют значимость.

👆 Проводите A/B-тесты. Разверните модель с новыми признаками на части пользователей, а остальным оставьте базовую модель. Сравните ключевые бизнес-метрики, чтобы подтвердить улучшения в реальных условиях.

👆 Настройте процесс переобучения. Регулярно или по триггеру пересматривайте важность признаков и переобучайте модель при обнаружении дрейфа данных.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
This media is not supported in your browser
VIEW IN TELEGRAM
Data.Meetup от Сбера: честно об агентизации😏

Отправляйтесь на жёсткую прокачку скилов — обсудим AI-Ready Data, аспекты построения AI-агентов, умный поиск, генерацию SQL и доступ агентов к данным одним кликом.

Встречаемся 23 октября: в московском офисе Сбера! 👌
🧠 Математика — движок всего, что мы пишем

Без неё не было бы сортировок, шифрования, графов и даже того самого if с вероятностью успеха в A/B-тесте.

Но главное, математика понятна, если объяснить её на языке разработки.

📘 Курс «Математика для Data Science»:

— от основ до реальных задач из собесов;
— линейная алгебра, статистика, теория вероятностей;
— визуализации, практика и живые уроки;
— поддержка менторов и комьюнити в чате.

🎓 За 2 месяца вы перестанете просто использовать библиотеки и начнёте понимать, как они работают.

🗓️ Старт → 6 ноября

👉 Записаться на курс