Библиотека собеса по Data Science | вопросы с собеседований

🔥 Новый курс «Математика для Data Science»

Записывайтесь до 19.10 и получите бонус-курс «Школьная математика» для быстрого освежения знаний! 🚀

🧠 Эксперты-спикеры на курсе:

▫️ Диана Миронидис — преподаватель ВШЭ, автор Яндекс Практикума;

▫️ Ксения Кондаурова — преподаватель Центрального Университета (Т-Банк);

▫️ Маргарита Бурова — академический руководитель программ Wildberries & Russ.

👉🏻 Не упустите шанс улучшить свои навыки

458 views08:34

🟣

В каких случаях стоит выбрать другой алгоритм кластеризации вместо K-Means

K-Means популярен, но имеет свои ограничения, поэтому альтернативы могут быть предпочтительнее, если:

🆔 Кластеры не сферические или имеют сложную форму (например, изогнутые многообразия). В таких случаях подойдут DBSCAN или Mean-Shift.

🆔 Нужны вероятностные принадлежности к кластерам, а не жёсткие. Gaussian Mixture Models (GMM) позволяют «мягкое» распределение, полезное при сильном перекрытии кластеров.

🆔 Данные категориальные или смешанные. K-Means работает с непрерывными значениями, тогда как K-Modes или K-Prototypes подходят для категориальных признаков.

🆔 Много шума и выбросов, которые сильно смещают центроиды. DBSCAN устойчив к выбросам и может находить произвольное число кластеров.

Главная ошибка — использовать K-Means просто потому что он известен, не проверив форму кластеров и природу данных. Всегда оценивайте структуру данных перед выбором алгоритма.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

474 viewsedited 18:21

Библиотека собеса по Data Science | вопросы с собеседований

💥 Математика, которая не «для галочки»

Разработали курс «Математика для Data Science» специально для вас — чтобы закрыть все пробелы в математике и уверенно пройти любое собеседование на позицию Data Scientist.

🧠 За 2 месяца ты разберёшь:

➡️ линейную алгебру — работа с векторами и матрицами, их разложения, собственные значения и обратные матрицы;

➡️ мат. анализ — пределы, производные, экстремумы, применение градиентного спуска;

➡️ теорию вероятностей и статистику — случайные величины, распределения, статистические гипотезы, A/B-тесты;

➡️ математику в ML и аналитике — как использовать всё это в алгоритмах, логистической регрессии, методах ближайших соседей, байесовских подходах.

📚 Формат: 10 вебинаров, 3 практических проекта, тесты и чат с менторами.

🔥 При оплате до 19 октября получите курс по базовой математике в подарок.

🔗 Записаться на курс

451 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

➡️ Какие лучшие практики помогут убедиться, что выбранные признаки хорошо обобщаются на разные распределения или среды — например, в A/B-тестировании или после развертывания модели

Даже после тщательного отбора признаков модель может столкнуться с изменением распределений в реальных условиях. Чтобы гарантировать устойчивость и обобщающую способность признаков:

👆 Используйте несколько валидационных наборов. Проверяйте модель на разных временных периодах, географических регионах или пользовательских сегментах, чтобы убедиться, что признаки остаются предсказательными.

👆 Настройте постоянный мониторинг. Отслеживайте метрики (accuracy, precision, recall, калибровку) со временем. Если они начинают ухудшаться — это сигнал, что признаки теряют значимость.

👆 Проводите A/B-тесты. Разверните модель с новыми признаками на части пользователей, а остальным оставьте базовую модель. Сравните ключевые бизнес-метрики, чтобы подтвердить улучшения в реальных условиях.

👆 Настройте процесс переобучения. Регулярно или по триггеру пересматривайте важность признаков и переобучайте модель при обнаружении дрейфа данных.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

468 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Data.Meetup от Сбера: честно об агентизации😏

Отправляйтесь на жёсткую прокачку скилов — обсудим AI-Ready Data, аспекты построения AI-агентов, умный поиск, генерацию SQL и доступ агентов к данным одним кликом.

Встречаемся 23 октября: в московском офисе Сбера! 👌

437 views14:00

Библиотека собеса по Data Science | вопросы с собеседований

✅

Как проводить надёжный feature engineering, чтобы простая модель могла захватывать ключевые зависимости в данных

Для простых моделей, таких как линейная регрессия или логистическая регрессия, feature engineering играет критическую роль — он позволяет модели отражать сложные зависимости, не усложняя архитектуру.

🈁 Добавляйте нелинейные преобразования. Полиномиальные признаки (например, квадраты, произведения ключевых признаков) помогают модели уловить умеренные нелинейности, сохраняя интерпретируемость.

🈁 Используйте знания предметной области. Часто доменные соотношения (например, отношение marketing_spend / number_of_website_visits) оказываются гораздо информативнее исходных признаков.

🈁 Применяйте масштабирование признаков. Для линейных моделей полезно стандартизировать данные (вычитание среднего, деление на стандартное отклонение) — это ускоряет сходимость и делает веса более сопоставимыми.

🈁 Контролируйте количество и корреляцию признаков. Избыточное количество искусственно созданных признаков может привести к переобучению или мультиколлинеарности, усложняя интерпретацию.

🈁 Используйте регуляризацию. Методы L1 или L2 помогут “заглушить” неинформативные признаки, сохранив важные.

🈁 Проверяйте качество на кросс-валидации. Каждый новый признак нужно оценивать по реальному вкладу в качество модели, особенно при временных данных — с использованием out-of-time проверки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥2👍1

432 views20:46

Библиотека собеса по Data Science | вопросы с собеседований

🧠 Курс «Математика для Data Science»

Математика лежит под капотом не только алгоритмов, но и всего, что мы создаём — от систем рекомендаций до маршрутизации такси.

Но главное, математика понятна, если объяснить её на языке разработки.

📘 Курс «Математика для Data Science»:

— от основ до реальных задач из собесов;
— линейная алгебра, статистика, теория вероятностей;
— визуализации, практика и живые уроки;
— поддержка менторов и комьюнити в чате.

⚡ Сегодня последний день, чтобы получить подарок: курс по базовой математике!

🗓️ Старт курса → 6 ноября

👉 Записаться на курс

438 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

🐁

Как современные архитектуры нейронных сетей обрабатывают коррелированные признаки по сравнению с линейными моделями

Глубокие нейронные сети способны учиться представлениям входных данных, которые уменьшают избыточность коррелированных признаков. Например, первые слои могут автоматически комбинировать сильно коррелированные признаки в более независимые внутренние представления.

Однако корреляция всё равно влияет на несколько аспектов:
✔️ Оптимизация: если два признака почти идентичны, обучение может требовать больше эпох или особой инициализации весов для стабильной сходимости.
✔️ Переобучение: избыточные признаки увеличивают риск переобучения, если не применять регуляризацию (dropout, weight decay, BatchNorm).
✔️ Интерпретация: высокая гибкость сети усложняет понимание того, какие признаки реально важны, особенно когда они коррелированы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

469 viewsedited 18:53

Библиотека собеса по Data Science | вопросы с собеседований

➡️

Чем Adam отличается от адаптивных методов, таких как RMSProp или Adagrad

Adam объединяет идеи из предыдущих оптимизаторов:

➡️ RMSProp отслеживает экспоненциальное скользящее среднее квадратов градиентов, чтобы адаптировать скорость обучения по каждому параметру, но не учитывает среднее значение самих градиентов.

➡️ Adagrad накапливает сумму квадратов градиентов, что также адаптирует шаги, но может приводить к слишком малым скоростям обучения на поздних этапах.

💡 Чтобы глубже понимать, как работают оптимизаторы и почему математика так важна в ML, посмотри курс Математика для Data Science — сейчас на него действует скидка –40%.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

416 views19:02

Библиотека собеса по Data Science | вопросы с собеседований

♾ Как часто нужно переобучать или перекалибровывать модели на основе наблюдаемых метрик

Частота переобучения зависит от скорости изменения данных, степени выявленного дрейфа и затрат на повторное обучение.

В быстро меняющихся областях (например, обнаружение мошенничества в реальном времени) модели могут обновляться ежедневно или еженедельно. В стабильных доменах достаточно квартального или даже более редкого обновления.

✅ Хорошей практикой считается использование метрик-триггеров: если ошибки или показатели дрейфа систематически превышают порог, автоматически запускается процесс переобучения.

Такой подход сочетает реактивные меры (переобучение при ухудшении производительности) и проактивные меры (периодическое обновление модели для учёта новых данных).

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

366 views19:09

Библиотека собеса по Data Science | вопросы с собеседований

🔎 Собес сам себя не пройдет

Ты готов к собеседованию? А если проверю?

Залетай к нам и забирай курсы со скидкой 40%. Только до конца октября можно узнать много нового и отточить навыки.

🎯 Забирай курсы:

🐍 python для разработчиков;
🧮 алгоритмы и структуры данных;
📝 архитектуры и шаблоны проектирования;
🧩 основы IT для новичков.

⚡️ Не упусти скидку и получи долгожданный оффер!

307 views12:25

Библиотека собеса по Data Science | вопросы с собеседований

🤓

Существуют ли разные стратегии калибровки (преобразования «сырых» выходов модели в хорошо откалиброванные вероятности) для параметрических и непараметрических моделей

Да, подходы к калибровке отличаются в зависимости от типа модели.

Для непараметрических моделей (например, k-NN) вероятность часто аппроксимируется долей соседей каждого класса среди ближайших k точек. Такая оценка может быть шумной, особенно в высокоразмерных или разреженных данных. Для улучшения калибровки применяют изотоническую регрессию или другие постобработки, которые отображают эти частотные оценки в более гладкие вероятности.

ℹ️ При малых k или сильном дисбалансе классов возможны крайние вероятности (например, 0/5 или 5/5), что ухудшает калибровку. В таких случаях полезно использовать сглаживание, например, добавляя псевдосчётчики (Laplace smoothing).

🔥 Также важно учитывать, что непараметрические модели формируют вероятности локально, и структура окрестностей может сильно меняться. Иногда стоит нормализовать эти локальные области или использовать специализированные непараметрические методы оценки плотности (например, оценку плотности ядром), после чего уже применять калибровку.

ℹ️ Для параметрических моделей (например, логистической регрессии) исходные вероятности обычно уже калиброваны, но при переобучении или при работе с несбалансированными данными также применяют методы вроде Platt scaling или изотонической регрессии.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

246 viewsedited 19:29

About

Blog

Apps

Platform