Библиотека собеса по Data Science | вопросы с собеседований

▶️

Как убедиться, что регуляризация или контроль сложности модели не устраняют важные признаки

При использовании методов вроде L1/L2-регуляризации или ограничений на сложность (например, глубину деревьев) снижается дисперсия модели, но может возрасти смещение — особенно если регуляризация слишком сильная. В этом случае модель может «заглушить» слабые, но значимые сигналы.

Чтобы избежать потери критичных признаков:
➡️ Настраивайте коэффициенты регуляризации через кросс-валидацию.
➡️ Анализируйте важность признаков после обучения.
➡️ Применяйте постепенное усиление регуляризации, чтобы найти баланс между простотой и точностью.
➡️ В задачах с высокой размерностью полезно сохранять индикаторы важности признаков или использовать групповую регуляризацию, чтобы не терять связанные по смыслу признаки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

583 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

⭐ Как определить сходимость в алгоритме K-Means

Сходимость обычно фиксируется, когда центроиды перестают изменяться — то есть смещение центров кластеров между итерациями становится меньше заданного порога.

Альтернативно, можно задать максимальное количество итераций, после которого алгоритм останавливается.

➡️ K-Means, как правило, сходится быстро, однако важно помнить, что он может застрять в локальном минимуме, поэтому часто выполняют несколько запусков с разными начальными центрами.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

543 views17:34

Библиотека собеса по Data Science | вопросы с собеседований

🔜 Решает ли момент проблему затухающих и взрывных градиентов в глубоких нейросетях

Момент сам по себе не предназначен для прямого решения проблем vanishing или exploding gradients.

Он может частично смягчить взрывные градиенты, сглаживая резкие колебания обновлений (например, при частой смене знака градиента).

▶️ При затухающих градиентах момент может немного накопить малые сигналы и сдвинуть параметры из «мертвой зоны», но эффект обычно ограничен, если градиенты крайне малы.

▶️ Для устойчивой работы глубоких сетей чаще применяют BatchNorm, правильную инициализацию и адаптивные оптимизаторы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

485 views18:25

Библиотека собеса по Data Science | вопросы с собеседований

💡 Задача с собесеседования

Недавно в одном известном всем банке кандидату была предложена задача:

Есть клиент, который за месяц делает 1000 транзакций.
Нужно посчитать вероятность того, что среди них окажется хотя бы одна дублирующаяся сумма, если каждая сумма округляется до 2 знаков после запятой.

Вероятности, распределения, матожидание, градиенты — всё это может всплыть на интервью, и даже в продовых задачах.

🎓 Proglib запускает экспресс-курс «Математика для Data Science» — для тех, кто хочет закрыть эти пробелы и понять математику быстро, качественно и без боли.

🔍 На курсе вас ждет:

— линейная алгебра, анализ, теория вероятности и статистика;
— градиенты, матрицы и экстремумы функций;
— математики и алгоритмы машинного обучения;
— много практики.

📅 Старт: 6 ноября
⏰ Формат: 10 вебинаров и 3 практических проекта
💬 Поддержка: менторы + Telegram-чат
💰 Стоимость: 37 000 ₽ (есть рассрочка)

🔗 Узнать больше и записаться

463 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

👆 Как понять, когда стоит перейти к более крупной модели

Признаки необходимости более сложной модели:

🈁 Постоянно плохие или смещённые прогнозы, особенно если данные имеют сильно нелинейную природу (например, сложные временные ряды или изображения).

🈁 Значимая ценность небольшого прироста точности: если даже +2% точности существенно влияет на бизнес или снижает риски, более сложная модель может быть оправдана.

🈁 При принятии решения важно учитывать интерпретируемость, вычислительные затраты и регуляторные ограничения, сопоставляя их с потенциальной выгодой от увеличения мощности модели.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

439 views09:32

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Новый курс «Математика для Data Science»

Записывайтесь до 19.10 и получите бонус-курс «Школьная математика» для быстрого освежения знаний! 🚀

🧠 Эксперты-спикеры на курсе:

▫️ Диана Миронидис — преподаватель ВШЭ, автор Яндекс Практикума;

▫️ Ксения Кондаурова — преподаватель Центрального Университета (Т-Банк);

▫️ Маргарита Бурова — академический руководитель программ Wildberries & Russ.

👉🏻 Не упустите шанс улучшить свои навыки

402 views08:34

Библиотека собеса по Data Science | вопросы с собеседований

🟣

В каких случаях стоит выбрать другой алгоритм кластеризации вместо K-Means

K-Means популярен, но имеет свои ограничения, поэтому альтернативы могут быть предпочтительнее, если:

🆔 Кластеры не сферические или имеют сложную форму (например, изогнутые многообразия). В таких случаях подойдут DBSCAN или Mean-Shift.

🆔 Нужны вероятностные принадлежности к кластерам, а не жёсткие. Gaussian Mixture Models (GMM) позволяют «мягкое» распределение, полезное при сильном перекрытии кластеров.

🆔 Данные категориальные или смешанные. K-Means работает с непрерывными значениями, тогда как K-Modes или K-Prototypes подходят для категориальных признаков.

🆔 Много шума и выбросов, которые сильно смещают центроиды. DBSCAN устойчив к выбросам и может находить произвольное число кластеров.

Главная ошибка — использовать K-Means просто потому что он известен, не проверив форму кластеров и природу данных. Всегда оценивайте структуру данных перед выбором алгоритма.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

384 viewsedited 18:21

Библиотека собеса по Data Science | вопросы с собеседований

💥 Математика, которая не «для галочки»

Разработали курс «Математика для Data Science» специально для вас — чтобы закрыть все пробелы в математике и уверенно пройти любое собеседование на позицию Data Scientist.

🧠 За 2 месяца ты разберёшь:

➡️ линейную алгебру — работа с векторами и матрицами, их разложения, собственные значения и обратные матрицы;

➡️ мат. анализ — пределы, производные, экстремумы, применение градиентного спуска;

➡️ теорию вероятностей и статистику — случайные величины, распределения, статистические гипотезы, A/B-тесты;

➡️ математику в ML и аналитике — как использовать всё это в алгоритмах, логистической регрессии, методах ближайших соседей, байесовских подходах.

📚 Формат: 10 вебинаров, 3 практических проекта, тесты и чат с менторами.

🔥 При оплате до 19 октября получите курс по базовой математике в подарок.

🔗 Записаться на курс

359 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

➡️ Какие лучшие практики помогут убедиться, что выбранные признаки хорошо обобщаются на разные распределения или среды — например, в A/B-тестировании или после развертывания модели

Даже после тщательного отбора признаков модель может столкнуться с изменением распределений в реальных условиях. Чтобы гарантировать устойчивость и обобщающую способность признаков:

👆 Используйте несколько валидационных наборов. Проверяйте модель на разных временных периодах, географических регионах или пользовательских сегментах, чтобы убедиться, что признаки остаются предсказательными.

👆 Настройте постоянный мониторинг. Отслеживайте метрики (accuracy, precision, recall, калибровку) со временем. Если они начинают ухудшаться — это сигнал, что признаки теряют значимость.

👆 Проводите A/B-тесты. Разверните модель с новыми признаками на части пользователей, а остальным оставьте базовую модель. Сравните ключевые бизнес-метрики, чтобы подтвердить улучшения в реальных условиях.

👆 Настройте процесс переобучения. Регулярно или по триггеру пересматривайте важность признаков и переобучайте модель при обнаружении дрейфа данных.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

356 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Data.Meetup от Сбера: честно об агентизации😏

Отправляйтесь на жёсткую прокачку скилов — обсудим AI-Ready Data, аспекты построения AI-агентов, умный поиск, генерацию SQL и доступ агентов к данным одним кликом.

Встречаемся 23 октября: в московском офисе Сбера! 👌

309 views14:00

Библиотека собеса по Data Science | вопросы с собеседований

✅

Как проводить надёжный feature engineering, чтобы простая модель могла захватывать ключевые зависимости в данных

Для простых моделей, таких как линейная регрессия или логистическая регрессия, feature engineering играет критическую роль — он позволяет модели отражать сложные зависимости, не усложняя архитектуру.

🈁 Добавляйте нелинейные преобразования. Полиномиальные признаки (например, квадраты, произведения ключевых признаков) помогают модели уловить умеренные нелинейности, сохраняя интерпретируемость.

🈁 Используйте знания предметной области. Часто доменные соотношения (например, отношение marketing_spend / number_of_website_visits) оказываются гораздо информативнее исходных признаков.

🈁 Применяйте масштабирование признаков. Для линейных моделей полезно стандартизировать данные (вычитание среднего, деление на стандартное отклонение) — это ускоряет сходимость и делает веса более сопоставимыми.

🈁 Контролируйте количество и корреляцию признаков. Избыточное количество искусственно созданных признаков может привести к переобучению или мультиколлинеарности, усложняя интерпретацию.

🈁 Используйте регуляризацию. Методы L1 или L2 помогут “заглушить” неинформативные признаки, сохранив важные.

🈁 Проверяйте качество на кросс-валидации. Каждый новый признак нужно оценивать по реальному вкладу в качество модели, особенно при временных данных — с использованием out-of-time проверки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥2👍1

278 views20:46

Библиотека собеса по Data Science | вопросы с собеседований

🧠 Курс «Математика для Data Science»

Математика лежит под капотом не только алгоритмов, но и всего, что мы создаём — от систем рекомендаций до маршрутизации такси.

Но главное, математика понятна, если объяснить её на языке разработки.

📘 Курс «Математика для Data Science»:

— от основ до реальных задач из собесов;
— линейная алгебра, статистика, теория вероятностей;
— визуализации, практика и живые уроки;
— поддержка менторов и комьюнити в чате.

⚡ Сегодня последний день, чтобы получить подарок: курс по базовой математике!

🗓️ Старт курса → 6 ноября

👉 Записаться на курс

129 views15:00

About

Blog

Apps

Platform