Библиотека собеса по Data Science | вопросы с собеседований

💡 Задача с собесеседования

Недавно в одном известном всем банке кандидату была предложена задача:

Есть клиент, который за месяц делает 1000 транзакций.
Нужно посчитать вероятность того, что среди них окажется хотя бы одна дублирующаяся сумма, если каждая сумма округляется до 2 знаков после запятой.

Вероятности, распределения, матожидание, градиенты — всё это может всплыть на интервью, и даже в продовых задачах.

🎓 Proglib запускает экспресс-курс «Математика для Data Science» — для тех, кто хочет закрыть эти пробелы и понять математику быстро, качественно и без боли.

🔍 На курсе вас ждет:

— линейная алгебра, анализ, теория вероятности и статистика;
— градиенты, матрицы и экстремумы функций;
— математики и алгоритмы машинного обучения;
— много практики.

📅 Старт: 6 ноября
⏰ Формат: 10 вебинаров и 3 практических проекта
💬 Поддержка: менторы + Telegram-чат
💰 Стоимость: 37 000 ₽ (есть рассрочка)

🔗 Узнать больше и записаться

491 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

👆 Как понять, когда стоит перейти к более крупной модели

Признаки необходимости более сложной модели:

🈁 Постоянно плохие или смещённые прогнозы, особенно если данные имеют сильно нелинейную природу (например, сложные временные ряды или изображения).

🈁 Значимая ценность небольшого прироста точности: если даже +2% точности существенно влияет на бизнес или снижает риски, более сложная модель может быть оправдана.

🈁 При принятии решения важно учитывать интерпретируемость, вычислительные затраты и регуляторные ограничения, сопоставляя их с потенциальной выгодой от увеличения мощности модели.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

473 views09:32

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Новый курс «Математика для Data Science»

Записывайтесь до 19.10 и получите бонус-курс «Школьная математика» для быстрого освежения знаний! 🚀

🧠 Эксперты-спикеры на курсе:

▫️ Диана Миронидис — преподаватель ВШЭ, автор Яндекс Практикума;

▫️ Ксения Кондаурова — преподаватель Центрального Университета (Т-Банк);

▫️ Маргарита Бурова — академический руководитель программ Wildberries & Russ.

👉🏻 Не упустите шанс улучшить свои навыки

445 views08:34

Библиотека собеса по Data Science | вопросы с собеседований

🟣

В каких случаях стоит выбрать другой алгоритм кластеризации вместо K-Means

K-Means популярен, но имеет свои ограничения, поэтому альтернативы могут быть предпочтительнее, если:

🆔 Кластеры не сферические или имеют сложную форму (например, изогнутые многообразия). В таких случаях подойдут DBSCAN или Mean-Shift.

🆔 Нужны вероятностные принадлежности к кластерам, а не жёсткие. Gaussian Mixture Models (GMM) позволяют «мягкое» распределение, полезное при сильном перекрытии кластеров.

🆔 Данные категориальные или смешанные. K-Means работает с непрерывными значениями, тогда как K-Modes или K-Prototypes подходят для категориальных признаков.

🆔 Много шума и выбросов, которые сильно смещают центроиды. DBSCAN устойчив к выбросам и может находить произвольное число кластеров.

Главная ошибка — использовать K-Means просто потому что он известен, не проверив форму кластеров и природу данных. Всегда оценивайте структуру данных перед выбором алгоритма.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

457 viewsedited 18:21

Библиотека собеса по Data Science | вопросы с собеседований

💥 Математика, которая не «для галочки»

Разработали курс «Математика для Data Science» специально для вас — чтобы закрыть все пробелы в математике и уверенно пройти любое собеседование на позицию Data Scientist.

🧠 За 2 месяца ты разберёшь:

➡️ линейную алгебру — работа с векторами и матрицами, их разложения, собственные значения и обратные матрицы;

➡️ мат. анализ — пределы, производные, экстремумы, применение градиентного спуска;

➡️ теорию вероятностей и статистику — случайные величины, распределения, статистические гипотезы, A/B-тесты;

➡️ математику в ML и аналитике — как использовать всё это в алгоритмах, логистической регрессии, методах ближайших соседей, байесовских подходах.

📚 Формат: 10 вебинаров, 3 практических проекта, тесты и чат с менторами.

🔥 При оплате до 19 октября получите курс по базовой математике в подарок.

🔗 Записаться на курс

427 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

➡️ Какие лучшие практики помогут убедиться, что выбранные признаки хорошо обобщаются на разные распределения или среды — например, в A/B-тестировании или после развертывания модели

Даже после тщательного отбора признаков модель может столкнуться с изменением распределений в реальных условиях. Чтобы гарантировать устойчивость и обобщающую способность признаков:

👆 Используйте несколько валидационных наборов. Проверяйте модель на разных временных периодах, географических регионах или пользовательских сегментах, чтобы убедиться, что признаки остаются предсказательными.

👆 Настройте постоянный мониторинг. Отслеживайте метрики (accuracy, precision, recall, калибровку) со временем. Если они начинают ухудшаться — это сигнал, что признаки теряют значимость.

👆 Проводите A/B-тесты. Разверните модель с новыми признаками на части пользователей, а остальным оставьте базовую модель. Сравните ключевые бизнес-метрики, чтобы подтвердить улучшения в реальных условиях.

👆 Настройте процесс переобучения. Регулярно или по триггеру пересматривайте важность признаков и переобучайте модель при обнаружении дрейфа данных.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

418 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Data.Meetup от Сбера: честно об агентизации😏

Отправляйтесь на жёсткую прокачку скилов — обсудим AI-Ready Data, аспекты построения AI-агентов, умный поиск, генерацию SQL и доступ агентов к данным одним кликом.

Встречаемся 23 октября: в московском офисе Сбера! 👌

388 views14:00

Библиотека собеса по Data Science | вопросы с собеседований

✅

Как проводить надёжный feature engineering, чтобы простая модель могла захватывать ключевые зависимости в данных

Для простых моделей, таких как линейная регрессия или логистическая регрессия, feature engineering играет критическую роль — он позволяет модели отражать сложные зависимости, не усложняя архитектуру.

🈁 Добавляйте нелинейные преобразования. Полиномиальные признаки (например, квадраты, произведения ключевых признаков) помогают модели уловить умеренные нелинейности, сохраняя интерпретируемость.

🈁 Используйте знания предметной области. Часто доменные соотношения (например, отношение marketing_spend / number_of_website_visits) оказываются гораздо информативнее исходных признаков.

🈁 Применяйте масштабирование признаков. Для линейных моделей полезно стандартизировать данные (вычитание среднего, деление на стандартное отклонение) — это ускоряет сходимость и делает веса более сопоставимыми.

🈁 Контролируйте количество и корреляцию признаков. Избыточное количество искусственно созданных признаков может привести к переобучению или мультиколлинеарности, усложняя интерпретацию.

🈁 Используйте регуляризацию. Методы L1 или L2 помогут “заглушить” неинформативные признаки, сохранив важные.

🈁 Проверяйте качество на кросс-валидации. Каждый новый признак нужно оценивать по реальному вкладу в качество модели, особенно при временных данных — с использованием out-of-time проверки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥2👍1

402 views20:46

Библиотека собеса по Data Science | вопросы с собеседований

🧠 Курс «Математика для Data Science»

Математика лежит под капотом не только алгоритмов, но и всего, что мы создаём — от систем рекомендаций до маршрутизации такси.

Но главное, математика понятна, если объяснить её на языке разработки.

📘 Курс «Математика для Data Science»:

— от основ до реальных задач из собесов;
— линейная алгебра, статистика, теория вероятностей;
— визуализации, практика и живые уроки;
— поддержка менторов и комьюнити в чате.

⚡ Сегодня последний день, чтобы получить подарок: курс по базовой математике!

🗓️ Старт курса → 6 ноября

👉 Записаться на курс

394 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

🐁

Как современные архитектуры нейронных сетей обрабатывают коррелированные признаки по сравнению с линейными моделями

Глубокие нейронные сети способны учиться представлениям входных данных, которые уменьшают избыточность коррелированных признаков. Например, первые слои могут автоматически комбинировать сильно коррелированные признаки в более независимые внутренние представления.

Однако корреляция всё равно влияет на несколько аспектов:
✔️ Оптимизация: если два признака почти идентичны, обучение может требовать больше эпох или особой инициализации весов для стабильной сходимости.
✔️ Переобучение: избыточные признаки увеличивают риск переобучения, если не применять регуляризацию (dropout, weight decay, BatchNorm).
✔️ Интерпретация: высокая гибкость сети усложняет понимание того, какие признаки реально важны, особенно когда они коррелированы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

415 viewsedited 18:53

Библиотека собеса по Data Science | вопросы с собеседований

➡️

Чем Adam отличается от адаптивных методов, таких как RMSProp или Adagrad

Adam объединяет идеи из предыдущих оптимизаторов:

➡️ RMSProp отслеживает экспоненциальное скользящее среднее квадратов градиентов, чтобы адаптировать скорость обучения по каждому параметру, но не учитывает среднее значение самих градиентов.

➡️ Adagrad накапливает сумму квадратов градиентов, что также адаптирует шаги, но может приводить к слишком малым скоростям обучения на поздних этапах.

💡 Чтобы глубже понимать, как работают оптимизаторы и почему математика так важна в ML, посмотри курс Математика для Data Science — сейчас на него действует скидка –40%.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

344 views19:02

Библиотека собеса по Data Science | вопросы с собеседований

♾ Как часто нужно переобучать или перекалибровывать модели на основе наблюдаемых метрик

Частота переобучения зависит от скорости изменения данных, степени выявленного дрейфа и затрат на повторное обучение.

В быстро меняющихся областях (например, обнаружение мошенничества в реальном времени) модели могут обновляться ежедневно или еженедельно. В стабильных доменах достаточно квартального или даже более редкого обновления.

✅ Хорошей практикой считается использование метрик-триггеров: если ошибки или показатели дрейфа систематически превышают порог, автоматически запускается процесс переобучения.

Такой подход сочетает реактивные меры (переобучение при ухудшении производительности) и проактивные меры (периодическое обновление модели для учёта новых данных).

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

197 views19:09

About

Blog

Apps

Platform