Библиотека собеса по Data Science | вопросы с собеседований – Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib

4.27K subscribers

479 photos

15 videos

1 file

590 links

Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197

Download Telegram

About

Blog

Apps

Platform

Библиотека собеса по Data Science | вопросы с собеседований

4.27K subscribers

Библиотека собеса по Data Science | вопросы с собеседований

🤓 Если миноритарный класс не только меньше, но и более разнообразный, поможет ли oversampling

Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.

➡️

Что можно сделать:

Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.

Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.

😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
— AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
— ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1

608 views18:25

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь

518 views13:30

Библиотека собеса по Data Science | вопросы с собеседований

➖

Как обрабатывать пропущенные данные в задачах unsupervised learning или кластеризации, где нет целевой переменной

В unsupervised задачах (кластеризация, оценка плотности) мы не можем ориентироваться на метрики предсказания, поэтому обработка пропусков опирается на структуру данных.

Подходы:
➖ Парные метрики расстояния: некоторые алгоритмы (например, иерархическая кластеризация) позволяют задавать метрику, которая игнорирует пропущенные признаки или учитывает их особым образом.
➖ Импутация через снижение размерности: методы вроде PCA можно адаптировать для пропусков, заполняя отсутствующие значения с помощью низкоранговой аппроксимации (связано с матричной факторизацией).
➖ Soft clustering / EM-подходы: смеси распределений (например, Gaussian Mixture Models) могут обрабатывать пропуски, маргинализируя по отсутствующим измерениям с использованием EM-итераций для оценки пропущенных значений.

Подводные камни:
🚩 Игнорирование пропусков в метрике расстояния может искажать расстояния, если много признаков отсутствует.
🚩 EM-подходы могут сходиться к локальным минимумам или быть нестабильными при слишком большом количестве пропусков.
🚩 В unsupervised задачах сложнее оценить корректность импутации — обычно опираются на силуэтные метрики или доменную интерпретируемость кластеров.

Если хотите не просто читать про EM и PCA, а реально попрактиковаться на данных и задачах кластеризации, есть классные курсы для Data Science-специалистов:
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

677 views18:38

Библиотека собеса по Data Science | вопросы с собеседований

👉 Как влияют dilated (atrous) свёртки на receptive field

Dilated свёртки используют пробелы >1 между элементами ядра. В обычной свёртке с ядром 3×3 фильтр смотрит на соседние позиции.

В dilated свёртке с dilation rate = d фильтр «пропускает» некоторые позиции, охватывая большую область входа, не увеличивая число параметров.

Пример: ядро 3×3 с dilation=2 фактически покрывает область 5×5, но остаётся с 9 параметрами.

⚡️ Применение: особенно полезно в semantic segmentation и других задачах, где важно учитывать глобальный контекст, сохраняя при этом высокое разрешение feature maps.

Если хотите не просто читать про receptive field, а практически применять свёртки и строить свои модели, есть классные курсы для Data Science и ML:
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

722 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

Отдыхаешь?

582 views16:30

Библиотека собеса по Data Science | вопросы с собеседований

👇

Как размер batch влияет на выбор стратегии изменения learning rate

Размер batch напрямую связан с настройкой базового learning rate (LR) и расписания.

Большой batch:
— Позволяет использовать больший стабильный LR.
— Часто требует warmup-фазы: постепенного увеличения LR от малого значения до целевого.
— Конвергенция может быть чувствительна: даже небольшой перекос в LR ведёт к дивергенции или плохому локальному минимуму.

Малый batch:
— Даёт шумные оценки градиентов, поэтому нужен меньший базовый LR.
— Лучше работают более консервативные decay-расписания или адаптивные/циклические методы, которые сглаживают шум.

⚠️ Подводный камень:
Если сильно увеличить batch, но оставить старое расписание LR, обучение может «взорваться» (слишком большой эффективный шаг) или наоборот — застопориться, если расписание оказалось слишком осторожным.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

707 views17:54

Библиотека собеса по Data Science | вопросы с собеседований

✅

Как бороться с переобучением в непараметрических методах, например в kNN

Даже для простых методов, как kNN, ключ к борьбе с переобучением — грамотный выбор гиперпараметров и работа с признаками.

Например:
1️⃣ Тюнинг k: увеличение значения k сглаживает границу решения и снижает дисперсию, что уменьшает риск переобучения.
2️⃣ Взвешивание по расстоянию: ближние соседи получают больший вес, дальние — меньший. Это делает модель более устойчивой.
3️⃣ Кросс-валидация: помогает подобрать оптимальные гиперпараметры систематически.
4️⃣ Снижение размерности: удаление шумных или малоинформативных признаков уменьшает переобучение.

Если хочется прокачаться не только в kNN, но и в более продвинутых методах (и без переобучения):
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

753 views17:53

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

0:52

674 views09:03

Библиотека собеса по Data Science | вопросы с собеседований

🏃‍♀️ Новый поток курса — собери своих AI-агентов

7 октября стартует второй поток курса «AI-агенты для DS-специалистов».
За 5 недель вы научитесь собирать агентов, которые уже сейчас будут помогать бизнесу.

В кружке выше Максим Шаланкин, наш преподаватель, рассказывает подробнее — включай, чтобы не пропустить.

👉 Записаться на курс

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

641 views09:03

Библиотека собеса по Data Science | вопросы с собеседований

🫥 Какие признаки могут указывать на то, что модель застряла в saddle point

Плато в loss не всегда значит минимум; анализ кривизны и наблюдение за динамикой обучения помогают распознать saddle points.

➡️ Плато в loss: функция потерь почти не меняется на протяжении многих итераций.

➡️ Анализ кривизны: если посмотреть на Гессиан или приблизительные вторые производные, можно заметить направления с отрицательной кривизной, где градиент ещё не ноль.

➡️ Резкий спад при адаптивных методах: использование momentum или адаптивного learning rate может внезапно снизить loss после долгого плато — это значит, что модель была в saddle region, а не в настоящем минимуме.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3🔥2

660 views17:34

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

❗ Так, владелец макбука. Хватит позировать в кофейне.

Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.

Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.

ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.

🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.

👉 Апгрейд от «вайба» до «оффера» тут

663 views15:06

Библиотека собеса по Data Science | вопросы с собеседований

🔎

Есть ли особенности подбора гиперпараметров для параметрических и непараметрических моделей, кроме стандартной кросс-валидации

Обе группы моделей требуют внимательного подхода к гиперпараметрам, но непараметрические методы часто более чувствительны к их выбору и могут потребовать продвинутых стратегий поиска.

🧮 Параметрические модели:
— Настраиваются регуляризация (например, λ в Ridge/Lasso), архитектура нейросетей, степень полинома и т.д.
— Важно учитывать взаимодействие гиперпараметров: глубина сети, learning rate, регуляризация.
— Обычно меньше гиперпараметров, чем у сложных непараметрических методов, но у глубоких сетей их может быть много.

🌲 Непараметрические модели:
— Настройка может включать: размер соседства в kNN, ширину ядра в KDE, глубину дерева в Random Forest и др.
— Каждый гиперпараметр сильно влияет на комплексность модели и баланс bias/variance.
— Иногда требуется grid search или Bayesian optimization, особенно при большом гиперпараметрическом пространстве.

➡️ На больших датасетах кросс-валидация может быть слишком дорогой — используют приближённые или онлайн методы.
➡️ Риск переобучения на валидационном наборе при переборе множества конфигураций особенно актуален для гибких непараметрических моделей.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

632 views18:31

Библиотека собеса по Data Science | вопросы с собеседований

☁️

Как наличие label noise (шум в разметке) влияет на форму ROC-кривой и надёжность AUC

Если положительные объекты иногда промаркированы как отрицательные (и наоборот), это снижает видимую производительность модели:
▶️ ROC-кривая становится менее отчётливой: даже идеальный классификатор «ошибается» на перевёрнутых метках.
▶️ Кривая смещается вниз (снижается TPR) или вправо (растёт FPR), что уменьшает AUC.
▶️ При сильном шуме в положительном классе растёт число ложных отрицаний, а в отрицательном — ложных срабатываний, что может создавать «провалы» на кривой.

Если интересно глубже разобраться, как метрики ведут себя при шумных данных и как строить более надёжные модели:
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

566 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

📢 Какой сетап идеально подойдёт для разработки AI-агента?

Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.

❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9

Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.

👉 Научим, как строить агентов, которые кодят с тобой

🤩3👍2😁1

590 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

💱

Что делать, если основной бизнес-метрик не совпадает со стандартными ML-метриками, из-за чего модель в проде кажется «недоработанной»

Частая ошибка — оптимизировать модель по ML-метрикам (AUC, accuracy) на этапе разработки, а в продакшене обнаружить, что реальный успех измеряется бизнес-KPI (конверсия, доход, удержание пользователей). В итоге модель может показывать отличные офлайн-результаты, но не влиять на бизнес.

Как решать:
✅ С самого начала синхронизировать ML-метрики с бизнес-целями.
✅ Если бизнес-метрика сложная, разложить её на проксими-триггеры, которые можно оптимизировать офлайн.
✅ Проверять корреляцию ML-метрик с бизнес-результатами через A/B-тесты.
✅ Учитывать внешние факторы: маркетинговые кампании, сезонность, изменения интерфейса — они могут «перекрывать» эффект модели.

Если хочется научиться строить ML-модели так, чтобы они работали не только «в тетрадке», но и в бизнесе:
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

598 views17:58

Библиотека собеса по Data Science | вопросы с собеседований

💬 Можно ли делать отбор признаков на всём датасете до разделения на train и test

Нет, так делать не рекомендуется. Если отбор признаков выполняется на всём датасете, информация из теста «просачивается» в обучение → возникает data leakage, а итоговые метрики оказываются слишком оптимистичными.

Правильный подход:
➡️ Сначала разделяем данные на train / test (и при необходимости на фолды для кросс-валидации).
➡️ На train выполняем отбор признаков (RFE, фильтры, встроенные методы).
➡️ Обучаем модель на этих же данных.
➡️ Валидируем на validation/test, где признаки выбираются так же через пайплайн.

👌 После кросс-валидации фиксируем пайплайн и переобучаем на всём train, затем оцениваем на hold-out test.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2

628 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

⏰ Осталось 48 часов!

Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.

⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.

👉 Забрать место

554 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

🤓 «Сначала выучу Python идеально, а потом пойду в ML»

Звучит логично, но на практике — ловушка.
Python огромный: фреймворки, библиотеки, нюансы синтаксиса. Учить «всё сразу» можно бесконечно.

В итоге — месяцы зубрёжки, а до ML руки так и не доходят.

На старте достаточно баз: типы данных, циклы, функции, работа с библиотеками. Всё остальное лучше подтягивать в процессе решения ML-задач.

⚠️ До 1 сентября курсы можно забрать по старым ценам. Это последние выходные, когда:
— ML идёт за 34 000 вместо 44 000 ₽ + Python в подарок,
— два в одном: оплатите курс по математике и получите второй доступ в подарок,
— и главное: можно купить все курсы до подорожания.

👉 ML для старта в Data Science

А для будущих Data Scientist’ов у нас ещё:
— Базовые модели ML и приложения
— Математика для Data Science
— AI-агенты для DS-специалистов (2-й поток скоро)

600 views15:31

Библиотека собеса по Data Science | вопросы с собеседований

🦾

Что делать, если датасет очень маленький — как правильно использовать k-fold кросс-валидацию

Кросс-валидация особенно полезна в условиях дефицита данных, так как позволяет максимально использовать выборку. Но при очень маленьком датасете есть нюансы:

1️⃣ Leave-One-Out (LOOCV)
Когда данных меньше ~100, часто используют leave-one-out. В этом случае на каждом шаге модель обучается на всех объектах, кроме одного, а этот единственный объект идёт в тест. Так данные используются максимально, но метрика может иметь высокую дисперсию.

2️⃣ Риск переобучения на фолды
При многократной настройке гиперпараметров под одни и те же фолды легко подстроиться под шум или особенности отдельных примеров. Поэтому, если возможно, держите отдельный hold-out набор.

3️⃣ Высокая чувствительность к отдельным объектам
В малых данных каждый пример сильно влияет на метрику. Один выброс может кардинально исказить результат. Чтобы снизить случайные колебания, иногда повторяют кросс-валидацию с разными сидами и усредняют метрики.

Практические советы:
🚩 По возможности собрать больше данных.
🚩 Использовать осмысленное data augmentation (для картинок, текста, звука).
🚩 Включать знания предметной области (например, ограничения на модель).
🚩 Рассматривать байесовские методы, которые могут учитывать априорные знания.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

700 views18:59

Библиотека собеса по Data Science | вопросы с собеседований

ПОСЛЕДНИЙ ДЕНЬ❗
КУРСЫ ПОДОРОЖАЮТ ЗАВТРА‼️

— ML за 34к вместо 44к + Python в подарок
— Математика → второй доступ в подарок
— Ранний доступ к AI-агентам с 15 сентября
— И МОЖНО УСПЕТЬ КУПИТЬ ВСЁ ДО ПОДОРОЖАНИЯ

👉 Proglib Academy

649 views15:22

Библиотека собеса по Data Science | вопросы с собеседований

👉 Чем отличается алгоритм EM от градиентных методов при максимизации правдоподобия

🔹 Градиентный спуск
— Работает напрямую с градиентом лог-правдоподобия.
— Требует подбора шага обучения и других гиперпараметров (например, momentum).
— Универсален, но чувствителен к настройкам.

🔹 Алгоритм EM (Expectation–Maximization)
— Вместо прямого градиентного шага чередует E-шаг (оценка скрытых переменных) и M-шаг (максимизация по параметрам).
— Для моделей вроде GMM или HMM шаги часто имеют аналитическое решение, что делает обновления более “прямыми” и устойчивыми.
— Каждая итерация гарантированно не уменьшает значение функции правдоподобия.

🔹 Общие моменты
— Оба метода могут застрять в локальных максимумах (особенно при плохой инициализации).
— EM часто быстрее сходится для задач со скрытыми переменными, тогда как градиентные методы универсальнее и применимы даже там, где M-шаг не имеет закрытой формы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

747 viewsedited 18:26