Библиотека собеса по Data Science | вопросы с собеседований

Почему использование bidirectional LSTM может быть не всегда полез?

Anonymous Quiz

Время обучения сокращается

64%

Будущие контексты могут утечь в прошлое, создавая информационный шум

32%

Требует больше параметров и может переобучаться, особенно если задача не зависит от будущих шагов

Bidirectional LSTM заменяет все gating механизмы

❤1

160 voters696 views17:37

Библиотека собеса по Data Science | вопросы с собеседований

🎄 С Нового года начну учиться — знакомо?

А потом январь — освоюсь после праздников, февраль — доделаю текущие дела... Не откладывай на следующий год то, что можно начать уже в этом.

🗓️ 4 декабря стартует экспресс-курс «Математика для Data Science»— всё, что нужно для уверенных ответов на собесах:

→ 2 месяца без воды;
→ обновлённая программа (ноябрь 2025);
→ живые вебинары с экспертами;
→ записи всех занятий;
→ практика на Python + финальный проект с фидбэком.

Формат: 2 месяца интенсива и к началу следующего года ты готов к собесам.

Пока другие будут собираться с мыслями после НГ, ты уже будешь на полпути к офферу мечты.

🎁 Только до 30 ноября:

→ скидка 40% на курс;
→ курс «Базовая математика» в подарок;
→ бесплатный тест уровня математики.

👉🏻 Хочешь на курс → пиши менеджеру

792 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

Почему adaptive оптимизаторы (Adam, RMSProp) иногда хуже SGD на тестовой выборке?

Anonymous Quiz

87%

Адаптивные шаги ускоряют обучение, но иногда приводят к узким минимумам, плохо обобщающимся

Адаптивные оптимизаторы всегда лучше

SGD не может сходиться на больших данных

Adam не использует градиенты

174 voters749 views08:18

Библиотека собеса по Data Science | вопросы с собеседований

Почему обычная k-fold кросс-валидация не подходит для временных рядов?

Anonymous Quiz

Она слишком медленная

Временные ряды не имеют признаков

Она работает только для линейных моделей

84%

Разбиение на случайные фолды может вызвать утечку информации

👍2

199 voters668 views09:06

Библиотека собеса по Data Science | вопросы с собеседований

Модель была идеально откалибрована с помощью temperature scaling на исходном распределении. После дрейфа данных калибровка резко ухудшается, хотя ROC-AUC остаётся прежним. Почему это возможно?

Anonymous Quiz

89%

ROC-AUC не чувствителен к сдвигу вероятностей, а только к ранжированию

Temperature scaling автоматически адаптируется к дрейфу

Калибровка и AUC всегда ухудшаются одновременно

ROC-AUC ухудшается раньше, чем калибровка

❤2

147 voters644 views18:58

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Раньше в AI мог попасть любой, кто осилил пару туториалов.

Теперь нужны те, кто может объяснить:

→ почему эта архитектура сработает, а та — нет;
→ что происходит внутри модели, когда она не сходится;
→ как найти решение, а не перебирать гиперпараметры наугад.

Все эти навыки требуют понимания того, как и почему работают модели. А это чистая математика.

🔥 Proglib Academy запускает курс «Математика для разработки AI-моделей». Ведут эксперты из SberAI, ВШЭ, Т-Банк, Wildberries.

📝 Что внутри?

→ 2 месяца живых занятий с возможностью задавать вопросы напрямую.
→ Практика на Python. Не теория в вакууме, а применение.
→ 3 домашних задания + финальный проект с детальным разбором.

⏰ Старт 4 декабря

⌛ Только до конца ноября:
→ Скидка 40%;
→ Курс «Школьная математика» в подарок;
→ Тест на определение уровня математики.

🎄 Сделай себе подарок на Новый год

694 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

Почему Adam может переобучаться быстрее, чем SGD, на шумных данных при одинаковой архитектуре?

Anonymous Quiz

Adam использует глобальный шаг обучения

74%

Adam увеличивает шаги в шумных направлениях благодаря перпараметризованной адаптации

SGD всегда уходит в плоские минимумы

12%

Adam не использует нормализацию градиента

❤3

191 voters737 views19:04

Библиотека собеса по Data Science | вопросы с собеседований

Почему даже rolling-window CV может давать leakage?

Anonymous Quiz

Это невозможно

17%

Rolling-window использует слишком маленькие тестовые окна

13%

CV всегда даёт leakage

68%

Если target leakage скрыт в engineered features (например, future-based statistics)

❤1

333 voters2.05K views18:35

Библиотека собеса по Data Science | вопросы с собеседований

Почему MAE более устойчива к шуму меток, чем MSE, но часто обучается медленнее?

Anonymous Quiz

83%

MAE имеет константный градиент и не усиливает большие ошибки

MSE не выпукла

MAE зависит от Learning Rate

MSE автоматически игнорирует шум

❤2👍1

250 voters651 views18:49

Библиотека собеса по Data Science | вопросы с собеседований

Почему Bayesian Neural Networks могут по-прежнему быть плохо откалиброваны?

Anonymous Quiz

Байесовские модели всегда идеальны

47%

VI и Laplace-аппроксимации дают слишком узкие апостериоры

15%

Байесовские методы запрещают регуляризацию

33%

Байесовская неопределённость = aleatoric uncertainty

137 voters581 views18:20

Библиотека собеса по Data Science | вопросы с собеседований

🔬 Вы когда-нибудь смотрели на код и думали: «Работает, но почему?»

А теперь представьте, что вы:

→ понимаете, почему модель учится слишком медленно или слишком быстро;
→ видите, какие данные реально влияют на предсказание, а какие — шум;
→ знаете, что происходит внутри нейронки.

4 декабря стартует курс «Математика для разработки AI-моделей».

Линал, оптимизация, матан, статистика — всё, что происходит внутри модели между input и output. Практика на Python. Живые разборы с экспертами из SberAI, ВШЭ, Wildberries&Russ.

3 задания + финальный проект. Без теории ради теории — только то, что реально используется в моделях.

🎁 Бонус: курс по школьной математике + тест уровня математики

👉 Записаться

658 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

Площадь под ROC-кривой (AUC-ROC) для классификатора равна 0.50. Что это означает?

Anonymous Quiz

Модель является идеальным классификатором.

Модель работает лучше, чем случайное угадывание.

10%

Это означает, что Precision и Recall равны 0.50.

86%

Модель работает не лучше, чем случайное угадывание.

❤1

248 voters647 views18:18

Библиотека собеса по Data Science | вопросы с собеседований

В задаче бинарной классификации, что произойдет с метрикой Recall (Полнота) модели, если мы значительно понизим порог классификации (threshold)?

Anonymous Quiz

19%

Recall уменьшится, Precision (Точность) увеличится.

Обе метрики (Recall и Precision) увеличатся.

70%

Recall увеличится, Precision (Точность) уменьшится.

Обе метрики (Recall и Precision) уменьшатся.

❤1

195 voters566 views18:27

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете с категориальным признаком City (Город), который содержит более 1000 уникальных значений. Какой из перечисленных методов кодирования чаще всего используется в Data Science для работы с высококардинальными категориальными признаками

Anonymous Quiz

21%

Label Encoding

29%

Target Encoding (Mean Encoding)

34%

Frequency Encoding (Count Encoding)

16%

One-Hot Encoding

👍3

213 voters523 views16:59

Библиотека собеса по Data Science | вопросы с собеседований

Какой из перечисленных ниже сценариев наиболее явно указывает на то, что ваша модель машинного обучения страдает от сильного переобучения (overfitting)?

Anonymous Quiz

Высокая точность (95%) на обучающей выборке и высокая точность (93%) на тестовой выборке.

Низкая точность (60%) на обучающей выборке и низкая точность (58%) на тестовой выборке.

95%

Высокая точность (98%) на обучающей выборке и низкая точность (65%) на тестовой выборке.

Низкая точность (65%) на обучающей выборке и высокая точность (98%) на тестовой выборке.

👍3

205 voters477 views19:40

Библиотека собеса по Data Science | вопросы с собеседований

Почему вас валят на собесах по ML?

Чаще всего не из-за незнания fit/predict , а из-за непонимания математики, которая стоит за этими методами.

Мы перезапустили курс с живыми вебинарами, чтобы закрыть эти пробелы. Глубокое погружение в линейную алгебру.

Ближайшие темы (Hard Skills):

— Матрицы: ранг, обратимость, линейные преобразования и решение СЛАУ.

— Линейная регрессия: реализация МНК с нуля в NumPy vs scikit-learn , интерпретация коэффициентов.

— SVD и Eigenvalues: смысл собственных векторов, снижение размерности и построение рек. систем.

Вы научитесь не просто «тюнить параметры», а понимать физический смысл операций.

Вход в поток до 9 декабря.
https://clc.to/LojFzw

474 views12:38

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель Логистической регрессии, и она показывает низкую точность как на обучающей, так и на тестовой выборках. Вы решаете добавить L2. Какого результата следует ожидать?

Anonymous Quiz

16%

Точность модели на обеих выборках увеличится, так как регуляризация борется с недообучением.

66%

Точность, скорее всего, уменьшится или останется прежней, т.к. модель уже страдает от смещения.

Разрыв между точностью на обучающей и тестовой выборках увеличится, указывая на переобучение.

Модель начнет использовать только самые важные признаки (Feature Selection), что не связано с L2.

👍1

205 voters473 views19:17

Библиотека собеса по Data Science | вопросы с собеседований

Вы используете алгоритм K-Means. Вы визуализировали результат и заметили, что два ваших кластера перекрываются в форме полумесяцев.

Какова наиболее вероятная причина такого поведения?

Anonymous Quiz

13%

K-Means чувствителен к наличию категориальных признаков.

K-Means страдает от проблемы исчезающего градиента.

52%

K-Means предполагает, что кластеры имеют выпуклую форму.

27%

K-Means требует ручного указания количества кластеров ($k$).

👍1

148 voters385 views18:44

Библиотека собеса по Data Science | вопросы с собеседований

Готовитесь к собеседованию в AI?

Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».

Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».

Важный апдейт:

— теперь обучение включает живые вебинары;

— первый прошел, но второй стартует сегодня, 9 декабря;

— это шанс разобрать сложные вопросы с экспертами в прямом эфире.

Что внутри:

— линейная алгебра;

— матанализ;

— теория вероятностей.

Успейте присоединиться к потоку

323 views11:59

Библиотека собеса по Data Science | вопросы с собеседований

Какая проблема возникает, когда распределение входных данных (признаков X) в тестовой среде отличается от распределения, на котором обучалась модель, но при этом связь между входными данными и целевой переменной (P(Y∣X)) остается неизменной?

Anonymous Quiz

20%

Дисперсионный сдвиг (Variance Shift)

23%

Дисперсионный сдвиг (Variance Shift)

21%

Сдвиг метки (Label Shift)

36%

Ковариатный сдвиг (Covariate Shift)

👍1

105 voters275 views18:54

About

Blog

Apps

Platform