Библиотека собеса по Data Science | вопросы с собеседований

Математика — это фильтр на входе

На собеседованиях по DS часто валят не на коде, а на вопросах по линейной алгебре, статам или терверу. Не дай теории стать твоим узким местом.

Уравнение выгоды: 1 + 2.

Берешь три курса, платишь за один (тот, что дороже).

Что усилит резюме:

— Математика для Data Science;
— AI-агенты для DS-специалистов;
— ML для старта.

Обучить свою нейронку

До 31 декабря.
Саппорт: @manager_proglib

785 views14:29

При использовании L1-регуляризации (Lasso) в линейных моделях коэффициенты при некоторых признаках становятся строго равными нулю. Какое геометрическое свойство L1-нормы объясняет этот эффект?

Anonymous Quiz

12%

L1-норма является дифференцируемой во всех точках пространства

69%

Единичная сфера L1-нормы имеет острые углы на осях координат

14%

Производная L1-нормы пропорциональна значению самого веса

L1-норма всегда меньше L2-нормы для любого вектора весов

191 voters746 views18:25

Библиотека собеса по Data Science | вопросы с собеседований

При обучении случайного леса (Random Forest) мы используем Out-of-Bag (OOB) ошибку. Что это такое?

Anonymous Quiz

13%

Ошибка, которую модель выдает на полностью новых данных после деплоя

10%

Ошибка, возникающая из-за того, что деревья в лесу слишком глубокие

Среднеквадратичная ошибка (MSE), рассчитанная по всей обучающей выборке

74%

Ошибка модели на данных, которые не попали в bootstrap-выборку для конкретного дерева

👍1

216 voters701 views18:51

Библиотека собеса по Data Science | вопросы с собеседований

Какой из методов ансамблирования обычно дает наибольший выигрыш в качестве, если базовые модели сильно различаются по своей архитектуре (например, KNN, SVM и случайный лес)?

Anonymous Quiz

19%

Бэггинг (Bagging)

27%

Градиентный бустинг (Boosting)

Случайный подпространственный метод (Random Subspace)

47%

Стэкинг (Stacking)

❤1

221 voters701 views18:12

Библиотека собеса по Data Science | вопросы с собеседований

Вопрос с собеседования 2026: «Как вы организуете память в мультиагентной системе?»

Если вы отвечаете «просто передам контекст в промпт», вы, скорее всего, не получите оффер на позицию AI Engineer. Современные системы требуют работы с векторными БД, чекпоинтами в графах и RAG.

Подтяните хард-скиллы на нашем обновленном курсе «Разработка AI-агентов».

Что в программе:

— Паттерн ReAct и архитектура агентов;
— Работа с LangChain и LangGraph ;
— Инструменты AgentOps для мониторинга.

Практика с код-ревью и дипломный проект, который не стыдно показать на собеседовании.

Записаться

736 views15:06

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель k-NN на наборе данных, где количество признаков (столбцов) внезапно увеличилось с 10 до 1000, при этом количество строк осталось прежним. Как это практически отразится на работе алгоритма k-NN?

Anonymous Quiz

Модель станет работать быстрее, так как данных для сравнения стало больше

66%

Расстояния между всеми точками станут почти одинаковыми, и понятие "ближайший сосед" потеряет смысл

20%

Точность модели вырастет, так как 1000 признаков дают более детальное описание объектов

14%

Алгоритм k-NN автоматически выберет 10 лучших признаков и проигнорирует остальные

❤1

218 voters732 views18:33

Библиотека собеса по Data Science | вопросы с собеседований

При построении дерева решений (Decision Tree) без ограничений, оно может расти до тех пор, пока в каждом листе не окажется ровно по одному объекту из обучающей выборки. К какому фундаментальному последствию для характеристик модели это приводит?

Anonymous Quiz

11%

У модели будет низкое смещение (low bias) и низкая дисперсия (low variance)

15%

У модели будет высокое смещение (high bias) и высокая дисперсия (high variance)

57%

У модели будет очень низкое смещение (low bias), но очень высокая дисперсия (high variance)

17%

У модели будет очень высокое смещение (high bias), но очень низкая дисперсия (low variance)

❤1

197 voters724 views18:38

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете нейронную сеть и замечаете, что на графике Train Loss сначала стабильно падает, а затем начинает резко колебаться или даже расти. При этом точность перестает улучшаться.

Какое изменение, скорее всего, поможет стабилизировать процесс?

Anonymous Quiz

80%

Уменьшить скорость обучения (Learning Rate)

Увеличить количество эпох обучения

10%

Отключить все слои Dropout

Убрать слои нормализации (например, Batch Normalization)

👍2

230 voters679 views18:29

Библиотека собеса по Data Science | вопросы с собеседований

Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене

🔘Pro версия является ТОП-1 опенсорсом в мире

🔘Lite версия (2B параметров) лучше первой версии Sora

🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла

🔘Для российских генеративных моделей выход на международную арену — уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост , техрепорт
🔘Open Source Kandinsky 5.0: github и hf

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

682 viewsedited 14:52

Библиотека собеса по Data Science | вопросы с собеседований

При работе с RNN для обработки длинных последовательностей часто возникает проблема, из-за которой модель «забывает» информацию, полученную в самом начале последовательности.

Какое архитектурное решение было разработано для борьбы с этой проблемой?

Anonymous Quiz

Перцептрон (Multilayer Perceptron)

92%

Долгая краткосрочная память (Long Short-Term Memory, LSTM)

Сверточный слой (Convolutional Layer)

Полносвязный слой (Dense Layer)

197 voters744 views17:52

Библиотека собеса по Data Science | вопросы с собеседований

Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает.

Что произошло?

Anonymous Quiz

10%

Модель слишком простая для таких данных

В данных могут быть пропуски

20%

Вы использовали неправильную метрику качества

65%

Произошла утечка

❤2

240 voters748 views19:15

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения.

Какая техника является наиболее простым способом борьбы с этой проблемой?

Anonymous Quiz

18%

Dropout (Дропаут)

48%

Gradient Clipping (Обрезка градиентов)

26%

L2-регуляризация (Ridge)

Увеличение размера батча (Batch Size)

❤1

213 voters726 views18:17

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально.

Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?

Anonymous Quiz

10%

Agglomerative Clustering

16%

Метод главных компонент (PCA)

13%

Гауссовы модели (Gaussian Mixture Models)

61%

DBSCAN

👍1

205 voters681 views16:58

Библиотека собеса по Data Science | вопросы с собеседований

WANTED: DS-ИНТЕРВЬЮЕР

Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет другим соискателям разложить Machine Learning и статистику по полочкам.

Приметы:

— является профи в Python и математической статистике;
— знает, какие вопросы реально задают на собеседованиях в бигтех;
— умеет объяснять сложные модели без потери смысла;
— хочет стать узнаваемым лицом в DS-комьюнити.

Что мы предлагаем:

— гонорар за разработку учебных материалов;
— прокачка личного бренда на большую аудиторию;
— сотрудничество с командой Proglib Academy.

Явка с повинной

P.S. Твой знакомый дата-сайентист знает слишком много? Сдай его нам.

❤1

717 views15:02

Библиотека собеса по Data Science | вопросы с собеседований

Представьте, что вы прогнозируете цены на акции. У вас есть данные за 3 года (с 2021 по 2023).

Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?

Anonymous Quiz

K-fold кросс-валидация требует слишком много вычислительных мощностей для временных рядов

Временные ряды всегда имеют нормальное распределение, поэтому кросс-валидация не нужна

Она не позволяет использовать категориальные признаки

85%

Она нарушает временную структуру данных

234 voters760 views18:21

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель Random Forest. Вы заметили, что каждое отдельное дерево в лесу переобучено.

Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?

Anonymous Quiz

24%

Модель тоже будет сильно переобучена, так как она состоит из переобученных деревьев

59%

Модель будет хорошо обобщать, т.к. усреднение независимых переобученных деревьев снижает дисперсию.

Модель будет работать крайне медленно и выдавать случайные результаты

11%

Ошибка на тестовой выборке будет расти пропорционально количеству деревьев

👍1

259 voters868 views18:45

Библиотека собеса по Data Science | вопросы с собеседований

Что такое TF-IDF?

Anonymous Quiz

Алгоритм перевода текста с одного языка на другой

Нейронная сеть для предсказания следующего слова

87%

Статистическая мера, оценивающая важность слова в документе относительно всей выборки

Способ сжатия текста без потери смысла

👍2

344 voters814 views18:49

Библиотека собеса по Data Science | вопросы с собеседований

Какую функцию потерь нельзя использовать для задачи классификации напрямую?

Anonymous Quiz

Categorical Cross-Entropy

72%

Mean Squared Error

❤2

257 voters699 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?

Anonymous Quiz

15%

На тех же данных, что и основные модели

41%

На Out-of-fold

33%

Путем простого голосования большинством

11%

С использованием только самых важных признаков

❤1

207 voters671 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Популярная библиотека CatBoost строит «симметричные» или «забывчивые» деревья (Oblivious Trees). В чем их архитектурная особенность по сравнению с XGBoost или LightGBM?

Anonymous Quiz

11%

Они растут только в одну сторону (влево)

19%

Они используют только категориальные признаки и игнорируют числа

12%

Деревья имеют бесконечную глубину, но очень мало листьев

59%

На каждом уровне используется один и тот же признак и одно и то же условие разделения для всех узлов

221 voters728 views08:04

Библиотека собеса по Data Science | вопросы с собеседований

При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?

Anonymous Quiz

22%

Замена всех редких городов на «Other»

41%

Добавление глобального среднего к среднему по категории с весом или использование Leave-one-out

28%

Использование One-Hot Encoding вместо Target Encoding

даление целевой переменной из обучающей выборки

❤1

210 voters712 views16:48

About

Blog

Apps

Platform