Библиотека собеса по Data Science | вопросы с собеседований
4.27K subscribers
483 photos
14 videos
1 file
593 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
Вопрос с собеседования 2026: «Как вы организуете память в мультиагентной системе?»

Если вы отвечаете «просто передам контекст в промпт», вы, скорее всего, не получите оффер на позицию AI Engineer. Современные системы требуют работы с векторными БД, чекпоинтами в графах и RAG.

Подтяните хард-скиллы на нашем обновленном курсе «Разработка AI-агентов».

Что в программе:

— Паттерн ReAct и архитектура агентов;
— Работа с LangChain и LangGraph ;
— Инструменты AgentOps для мониторинга.

Практика с код-ревью и дипломный проект, который не стыдно показать на собеседовании.

Записаться
При построении дерева решений (Decision Tree) без ограничений, оно может расти до тех пор, пока в каждом листе не окажется ровно по одному объекту из обучающей выборки. К какому фундаментальному последствию для характеристик модели это приводит?
Anonymous Quiz
11%
У модели будет низкое смещение (low bias) и низкая дисперсия (low variance)
15%
У модели будет высокое смещение (high bias) и высокая дисперсия (high variance)
57%
У модели будет очень низкое смещение (low bias), но очень высокая дисперсия (high variance)
17%
У модели будет очень высокое смещение (high bias), но очень низкая дисперсия (low variance)
1
Вы обучаете нейронную сеть и замечаете, что на графике Train Loss сначала стабильно падает, а затем начинает резко колебаться или даже расти. При этом точность перестает улучшаться.

Какое изменение, скорее всего, поможет стабилизировать процесс?
Anonymous Quiz
79%
Уменьшить скорость обучения (Learning Rate)
3%
Увеличить количество эпох обучения
10%
Отключить все слои Dropout
8%
Убрать слои нормализации (например, Batch Normalization)
👍2
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене

🔘Pro версия является ТОП-1 опенсорсом в мире

🔘Lite версия (2B параметров) лучше первой версии Sora

🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла

🔘Для российских генеративных моделей выход на международную арену — уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘Open Source Kandinsky 5.0: github и hf
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
При работе с RNN для обработки длинных последовательностей часто возникает проблема, из-за которой модель «забывает» информацию, полученную в самом начале последовательности.

Какое архитектурное решение было разработано для борьбы с этой проблемой?
Anonymous Quiz
2%
Перцептрон (Multilayer Perceptron)
92%
Долгая краткосрочная память (Long Short-Term Memory, LSTM)
5%
Сверточный слой (Convolutional Layer)
2%
Полносвязный слой (Dense Layer)
Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает.

Что произошло?
Anonymous Quiz
10%
Модель слишком простая для таких данных
5%
В данных могут быть пропуски
20%
Вы использовали неправильную метрику качества
65%
Произошла утечка
2
Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения.

Какая техника является наиболее простым способом борьбы с этой проблемой?
Anonymous Quiz
18%
Dropout (Дропаут)
48%
Gradient Clipping (Обрезка градиентов)
26%
L2-регуляризация (Ridge)
8%
Увеличение размера батча (Batch Size)
1
Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально.

Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?
Anonymous Quiz
10%
Agglomerative Clustering
16%
Метод главных компонент (PCA)
13%
Гауссовы модели (Gaussian Mixture Models)
61%
DBSCAN
👍1
WANTED: DS-ИНТЕРВЬЮЕР

Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет другим соискателям разложить Machine Learning и статистику по полочкам.

Приметы:

— является профи в Python и математической статистике;
— знает, какие вопросы реально задают на собеседованиях в бигтех;
— умеет объяснять сложные модели без потери смысла;
— хочет стать узнаваемым лицом в DS-комьюнити.

Что мы предлагаем:

— гонорар за разработку учебных материалов;
— прокачка личного бренда на большую аудиторию;
— сотрудничество с командой Proglib Academy.

Явка с повинной

P.S. Твой знакомый дата-сайентист знает слишком много? Сдай его нам.
1
Какую функцию потерь нельзя использовать для задачи классификации напрямую?
Anonymous Quiz
6%
Log-Loss
10%
Hinge Loss
11%
Categorical Cross-Entropy
73%
Mean Squared Error
2
В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?
Anonymous Quiz
15%
На тех же данных, что и основные модели
41%
На Out-of-fold
33%
Путем простого голосования большинством
11%
С использованием только самых важных признаков
1
При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?
Anonymous Quiz
23%
Замена всех редких городов на «Other»
40%
Добавление глобального среднего к среднему по категории с весом или использование Leave-one-out
28%
Использование One-Hot Encoding вместо Target Encoding
8%
даление целевой переменной из обучающей выборки
1
Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах».

Как наличие этих признаков скажется на вашей модели?
Anonymous Quiz
4%
Точность предсказания резко вырастет, так как модель получит данные в разных системах измерения
4%
Модель не сможет обучиться и выдаст ошибку деления на ноль
77%
Коэффициенты модели станут нестабильными и неинтерпретируемыми, хотя точность может быть высокой
15%
Модель автоматически удалит один из признаков в процессе градиентного спуска
2
Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой.

Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?
Anonymous Quiz
7%
Batch Normalization
85%
Dropout
7%
Data Augmentation
2%
Dense Layer
1