Библиотека собеса по Data Science | вопросы с собеседований

Вопрос с собеседования 2026: «Как вы организуете память в мультиагентной системе?»

Если вы отвечаете «просто передам контекст в промпт», вы, скорее всего, не получите оффер на позицию AI Engineer. Современные системы требуют работы с векторными БД, чекпоинтами в графах и RAG.

Подтяните хард-скиллы на нашем обновленном курсе «Разработка AI-агентов».

Что в программе:

— Паттерн ReAct и архитектура агентов;
— Работа с LangChain и LangGraph ;
— Инструменты AgentOps для мониторинга.

Практика с код-ревью и дипломный проект, который не стыдно показать на собеседовании.

Записаться

745 views15:06

Вы обучаете модель k-NN на наборе данных, где количество признаков (столбцов) внезапно увеличилось с 10 до 1000, при этом количество строк осталось прежним. Как это практически отразится на работе алгоритма k-NN?

Anonymous Quiz

Модель станет работать быстрее, так как данных для сравнения стало больше

65%

Расстояния между всеми точками станут почти одинаковыми, и понятие "ближайший сосед" потеряет смысл

20%

Точность модели вырастет, так как 1000 признаков дают более детальное описание объектов

14%

Алгоритм k-NN автоматически выберет 10 лучших признаков и проигнорирует остальные

❤1

219 voters748 views18:33

Библиотека собеса по Data Science | вопросы с собеседований

При построении дерева решений (Decision Tree) без ограничений, оно может расти до тех пор, пока в каждом листе не окажется ровно по одному объекту из обучающей выборки. К какому фундаментальному последствию для характеристик модели это приводит?

Anonymous Quiz

11%

У модели будет низкое смещение (low bias) и низкая дисперсия (low variance)

15%

У модели будет высокое смещение (high bias) и высокая дисперсия (high variance)

57%

У модели будет очень низкое смещение (low bias), но очень высокая дисперсия (high variance)

17%

У модели будет очень высокое смещение (high bias), но очень низкая дисперсия (low variance)

❤1

198 voters738 views18:38

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете нейронную сеть и замечаете, что на графике Train Loss сначала стабильно падает, а затем начинает резко колебаться или даже расти. При этом точность перестает улучшаться.

Какое изменение, скорее всего, поможет стабилизировать процесс?

Anonymous Quiz

79%

Уменьшить скорость обучения (Learning Rate)

Увеличить количество эпох обучения

10%

Отключить все слои Dropout

Убрать слои нормализации (например, Batch Normalization)

👍2

231 voters691 views18:29

Библиотека собеса по Data Science | вопросы с собеседований

Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене

🔘Pro версия является ТОП-1 опенсорсом в мире

🔘Lite версия (2B параметров) лучше первой версии Sora

🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла

🔘Для российских генеративных моделей выход на международную арену — уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост , техрепорт
🔘Open Source Kandinsky 5.0: github и hf

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

694 viewsedited 14:52

Библиотека собеса по Data Science | вопросы с собеседований

При работе с RNN для обработки длинных последовательностей часто возникает проблема, из-за которой модель «забывает» информацию, полученную в самом начале последовательности.

Какое архитектурное решение было разработано для борьбы с этой проблемой?

Anonymous Quiz

Перцептрон (Multilayer Perceptron)

92%

Долгая краткосрочная память (Long Short-Term Memory, LSTM)

Сверточный слой (Convolutional Layer)

Полносвязный слой (Dense Layer)

199 voters757 views17:52

Библиотека собеса по Data Science | вопросы с собеседований

Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает.

Что произошло?

Anonymous Quiz

10%

Модель слишком простая для таких данных

В данных могут быть пропуски

20%

Вы использовали неправильную метрику качества

65%

Произошла утечка

❤2

243 voters761 views19:15

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения.

Какая техника является наиболее простым способом борьбы с этой проблемой?

Anonymous Quiz

18%

Dropout (Дропаут)

48%

Gradient Clipping (Обрезка градиентов)

26%

L2-регуляризация (Ridge)

Увеличение размера батча (Batch Size)

❤1

217 voters743 views18:17

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально.

Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?

Anonymous Quiz

10%

Agglomerative Clustering

16%

Метод главных компонент (PCA)

13%

Гауссовы модели (Gaussian Mixture Models)

61%

DBSCAN

👍1

206 voters704 views16:58

Библиотека собеса по Data Science | вопросы с собеседований

WANTED: DS-ИНТЕРВЬЮЕР

Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет другим соискателям разложить Machine Learning и статистику по полочкам.

Приметы:

— является профи в Python и математической статистике;
— знает, какие вопросы реально задают на собеседованиях в бигтех;
— умеет объяснять сложные модели без потери смысла;
— хочет стать узнаваемым лицом в DS-комьюнити.

Что мы предлагаем:

— гонорар за разработку учебных материалов;
— прокачка личного бренда на большую аудиторию;
— сотрудничество с командой Proglib Academy.

Явка с повинной

P.S. Твой знакомый дата-сайентист знает слишком много? Сдай его нам.

❤1

735 views15:02

Библиотека собеса по Data Science | вопросы с собеседований

Представьте, что вы прогнозируете цены на акции. У вас есть данные за 3 года (с 2021 по 2023).

Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?

Anonymous Quiz

K-fold кросс-валидация требует слишком много вычислительных мощностей для временных рядов

Временные ряды всегда имеют нормальное распределение, поэтому кросс-валидация не нужна

Она не позволяет использовать категориальные признаки

85%

Она нарушает временную структуру данных

235 voters783 views18:21

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель Random Forest. Вы заметили, что каждое отдельное дерево в лесу переобучено.

Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?

Anonymous Quiz

24%

Модель тоже будет сильно переобучена, так как она состоит из переобученных деревьев

59%

Модель будет хорошо обобщать, т.к. усреднение независимых переобученных деревьев снижает дисперсию.

Модель будет работать крайне медленно и выдавать случайные результаты

11%

Ошибка на тестовой выборке будет расти пропорционально количеству деревьев

👍1

261 voters894 views18:45

Библиотека собеса по Data Science | вопросы с собеседований

Что такое TF-IDF?

Anonymous Quiz

Алгоритм перевода текста с одного языка на другой

Нейронная сеть для предсказания следующего слова

87%

Статистическая мера, оценивающая важность слова в документе относительно всей выборки

Способ сжатия текста без потери смысла

👍2

346 voters884 views18:49

Библиотека собеса по Data Science | вопросы с собеседований

Какую функцию потерь нельзя использовать для задачи классификации напрямую?

Anonymous Quiz

Categorical Cross-Entropy

73%

Mean Squared Error

❤2

263 voters809 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?

Anonymous Quiz

15%

На тех же данных, что и основные модели

41%

На Out-of-fold

33%

Путем простого голосования большинством

11%

С использованием только самых важных признаков

❤1

212 voters773 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Популярная библиотека CatBoost строит «симметричные» или «забывчивые» деревья (Oblivious Trees). В чем их архитектурная особенность по сравнению с XGBoost или LightGBM?

Anonymous Quiz

11%

Они растут только в одну сторону (влево)

19%

Они используют только категориальные признаки и игнорируют числа

12%

Деревья имеют бесконечную глубину, но очень мало листьев

59%

На каждом уровне используется один и тот же признак и одно и то же условие разделения для всех узлов

227 voters818 views08:04

Библиотека собеса по Data Science | вопросы с собеседований

При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?

Anonymous Quiz

23%

Замена всех редких городов на «Other»

40%

Добавление глобального среднего к среднему по категории с весом или использование Leave-one-out

28%

Использование One-Hot Encoding вместо Target Encoding

даление целевой переменной из обучающей выборки

❤1

215 voters754 views16:48

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучили две модели. У первой ROC-AUC выше, но у второй Log-Loss (Cross-Entropy) значительно лучше (меньше). О чем это говорит?

Anonymous Quiz

12%

Первая модель лучше предсказывает вероятности, но ошибается в порядке объектов

60%

Первая модель лучше ранжирует объекты, но вторая выдает более точные и откалиброванные вероятности

22%

Вторая модель просто переобучена под обучающую выборку

Эти метрики всегда растут и падают одновременно, такой ситуации быть не может

❤3

276 voters784 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах».

Как наличие этих признаков скажется на вашей модели?

Anonymous Quiz

Точность предсказания резко вырастет, так как модель получит данные в разных системах измерения

Модель не сможет обучиться и выдаст ошибку деления на ноль

77%

Коэффициенты модели станут нестабильными и неинтерпретируемыми, хотя точность может быть высокой

15%

Модель автоматически удалит один из признаков в процессе градиентного спуска

❤2

250 voters704 views11:50

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой.

Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?

Anonymous Quiz

❤1

274 voters645 views18:41

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете над моделью для анализа текстов. Вместо простых чисел для каждого слова (One-Hot Encoding), вы решили использовать Word Embeddings.

Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?

Anonymous Quiz

Они позволяют закодировать слова в виде целых чисел от 1 до 10 000

89%

Они переводят слова в векторы фикс.размерности, где геом.расстояние отражает смысловую близость слов

Они гарантируют, что каждое слово в языке будет иметь уник.вектор, не похожий ни на один другой

Они автоматически исправляют грамматические ошибки в тексте

249 voters708 views18:52

About

Blog

Apps

Platform