Библиотека собеса по Data Science | вопросы с собеседований

Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене

🔘Pro версия является ТОП-1 опенсорсом в мире

🔘Lite версия (2B параметров) лучше первой версии Sora

🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла

🔘Для российских генеративных моделей выход на международную арену — уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост , техрепорт
🔘Open Source Kandinsky 5.0: github и hf

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

694 viewsedited 14:52

Библиотека собеса по Data Science | вопросы с собеседований

При работе с RNN для обработки длинных последовательностей часто возникает проблема, из-за которой модель «забывает» информацию, полученную в самом начале последовательности.

Какое архитектурное решение было разработано для борьбы с этой проблемой?

Anonymous Quiz

Перцептрон (Multilayer Perceptron)

92%

Долгая краткосрочная память (Long Short-Term Memory, LSTM)

Сверточный слой (Convolutional Layer)

Полносвязный слой (Dense Layer)

199 voters757 views17:52

Библиотека собеса по Data Science | вопросы с собеседований

Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает.

Что произошло?

Anonymous Quiz

10%

Модель слишком простая для таких данных

В данных могут быть пропуски

20%

Вы использовали неправильную метрику качества

65%

Произошла утечка

❤2

243 voters761 views19:15

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения.

Какая техника является наиболее простым способом борьбы с этой проблемой?

Anonymous Quiz

18%

Dropout (Дропаут)

48%

Gradient Clipping (Обрезка градиентов)

26%

L2-регуляризация (Ridge)

Увеличение размера батча (Batch Size)

❤1

217 voters743 views18:17

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально.

Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?

Anonymous Quiz

10%

Agglomerative Clustering

16%

Метод главных компонент (PCA)

13%

Гауссовы модели (Gaussian Mixture Models)

61%

DBSCAN

👍1

206 voters704 views16:58

Библиотека собеса по Data Science | вопросы с собеседований

WANTED: DS-ИНТЕРВЬЮЕР

Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет другим соискателям разложить Machine Learning и статистику по полочкам.

Приметы:

— является профи в Python и математической статистике;
— знает, какие вопросы реально задают на собеседованиях в бигтех;
— умеет объяснять сложные модели без потери смысла;
— хочет стать узнаваемым лицом в DS-комьюнити.

Что мы предлагаем:

— гонорар за разработку учебных материалов;
— прокачка личного бренда на большую аудиторию;
— сотрудничество с командой Proglib Academy.

Явка с повинной

P.S. Твой знакомый дата-сайентист знает слишком много? Сдай его нам.

❤1

735 views15:02

Библиотека собеса по Data Science | вопросы с собеседований

Представьте, что вы прогнозируете цены на акции. У вас есть данные за 3 года (с 2021 по 2023).

Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?

Anonymous Quiz

K-fold кросс-валидация требует слишком много вычислительных мощностей для временных рядов

Временные ряды всегда имеют нормальное распределение, поэтому кросс-валидация не нужна

Она не позволяет использовать категориальные признаки

85%

Она нарушает временную структуру данных

235 voters783 views18:21

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель Random Forest. Вы заметили, что каждое отдельное дерево в лесу переобучено.

Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?

Anonymous Quiz

24%

Модель тоже будет сильно переобучена, так как она состоит из переобученных деревьев

59%

Модель будет хорошо обобщать, т.к. усреднение независимых переобученных деревьев снижает дисперсию.

Модель будет работать крайне медленно и выдавать случайные результаты

11%

Ошибка на тестовой выборке будет расти пропорционально количеству деревьев

👍1

261 voters894 views18:45

Библиотека собеса по Data Science | вопросы с собеседований

Что такое TF-IDF?

Anonymous Quiz

Алгоритм перевода текста с одного языка на другой

Нейронная сеть для предсказания следующего слова

87%

Статистическая мера, оценивающая важность слова в документе относительно всей выборки

Способ сжатия текста без потери смысла

👍2

346 voters884 views18:49

Библиотека собеса по Data Science | вопросы с собеседований

Какую функцию потерь нельзя использовать для задачи классификации напрямую?

Anonymous Quiz

Categorical Cross-Entropy

73%

Mean Squared Error

❤2

263 voters809 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?

Anonymous Quiz

15%

На тех же данных, что и основные модели

41%

На Out-of-fold

33%

Путем простого голосования большинством

11%

С использованием только самых важных признаков

❤1

212 voters773 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Популярная библиотека CatBoost строит «симметричные» или «забывчивые» деревья (Oblivious Trees). В чем их архитектурная особенность по сравнению с XGBoost или LightGBM?

Anonymous Quiz

11%

Они растут только в одну сторону (влево)

19%

Они используют только категориальные признаки и игнорируют числа

12%

Деревья имеют бесконечную глубину, но очень мало листьев

59%

На каждом уровне используется один и тот же признак и одно и то же условие разделения для всех узлов

227 voters819 views08:04

Библиотека собеса по Data Science | вопросы с собеседований

При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?

Anonymous Quiz

23%

Замена всех редких городов на «Other»

40%

Добавление глобального среднего к среднему по категории с весом или использование Leave-one-out

28%

Использование One-Hot Encoding вместо Target Encoding

даление целевой переменной из обучающей выборки

❤1

215 voters754 views16:48

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучили две модели. У первой ROC-AUC выше, но у второй Log-Loss (Cross-Entropy) значительно лучше (меньше). О чем это говорит?

Anonymous Quiz

12%

Первая модель лучше предсказывает вероятности, но ошибается в порядке объектов

60%

Первая модель лучше ранжирует объекты, но вторая выдает более точные и откалиброванные вероятности

22%

Вторая модель просто переобучена под обучающую выборку

Эти метрики всегда растут и падают одновременно, такой ситуации быть не может

❤3

276 voters784 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах».

Как наличие этих признаков скажется на вашей модели?

Anonymous Quiz

Точность предсказания резко вырастет, так как модель получит данные в разных системах измерения

Модель не сможет обучиться и выдаст ошибку деления на ноль

77%

Коэффициенты модели станут нестабильными и неинтерпретируемыми, хотя точность может быть высокой

15%

Модель автоматически удалит один из признаков в процессе градиентного спуска

❤2

250 voters704 views11:50

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой.

Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?

Anonymous Quiz

❤1

274 voters645 views18:41

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете над моделью для анализа текстов. Вместо простых чисел для каждого слова (One-Hot Encoding), вы решили использовать Word Embeddings.

Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?

Anonymous Quiz

Они позволяют закодировать слова в виде целых чисел от 1 до 10 000

89%

Они переводят слова в векторы фикс.размерности, где геом.расстояние отражает смысловую близость слов

Они гарантируют, что каждое слово в языке будет иметь уник.вектор, не похожий ни на один другой

Они автоматически исправляют грамматические ошибки в тексте

249 voters708 views18:52

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5.

Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?

Anonymous Quiz

19%

Модель станет находить больше случаев мошенничества, но будет чаще ошибаться

Точность предсказания (Accuracy) всегда увеличивается при повышении порога

Веса модели изменятся, так как порог влияет на процесс обучения

69%

Модель станет делать меньше ложных обвинений, но пропустит больше реальных мошенников

❤3

228 voters622 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете CNN и замечаете, что Loss на train ведет себя крайне нестабильно: она то резко падает, то внезапно подскакивает до огромных значений, а затем и вовсе выдает ошибку NaN.

Какое изменение, скорее всего, поможет стабилизировать процесс?

Anonymous Quiz

Увеличить количество эпох обучения

55%

Уменьшить скорость обучения

15%

Отключить все слои Dropout

27%

Перейти от оптимизатора Adam к обычному SGD без моментов

❤1

224 voters602 views18:15

Библиотека собеса по Data Science | вопросы с собеседований

Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки.

Какой вид регуляризации вам следует использовать?

Anonymous Quiz

243 voters540 views18:35

Библиотека собеса по Data Science | вопросы с собеседований

В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?

Anonymous Quiz

❤2

197 voters509 views18:29

About

Blog

Apps

Platform