Библиотека собеса по Data Science | вопросы с собеседований

😐

Могут ли эмбеддинги ухудшиться при недостаточной регуляризации во время обучения

Да. Эмбеддинги, как и любые параметры модели, могут переобучиться или потерять смысловую структуру, если данных мало или регуляризация отсутствует.

Векторы могут разрастаться по величине без отражения полезных отношений между токенами.

Способы защиты:
👆 Применение weight decay или dropout в последующих слоях (или даже на самих эмбеддингах).
👆 Early stopping при начале переобучения.
👆 Контроль соотношения размера матрицы эмбеддингов и объёма данных: слишком большая матрица при малом датасете может приводить к запоминанию конкретных примеров вместо выучивания обобщённых представлений.

Регуляризация и мониторинг обучения помогают поддерживать эмбеддинги информативными и обобщающими.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

653 views19:26

Библиотека собеса по Data Science | вопросы с собеседований

👩‍🏫

Как выбирать между разными метриками нечистоты (impurity metrics) при построении деревьев решений

Популярные варианты: Gini impurity и энтропия (information gain).

Сравнение:
🧬 Gini impurity быстрее вычисляется и часто даёт похожие разбиения, но иногда слегка предпочитает разделения, изолирующие наиболее частый класс.
🧬 Entropy / Information gain отражает уменьшение неопределённости после разбиения, теоретически более «информативна», но вычисляется медленнее.

Выбор на практике: часто метрики дают схожие результаты, поэтому решение зависит от скорости обучения, размеров данных и поведения конкретного датасета. Экспериментальная проверка с кросс-валидацией может помочь определить лучший вариант для вашей задачи.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

614 views18:00

Библиотека собеса по Data Science | вопросы с собеседований

✨ Halloween Special — последний день магии! 👻

Успевай сегодня купить курсы со скидкой 40%!

А также участвуй в розыгрыше MacBook Pro 14 💻

После полуночи останется только тыква 🎃

🔮 Открой портал и выбери курс

569 views10:28

Библиотека собеса по Data Science | вопросы с собеседований

🎃

Чем отличаются bagging, boosting и stacking в контексте глубоких нейронных сетей

✔️

Bagging (Bootstrap Aggregating):
Тренирует несколько моделей на разных случайных подвыборках данных и усредняет или объединяет их предсказания.
В нейросетях аналогом может быть обучение с разными аугментациями данных или случайной инициализацией весов. Это снижает переобучение и повышает стабильность.

✔️

Boosting:
Обучает модели последовательно — каждая новая модель старается исправить ошибки предыдущей.
В глубоких сетях встречается реже, но идеи boosting можно реализовать через специальные функции потерь или адаптивные схемы обучения.

✔️

Stacking:
Использует предсказания нескольких базовых моделей как входы для метамодели (второго уровня), которая учится оптимально комбинировать эти выходы.
В deep learning это можно реализовать с помощью второй нейросети, обученной на выходах нескольких базовых моделей (ensemble blending).

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

622 views18:37

Библиотека собеса по Data Science | вопросы с собеседований

😎

Что такое сопряжённые априоры (conjugate priors) в байесовском выводе

Сопряжённые априоры — это такие априорные распределения, которые при комбинировании с конкретной функцией правдоподобия дают апостериорное распределение того же семейства, что и априорное.
Это делает байесовское обновление аналитически простым и позволяет получить закрытые формы постериора без численных методов.

Примеры:
🔛 Beta–Binomial: если вероятность успеха в биномиальном распределении имеет Beta-априор, то постериор тоже будет Beta.
🔛 Normal–Normal: если параметр среднего в нормальном распределении имеет нормальный априор, постериор остаётся нормальным.
🔛 Gamma–Poisson: если интенсивность (rate) Пуассона имеет Gamma-априор, то постериор также Gamma.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

580 views18:34

Библиотека собеса по Data Science | вопросы с собеседований

❓

Какова роль скорректированного (R^2) в выявлении переобучения линейной модели

Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации.

Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель.

Интерпретация для обнаружения переобучения:
🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели.
🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение.

Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

602 views19:55

Библиотека собеса по Data Science | вопросы с собеседований

↪️

Существуют ли методы построения доверительного интервала для точности без предположений о распределении

Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:

Непараметрический бутстреп:
➡️ Многократно выбираем выборки из тестового набора с возвращением.
➡️ Для каждой выборки вычисляем точность.
➡️ Затем строим доверительный интервал, например, по 2.5-му и 97.5-му процентилям.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

593 views19:31

Библиотека собеса по Data Science | вопросы с собеседований

🔥

Когда стоит использовать pruning (обрезку дерева) вместо early stopping

Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping).

🔤

Post-pruning:
Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов.

🔤

Pre-pruning:
Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

650 views18:59

Библиотека собеса по Data Science | вопросы с собеседований

Что измеряет Gini impurity в узле дерева?

Anonymous Quiz

Среднее значение признаков

38%

Вероятность неправильной классификации, если класс выбирается случайно

57%

Энтропию распределения

Количество листьев в дереве

👍3❤1

168 voters641 views18:16

Библиотека собеса по Data Science | вопросы с собеседований

Зачем добавляют skip connections в глубокие нейросети?

Anonymous Quiz

Чтобы уменьшить количество параметров

Чтобы сделать сеть более линейной

85%

Чтобы облегчить обратное распространение градиента и ускорить обучение

Чтобы сократить использование ReLU

❤2

178 voters609 views19:04

Библиотека собеса по Data Science | вопросы с собеседований

Как обычно определяется сходимость алгоритма K-Means?

Anonymous Quiz

14%

Когда все точки остаются в тех же кластерах две итерации подряд

83%

Когда изменение положения центроидов становится меньше заданного порога

Когда количество итераций превышает 10

Когда все кластеры содержат одинаковое количество точек

👍3

162 voters552 views19:46

Библиотека собеса по Data Science | вопросы с собеседований

Почему AUC-ROC не всегда подходит для многоклассовых задач без модификаций?

Anonymous Quiz

29%

Потому что он требует равного количества примеров для всех классов

51%

Потому что ROC определён только для бинарной классификации

Потому что AUC не работает с вероятностями

17%

Потому что ROC не может быть усреднён

❤2

191 voters478 views08:19

Библиотека собеса по Data Science | вопросы с собеседований

Когда стоит использовать пост-прунинг вместо прекрашения роста дерева (pre-pruning)?➡️

Anonymous Quiz

12%

Когда важно уменьшить вычислительные затраты

74%

Когда нужно позволить дереву сначала выучить все закономерности, а потом удалить лишние ветви

Когда у нас мало данных

Когда дерево не может переобучиться

❤1

97 voters394 views10:46

Библиотека собеса по Data Science | вопросы с собеседований

🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40%

Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎

🔥 Курсы со скидкой 40% до конца ноября:

🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры

Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈

345 views15:25

Библиотека собеса по Data Science | вопросы с собеседований

Почему стандартная k-fold кросс-валидация плохо подходит для временных рядов?

Anonymous Quiz

10%

Потому что данные могут быть не IID (независимыми и одинаково распределёнными)

90%

Потому что нарушается временной порядок и происходит утечка данных из будущего

Потому что k слишком маленькое

Потому что нельзя использовать метрику AUC

👍1

122 voters352 views16:38