Библиотека собеса по Data Science | вопросы с собеседований – Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib

4.26K subscribers

474 photos

14 videos

1 file

584 links

Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197

Download Telegram

About

Blog

Apps

Platform

Библиотека собеса по Data Science | вопросы с собеседований

4.26K subscribers

Библиотека собеса по Data Science | вопросы с собеседований

💬 Как инициализировать параметры в логистической регрессии, и важно ли это

Частый вариант: веса
𝑤
w инициализируют нулями или малыми случайными значениями.

🔎 Почему работает: отрицательный логарифм правдоподобия в логистической регрессии — выпуклая функция, поэтому оптимизация сходится к глобальному минимуму независимо от стартовой точки.

🔎 Когда стоит подумать о случайной инициализации: при огромном числе признаков или сильно скоррелированных признаках случайная инициализация может помочь избежать вырожденных конфигураций.

🙂 Для стандартных задач нулевая инициализация чаще всего достаточно хороша; проблем с глобальным минимумом не возникает.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

640 views19:23

Библиотека собеса по Data Science | вопросы с собеседований

🤫 Курс «ИИ-агенты для DS-специалистов»

Каждый технологический скачок оставляет позади тех, кто «подождал ещё чуть-чуть». ИИ-агенты — это новый рывок.

Уже через пару лет именно они будут драйвить аналитику и автоматизацию. Хотите остаться на гребне?

🖥️ На курсе «ИИ-агенты для DS-специалистов» мы разберём:

— создание AI-агентов с нуля
— сборку собственной RAG-системы
— интеграцию LLM под задачи бизнеса

📌 Курс подходит:

→ ML/AI инженерам (middle+ / senior)
→ Data Scientists
→ Backend и platform-инженерам
→ Advanced CS/DS студентам

⚡️ Старт уже скоро — 3 октября.

💰 До 28 сентября действует скидка — 57.000 ₽ вместо 69.000 ₽ (по промокоду datarascals).

🔗 Узнать больше о курсе и записаться

З.ы. если вы не успели на вебинар «ИИ-агенты: новая фаза развития искусственного интеллекта» — запись уже доступна

646 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

✅ Совпадают ли главные компоненты (PCA) с независимыми факторами в данных

Не всегда.

❇️ PCA находит некоррелированные направления (ортогональные в пространстве признаков).

❇️ Но некоррелированность ≠ независимость. Две переменные могут быть некоррелированными и при этом зависимыми (например, иметь нелинейную связь).

❇️ Поэтому PCA отлично подходит для снижения размерности, но не гарантирует восстановление «истинных» скрытых факторов.

❇️ Если требуется именно статистическая независимость (например, в задачах разделения источников звука), используют ICA (Independent Component Analysis).

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

663 viewsedited 18:25

Библиотека собеса по Data Science | вопросы с собеседований

🚀 Всё о курсе «ИИ-агенты для DS-специалистов»

❓ Зачем нужны ИИ-агенты?

Это системы, которые берут на себя задачи аналитики и автоматизации. Именно они становятся основой для работы с корпоративными данными и для поддержки принятия решений.

❓ Зачем мне курс?

Курс отвечает на три ключевых вопроса:

— Как построить собственную систему агентов с нуля?
— Каким образом использовать RAG-подход для работы с корпоративными данными?
— Как адаптировать LLM под реальные задачи бизнеса?

❓ Подходит ли это мне?

Курс рассчитан на специалистов уровня middle+ и senior: ML/AI инженеров, Data Scientists, backend и platform-разработчиков. Подойдёт и студентам CS/DS, если вы готовы к продвинутым практикам.

Запись вводной встречи «ИИ-агенты: новая фаза развития искусственного интеллекта» доступна по ссылке.

❓ Когда старт?

Обучение начинается 3 октября.

❓ Сколько стоит?

До 28 сентября действует скидка → 57 000 ₽ вместо ~~69 000 ₽~~ (промокод datarascals).

🔗 Описание программы и регистрация

736 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

📌 Зачем нужна регуляризация в логистической регрессии

Регуляризация добавляет штраф к функции потерь, контролируя величину весов θ. Это:
🟠 предотвращает переобучение на данных с большим числом признаков,
🟠 делает модель устойчивее к шумовым или редко встречающимся признакам,
🟠 улучшает обобщающую способность.

Популярные варианты:
📌 L2 (ridge) — сглаживает веса, делая их небольшими,
📌 L1 (lasso) — зануляет часть весов, отбрасывая неважные признаки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

726 views18:34

Библиотека собеса по Data Science | вопросы с собеседований

🗂 Может ли регуляризация превратить неконвексную функцию потерь в выпуклую

Стандартные регуляризаторы (например, L1 или L2) не делают нейросетевую задачу выпуклой. Если в модели есть несколько слоёв и нелинейные активации, задача оптимизации остаётся неконвексной.

Однако регуляризация:
🅱️ сглаживает ландшафт функции потерь,
🅱️ уменьшает амплитуду «плохих» локальных минимумов,
🅱️ снижает риск переобучения,
🅱️ помогает найти более устойчивые решения.

👉 То есть регуляризация не исправляет геометрию задачи, но делает обучение практичнее и надёжнее.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

728 views17:48

Библиотека собеса по Data Science | вопросы с собеседований

🔎 Если в признаке много пропущенных значений, стоит ли его всегда удалять

Не обязательно. Пропуски могут сами по себе содержать полезную информацию. Например:

В медицине отсутствие результата теста может говорить о том, что тест не был назначен — это уже сигнал для модели.

Практический подход:
✅ Создать индикатор пропусков — бинарный флаг, показывающий, было ли значение пропущено.
✅ Использовать методы импутации: среднее, медиана, MICE, KNN или специфичные для задачи подходы.

Удалять только если:
— пропуски случайны,
— нет смысла в дополнительной обработке,
— или качество модели не ухудшается без этого признака.

👉 Пропуски — это не всегда «мусор». Иногда они сами по себе становятся информативным признаком.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

712 views18:43

Библиотека собеса по Data Science | вопросы с собеседований

💬 Существует ли доверительный интервал (confidence interval) для AUC

Да. AUC рассчитывается на основе конечной выборки, поэтому подвержен вариабельности.

Как оценить доверительный интервал:
🔹 Бутстрэп (Bootstrapping): многократная переоценка AUC на случайных подвыборках для построения распределения.
🔹 Другие статистические методы: используются для проверки значимости различий между моделями.

✅ В критических приложениях это помогает понять, насколько уверенно модель превосходит альтернативы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

744 views18:48

Библиотека собеса по Data Science | вопросы с собеседований

📊 Как байесовский вывод масштабируется для высокоразмерных данных

Байесовский вывод становится сложным по мере увеличения размерности — апостериорное распределение может быть чрезвычайно сложным, и точные вычисления становятся невозможными.

Основные подходы

👇

1️⃣

Вариационный вывод (Variational Inference, VI):
— Аппроксимирует апостериорное распределение более простой семьей распределений.
— Параметры оптимизируются для минимизации расхождения с истинным апостериорным распределением.
— Эффективно, но вводит ошибку аппроксимации.

2️⃣

Методы Монте-Карло по цепям Маркова (MCMC):
— Генерация выборок из апостериора (например, Hamiltonian Monte Carlo).
— Мощный метод, но медленный при высокой размерности.

3️⃣

Байесовские нейронные сети:
— Используют аппроксимации, например, Monte Carlo dropout, для оценки неопределенности.
— Вычислительно затратны, но возможны при аккуратной настройке.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

769 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

⏱ Какие основные проблемы при применении стандартной k-fold кросс-валидации к временным рядам

Временные ряды часто имеют сильные зависимости во времени.

Стандартная k-fold кросс-валидация использует случайные разбиения, игнорируя порядок времени. Это может привести к «утечке будущей информации» в тренировочный набор.

Например, если данные из будущего используются для обучения, а валидация проводится на данных из прошлого, оценка модели будет нереалистичной для реального прогнозирования.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

707 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

⚡️ Как устанавливать скорость обучения (learning rate) при дообучении модели (fine-tuning)

При дообучении обычно используют меньшую скорость обучения для предварительно обученных слоёв и более высокую — для вновь добавленных слоёв.

Это позволяет сохранять полезные представления, которые модель уже изучила, и аккуратно их корректировать.

Часто применяют постепенное уменьшение learning rate по слоям: глубокие слои получают очень маленький шаг, а новые слои — больший.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

714 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

⏳ Как кросс-валидация помогает определить переобучение и недообучение

Кросс-валидация разбивает данные на несколько фолдов, используя одни для валидации, а другие — для обучения, и поочередно меняет роли фолдов.

➡️ Переобучение (overfitting): модель показывает высокую точность на тренировочных фолдах, но сильно различающиеся или низкие результаты на валидационных фолдах.

➡️ Недообучение (underfitting): модель плохо работает как на тренировочных, так и на валидационных фолдах.

Кросс-валидация даёт более надёжную оценку обобщающей способности модели и помогает принимать решения по выбору модели, настройке гиперпараметров и архитектуры.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

652 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал

Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.

Но всё самое интересное только начинается!

🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.

💸 Сейчас действует специальная цена → 69.000 ₽ вместо ~~79.000 ₽~~.

⏳ Осталось всего 4 места.

Не упустите шанс прокачаться в том, что будет определять будущее индустрии.

👉 Забронировать место на курсе

738 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

⚡️

Как аугментация данных влияет на эффективный размер входа для свёрточной сети

Многие техники аугментации (например, случайные обрезки, масштабирование, добавление паддинга) могут изменять фактический размер входного изображения.

➡️ Например, при случайной обрезке 32×32 до 28×28 нужно убедиться, что свёрточные слои могут работать с таким размером.

Если использовать случайные или меньшие размеры, важно иметь достаточный паддинг или архитектуру, способную обрабатывать разные размеры.

Потенциальная ошибка: случайная обрезка может дать слишком маленький тензор для слоёв с большим страйдом или минимальным размером входа.

😶‍🌫️ В реальных пайплайнах аугментации стоит проверять, чтобы они не приводили к недопустимым размерам.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

764 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

👇 Почему эмбеддинги так важны в глубоком обучении для обработки естественного языка

Язык по своей природе дискретен и символичен, а нейронные сети работают с непрерывными и дифференцируемыми представлениями. Эмбеддинги решают эту проблему, переводя токены в плотные векторные представления.

✅ Это позволяет использовать градиентные методы для обучения смысловых связей между словами.

✅ Эмбеддинги отражают распределённую семантику языка — слова с похожим значением оказываются близки в векторном пространстве.

Благодаря этому нейросети могут понимать контекст и смысл, что стало основой успеха современных NLP-моделей — от простых классификаторов текста до трансформеров вроде BERT и GPT.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

710 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

🙄 В каких случаях стоит обучать модель с нуля, а не использовать предобученную

Обучение с нуля может быть оправдано в нескольких ситуациях:

1️⃣

Очень большой собственный датасет. Если ваш набор данных сопоставим по объёму с тем, на котором обучались предобученные модели (или даже больше), имеет смысл обучить модель с нуля, чтобы она лучше уловила специфические закономерности вашей задачи.

2️⃣

Совершенно иное распределение данных. Когда ваши данные радикально отличаются от исходных (например, 3D медицинские изображения вместо обычных фото), предобученные признаки могут быть бесполезны или даже мешать.

3️⃣

Уникальная архитектура. Если задача требует специализированной архитектуры (например, для 3D данных или нового типа последовательностей), использовать стандартные предобученные веса может быть нецелесообразно.

4️⃣

Юридические или лицензионные ограничения. Иногда использование предобученных моделей ограничено условиями лицензии или политикой конфиденциальности данных, что делает обучение с нуля единственным вариантом.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

728 views18:11

Библиотека собеса по Data Science | вопросы с собеседований

➡️ Можно ли использовать кросс-валидацию для подбора гиперпараметров

Да, кросс-валидация часто применяется для подбора гиперпараметров. Для каждой конфигурации гиперпараметров выполняется процедура кросс-валидации, измеряется качество модели, и результаты сравниваются между разными вариантами.

✅ Лучшие гиперпараметры выбираются на основе усреднённых метрик по всем фолдам.

Такой подход лежит в основе grid search и random search с кросс-валидацией.

👉 Однако важно помнить, что модель может “переобучиться” на фолды кросс-валидации. Чтобы избежать этого, необходимо оставить отдельный тестовый набор, который используется только один раз — после окончательного выбора гиперпараметров.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

683 views19:16

Библиотека собеса по Data Science | вопросы с собеседований

⏳ Время прокачать алгоритмы с 40-процентной скидкой до конца октября

На собеседовании не просят бездумно написать шаблонное решение. Важно понимать, как работают алгоритмы под капотом.

🔹 В курсе ты научишься:

— искать ошибки с помощью редакционного расстояния;
— работать с балансированными деревьями и графами;
— решать задачи с динамическим программированием;
— и многое другое, что пригодится на собеседованиях.

🤔 Решаешь задачи только в тг каналах? Пройди курс и отправляйся на реальные собеседования!

🔗 Подробнее о курсе

712 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

📍

Может ли BatchNorm улучшить градиентную оптимизацию в очень глубоких сетях

В очень глубоких сетях градиенты могут быстро затухать или взрываться при обратном распространении.

✅ BatchNorm нормализует входы каждого слоя, что помогает контролировать масштаб градиентов по всей сети. Это повышает стабильность обучения и облегчает оптимизацию, особенно в глубоко вложенных архитектурах.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

700 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🚶‍♂️

Можно ли использовать AUC-ROC для многоклассовой классификации

ROC-кривая изначально предназначена для бинарной классификации, но её можно обобщить:

➡️ One-vs-Rest: для каждой категории строится своя ROC-кривая, где данный класс считается положительным, а все остальные — отрицательными. Затем вычисленные AUC усредняются (по макро- или взвешенному принципу).
➡️ One-vs-One: AUC рассчитывается для каждой пары классов и также усредняется.

⏩ Интерпретация метрики становится сложнее, так как появляются несколько кривых. Итоговое усреднение может скрывать различия между классами.

⏩ При несбалансированных данных средний AUC может вводить в заблуждение, поэтому полезно дополнительно анализировать confusion matrix и метрики по каждому классу отдельно.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

778 views17:36

Библиотека собеса по Data Science | вопросы с собеседований

▶️

Как убедиться, что регуляризация или контроль сложности модели не устраняют важные признаки

При использовании методов вроде L1/L2-регуляризации или ограничений на сложность (например, глубину деревьев) снижается дисперсия модели, но может возрасти смещение — особенно если регуляризация слишком сильная. В этом случае модель может «заглушить» слабые, но значимые сигналы.

Чтобы избежать потери критичных признаков:
➡️ Настраивайте коэффициенты регуляризации через кросс-валидацию.
➡️ Анализируйте важность признаков после обучения.
➡️ Применяйте постепенное усиление регуляризации, чтобы найти баланс между простотой и точностью.
➡️ В задачах с высокой размерностью полезно сохранять индикаторы важности признаков или использовать групповую регуляризацию, чтобы не терять связанные по смыслу признаки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

728 views18:08