Библиотека собеса по Data Science | вопросы с собеседований – Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib

4.26K subscribers

474 photos

14 videos

1 file

584 links

Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197

Download Telegram

About

Blog

Apps

Platform

Библиотека собеса по Data Science | вопросы с собеседований

4.26K subscribers

Библиотека собеса по Data Science | вопросы с собеседований

🔎

В чём разница между 1D, 2D и 3D свёртками и в каких задачах их применяют

✅ 1D свёртки

Работают вдоль одной размерности (с каналами). Часто применяются для последовательных данных: аудио, текстовые последовательности после эмбеддинга. Ядро имеет форму kernel_size × in_channels и скользит по одной оси.

✅ 2D свёртки

Стандарт для изображений. Ядро скользит по ширине и высоте (и по каналам). Идеальны для обработки обычных 2D-картинок.

✅ 3D свёртки

Добавляют третью ось, например, время или глубину. Используются для видео (высота × ширина × время). Ядро может быть, например, 3×3×3, чтобы одновременно улавливать пространственные и временные зависимости.

Особенности:
— Неправильная размерность приводит к несоответствию данных и модели.
— 3D свёртки требовательны к памяти, поэтому часто используют комбинации 2D + временное объединение или (2+1)D свёртки (разделяют пространственную и временную части).

Вывод: Выбор типа свёртки зависит от структуры данных: последовательности — 1D, изображения — 2D, видео — 3D.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

691 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Последняя неделя, чтобы забрать курс по AI-агентам по старой цене!

Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!

Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.

📆 Старт — 15 сентября.

💸 Цена 49 000 ₽ — только до 24 августа.

👉 Зафиксировать цену

627 views15:03

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Что делать, если утечка данных (data leakage) обнаружена уже после вывода модели в прод

В такой ситуации нужно немедленно исключить утёкшие признаки из пайплайна и переобучить модель без них. Утечка данных приводит к завышенным офлайн-метрикам, поэтому все оценки нужно пересчитать заново. После переобучения важно убедиться, что модель действительно справляется с реальными данными, где этой информации нет.

Также необходимо:
— оценить, насколько широко была развернута утёкшая модель;
— при необходимости откатить (rollback) её или быстро заменить новой;
— в критичных системах иметь резервную/параллельную модель, которую можно включить на время расследования.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1

582 views18:07

Библиотека собеса по Data Science | вопросы с собеседований

🧃

Можно ли выполнять отбор признаков на всём датасете до разбиения на train и test

Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.

Правильный подход:
1️⃣ Разбиваем данные на train и test (и фолды для кросс-валидации, если нужно).
2️⃣ В каждом тренировочном фолде выполняем отбор признаков (RFE, фильтры или встроенные методы) и обучаем модель.
3️⃣ Оцениваем качество на валидационном фолде.
4️⃣ После кросс-валидации фиксируем набор признаков или пайплайн.
5️⃣ Переобучаем модель на всём тренировочном наборе с выбранными признаками и оцениваем на отдельном тесте.

Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.

Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы:
— AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами)
— ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

616 views18:28

Библиотека собеса по Data Science | вопросы с собеседований

⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума

21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.

Тема:

«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».

Подробности рассказываю в гс выше — включай, чтобы не пропустить.

580 viewsedited 19:00

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.

Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.

Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.

Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.

Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.

Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».

💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.

👉 Начать строить RAG раньше других

😁1

560 viewsedited 14:58

Библиотека собеса по Data Science | вопросы с собеседований

🤓 Если миноритарный класс не только меньше, но и более разнообразный, поможет ли oversampling

Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.

➡️

Что можно сделать:

Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.

Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.

😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
— AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
— ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1

602 views18:25

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь

513 views13:30

Библиотека собеса по Data Science | вопросы с собеседований

➖

Как обрабатывать пропущенные данные в задачах unsupervised learning или кластеризации, где нет целевой переменной

В unsupervised задачах (кластеризация, оценка плотности) мы не можем ориентироваться на метрики предсказания, поэтому обработка пропусков опирается на структуру данных.

Подходы:
➖ Парные метрики расстояния: некоторые алгоритмы (например, иерархическая кластеризация) позволяют задавать метрику, которая игнорирует пропущенные признаки или учитывает их особым образом.
➖ Импутация через снижение размерности: методы вроде PCA можно адаптировать для пропусков, заполняя отсутствующие значения с помощью низкоранговой аппроксимации (связано с матричной факторизацией).
➖ Soft clustering / EM-подходы: смеси распределений (например, Gaussian Mixture Models) могут обрабатывать пропуски, маргинализируя по отсутствующим измерениям с использованием EM-итераций для оценки пропущенных значений.

Подводные камни:
🚩 Игнорирование пропусков в метрике расстояния может искажать расстояния, если много признаков отсутствует.
🚩 EM-подходы могут сходиться к локальным минимумам или быть нестабильными при слишком большом количестве пропусков.
🚩 В unsupervised задачах сложнее оценить корректность импутации — обычно опираются на силуэтные метрики или доменную интерпретируемость кластеров.

Если хотите не просто читать про EM и PCA, а реально попрактиковаться на данных и задачах кластеризации, есть классные курсы для Data Science-специалистов:
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

668 views18:38

Библиотека собеса по Data Science | вопросы с собеседований

👉 Как влияют dilated (atrous) свёртки на receptive field

Dilated свёртки используют пробелы >1 между элементами ядра. В обычной свёртке с ядром 3×3 фильтр смотрит на соседние позиции.

В dilated свёртке с dilation rate = d фильтр «пропускает» некоторые позиции, охватывая большую область входа, не увеличивая число параметров.

Пример: ядро 3×3 с dilation=2 фактически покрывает область 5×5, но остаётся с 9 параметрами.

⚡️ Применение: особенно полезно в semantic segmentation и других задачах, где важно учитывать глобальный контекст, сохраняя при этом высокое разрешение feature maps.

Если хотите не просто читать про receptive field, а практически применять свёртки и строить свои модели, есть классные курсы для Data Science и ML:
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

709 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

Отдыхаешь?

572 views16:30

Библиотека собеса по Data Science | вопросы с собеседований

👇

Как размер batch влияет на выбор стратегии изменения learning rate

Размер batch напрямую связан с настройкой базового learning rate (LR) и расписания.

Большой batch:
— Позволяет использовать больший стабильный LR.
— Часто требует warmup-фазы: постепенного увеличения LR от малого значения до целевого.
— Конвергенция может быть чувствительна: даже небольшой перекос в LR ведёт к дивергенции или плохому локальному минимуму.

Малый batch:
— Даёт шумные оценки градиентов, поэтому нужен меньший базовый LR.
— Лучше работают более консервативные decay-расписания или адаптивные/циклические методы, которые сглаживают шум.

⚠️ Подводный камень:
Если сильно увеличить batch, но оставить старое расписание LR, обучение может «взорваться» (слишком большой эффективный шаг) или наоборот — застопориться, если расписание оказалось слишком осторожным.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

696 views17:54

Библиотека собеса по Data Science | вопросы с собеседований

✅

Как бороться с переобучением в непараметрических методах, например в kNN

Даже для простых методов, как kNN, ключ к борьбе с переобучением — грамотный выбор гиперпараметров и работа с признаками.

Например:
1️⃣ Тюнинг k: увеличение значения k сглаживает границу решения и снижает дисперсию, что уменьшает риск переобучения.
2️⃣ Взвешивание по расстоянию: ближние соседи получают больший вес, дальние — меньший. Это делает модель более устойчивой.
3️⃣ Кросс-валидация: помогает подобрать оптимальные гиперпараметры систематически.
4️⃣ Снижение размерности: удаление шумных или малоинформативных признаков уменьшает переобучение.

Если хочется прокачаться не только в kNN, но и в более продвинутых методах (и без переобучения):
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

740 views17:53

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

0:52

667 views09:03

Библиотека собеса по Data Science | вопросы с собеседований

🏃‍♀️ Новый поток курса — собери своих AI-агентов

7 октября стартует второй поток курса «AI-агенты для DS-специалистов».
За 5 недель вы научитесь собирать агентов, которые уже сейчас будут помогать бизнесу.

В кружке выше Максим Шаланкин, наш преподаватель, рассказывает подробнее — включай, чтобы не пропустить.

👉 Записаться на курс

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

635 views09:03

Библиотека собеса по Data Science | вопросы с собеседований

🫥 Какие признаки могут указывать на то, что модель застряла в saddle point

Плато в loss не всегда значит минимум; анализ кривизны и наблюдение за динамикой обучения помогают распознать saddle points.

➡️ Плато в loss: функция потерь почти не меняется на протяжении многих итераций.

➡️ Анализ кривизны: если посмотреть на Гессиан или приблизительные вторые производные, можно заметить направления с отрицательной кривизной, где градиент ещё не ноль.

➡️ Резкий спад при адаптивных методах: использование momentum или адаптивного learning rate может внезапно снизить loss после долгого плато — это значит, что модель была в saddle region, а не в настоящем минимуме.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3🔥2

653 views17:34

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

❗ Так, владелец макбука. Хватит позировать в кофейне.

Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.

Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.

ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.

🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.

👉 Апгрейд от «вайба» до «оффера» тут

656 views15:06

Библиотека собеса по Data Science | вопросы с собеседований

🔎

Есть ли особенности подбора гиперпараметров для параметрических и непараметрических моделей, кроме стандартной кросс-валидации

Обе группы моделей требуют внимательного подхода к гиперпараметрам, но непараметрические методы часто более чувствительны к их выбору и могут потребовать продвинутых стратегий поиска.

🧮 Параметрические модели:
— Настраиваются регуляризация (например, λ в Ridge/Lasso), архитектура нейросетей, степень полинома и т.д.
— Важно учитывать взаимодействие гиперпараметров: глубина сети, learning rate, регуляризация.
— Обычно меньше гиперпараметров, чем у сложных непараметрических методов, но у глубоких сетей их может быть много.

🌲 Непараметрические модели:
— Настройка может включать: размер соседства в kNN, ширину ядра в KDE, глубину дерева в Random Forest и др.
— Каждый гиперпараметр сильно влияет на комплексность модели и баланс bias/variance.
— Иногда требуется grid search или Bayesian optimization, особенно при большом гиперпараметрическом пространстве.

➡️ На больших датасетах кросс-валидация может быть слишком дорогой — используют приближённые или онлайн методы.
➡️ Риск переобучения на валидационном наборе при переборе множества конфигураций особенно актуален для гибких непараметрических моделей.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

624 views18:31

Библиотека собеса по Data Science | вопросы с собеседований

☁️

Как наличие label noise (шум в разметке) влияет на форму ROC-кривой и надёжность AUC

Если положительные объекты иногда промаркированы как отрицательные (и наоборот), это снижает видимую производительность модели:
▶️ ROC-кривая становится менее отчётливой: даже идеальный классификатор «ошибается» на перевёрнутых метках.
▶️ Кривая смещается вниз (снижается TPR) или вправо (растёт FPR), что уменьшает AUC.
▶️ При сильном шуме в положительном классе растёт число ложных отрицаний, а в отрицательном — ложных срабатываний, что может создавать «провалы» на кривой.

Если интересно глубже разобраться, как метрики ведут себя при шумных данных и как строить более надёжные модели:
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

557 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

📢 Какой сетап идеально подойдёт для разработки AI-агента?

Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.

❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9

Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.

👉 Научим, как строить агентов, которые кодят с тобой

🤩3👍2😁1

586 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

💱

Что делать, если основной бизнес-метрик не совпадает со стандартными ML-метриками, из-за чего модель в проде кажется «недоработанной»

Частая ошибка — оптимизировать модель по ML-метрикам (AUC, accuracy) на этапе разработки, а в продакшене обнаружить, что реальный успех измеряется бизнес-KPI (конверсия, доход, удержание пользователей). В итоге модель может показывать отличные офлайн-результаты, но не влиять на бизнес.

Как решать:
✅ С самого начала синхронизировать ML-метрики с бизнес-целями.
✅ Если бизнес-метрика сложная, разложить её на проксими-триггеры, которые можно оптимизировать офлайн.
✅ Проверять корреляцию ML-метрик с бизнес-результатами через A/B-тесты.
✅ Учитывать внешние факторы: маркетинговые кампании, сезонность, изменения интерфейса — они могут «перекрывать» эффект модели.

Если хочется научиться строить ML-модели так, чтобы они работали не только «в тетрадке», но и в бизнесе:
— AI-агенты для DS-специалистов
— ML для старта в Data Science

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

595 views17:58