Библиотека собеса по Data Science | вопросы с собеседований
4.3K subscribers
447 photos
12 videos
1 file
481 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢
💬 В чём разница между LIME и SHAP с точки зрения стабильности объяснений и теоретической основы

Обе методики дают локальные объяснения, но:

SHAP — основан на теории кооперативных игр и гарантирует согласованность и аддитивность. Если вклад признака растёт во всех возможных комбинациях признаков, его значение SHAP не уменьшится. Это даёт более стабильные объяснения между запусками, но требует больше вычислительных ресурсов.

LIME — использует локальную линейную аппроксимацию и создаёт объяснение на основе случайной выборки точек вокруг объекта. Из-за случайности результат может меняться между запусками, зато метод проще и быстрее.

Итог: SHAP — стабильнее и теоретически обоснованнее, LIME — быстрее и проще.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Что такое мультиколлинеарность и почему она опасна для регрессионных моделей

Мультиколлинеарность — это ситуация, когда два или более признака сильно коррелируют между собой.

Последствия:
Коэффициенты модели становятся нестабильными и трудно интерпретируемыми.
Стандартные ошибки увеличиваются, снижается статистическая значимость признаков.
Модель хуже обобщается на новые данные.

Решения:
Удалить один из коррелирующих признаков.
Применять регуляризацию (Ridge/Lasso).
Использовать методы снижения размерности (PCA).

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
▶️ Могут ли в Adam возникать проблемы исчезающих или взрывающихся градиентов

Да, полностью избежать этих проблем Adam не может. Хотя адаптивное изменение шагов помогает уменьшить эффект исчезающих или взрывающихся градиентов, при определённых архитектурах или распределениях данных они всё равно могут появляться.

Если градиенты резко становятся очень большими, шаг Adam тоже может временно стать слишком большим, особенно если оценка второго момента ещё не усреднилась. В обратной ситуации — при очень маленьких градиентах — Adam постепенно уменьшает шаг, что может привести к слишком медрому обучению, даже если параметрам нужно сделать крупные поправки.

📌 Вывод: Adam снижает риск, но не полностью устраняет проблемы исчезающих и взрывающихся градиентов — архитектура сети и нормализация данных по-прежнему критически важны.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
😎 Вы просили — мы сделали. Самый долгожданный анонс этого лета!

Мы открываем набор на второй поток курса «AI-агенты для DS-специалистов»!

На курсе мы учим главному навыку 2025 года: не просто «болтать» с LLM, а строить из них рабочие системы с помощью Ollama, RAG, LangChain и crew.ai.

📆 Старт потока — 15 сентября.

💸 Цена 49 000 ₽ действует только в эти выходные — до 17 августа. С понедельника будет дороже.

👉 Занять место
😢2
🔎 В чём разница между 1D, 2D и 3D свёртками и в каких задачах их применяют

1D свёртки
Работают вдоль одной размерности (с каналами). Часто применяются для последовательных данных: аудио, текстовые последовательности после эмбеддинга. Ядро имеет форму kernel_size × in_channels и скользит по одной оси.

2D свёртки
Стандарт для изображений. Ядро скользит по ширине и высоте (и по каналам). Идеальны для обработки обычных 2D-картинок.

3D свёртки
Добавляют третью ось, например, время или глубину. Используются для видео (высота × ширина × время). Ядро может быть, например, 3×3×3, чтобы одновременно улавливать пространственные и временные зависимости.

Особенности:
Неправильная размерность приводит к несоответствию данных и модели.
3D свёртки требовательны к памяти, поэтому часто используют комбинации 2D + временное объединение или (2+1)D свёртки (разделяют пространственную и временную части).

Вывод: Выбор типа свёртки зависит от структуры данных: последовательности — 1D, изображения — 2D, видео — 3D.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
🔥 Последняя неделя, чтобы забрать курс по AI-агентам по старой цене!

Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!

Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.

📆 Старт — 15 сентября.

💸 Цена 49 000 ₽ — только до 24 августа.

👉 Зафиксировать цену
🤔 Что делать, если утечка данных (data leakage) обнаружена уже после вывода модели в прод

В такой ситуации нужно немедленно исключить утёкшие признаки из пайплайна и переобучить модель без них. Утечка данных приводит к завышенным офлайн-метрикам, поэтому все оценки нужно пересчитать заново. После переобучения важно убедиться, что модель действительно справляется с реальными данными, где этой информации нет.

Также необходимо:
оценить, насколько широко была развернута утёкшая модель;
при необходимости откатить (rollback) её или быстро заменить новой;
в критичных системах иметь резервную/параллельную модель, которую можно включить на время расследования.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
🧃 Можно ли выполнять отбор признаков на всём датасете до разбиения на train и test

Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.

Правильный подход:
1️⃣ Разбиваем данные на train и test (и фолды для кросс-валидации, если нужно).
2️⃣ В каждом тренировочном фолде выполняем отбор признаков (RFE, фильтры или встроенные методы) и обучаем модель.
3️⃣ Оцениваем качество на валидационном фолде.
4️⃣ После кросс-валидации фиксируем набор признаков или пайплайн.
5️⃣ Переобучаем модель на всём тренировочном наборе с выбранными признаками и оцениваем на отдельном тесте.

Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.

Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы:
AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами)
ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума

21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.

Тема:
«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».


Подробности рассказываю в гс выше — включай, чтобы не пропустить.
This media is not supported in your browser
VIEW IN TELEGRAM
☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.

Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.

Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.

Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.


Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.

Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».

💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.

👉 Начать строить RAG раньше других
🤓 Если миноритарный класс не только меньше, но и более разнообразный, поможет ли oversampling

Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.

➡️ Что можно сделать:

Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.

Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.

😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь
Как обрабатывать пропущенные данные в задачах unsupervised learning или кластеризации, где нет целевой переменной

В unsupervised задачах (кластеризация, оценка плотности) мы не можем ориентироваться на метрики предсказания, поэтому обработка пропусков опирается на структуру данных.

Подходы:
Парные метрики расстояния: некоторые алгоритмы (например, иерархическая кластеризация) позволяют задавать метрику, которая игнорирует пропущенные признаки или учитывает их особым образом.
Импутация через снижение размерности: методы вроде PCA можно адаптировать для пропусков, заполняя отсутствующие значения с помощью низкоранговой аппроксимации (связано с матричной факторизацией).
Soft clustering / EM-подходы: смеси распределений (например, Gaussian Mixture Models) могут обрабатывать пропуски, маргинализируя по отсутствующим измерениям с использованием EM-итераций для оценки пропущенных значений.

Подводные камни:
🚩 Игнорирование пропусков в метрике расстояния может искажать расстояния, если много признаков отсутствует.
🚩 EM-подходы могут сходиться к локальным минимумам или быть нестабильными при слишком большом количестве пропусков.
🚩 В unsupervised задачах сложнее оценить корректность импутации — обычно опираются на силуэтные метрики или доменную интерпретируемость кластеров.

Если хотите не просто читать про EM и PCA, а реально попрактиковаться на данных и задачах кластеризации, есть классные курсы для Data Science-специалистов:
AI-агенты для DS-специалистов
ML для старта в Data Science

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
👉 Как влияют dilated (atrous) свёртки на receptive field

Dilated свёртки используют пробелы >1 между элементами ядра. В обычной свёртке с ядром 3×3 фильтр смотрит на соседние позиции.

В dilated свёртке с dilation rate = d фильтр «пропускает» некоторые позиции, охватывая большую область входа, не увеличивая число параметров.

Пример: ядро 3×3 с dilation=2 фактически покрывает область 5×5, но остаётся с 9 параметрами.

⚡️ Применение: особенно полезно в semantic segmentation и других задачах, где важно учитывать глобальный контекст, сохраняя при этом высокое разрешение feature maps.

Если хотите не просто читать про receptive field, а практически применять свёртки и строить свои модели, есть классные курсы для Data Science и ML:
AI-агенты для DS-специалистов
ML для старта в Data Science

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
👇 Как размер batch влияет на выбор стратегии изменения learning rate

Размер batch напрямую связан с настройкой базового learning rate (LR) и расписания.

Большой batch:
— Позволяет использовать больший стабильный LR.
— Часто требует warmup-фазы: постепенного увеличения LR от малого значения до целевого.
— Конвергенция может быть чувствительна: даже небольшой перекос в LR ведёт к дивергенции или плохому локальному минимуму.

Малый batch:
— Даёт шумные оценки градиентов, поэтому нужен меньший базовый LR.
— Лучше работают более консервативные decay-расписания или адаптивные/циклические методы, которые сглаживают шум.

⚠️ Подводный камень:
Если сильно увеличить batch, но оставить старое расписание LR, обучение может «взорваться» (слишком большой эффективный шаг) или наоборот — застопориться, если расписание оказалось слишком осторожным.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2