Библиотека собеса по Data Science | вопросы с собеседований – Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib

4.27K subscribers

479 photos

15 videos

1 file

590 links

Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197

Download Telegram

About

Blog

Apps

Platform

Библиотека собеса по Data Science | вопросы с собеседований

4.27K subscribers

Библиотека собеса по Data Science | вопросы с собеседований

Началось

772 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

🚩

Как расширить LSTM для двунаправленной обработки (Bidirectional LSTM)

В двунаправленной LSTM используются два отдельных блока:
➡️ один обрабатывает последовательность вперёд (от начала к концу),
➡️ второй — назад (от конца к началу).

На каждом шаге скрытые состояния обоих направлений объединяются (чаще всего конкатенацией) и формируют итоговое представление.

📌 Это даёт модели доступ к контексту из прошлого и будущего одновременно.

Пример:
➡️ в задачах NLP (классификация текста, распознавание именованных сущностей) двунаправленные LSTM показывают заметный прирост качества,
➡️ механизмы работы с памятью (гейты) остаются теми же, только потоки данных идут в двух направлениях.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

788 viewsedited 17:48

Библиотека собеса по Data Science | вопросы с собеседований

✔️

Почему Adam иногда требует меньше подбора гиперпараметров, чем SGD

▶️ Adam автоматически адаптирует шаг обучения на основе статистик градиентов. Это делает его более устойчивым к неудачно выбранным начальными learning rate.

▶️ В случае SGD неправильный выбор learning rate (слишком большой или слишком маленький) может серьёзно замедлить или даже сорвать обучение.
Adam же, благодаря нормализации по второй моментной оценке градиентов, сглаживает такие перекосы и чаще выходит на стабильный режим обучения без тонкой ручной настройки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

717 views17:46

Библиотека собеса по Data Science | вопросы с собеседований

This media is not supported in your browser

VIEW IN TELEGRAM

📅 24 сентября в 19:00 МСК — бесплатный вебинар с Максимом Шаланкиным.

Тема: «ИИ-агенты: новая фаза развития искусственного интеллекта».

🔹 Почему все говорят про ИИ-агентов и куда вливаются миллиарды инвестиций.
🔹 Чем они отличаются от ChatGPT и обычных ботов.
🔹 Как работает цикл агента: восприятие → планирование → действие → обучение.
🔹 Живое демо простого агента.
🔹 Потенциал для бизнеса: автоматизация процессов и ROI до 80%.

Не придёшь — будешь потом рассказывать, что «агенты — это как чат-боты», и ловить косые взгляды от коллег 😏

👉 Регистрируйтесь через форму на лендинге

❤1

659 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

👉 Как помогает gradient clipping на практике

Gradient clipping — это приём, который защищает обучение от взрывающихся градиентов (особенно в RNN и LSTM).

Суть: после вычисления градиентов проверяется их общий норм. Если он превышает заданный порог, вектор градиентов масштабируется вниз, чтобы уложиться в лимит.

Это позволяет:
➡️ избежать слишком больших обновлений весов,
➡️ стабилизировать обучение,
➡️ уменьшить риск расхождения оптимизации.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

667 views18:45

Библиотека собеса по Data Science | вопросы с собеседований

⚡️ Бесплатный вебинар — ИИ-агенты: новая фаза развития AI

24 сентября в 19:00 МСК состоится бесплатный вебинар с Максимом Шаланкиным — Data Science Team Lead в финтех-команде MWS, а познакомиться с ним ближе можно в его тг-канале.

Тема:

«ИИ-агенты: новая фаза развития искусственного интеллекта».

На вебинаре разберёмся, почему агенты — это следующий шаг после ChatGPT, чем они отличаются от обычных моделей и как уже приносят бизнесу ROI до 80%. А дальше я покажу, как эта тема ложится в наш курс по ИИ-агентам, который разработан под руководством Никиты Зелинского.

Подробности рассказываем в гс выше — включай, чтобы не пропустить.

❤1

727 views14:44

Библиотека собеса по Data Science | вопросы с собеседований

🔎

Влияет ли выбор оптимизатора (SGD, Momentum, Adam) на стратегию планирования learning rate

Да, оптимизатор определяет, какой тип scheduler лучше работает:
🔹 Чистый SGD: очень чувствителен к величине шага. Часто применяют ступенчатое или постоянное убывание.
🔹 SGD с momentum / Nesterov: за счёт сглаживания колебаний позволяет использовать более агрессивные схемы — например, экспоненциальный decay.
🔹 Adam / RMSProp: хотя они адаптируют шаг для каждого параметра, глобальный learning rate всё равно важен. Обычно применяют полиномиальные или экспоненциальные schedules, но стартовое значение LR берут меньше, чем для SGD.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

718 views18:23

Библиотека собеса по Data Science | вопросы с собеседований

➡️ Может ли PCA терять важную информацию во временных рядах

Да. Если применять PCA напрямую, рассматривая каждое значение временного ряда как признак, метод полностью игнорирует порядок во времени. Это значит, что такие свойства как автокорреляция, тренды, сезонность могут быть потеряны. PCA лишь ищет направления максимальной дисперсии, но не учитывает динамику последовательности.

Как сохранить временную структуру:
🟠 строить признаки с «окнами» (short-term history),
🟠 применять windowed PCA на перекрывающихся сегментах,
🟠 использовать специальные методы: динамические факторные модели, time-lagged embeddings и др.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

743 views17:48

Библиотека собеса по Data Science | вопросы с собеседований

💬 Чем отличаются BatchNorm, LayerNorm и InstanceNorm

1️⃣ BatchNorm — нормализует по batch-измерению (и пространственным координатам в CNN) для каждого признака. Хорошо работает при больших батчах, но нестабилен при очень малых.

2️⃣ LayerNorm — нормализует по всем признакам внутри одного сэмпла. Часто используется в RNN и трансформерах, так как не зависит от размера batch.

3️⃣ InstanceNorm — нормализует каждый канал отдельно для каждого примера. Популярен в задачах style transfer, где важна независимость нормализации внутри одного изображения.

4️⃣ GroupNorm — компромисс: делит каналы на группы и нормализует внутри группы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

702 views17:22

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Не пропустите событие осени для AI-комьюнити

24 сентября, 19:00 Мск — бесплатный вебинар с Максимом Шаланкиным «ИИ-агенты: новая фаза развития искусственного интеллекта»

😤 Пока все спорят, «боты это или нет», мы покажем, как работают настоящие агенты: с планированием, инструментами и памятью. За час Максим разберёт:
— почему ИИ-агенты сейчас на пике инвестиций
— чем они отличаются от ChatGPT и обычных моделей
— цикл агента: восприятие → планирование → действие → обучение
— живое демо простого агента
— как бизнес уже получает ROI до 80%

⚡️ Хотите спросить у Максима всё, что обычно остаётся «за кадром»? Ловите шанс — только в прямом эфире.

⏰ Мест мало, регистрация закроется, как только забьём комнату

735 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

🔰

Как можно использовать negative sampling или похожие цели для обучения word embeddings

Negative sampling — популярная техника из Word2Vec для обучения эмбеддингов без разметки:
👉 Модель максимизирует схожесть целевого слова с реальными соседями (positive examples).
👉 Одновременно минимизирует схожесть с случайно выбранными словами (negative examples).
👉 Так обучение эффективно и масштабируемо, даже для огромных словарей.

📌 Модель учится отличать правильные соседства слов от случайного шума, что позволяет эмбеддингам захватывать семантические связи между словами.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

676 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

❗ Сегодня премьера

В 19:00 МСК стартует бесплатный вебинар с Максимом Шаланкиным — «ИИ-агенты: новая фаза развития искусственного интеллекта».

В программе:
— почему агенты ≠ чат-боты;
— живое демо простого агента;
— и как эта тема встроена в курс, который разработан под руководством Никиты Зелинского.

⏰ Это прямой эфир: подключиться можно через лендинг курса.

697 views09:12

Библиотека собеса по Data Science | вопросы с собеседований

На какие слои лучше накладывать L1/L2-регуляризацию в глубокой сети

Не все слои одинаково выигрывают от регуляризации. Основные моменты:
➡️ Входной слой: L1 может помочь в отборе признаков, зануляя веса для нерелевантных фич.
➡️ Скрытые слои: полезно для широких dense-слоёв, чтобы снизить сложность и переобучение.
➡️ Выходной слой: регуляризация на финальных весах может немного улучшить обобщающую способность, но не решает проблему, если ранние слои сильно переобучены.
➡️ CNN: регуляризация фильтров может «обрезать» целые каналы, ускоряя сеть. Для dense-слоёв чаще возникает разреженность весов.

Подводный камень: одинаковый коэффициент λ для всех слоёв может быть неэффективным. Ранние слои (низкоуровневые признаки) часто менее склонны к переобучению, чем глубокие.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

711 views18:48

Библиотека собеса по Data Science | вопросы с собеседований

💬 Как инициализировать параметры в логистической регрессии, и важно ли это

Частый вариант: веса
𝑤
w инициализируют нулями или малыми случайными значениями.

🔎 Почему работает: отрицательный логарифм правдоподобия в логистической регрессии — выпуклая функция, поэтому оптимизация сходится к глобальному минимуму независимо от стартовой точки.

🔎 Когда стоит подумать о случайной инициализации: при огромном числе признаков или сильно скоррелированных признаках случайная инициализация может помочь избежать вырожденных конфигураций.

🙂 Для стандартных задач нулевая инициализация чаще всего достаточно хороша; проблем с глобальным минимумом не возникает.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

656 views19:23

Библиотека собеса по Data Science | вопросы с собеседований

🤫 Курс «ИИ-агенты для DS-специалистов»

Каждый технологический скачок оставляет позади тех, кто «подождал ещё чуть-чуть». ИИ-агенты — это новый рывок.

Уже через пару лет именно они будут драйвить аналитику и автоматизацию. Хотите остаться на гребне?

🖥️ На курсе «ИИ-агенты для DS-специалистов» мы разберём:

— создание AI-агентов с нуля
— сборку собственной RAG-системы
— интеграцию LLM под задачи бизнеса

📌 Курс подходит:

→ ML/AI инженерам (middle+ / senior)
→ Data Scientists
→ Backend и platform-инженерам
→ Advanced CS/DS студентам

⚡️ Старт уже скоро — 3 октября.

💰 До 28 сентября действует скидка — 57.000 ₽ вместо 69.000 ₽ (по промокоду datarascals).

🔗 Узнать больше о курсе и записаться

З.ы. если вы не успели на вебинар «ИИ-агенты: новая фаза развития искусственного интеллекта» — запись уже доступна

659 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

✅ Совпадают ли главные компоненты (PCA) с независимыми факторами в данных

Не всегда.

❇️ PCA находит некоррелированные направления (ортогональные в пространстве признаков).

❇️ Но некоррелированность ≠ независимость. Две переменные могут быть некоррелированными и при этом зависимыми (например, иметь нелинейную связь).

❇️ Поэтому PCA отлично подходит для снижения размерности, но не гарантирует восстановление «истинных» скрытых факторов.

❇️ Если требуется именно статистическая независимость (например, в задачах разделения источников звука), используют ICA (Independent Component Analysis).

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

673 viewsedited 18:25

Библиотека собеса по Data Science | вопросы с собеседований

🚀 Всё о курсе «ИИ-агенты для DS-специалистов»

❓ Зачем нужны ИИ-агенты?

Это системы, которые берут на себя задачи аналитики и автоматизации. Именно они становятся основой для работы с корпоративными данными и для поддержки принятия решений.

❓ Зачем мне курс?

Курс отвечает на три ключевых вопроса:

— Как построить собственную систему агентов с нуля?
— Каким образом использовать RAG-подход для работы с корпоративными данными?
— Как адаптировать LLM под реальные задачи бизнеса?

❓ Подходит ли это мне?

Курс рассчитан на специалистов уровня middle+ и senior: ML/AI инженеров, Data Scientists, backend и platform-разработчиков. Подойдёт и студентам CS/DS, если вы готовы к продвинутым практикам.

Запись вводной встречи «ИИ-агенты: новая фаза развития искусственного интеллекта» доступна по ссылке.

❓ Когда старт?

Обучение начинается 3 октября.

❓ Сколько стоит?

До 28 сентября действует скидка → 57 000 ₽ вместо ~~69 000 ₽~~ (промокод datarascals).

🔗 Описание программы и регистрация

751 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

📌 Зачем нужна регуляризация в логистической регрессии

Регуляризация добавляет штраф к функции потерь, контролируя величину весов θ. Это:
🟠 предотвращает переобучение на данных с большим числом признаков,
🟠 делает модель устойчивее к шумовым или редко встречающимся признакам,
🟠 улучшает обобщающую способность.

Популярные варианты:
📌 L2 (ridge) — сглаживает веса, делая их небольшими,
📌 L1 (lasso) — зануляет часть весов, отбрасывая неважные признаки.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

741 views18:34

Библиотека собеса по Data Science | вопросы с собеседований

🗂 Может ли регуляризация превратить неконвексную функцию потерь в выпуклую

Стандартные регуляризаторы (например, L1 или L2) не делают нейросетевую задачу выпуклой. Если в модели есть несколько слоёв и нелинейные активации, задача оптимизации остаётся неконвексной.

Однако регуляризация:
🅱️ сглаживает ландшафт функции потерь,
🅱️ уменьшает амплитуду «плохих» локальных минимумов,
🅱️ снижает риск переобучения,
🅱️ помогает найти более устойчивые решения.

👉 То есть регуляризация не исправляет геометрию задачи, но делает обучение практичнее и надёжнее.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

743 views17:48

Библиотека собеса по Data Science | вопросы с собеседований

🔎 Если в признаке много пропущенных значений, стоит ли его всегда удалять

Не обязательно. Пропуски могут сами по себе содержать полезную информацию. Например:

В медицине отсутствие результата теста может говорить о том, что тест не был назначен — это уже сигнал для модели.

Практический подход:
✅ Создать индикатор пропусков — бинарный флаг, показывающий, было ли значение пропущено.
✅ Использовать методы импутации: среднее, медиана, MICE, KNN или специфичные для задачи подходы.

Удалять только если:
— пропуски случайны,
— нет смысла в дополнительной обработке,
— или качество модели не ухудшается без этого признака.

👉 Пропуски — это не всегда «мусор». Иногда они сами по себе становятся информативным признаком.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

730 views18:43

Библиотека собеса по Data Science | вопросы с собеседований

💬 Существует ли доверительный интервал (confidence interval) для AUC

Да. AUC рассчитывается на основе конечной выборки, поэтому подвержен вариабельности.

Как оценить доверительный интервал:
🔹 Бутстрэп (Bootstrapping): многократная переоценка AUC на случайных подвыборках для построения распределения.
🔹 Другие статистические методы: используются для проверки значимости различий между моделями.

✅ В критических приложениях это помогает понять, насколько уверенно модель превосходит альтернативы.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

757 views18:48