Библиотека собеса по Data Science | вопросы с собеседований
4.29K subscribers
456 photos
13 videos
1 file
509 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
⚙️ Почему не стоит использовать Mean Squared Error (MSE) для многоклассовой классификации

Формально MSE можно применять, сравнивая логиты или вероятности с one-hot разметкой. Но на практике есть серьёзные минусы:
🚩 Слабый градиент: MSE даёт менее прямой сигнал для увеличения вероятности правильного класса и подавления остальных.
🚩 Медленная сходимость: обучение идёт дольше, так как градиенты «размазаны».
🚩 Нет явной вероятностной интерпретации: MSE не напрямую связано с максимизацией правдоподобия.

Кросс-энтропия (Cross-Entropy), напротив:
🚩 Напрямую соответствует задаче максимизации лог-правдоподобия.
🚩 Даёт более информативные градиенты.
🚩 На практике почти всегда сходится быстрее и стабильнее.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
⚡️ Будь как этот гений с картинки — предлагай свои условия работодателю, а не наоборот!

Кто нужен?

Senior ML-Engineer с опытом работы более 6 месяцев в FAANG компаниях. Требование: разработать кросс-платформенное приложение-трекер зарплат с AI-распознаванием вакансий по резюме.


Но если вы пока джун — я бы предложил:

- Full-time контракт: 180к/мес после курса + опцион на карьеру в топ-компаниях

- Либо фикс за проект: стань ML-инженером за 39к вместо 44к с промокодом LASTCALL

🔗 Старт 9 сентября
💬 Гарантирует ли одна только контейнеризация воспроизводимость результатов

Контейнеризация (Docker, Singularity и т.п.) отлично фиксирует окружение: версии библиотек, драйверы CUDA, системные зависимости.

Но этого недостаточно, если другие факторы не контролируются:
➡️ Данные: если модель тянет «живые» данные без сохранённого среза, результат будет меняться.
➡️ Случайность: без фиксации random seeds итог обучения может отличаться.
➡️ Гиперпараметры и конфигурации: их нужно явно сохранять и версионировать.
➡️ Аппаратное различие: разные GPU/CPU могут давать небольшие численные расхождения из-за особенностей вычислений с плавающей точкой.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
Иногда реально ощущение, что нас держат в Матрице.

Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.

Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.

Кто готов вырваться из симуляции и ворваться в сезон найма?

👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно

👉 Забронируй место сейчас
⚡️ Какие ограничения у логистической регрессии по сравнению с более гибкими моделями

➡️ Линейность: Logistic regression строит линейное разделение в пространстве признаков. Если границы классов нелинейные, она не справится без ручной трансформации признаков или использования полиномиальных расширений.

➡️ Аддитивность признаков: модель предполагает, что признаки складываются на шкале логарифма шансов (log-odds), что не всегда верно в реальных данных.

➡️ Ограниченная выразительная сила: при неразделимых линейно классах нужна сложная инженерия признаков.

Более гибкие модели (Random Forest, Gradient Boosting, нейросети) умеют:
➡️ захватывать сложные нелинейные зависимости,
➡️ строить более сложные поверхности решений,
➡️ но требуют больше данных и тщательной настройки гиперпараметров.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
🔥 Почему для сложных временных рядов иногда предпочтительнее непараметрические модели

🚩 Временные ряды часто содержат нелинейную динамику, сезонность и локальные зависимости, которые сложно описать простой параметрической моделью.

🚩 Непараметрические подходы (например, kernel-based или kNN для временных рядов) адаптируются к локальным структурам без жестких предположений о функциональной форме.

🚩 Они могут точнее уловить локальные паттерны, чем линейные модели или модели с фиксированным законом затухания.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1