Библиотека собеса по Data Science | вопросы с собеседований

📊 Как байесовский вывод масштабируется для высокоразмерных данных

Байесовский вывод становится сложным по мере увеличения размерности — апостериорное распределение может быть чрезвычайно сложным, и точные вычисления становятся невозможными.

Основные подходы

👇

1️⃣

Вариационный вывод (Variational Inference, VI):
— Аппроксимирует апостериорное распределение более простой семьей распределений.
— Параметры оптимизируются для минимизации расхождения с истинным апостериорным распределением.
— Эффективно, но вводит ошибку аппроксимации.

2️⃣

Методы Монте-Карло по цепям Маркова (MCMC):
— Генерация выборок из апостериора (например, Hamiltonian Monte Carlo).
— Мощный метод, но медленный при высокой размерности.

3️⃣

Байесовские нейронные сети:
— Используют аппроксимации, например, Monte Carlo dropout, для оценки неопределенности.
— Вычислительно затратны, но возможны при аккуратной настройке.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

457 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

⏱ Какие основные проблемы при применении стандартной k-fold кросс-валидации к временным рядам

Временные ряды часто имеют сильные зависимости во времени.

Стандартная k-fold кросс-валидация использует случайные разбиения, игнорируя порядок времени. Это может привести к «утечке будущей информации» в тренировочный набор.

Например, если данные из будущего используются для обучения, а валидация проводится на данных из прошлого, оценка модели будет нереалистичной для реального прогнозирования.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

404 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

⚡️ Как устанавливать скорость обучения (learning rate) при дообучении модели (fine-tuning)

При дообучении обычно используют меньшую скорость обучения для предварительно обученных слоёв и более высокую — для вновь добавленных слоёв.

Это позволяет сохранять полезные представления, которые модель уже изучила, и аккуратно их корректировать.

Часто применяют постепенное уменьшение learning rate по слоям: глубокие слои получают очень маленький шаг, а новые слои — больший.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

364 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

⏳ Как кросс-валидация помогает определить переобучение и недообучение

Кросс-валидация разбивает данные на несколько фолдов, используя одни для валидации, а другие — для обучения, и поочередно меняет роли фолдов.

➡️ Переобучение (overfitting): модель показывает высокую точность на тренировочных фолдах, но сильно различающиеся или низкие результаты на валидационных фолдах.

➡️ Недообучение (underfitting): модель плохо работает как на тренировочных, так и на валидационных фолдах.

Кросс-валидация даёт более надёжную оценку обобщающей способности модели и помогает принимать решения по выбору модели, настройке гиперпараметров и архитектуры.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

314 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал

Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.

Но всё самое интересное только начинается!

🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.

💸 Сейчас действует специальная цена → 69.000 ₽ вместо ~~79.000 ₽~~.

⏳ Осталось всего 4 места.

Не упустите шанс прокачаться в том, что будет определять будущее индустрии.

👉 Забронировать место на курсе

290 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

⚡️

Как аугментация данных влияет на эффективный размер входа для свёрточной сети

Многие техники аугментации (например, случайные обрезки, масштабирование, добавление паддинга) могут изменять фактический размер входного изображения.

➡️ Например, при случайной обрезке 32×32 до 28×28 нужно убедиться, что свёрточные слои могут работать с таким размером.

Если использовать случайные или меньшие размеры, важно иметь достаточный паддинг или архитектуру, способную обрабатывать разные размеры.

Потенциальная ошибка: случайная обрезка может дать слишком маленький тензор для слоёв с большим страйдом или минимальным размером входа.

😶‍🌫️ В реальных пайплайнах аугментации стоит проверять, чтобы они не приводили к недопустимым размерам.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

177 views17:59

About

Blog

Apps

Platform