Библиотека собеса по Data Science | вопросы с собеседований
4.29K subscribers
447 photos
12 videos
1 file
484 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
Как бороться с переобучением в непараметрических методах, например в kNN

Даже для простых методов, как kNN, ключ к борьбе с переобучением — грамотный выбор гиперпараметров и работа с признаками.

Например:
1️⃣ Тюнинг k: увеличение значения k сглаживает границу решения и снижает дисперсию, что уменьшает риск переобучения.
2️⃣ Взвешивание по расстоянию: ближние соседи получают больший вес, дальние — меньший. Это делает модель более устойчивой.
3️⃣ Кросс-валидация: помогает подобрать оптимальные гиперпараметры систематически.
4️⃣ Снижение размерности: удаление шумных или малоинформативных признаков уменьшает переобучение.

Если хочется прокачаться не только в kNN, но и в более продвинутых методах (и без переобучения):
AI-агенты для DS-специалистов
ML для старта в Data Science

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
🏃‍♀️ Новый поток курса — собери своих AI-агентов

7 октября стартует второй поток курса «AI-агенты для DS-специалистов».
За 5 недель вы научитесь собирать агентов, которые уже сейчас будут помогать бизнесу.

В кружке выше Максим Шаланкин, наш преподаватель, рассказывает подробнее — включай, чтобы не пропустить.

👉 Записаться на курс
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🫥 Какие признаки могут указывать на то, что модель застряла в saddle point

Плато в loss не всегда значит минимум; анализ кривизны и наблюдение за динамикой обучения помогают распознать saddle points.

➡️ Плато в loss: функция потерь почти не меняется на протяжении многих итераций.

➡️ Анализ кривизны: если посмотреть на Гессиан или приблизительные вторые производные, можно заметить направления с отрицательной кривизной, где градиент ещё не ноль.

➡️ Резкий спад при адаптивных методах: использование momentum или адаптивного learning rate может внезапно снизить loss после долгого плато — это значит, что модель была в saddle region, а не в настоящем минимуме.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2