Размер batch напрямую связан с настройкой базового learning rate (LR) и расписания.
Большой batch:
— Позволяет использовать больший стабильный LR.
— Часто требует warmup-фазы: постепенного увеличения LR от малого значения до целевого.
— Конвергенция может быть чувствительна: даже небольшой перекос в LR ведёт к дивергенции или плохому локальному минимуму.
Малый batch:
— Даёт шумные оценки градиентов, поэтому нужен меньший базовый LR.
— Лучше работают более консервативные decay-расписания или адаптивные/циклические методы, которые сглаживают шум.
⚠️ Подводный камень:
Если сильно увеличить batch, но оставить старое расписание LR, обучение может «взорваться» (слишком большой эффективный шаг) или наоборот — застопориться, если расписание оказалось слишком осторожным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Даже для простых методов, как kNN, ключ к борьбе с переобучением — грамотный выбор гиперпараметров и работа с признаками.
Например:
Если хочется прокачаться не только в kNN, но и в более продвинутых методах (и без переобучения):
— AI-агенты для DS-специалистов
— ML для старта в Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
7 октября стартует второй поток курса «AI-агенты для DS-специалистов».
За 5 недель вы научитесь собирать агентов, которые уже сейчас будут помогать бизнесу.
В кружке выше Максим Шаланкин, наш преподаватель, рассказывает подробнее — включай, чтобы не пропустить.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🫥 Какие признаки могут указывать на то, что модель застряла в saddle point
Плато в loss не всегда значит минимум; анализ кривизны и наблюдение за динамикой обучения помогают распознать saddle points.
➡️ Плато в loss: функция потерь почти не меняется на протяжении многих итераций.
➡️ Анализ кривизны: если посмотреть на Гессиан или приблизительные вторые производные, можно заметить направления с отрицательной кривизной, где градиент ещё не ноль.
➡️ Резкий спад при адаптивных методах: использование momentum или адаптивного learning rate может внезапно снизить loss после долгого плато — это значит, что модель была в saddle region, а не в настоящем минимуме.
🐸 Библиотека собеса по Data Science
Плато в loss не всегда значит минимум; анализ кривизны и наблюдение за динамикой обучения помогают распознать saddle points.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
❗ Так, владелец макбука. Хватит позировать в кофейне.
Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.
Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.
ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.
🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.
👉 Апгрейд от «вайба» до «оффера» тут
Настоящее портфолио — это не стикеры на крышке, а проект с чистым кодом, README и рабочей демкой.
Не знаешь, как такой собрать? Научим. Наш курс «ML для старта в Data Science» — это пошаговый гайд к проекту, за который не стыдно.
ОСТАЛАСЬ НЕДЕЛЯ, чтобы забрать его по старой цене в 44.000 ₽. С 1 сентября — всё.
🎁 И да, при покупке курса ML до 1 сентября — курс по Python получаешь бесплатно.
👉 Апгрейд от «вайба» до «оффера» тут
Обе группы моделей требуют внимательного подхода к гиперпараметрам, но непараметрические методы часто более чувствительны к их выбору и могут потребовать продвинутых стратегий поиска.
🧮 Параметрические модели:
— Настраиваются регуляризация (например, λ в Ridge/Lasso), архитектура нейросетей, степень полинома и т.д.
— Важно учитывать взаимодействие гиперпараметров: глубина сети, learning rate, регуляризация.
— Обычно меньше гиперпараметров, чем у сложных непараметрических методов, но у глубоких сетей их может быть много.
🌲 Непараметрические модели:
— Настройка может включать: размер соседства в kNN, ширину ядра в KDE, глубину дерева в Random Forest и др.
— Каждый гиперпараметр сильно влияет на комплексность модели и баланс bias/variance.
— Иногда требуется grid search или Bayesian optimization, особенно при большом гиперпараметрическом пространстве.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
Если положительные объекты иногда промаркированы как отрицательные (и наоборот), это снижает видимую производительность модели:
Если интересно глубже разобраться, как метрики ведут себя при шумных данных и как строить более надёжные модели:
— AI-агенты для DS-специалистов
— ML для старта в Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
📢 Какой сетап идеально подойдёт для разработки AI-агента?
Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.
❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9
Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.
👉 Научим, как строить агентов, которые кодят с тобой
Голосуйте за свой вариант и пишите в комментариях, в каком режиме вы реально кодите.
❤️ — 1
👍 — 2
⚡️ — 3
👏 — 4
🔥 — 5
🎉 — 6
😁 — 7
😍 — 8
🤩 — 9
Какой бы сетап ни был, без AI-агентов в 2025 всё равно далеко не уедешь.
👉 Научим, как строить агентов, которые кодят с тобой
🤩3👍1😁1
Частая ошибка — оптимизировать модель по ML-метрикам (AUC, accuracy) на этапе разработки, а в продакшене обнаружить, что реальный успех измеряется бизнес-KPI (конверсия, доход, удержание пользователей). В итоге модель может показывать отличные офлайн-результаты, но не влиять на бизнес.
Как решать:
Если хочется научиться строить ML-модели так, чтобы они работали не только «в тетрадке», но и в бизнесе:
— AI-агенты для DS-специалистов
— ML для старта в Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Нет, так делать не рекомендуется. Если отбор признаков выполняется на всём датасете, информация из теста «просачивается» в обучение → возникает data leakage, а итоговые метрики оказываются слишком оптимистичными.
Правильный подход:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
⏰ Осталось 48 часов!
Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.
⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.
👉 Забрать место
Обратный отсчёт пошёл: только до воскресенья 23:59 можно купить курс «AI-агенты для DS-специалистов» и начать учиться уже с 15 сентября.
⚡️ Это ваши +3 недели форы, чтобы спокойно разобраться в самых сложных темах и прийти к первому занятию 7 октября уже подготовленным.
👉 Забрать место
🤓 «Сначала выучу Python идеально, а потом пойду в ML»
Звучит логично, но на практике — ловушка.
Python огромный: фреймворки, библиотеки, нюансы синтаксиса. Учить «всё сразу» можно бесконечно.
В итоге — месяцы зубрёжки, а до ML руки так и не доходят.
На старте достаточно баз: типы данных, циклы, функции, работа с библиотеками. Всё остальное лучше подтягивать в процессе решения ML-задач.
⚠️ До 1 сентября курсы можно забрать по старым ценам. Это последние выходные, когда:
— ML идёт за 34 000 вместо 44 000 ₽ + Python в подарок,
— два в одном: оплатите курс по математике и получите второй доступ в подарок,
— и главное: можно купить все курсы до подорожания.
👉 ML для старта в Data Science
А для будущих Data Scientist’ов у нас ещё:
— Базовые модели ML и приложения
— Математика для Data Science
— AI-агенты для DS-специалистов (2-й поток скоро)
Звучит логично, но на практике — ловушка.
Python огромный: фреймворки, библиотеки, нюансы синтаксиса. Учить «всё сразу» можно бесконечно.
В итоге — месяцы зубрёжки, а до ML руки так и не доходят.
На старте достаточно баз: типы данных, циклы, функции, работа с библиотеками. Всё остальное лучше подтягивать в процессе решения ML-задач.
⚠️ До 1 сентября курсы можно забрать по старым ценам. Это последние выходные, когда:
— ML идёт за 34 000 вместо 44 000 ₽ + Python в подарок,
— два в одном: оплатите курс по математике и получите второй доступ в подарок,
— и главное: можно купить все курсы до подорожания.
👉 ML для старта в Data Science
А для будущих Data Scientist’ов у нас ещё:
— Базовые модели ML и приложения
— Математика для Data Science
— AI-агенты для DS-специалистов (2-й поток скоро)
Кросс-валидация особенно полезна в условиях дефицита данных, так как позволяет максимально использовать выборку. Но при очень маленьком датасете есть нюансы:
Когда данных меньше ~100, часто используют leave-one-out. В этом случае на каждом шаге модель обучается на всех объектах, кроме одного, а этот единственный объект идёт в тест. Так данные используются максимально, но метрика может иметь высокую дисперсию.
При многократной настройке гиперпараметров под одни и те же фолды легко подстроиться под шум или особенности отдельных примеров. Поэтому, если возможно, держите отдельный hold-out набор.
В малых данных каждый пример сильно влияет на метрику. Один выброс может кардинально исказить результат. Чтобы снизить случайные колебания, иногда повторяют кросс-валидацию с разными сидами и усредняют метрики.
Практические советы:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
ПОСЛЕДНИЙ ДЕНЬ❗
КУРСЫ ПОДОРОЖАЮТ ЗАВТРА‼️
— ML за 34к вместо 44к + Python в подарок
— Математика → второй доступ в подарок
— Ранний доступ к AI-агентам с 15 сентября
— И МОЖНО УСПЕТЬ КУПИТЬ ВСЁ ДО ПОДОРОЖАНИЯ
👉 Proglib Academy
КУРСЫ ПОДОРОЖАЮТ ЗАВТРА‼️
— ML за 34к вместо 44к + Python в подарок
— Математика → второй доступ в подарок
— Ранний доступ к AI-агентам с 15 сентября
— И МОЖНО УСПЕТЬ КУПИТЬ ВСЁ ДО ПОДОРОЖАНИЯ
👉 Proglib Academy
👉 Чем отличается алгоритм EM от градиентных методов при максимизации правдоподобия
🔹 Градиентный спуск
— Работает напрямую с градиентом лог-правдоподобия.
— Требует подбора шага обучения и других гиперпараметров (например, momentum).
— Универсален, но чувствителен к настройкам.
🔹 Алгоритм EM (Expectation–Maximization)
— Вместо прямого градиентного шага чередует E-шаг (оценка скрытых переменных) и M-шаг (максимизация по параметрам).
— Для моделей вроде GMM или HMM шаги часто имеют аналитическое решение, что делает обновления более “прямыми” и устойчивыми.
— Каждая итерация гарантированно не уменьшает значение функции правдоподобия.
🔹 Общие моменты
— Оба метода могут застрять в локальных максимумах (особенно при плохой инициализации).
— EM часто быстрее сходится для задач со скрытыми переменными, тогда как градиентные методы универсальнее и применимы даже там, где M-шаг не имеет закрытой формы.
🐸 Библиотека собеса по Data Science
🔹 Градиентный спуск
— Работает напрямую с градиентом лог-правдоподобия.
— Требует подбора шага обучения и других гиперпараметров (например, momentum).
— Универсален, но чувствителен к настройкам.
🔹 Алгоритм EM (Expectation–Maximization)
— Вместо прямого градиентного шага чередует E-шаг (оценка скрытых переменных) и M-шаг (максимизация по параметрам).
— Для моделей вроде GMM или HMM шаги часто имеют аналитическое решение, что делает обновления более “прямыми” и устойчивыми.
— Каждая итерация гарантированно не уменьшает значение функции правдоподобия.
🔹 Общие моменты
— Оба метода могут застрять в локальных максимумах (особенно при плохой инициализации).
— EM часто быстрее сходится для задач со скрытыми переменными, тогда как градиентные методы универсальнее и применимы даже там, где M-шаг не имеет закрытой формы.
Please open Telegram to view this post
VIEW IN TELEGRAM