❓Какова связь между масштабированием и PCA
PCAчувствителен к масштабу признаков — признаки с большей дисперсией будут сильнее влиять на главные компоненты .
Поэтому перед применением PCA обычно выполняют масштабирование или стандартизацию: вычитают среднее и делят на стандартное отклонение каждого признака. Это позволяет избежать ситуации, когда признаки с большим масштабом непропорционально влияют на результат, и сосредоточиться на выявлении реальных зависимостей в данных.
Библиотека собеса по Data Science
PCA
Библиотека собеса по Data Science
❤1
📺 Хватит коллекционировать туториалы!
Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas.
Знания без системы — это просто «шум». Они не превращаются в навыки и проекты.
Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио.
И да, чтобы старт был ещё проще — при покупке курса по ML вы получаетекурс по Python в подарок
👉 Превратите «шум» в навык
А вы сталкивались с «информационной кашей»? Как выбирались? 👇
Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas.
Знания без системы — это просто «шум». Они не превращаются в навыки и проекты.
Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио.
И да, чтобы старт был ещё проще — при покупке курса по ML вы получаете
👉 Превратите «шум» в навык
А вы сталкивались с «информационной кашей»? Как выбирались? 👇
❓Как учитывать стоимость ошибок в классификации, если мы опираемся на AUC и ROC-кривые
ROC-кривые и AUC оценивают, насколько хорошо модель ранжирует положительные объекты выше отрицательных, но не учитывают, что цена ложноположительных и ложноотрицательных ошибок можетсильно отличаться .
В задачах с высокими ставками — от поиска мошенничества до медицинской диагностики — важно адаптировать подход:
🔎 Использовать матрицу стоимости или кастомную функцию потерь, чтобы сильнее наказывать определённые ошибки.
🔎 Выбирать порог не для максимизации TPR/FPR, а для минимизации ожидаемой стоимости ошибок.
🔎 Считать дополнительные метрики, например, cost-weighted accuracy или Weighted Error Rate, которые учитывают специфику домена.
Главная ошибка — слепо ориентироваться на AUC: модель с лучшим AUC может оказаться хуже на реальном пороге, где критична стоимость ошибок.
🐸 Библиотека собеса по Data Science
ROC-кривые и AUC оценивают, насколько хорошо модель ранжирует положительные объекты выше отрицательных, но не учитывают, что цена ложноположительных и ложноотрицательных ошибок может
В задачах с высокими ставками — от поиска мошенничества до медицинской диагностики — важно адаптировать подход:
Главная ошибка — слепо ориентироваться на AUC: модель с лучшим AUC может оказаться хуже на реальном пороге, где критична стоимость ошибок.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3
❓ У вас есть набор данных с пропущенными значениями. Как вы подходите к их обработке?
Сначала анализируем, какие данныепропущены и почему (MCAR, MAR, MNAR).
📌 Если пропусков мало, можно удалять строки или колонки.
📌 Если много — импутация: среднее/медиана для числовых, мода для категориальных, или более сложные методы (KNN, MICE).
📌 Для моделей, чувствительных к пропускам (например, деревья ), можно оставить NaN как отдельную категорию.
📌 Важно не искажать распределение данных и фиксировать шаги для воспроизводимости.
🐸 Библиотека собеса по Data Science
Сначала анализируем, какие данные
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🤔1
🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда
Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.
Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».
Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.
👉 Начните правильно
Берёте курс «ML для старта» до конца недели — Python в подарок.
❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.
А какой самый сложный проект вы брались делать в самом начале? 🫢
Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.
Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».
Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.
👉 Начните правильно
Берёте курс «ML для старта» до конца недели — Python в подарок.
❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.
А какой самый сложный проект вы брались делать в самом начале? 🫢
Обе методики дают локальные объяснения, но:
SHAP —
LIME —
Итог: SHAP —
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Мультиколлинеарность — это
Последствия:
—
—
—
Решения:
—
—
—
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
🧠 Выбор первого ML-проекта: чеклист против выгорания
Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.
Мини-чеклист первого проекта:
1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».
2. Измеримая метрика — «точность 92%», а не «ну вроде работает».
3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.
Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.
👉 Начать свой путь в Data Science
Оплатите курс по ML до 17 августа — курс по Python в подарок.
📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.
💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.
Мини-чеклист первого проекта:
1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».
2. Измеримая метрика — «точность 92%», а не «ну вроде работает».
3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.
Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.
👉 Начать свой путь в Data Science
Оплатите курс по ML до 17 августа — курс по Python в подарок.
📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.
💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
📌 Вывод:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
😎 Вы просили — мы сделали. Самый долгожданный анонс этого лета!
Мы открываем набор на второй поток курса «AI-агенты для DS-специалистов»!
На курсе мы учим главному навыку 2025 года: не просто «болтать» с LLM, а строить из них рабочие системы с помощью Ollama, RAG, LangChain и crew.ai.
📆 Старт потока — 15 сентября.
💸 Цена 49 000 ₽ действует только в эти выходные — до 17 августа. С понедельника будет дороже.
👉 Занять место
Мы открываем набор на второй поток курса «AI-агенты для DS-специалистов»!
На курсе мы учим главному навыку 2025 года: не просто «болтать» с LLM, а строить из них рабочие системы с помощью Ollama, RAG, LangChain и crew.ai.
📆 Старт потока — 15 сентября.
💸 Цена 49 000 ₽ действует только в эти выходные — до 17 августа. С понедельника будет дороже.
👉 Занять место
😢2
Особенности:
—
—
Вывод:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
🔥 Последняя неделя, чтобы забрать курс по AI-агентам по старой цене!
Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!
Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.
📆 Старт — 15 сентября.
💸 Цена 49 000 ₽ — только до 24 августа.
👉 Зафиксировать цену
Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!
Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.
📆 Старт — 15 сентября.
💸 Цена 49 000 ₽ — только до 24 августа.
👉 Зафиксировать цену
🤔 Что делать, если утечка данных (data leakage) обнаружена уже после вывода модели в прод
В такой ситуации нужнонемедленно исключить утёкшие признаки из пайплайна и переобучить модель без них. Утечка данных приводит к завышенным офлайн-метрикам, поэтому все оценки нужно пересчитать заново. После переобучения важно убедиться, что модель действительно справляется с реальными данными, где этой информации нет.
Также необходимо:
—оценить, насколько широко была развернута утёкшая модель;
—при необходимости откатить (rollback) её или быстро заменить новой;
—в критичных системах иметь резервную/параллельную модель, которую можно включить на время расследования.
🐸 Библиотека собеса по Data Science
В такой ситуации нужно
Также необходимо:
—
—
—
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.
Правильный подход:
Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.
Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы:
— AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами)
— ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума
21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.
Тема:
Подробности рассказываю в гс выше — включай, чтобы не пропустить.
21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.
Тема:
«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».
Подробности рассказываю в гс выше — включай, чтобы не пропустить.
This media is not supported in your browser
VIEW IN TELEGRAM
☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.
Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.
Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.
Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.
Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».
💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.
👉 Начать строить RAG раньше других
Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.
Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.
Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.
Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.
Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».
💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.
👉 Начать строить RAG раньше других
Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.
Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.
Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.
😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
— AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
— ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.
Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».
🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.
Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.
👉 Регистрируйтесь
Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».
🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.
Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.
👉 Регистрируйтесь
В unsupervised задачах (кластеризация, оценка плотности) мы не можем ориентироваться на метрики предсказания, поэтому обработка пропусков опирается на структуру данных.
Подходы:
Подводные камни:
Если хотите не просто читать про EM и PCA, а реально попрактиковаться на данных и задачах кластеризации, есть классные курсы для Data Science-специалистов:
— AI-агенты для DS-специалистов
— ML для старта в Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1
👉 Как влияют dilated (atrous) свёртки на receptive field
Dilated свёртки используют пробелы >1 между элементами ядра. В обычной свёртке с ядром 3×3 фильтр смотрит на соседние позиции.
В dilated свёртке с dilation rate = d фильтр «пропускает» некоторые позиции, охватывая большую область входа, не увеличивая число параметров.
Пример: ядро 3×3 с dilation=2 фактически покрывает область 5×5, но остаётся с 9 параметрами.
⚡️ Применение: особенно полезно в semantic segmentation и других задачах, где важно учитывать глобальный контекст, сохраняя при этом высокое разрешение feature maps.
Если хотите не просто читать про receptive field, а практически применять свёртки и строить свои модели, есть классные курсы для Data Science и ML:
— AI-агенты для DS-специалистов
— ML для старта в Data Science
🐸 Библиотека собеса по Data Science
Dilated свёртки используют пробелы >1 между элементами ядра. В обычной свёртке с ядром 3×3 фильтр смотрит на соседние позиции.
В dilated свёртке с dilation rate = d фильтр «пропускает» некоторые позиции, охватывая большую область входа, не увеличивая число параметров.
Пример: ядро 3×3 с dilation=2 фактически покрывает область 5×5, но остаётся с 9 параметрами.
⚡️ Применение: особенно полезно в semantic segmentation и других задачах, где важно учитывать глобальный контекст, сохраняя при этом высокое разрешение feature maps.
Если хотите не просто читать про receptive field, а практически применять свёртки и строить свои модели, есть классные курсы для Data Science и ML:
— AI-агенты для DS-специалистов
— ML для старта в Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1