Работа с многоклассовыми наборами данных, где некоторые классы сильно недопредставлены, может быть сложной, даже при использовании стратифицированных методов.
StratifiedKFold
и StratifiedShuffleSplit
стараются сохранить пропорции классов в каждом сплите, но если у некоторых классов слишком мало примеров, они могут не попасть в некоторые тестовые выборки. Это происходит просто потому, что данных недостаточно, чтобы обеспечить их равномерное распределение.Возможные решения:
Частные случаи:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
📌 Пример:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
😱 Уже завтра — вебинар про AI-агентов! Мест почти не осталось
На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.
➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений
📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS
👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q
🫢 Для тех, кто дочитал до конца →промокод lucky, он даст −5.000₽ на курс
На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.
➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений
📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS
👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q
🫢 Для тех, кто дочитал до конца →
Понижение размерности (например, с помощью PCA, ICA или автоэнкодеров) сжимает признаки в более компактное представление. Это может
Однако стоит быть осторожным:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему.
В таких случаях лучше использовать
Также помогает
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Log-loss (логарифмическая функция потерь) учитывает не только правильность предсказания, но и
Например, если модель предсказывает класс A с вероятностью 0.51, а правильный ответ — A, то accuracy посчитает это успешным предсказанием. Log-loss же
Таким образом, log-loss —
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🤖 Нейросети для дата-сайентиста: свежий гид по инструментам
Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.
Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.
📊 Что выбрать под вашу задачу — читайте в обзоре!
📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn
Библиотека дата-сайентиста #буст
Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.
Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.
📊 Что выбрать под вашу задачу — читайте в обзоре!
📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn
Библиотека дата-сайентиста #буст
Сейчас большинство представлений об ИИ ограничиваются одним агентом — моделькой, которая что-то предсказывает, генерирует или классифицирует.
Но реальный прорыв начинается, когда этих агентов становится несколько.
Когда они начинают взаимодействовать друг с другом.
Когда появляется координация, распределение ролей, память, планирование — всё это и есть мультиагентные системы (MAS).
— Microsoft делает язык DroidSpeak для общения между LLM
— Open Source-фреймворки вроде LangChain, AutoGen, CrewAI, LangGraph — бурно развиваются
— компании, включая МТС, уже применяют MAS в боевых задачах
🎓 На курсе мы подходим к этому практично:
Именно на третьем уроке вы впервые собираете не просто «умного бота», а живую систему из агентов, которая работает вместе — как команда.
Причём по-настоящему: врач, SQL-аналитик, travel-планировщик, Python-генератор, поисковик.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотя PyTorch или TensorFlow способны справляться со многими задачами с ограничениями, есть ситуации, когда специализированные решатели оказываются более подходящими:
•
•
•
Потенциальные сложности и крайние случаи:
•
•
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Учёт порядка помогает
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
🤯 Мы больше года строим мультиагентные системы
Грабли, находки, паттерны, эксперименты — всё это накопилось и в какой-то момент стало жалко держать только у себя.
Никита — рассказывает (и показывает) базу: токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.
Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет — он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее.
Курс тут: https://clc.to/47pgYA
Промокод:datarascals действует до 23:59 29 июня
Грабли, находки, паттерны, эксперименты — всё это накопилось и в какой-то момент стало жалко держать только у себя.
Никита — рассказывает (и показывает) базу: токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.
Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет — он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее.
Курс тут: https://clc.to/47pgYA
Промокод:
Аугментация помогает не только в условиях дефицита данных, но и при их
Аугментация (например, случайные повороты изображений, перестановки слов в тексте, добавление шума) помогает модели
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
Выбор класса с наибольшей вероятностью даёт одно конкретное решение, но теряет
Вероятностный вывод позволяет:
—
—
—
—
Таким образом, вероятности дают
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Во многих алгоритмах машинного обучения присутствует
Фиксация случайного зерна позволяет сделать эксперименты
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1
Хотя современные модели способны обрабатывать высокоразмерные данные, большое количество признаков может привести к
PCA помогает уменьшить размерность, сохранив
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Интуитивно кажется, что больше данных — всегда лучше. Но в некоторых случаях использование всего набора данных может быть неэффективным или даже вредным:
Выборка «умных» подмножеств
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🔥 Последняя неделя перед стартом курса по AI-агентам
Старт курса уже 5го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место
На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах
📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями
И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»
👉 Курс здесь
Старт курса уже 5го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место
На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах
📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями
И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»
👉 Курс здесь
Обучение на предсказаниях другой модели — это основа
Это особенно полезно, когда
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
Во многих моделях, особенно нейронных сетях, изначальная симметрия
Чтобы этого избежать,
Симметрия красива в математике, но в обучении может быть
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает»
Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.
Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.
AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.
➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод
Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля
P.S: не упусти свой шанс, промокод:LASTCALL на 10.000₽
Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.
Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.
AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.
➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод
Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля
P.S: не упусти свой шанс, промокод:
😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них
⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!
Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.
Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».
➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень
📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно
Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.
❗Старт уже завтра — забронируйте место на курсе сейчас
⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!
Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.
Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».
➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень
📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно
Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.
❗Старт уже завтра — забронируйте место на курсе сейчас