Библиотека собеса по Data Science | вопросы с собеседований

❓

Как проводить кросс-валидацию, если у вас многоклассовая задача, а некоторые классы крайне редки

Работа с многоклассовыми наборами данных, где некоторые классы сильно недопредставлены, может быть сложной, даже при использовании стратифицированных методов. StratifiedKFold и StratifiedShuffleSplit стараются сохранить пропорции классов в каждом сплите, но если у некоторых классов слишком мало примеров, они могут не попасть в некоторые тестовые выборки. Это происходит просто потому, что данных недостаточно, чтобы обеспечить их равномерное распределение.

Возможные решения:

📝

Убедитесь, что у каждого класса достаточно примеров, чтобы он мог попасть в каждый fold.

📝

Используйте дополнительные техники, например, oversampling редких классов внутри каждого fold-а.

📝

Если возможно, соберите больше данных для малочисленных классов.

📝

В случаях, когда невозможно увеличить объём данных, можно использовать метрики, устойчивые к отсутствию класса в тесте (например, macro F1-score).

📝

Либо реализовать собственную стратегию разбиения, которая будет гарантировать присутствие всех классов в каждом fold-е.

Частные случаи:

📝

Если класс встречается всего несколько раз, он может отсутствовать в части разбиений — даже при стратификации.

📝

При сильной диспропорции классов даже стратифицированные выборки могут иметь искажённое распределение, что потребует аккуратной интерпретации результатов и использования специальных метрик (precision, recall и др.).

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

693 viewsedited 18:04

Библиотека собеса по Data Science | вопросы с собеседований

🌥

Есть ли отраслевые причины сохранять коррелированные признаки

Да, в регулируемых или специализированных отраслях — таких как здравоохранение, страхование или финансы — коррелированные признаки могут быть обязательны для соблюдения требований законодательства или для обеспечения интерпретируемости модели. Даже если признаки статистически избыточны, их нельзя удалять без согласования с доменной экспертизой.

📌 Пример:

В модели кредитного скоринга может использоваться несколько показателей кредитоспособности заемщика (например, кредитные рейтинги от разных агентств). Несмотря на высокую корреляцию, удаление одного из них может ухудшить прозрачность модели или вызвать недоверие со стороны регуляторов.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

720 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

😱 Уже завтра — вебинар про AI-агентов! Мест почти не осталось

На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.

➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений

📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS

👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q

🫢 Для тех, кто дочитал до конца → промокод lucky, он даст −5.000₽ на курс

738 views09:00

Библиотека собеса по Data Science | вопросы с собеседований

❔

Как понижение размерности может помочь SVM и логистической регрессии справляться с выбросами

Понижение размерности (например, с помощью PCA, ICA или автоэнкодеров) сжимает признаки в более компактное представление. Это может выделить выбросы или уменьшить их влияние, особенно если применяются устойчивые методы. Например, в PCA выбросы могут проявляться как точки с аномально высокой дисперсией вдоль главных компонент, что позволяет их легче заметить и учесть до обучения модели.

Однако стоит быть осторожным: обычный PCA чувствителен к выбросам и может построить искажённые компоненты, подстраиваясь под аномалии. Поэтому лучше использовать робастные методы понижения размерности, которые отделяют выбросы от основного (низкорангового) представления данных. После этого SVM и логистическая регрессия обучаются уже на «очищенном» пространстве признаков.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

719 views18:12

Библиотека собеса по Data Science | вопросы с собеседований

🤔

Что делать, если редкий класс встречается менее 1% случаев и обычное увеличение выборки не помогает

Когда редкий класс очень мал (например, менее 1%), простое увеличение выборки (oversampling) может не решить проблему. В некоторых областях, таких как обнаружение мошенничества или аномалий, редкий класс по своей природе сильно отличается от обычных данных. Традиционные методы создания синтетических примеров могут не передавать сложные «аномальные» паттерны.

В таких случаях лучше использовать методы обнаружения аномалий, которые учатся распознавать нормальное поведение и отмечают отклонения. Если всё же применяете увеличение выборки, важно не создавать искусственные данные, слишком похожие на обычные, чтобы не запутать модель.

Также помогает обучение с учётом стоимости ошибок (cost-sensitive learning), которое сильнее штрафует ошибки на редком классе. Для оценки результатов полезно смотреть специальные метрики, например, количество ложных срабатываний и пропусков именно для редкого класса.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

701 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

📍

Зачем использовать log-loss вместо accuracy для оценки качества классификатора

Log-loss (логарифмическая функция потерь) учитывает не только правильность предсказания, но и уверенность модели. Если модель предсказывает правильный класс с низкой уверенностью, log-loss будет наказывать её сильнее, чем accuracy.

Например, если модель предсказывает класс A с вероятностью 0.51, а правильный ответ — A, то accuracy посчитает это успешным предсказанием. Log-loss же зафиксирует, что модель не была уверена. Это особенно важно в задачах, где требуется хорошо откалиброванная вероятность (например, в медицине или при принятии финансовых решений).

Таким образом, log-loss — более строгий критерий, который помогает отбирать не просто «угаданные» модели, а те, которые правильно оценивают свои предсказания.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

678 viewsedited 18:59

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Нейросети для дата-сайентиста: свежий гид по инструментам

Мир нейросетей меняется каждый день — выбрать подходящий инструмент для задач Data Science непросто.

Мы собрали в статье то, что действительно работает: какие модели помогают автоматизировать рутину, ускоряют кодинг и дают ощутимый буст продуктивности.

📊 Что выбрать под вашу задачу — читайте в обзоре!

📌 Подробнее: https://proglib.io/sh/yq0MaQtHrn

Библиотека дата-сайентиста #буст

579 views09:38

Библиотека собеса по Data Science | вопросы с собеседований

📝

Немного инсайтов из третьего модуля курса

Сейчас большинство представлений об ИИ ограничиваются одним агентом — моделькой, которая что-то предсказывает, генерирует или классифицирует.

Но реальный прорыв начинается, когда этих агентов становится несколько.
Когда они начинают взаимодействовать друг с другом.
Когда появляется координация, распределение ролей, память, планирование — всё это и есть мультиагентные системы (MAS).

➡️ Пока кто-то думает, что это звучит как научная фантастика, индустрия уже переходит к новым уровням сложности:
— Microsoft делает язык DroidSpeak для общения между LLM
— Open Source-фреймворки вроде LangChain, AutoGen, CrewAI, LangGraph — бурно развиваются
— компании, включая МТС, уже применяют MAS в боевых задачах

🎓 На курсе мы подходим к этому практично:
🔵 разбираем, как устроены MAS
🔵 пишем агентов с нуля
🔵 учимся выстраивать взаимодействие: конкуренцию, кооперацию, планирование

Именно на третьем уроке вы впервые собираете не просто «умного бота», а живую систему из агентов, которая работает вместе — как команда.

Причём по-настоящему: врач, SQL-аналитик, travel-планировщик, Python-генератор, поисковик.

🙂 Если хочется не просто использовать ИИ, а проектировать системы, которые думают, планируют и сотрудничают → тогда забирайте курс по ИИ-агентам

Please open Telegram to view this post

VIEW IN TELEGRAM

558 views11:03

Библиотека собеса по Data Science | вопросы с собеседований

👇 Когда стоит рассмотреть использование специализированных решателей вместо стандартных градиентных фреймворков глубокого обучения

Хотя PyTorch или TensorFlow способны справляться со многими задачами с ограничениями, есть ситуации, когда специализированные решатели оказываются более подходящими:

• Комбинаторные или целочисленные ограничения: если необходимо обеспечить дискретность выходных данных или комбинаторную допустимость (например, в задачах планирования или маршрутизации), более эффективными могут быть методы смешанного целочисленного программирования.

• Жёсткие физические или операционные ограничения: в инженерном проектировании или исследовании операций ограничения часто настолько строгие, что естественнее использовать методы вроде ветвей и границ или внутренней точки.

• Высокомерные и связанные между собой ограничения: если ограничения затрагивают множество взаимодействующих переменных (например, потоки в сетях, многопериодное планирование), общие решатели, способные обрабатывать крупномасштабные задачи с ограничениями, могут быть быстрее или надёжнее.

Потенциальные сложности и крайние случаи:

• Сложная интеграция: связать параметры нейросети с внешним решателем требует дополнительных усилий для организации связи или передачи градиентов (некоторые решатели не являются полностью дифференцируемыми).

• Ограниченная масштабируемость: некоторые специализированные решатели могут не справляться с задачами, где размерность проблем или сети очень велика.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

689 views18:04

Библиотека собеса по Data Science | вопросы с собеседований

🖍 Почему в задачах обработки текста важно учитывать порядок слов, а не только их частоту

Порядок слов несёт ключевую смысловую информацию, которая часто теряется при простом подсчёте частоты слов (мешок слов). Например, фразы «кот chased мышь» и «мышь chased кот» имеют одинаковые слова, но совсем разный смысл.

Учёт порядка помогает моделям понять контекст, отношения между словами и построить более точное представление текста, что особенно важно в задачах перевода, анализа тональности и ответах на вопросы.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

626 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

🤯 Мы больше года строим мультиагентные системы

Грабли, находки, паттерны, эксперименты — всё это накопилось и в какой-то момент стало жалко держать только у себя.

Никита — рассказывает (и показывает) базу: токенизация, LLM, SFT, PEFT, локальный инференс + RAG и как оценивать его качество.
Диана — как строят мультиагентные системы, какие есть паттерны проектирования и библиотеки.
Макс — про инференс в проде + разберет CoPilot, соберет с вами из кусочков свой копайлот, а затем его сломает через prompt injection. // Макс фанат autogen (а если нет — он вас разубедит в своем классном канале)
Финальным аккордом Дима углубится в MCP и соберет несколько кейсов повзрослее.

Курс тут: https://clc.to/47pgYA
Промокод: datarascals действует до 23:59 29 июня

666 viewsedited 09:00

Библиотека собеса по Data Science | вопросы с собеседований

🌸

Почему иногда полезно использовать аугментацию данных даже при большом объёме обучающей выборки

Аугментация помогает не только в условиях дефицита данных, но и при их избыточности — она повышает разнообразие обучающего набора. Даже если данных много, они могут быть однородными или содержать скрытые смещения (bias).

Аугментация (например, случайные повороты изображений, перестановки слов в тексте, добавление шума) помогает модели стать устойчивее к небольшим изменениям входных данных и улучшает её способность обобщать. Это особенно полезно в реальных задачах, где на этапе инференса данные могут немного отличаться от обучающих.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

714 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

✨

Зачем иногда использовать вероятностные модели, если можно просто выбрать класс с наибольшей вероятностью

Выбор класса с наибольшей вероятностью даёт одно конкретное решение, но теряет информацию об уверенности модели. В некоторых задачах (например, медицине, кредитном скоринге, системах рекомендаций) важно не только знать что модель предсказывает, но и насколько она в этом уверена.

Вероятностный вывод позволяет:
— учитывать риски при принятии решений,
— строить более надёжные ансамбли,
— калибровать пороги отсечения для разных задач (например, при дисбалансе классов),
— делать «мягкие» предсказания для downstream-задач.

Таким образом, вероятности дают больше гибкости и контроля в использовании модели.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

754 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

🔖

Почему в задачах машинного обучения важно фиксировать случайное зерно (random seed)

Во многих алгоритмах машинного обучения присутствует случайность — например, в инициализации весов, случайных разбиениях данных, выборе подмножеств признаков и т.д. Без фиксации random seed каждый запуск модели может давать немного разные результаты.

Фиксация случайного зерна позволяет сделать эксперименты воспроизводимыми: другие исследователи (или вы сами позже) смогут получить те же результаты и проверить корректность методики. Это особенно важно при сравнении моделей, отладке и написании научных статей.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

746 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

🔎

Зачем использовать метод главных компонент (PCA), если модель и так может работать с большим числом признаков

Хотя современные модели способны обрабатывать высокоразмерные данные, большое количество признаков может привести к проклятию размерности, увеличению времени обучения, риску переобучения и ухудшению интерпретируемости.

PCA помогает уменьшить размерность, сохранив основную информацию — он находит новые оси (комбинации признаков), по которым данные варьируются сильнее всего. Это ускоряет обучение, уменьшает шум, помогает визуализировать данные и делает модель более устойчивой, особенно когда среди признаков есть коррелирующие или нерелевантные.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

697 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

✅

Почему иногда имеет смысл обучать модель не на всех доступных данных

Интуитивно кажется, что больше данных — всегда лучше. Но в некоторых случаях использование всего набора данных может быть неэффективным или даже вредным:

1⃣

Переизбыток одинаковых примеров может привести к смещению модели в сторону часто встречающихся паттернов и заглушить редкие, но важные случаи.

2⃣

Шумные или устаревшие данные могут ввести модель в заблуждение, особенно если данные собирались в разное время или из разных источников.

3⃣

При прототипировании или отладке модели обучение на подмножестве экономит ресурсы и ускоряет эксперименты.

Выборка «умных» подмножеств (например, стратифицированных или репрезентативных) может дать почти то же качество — но быстрее и устойчивее.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

670 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Последняя неделя перед стартом курса по AI-агентам

Старт курса уже 5го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место

На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»

👉 Курс здесь

592 views13:12

Библиотека собеса по Data Science | вопросы с собеседований

🌀

Почему в некоторых случаях полезно обучать модель на данных, полученных… от другой модели

Обучение на предсказаниях другой модели — это основа подхода под названием knowledge distillation (дистилляция знаний). Идея в том, что сложная, тяжёлая модель (например, глубокая нейросеть) может содержать более «мягкую» и богатую информацию о структуре задачи, чем просто метки «0» и «1».

Маленькая модель, обучающаяся не на оригинальных метках, а на вероятностных предсказаниях большой модели, может:

➡️

лучше улавливать обобщённые закономерности,

➡️

достигать качества, близкого к исходной модели,

➡️

быть гораздо быстрее и легче в продакшене.

Это особенно полезно, когда требуется deploy в ограниченной среде (например, на мобильных устройствах), но не хочется терять в качестве. Получается, что модель может «учиться у другой модели», как ученик у учителя — и это работает.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1

666 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

👇

Зачем в машинном обучении иногда специально нарушают симметрию

Во многих моделях, особенно нейронных сетях, изначальная симметрия (одинаковая инициализация весов, одинаковая структура путей) может привести к тому, что все нейроны начинают учиться одинаково — и, по сути, дублируют друг друга. Это мешает сети извлекать разнообразные признаки и тормозит обучение.

Чтобы этого избежать, симметрию намеренно ломают — например, инициализируя веса случайными значениями, даже если структура одинаковая. Этот маленький хаос позволяет разным частям модели начать «думать» по-разному с самого старта и постепенно развивать разные специализации.

Симметрия красива в математике, но в обучении может быть смертельна: без разнообразия начальных состояний — нет разнообразия решений.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

618 views18:16

Библиотека собеса по Data Science | вопросы с собеседований

🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает»

Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.

Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.

AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.

➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод

Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля

P.S: не упусти свой шанс, промокод: LASTCALL на 10.000₽

598 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них

⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!

Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.

Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».

➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень

📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно

Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.

❗Старт уже завтра — забронируйте место на курсе сейчас

584 views09:00

About

Blog

Apps

Platform