Machine learning Interview

Эффективность статистического эксперимента не зависит от

Anonymous Quiz

19%

Среднеквадратического отклонения

🤡25👍15🤔8🔥4❤3

855 voters3.42K views16:31

Machine learning Interview

🔍 Что такое объяснительные алгоритмы Когда они используются? Приведите примеры объяснительных алгоритмов

Что такое объяснительные алгоритмы?
Объяснительные алгоритмы позволяют нам обнаруживать и понимать переменные, которые оказывают статистически значимое влияние на выходное значение (результат). Вместо создания алгоритмов для предсказания значений, мы создаем объяснительные модели для понимания взаимосвязи между переменными в модели.

С точки зрения регрессии, очень много внимания уделяется статистически значимым переменным. Почему? Практически всегда вы будете работать с выборкой данных, являющейся подмножеством всей совокупности. Для того чтобы сделать верные выводы о совокупности по выборке, важно убедиться, что результат статистически значим.

Недавно появились два метода: SHAP и LIME. Они используются для интерпретации моделей машинного обучения.

Когда используются?
Объяснительные модели эффективны, когда вы хотите понимать, почему выбрано именно такое решение. Или когда вы хотите понять как две или более переменных связаны между собой.

На практике возможность объяснить, как ваша модель работает, так же важна, как и качество модели. Если вы не можете объяснить, никто не поверит ей и никто не будет её использовать. Это особенно актуально для банковской сферы, где все модели должны быть интерпретируемыми.

Примеры алгоритмов
Традиционные объяснительные модели, основанные на проверке гипотез:

▪Линейная регрессия.
▪Логистическая регрессия.

Алгоритмы для объяснения моделей машинного обучения:

▪SHAP;
▪LIME.

@machinelearning_interview

👍12❤3🔥3

4.45K views11:01

Machine learning Interview

Какой из следующих методов может быть использован для улучшения работы дерева решений на несбалансированных данных?

#junior

Anonymous Quiz

34%

Использование ансамблевых методов, таких как случайный лес (random forest)

Увеличение размера обучающей выборки

45%

Использование взвешенных функций ошибки

11%

Использование алгоритмов обрезки дерева

👍13❤2🥰1

889 voters4.02K views09:16

Machine learning Interview

Какова сложность алгоритма поиска k ближайших соседей?

Anonymous Quiz

👍12🐳4🔥3❤2👎1

1.11K voters4.49K views15:45

Machine learning Interview

Какой эффект может произойти при использовании L2 регуляризации?

Anonymous Quiz

25%

Отбор признаков

Увеличение размерности модели

16%

Увеличение весов модели

53%

Уменьшение разброса модели

🔥21❤3

1.08K voters3.35K views09:53

Machine learning Interview

🌐 Что такое эмбединги в NLP. Приведите примеры.

Эмбеддинги - это модель, которая позволяет предсказать близкие по смыслу слова, или слова которые чаще всего употребляются друг с другом.

Построить эту модель можно следующим образом:

Текст нужно разделить на словосочетания из нечетного количества слов. Например 3 или 5 слов. Это называют Context Window.
На вход модели подается центральное слово из Context Window в формате one-hot вектора.
На выход модели подаются слова которые идут следом или перед ним. Для Context Windows = 3, это будут 2 one hot вектора (предыдущее слово и следующее слово), либо сумма этих 2х векторов (bag of words). Если Context Window будет равным 5, то слов будет 4, а не 2.
Затем нужно сдвинуть Context Window на один шаг и повторить процедуру.

Таким образом мы создадим датасет для обучения. Этот датасет мы подадим в автоенкодер для обучения.

Такая модель называется Skip Gram (Когда на входе центральное слово, а на выходе то что его окружает). CBOW - это наоборот, когда мы в модель подаем то что окружает слово, а на выходе получаем центральное слово.

Размер входного слоя и выходного слоя равен размеру словаря. Входной слой и скрытый слой кодируют слово. Скрытый слой и выход декодируют слово. Таким образом можно, закодировать one hot вектора в эмбеддинг. А вектор эмбединга будет заметно меньше, чем one-hot вектор. Эмбедингом называется матрица весов между входом и скрытым слоем. Или значения, которые возникают на скрытом слое, при подаче one-hot вектора слова в модель.

Эмбеддинг, в дальнейшем можно передать в классификатор, вместо Bag of words. Делается это следующим образом:

Береться строка и каждому слову ставятся индексы из словоря. Получается вектор индексов.
Затем для каждого слова, нужно поставить его эмбединг по индексу слова. Получается двумерный вектор размером [ длина строки ] X [ размер эмбединга ]. Например, 300 x 50.
После этого, этот вектор надо передать в классификатор. Т.к. используются уже двумерные слои, можно использовать сверточные сети.
Это будет уже новая нейронная сеть, которая принимает на вход индексы слов, превращает их в вектор эмбединга, а после отправить результат в классификатор. И данную сеть можно обучать, в том числе обучить и эмбединг. Можно взять готовый эмбединг, а можно обучить его самостоятельно.

model = ai.CustomModel(
 model_name = "Model_embedding_1",
 input_shape = input_shape,
 module = nn.Sequential(

  nn.Embedding(10000, 50),
  
  Transform_Flat(),
  
  nn.Linear(300*50, 1024),
  nn.ReLU(inplace=True),
  
  nn.Linear(1024, 256),
  nn.ReLU(inplace=True),
  
  nn.Linear(256, output_shape[0]),
  nn.Softmax(dim=-1),
 ),
)

@machinelearning_interview

👍18🔥8❤2👏1

3.33K views10:45

Machine learning Interview

Можно ли использовать L1 и L2 регуляризацию одновременно?

Anonymous Quiz

24%

Нет

Это зависит от дисперсии данных

60%

Да

Это зависит от распределения данных

👍11🔥5❤2

1.15K voters3.52K views19:49

Machine learning Interview

Какой эффект может произойти при использовании L1 регуляризации?

Anonymous Quiz

Увеличение размерности модели

Увеличение весов модели

31%

Уменьшение разброса модели

55%

Отбор признаков

👍17❤4🔥3👎1

997 voters3.43K views11:59

Machine learning Interview

Каковы основные цели использования регуляризации?

Anonymous Quiz

85%

Уменьшение переобучения модели и повышение ее обобщающей способности

Нет особых целей, регуляризация используется для увеличения сложности модели

10%

Увеличение весов модели и уменьшение разброса модели

Увеличение количества признаков и уменьшение времени обучения модели

👍15❤3🤡2

1K voters3.74K views20:43

Machine learning Interview

#вопросы_с_собеседований
Как работает ROC-кривая?

ROC-кривая — это графическое изображение контраста между показателями истинно положительных и ложноположительных результатов при различных пороговых значениях.

Если считать TPR и FPR для фиксированного порога μ є [0,1], то их можно представить в виде функций от аргумента μ:

TPR = TPR(μ), FPR = FPR(μ). При этом обе функции монотонно возрастают от 0 до 1, а значит, определена функция:

ROC(x) = TPR(FPR-1(x)), x є [0,1]

ROC-кривая — это график функции. Как правило, у хорошего классификатора кривая лежит по большей части либо целиком выше прямой y=x. Это связано с тем что при хорошей классификации надо получать максимальный TPR при минимальном FPR.

@machinelearning_interview

❤16👍4🔥3🤡2

3.55K viewsedited 11:13

Machine learning Interview

👀Что такое галлюцинации в больших языковых моделях? Какие методы решения вы знаете ?

▪БЯМ (Большие языковые модели) или LLM (Large Language Models) стали популярными в обработке естественного языка. Они используются для перевода, генерации текста и ответов на вопросы. Эти модели обучаются на больших наборах данных и могут создавать тексты, похожие на тексты, написанные человеком. Известные примеры LLM - ChatGPT и GPT-4 от OpenAI.

Однако у таких моделей есть проблемы с «галлюцинациями» и доступом к актуальной информации. Галлюцинации проявляются как генерация текста, не соответствующего реальности, с нарушениями фактологии. Нейросеть может придумывать детали, факты, имена или события, которые не существуют в реальности.имеют отношения к реальности.

▪Для решения данной проблемы и уменьшения вероятности галлюцинаций, исследователи предлагают несколько методов:

1. Использование дополнительной модели для поиска информации в документах, с последующей передачей этой информации в генеративную нейросеть.

2. Обучение моделей на бОльшем количестве данных, а также создание специальных (фактологических) наборов данных.

3. Использование обучения с подкреплением, на основе оценок поставленных людьми, как это делают в OpenAI (RLHF).

4. Соединение LLM с моделью мира (это наиболее сложный и перспективный подход, но в данной статье мы его не будем рассматривать из-за объемности).

@machinelearning_interview

👍16🤨4❤3🔥1

3.34K views14:15

Machine learning Interview

#тест
ACID-требования к транзакциям полностью поддерживают

Anonymous Quiz

19%

все базы данных

58%

только реляционные базы данных

только NoSQL-базы данных

14%

только OLTP-базы

🔥7👍3❤2

540 voters3.31K views18:02

Machine learning Interview

📌 Задача про метрики

Пусть мы обучили логистическую регрессию и метод опорных векторов для решения задачи бинарной классификации, предсказали классы с помощью моделей на тестовых данных и измерили f1-score. Оказалось, что значение метрики у логистической регрессии на 0,1 выше, чем у метода опорных векторов.

Означает ли это, что логистическая регрессия лучше решает задачу?

Ответ

: нет, не означает.

Решение

Метрика f1-score зависит от порога, по которому мы переводим предсказанные моделью «вероятности» в классы. По умолчанию порог для перевода равен 0,5: то есть если уверенность модели в положительном классе составляет 0,5

или больше, мы относим объект к положительному классу, а иначе — к отрицательному.

При увеличении порога точность (precision) растет, а полнота (recall) падает, и наоборот. Метрика f1-score нелинейно зависит от точности и полноты и вычисляется по формуле:

f1= 2*precision *recall / precision* recall

Поэтому она будет изменяться при изменении порога.

В условии мы измерили значение метрики на исходных классах, то есть использовали порог по умолчанию 0,5. Он мог быть не оптимальным как для логистической регрессии, так и для метода опорных векторов.

Чтобы узнать, какая из моделей лучше работает в конкретном случае с точки зрения метрики f1, необходимо для каждой из моделей подобрать свой оптимальный порог и вычислить для него значение f1.

Тогда мы сможем сказать, какая модель лучше.

@machinelearning_interview

❤25👍11🔥8👎2🖕1

3.52K views10:45

Machine learning Interview

📌 Что такое вариационные автоэнкодеры (VAE) ?

Автоэнкодер состоит из двух соединенных нейронных сетей: модели энкодера (кодировщика) и модели декодера (декодировщика). Его цель – нахождение метода кодирования лиц знаменитостей в сжатую форму (скрытое пространство) таким образом, чтобы восстановленная версия была как можно ближе к входно

Как правило, скрытое пространство Z, создаваемое энкодером, редко заселено, то есть трудно предсказать, распределение значений в этом пространстве. Значения разбросаны, и пространство обычно хорошо визуализируется в двухмерном представлении.

Это очень полезная особенность для систем сжатия (компрессии). Однако для генерации новых изображений знаменитостей эта разреженность – проблема, поскольку найти скрытое значение, для которого декодер будет знать, как произвести нормальное изображение, почти невозможно.

Более того, если в пространстве есть промежутки между кластерами, и декодер получит вариацию из такого промежутка, ему не хватит знаний, чтобы сгенерировать что-нибудь полезное.

Вариационный автоэнкодер делает внутреннее пространство более предсказуемым, более непрерывным и менее разреженным. Заставляя скрытые переменные соответствовать нормальному распределению, VAE получают контроль над скрытым пространством.

Вместо прямой передачи скрытых значений декодеру, VAE используют их для расчета средних значений и стандартных отклонений. Затем вход декодера собирается из соответствующего нормального распределения.

В процессе обучения VAE заставляет это нормальное распределение быть как можно более близким к стандартному нормальному распределению, включая в функцию потерь расстояние Кульбака-Лейблера. VAE будет изменять, или исследовать вариации на гранях, и не случайным образом, а в определенном, желаемом направлении.

Условные вариационные автоэнкодеры позволяют моделировать вход на основе не только скрытой переменной z, но и дополнительной информации вроде метаданных изображения (улыбка, очки, цвет кожи и т.п.)

@machinelearning_interview

❤9👍7👎4🔥1

2.82K views13:01

Machine learning Interview

🖥

Задача про градиентный бустинг
Градиентный бустинг — один из самых мощных алгоритмов классического машинного обучения. Приведите пример, когда градиентный бустинг в задаче регрессии будет работать хуже линейной регрессии.

Решение
Представим себе, что данные имеют линейную зависимость и получилось так, что тренировочные данные (синие точки) находятся в одной части этой прямой, а тестовые данные (красные точки) — в другой части.

Тогда линейная регрессия проведет через тренировочные данные прямую, которая хорошо аппроксимирует и тестовые данные.

При этом бустинг подстроится исключительно под синие точки, а на границе тренировочной области поведет себя произвольно. Поэтому красные точки (тестовые) будут предсказываться с большой ошибкой.

Это простой пример.

Довольно часто такого не происходит в реальной жизни, потому что обычно мы предполагаем, что новые данные приходят из той же области, что и старые. Но этот пример хорошо показывает, что бустинг не подходит для экстраполяции функций, то есть для прогнозов на новой области определения (которой не было в тренировочных данных).

Пишите свой примиер в комментариях

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

👍35🔥13❤6

2.88K viewsedited 11:38

Machine learning Interview

Задача про градиентный спуск

С помощью градиентного спуска, как известно, можно обучать различные модели машинного обучения. Верно ли, что классический градиентный спуск всегда найдет глобальный минимум функции потерь и выдаст оптимальные параметры?

Ответ: нет, неверно.

Решение
Посмотрим на формулу градиентного спуска (картинка 1)

По основному свойству градиента с каждым следующим шагом метода мы будем двигаться все ближе и ближе к минимуму функции потерь Q, что хорошо. Но нет гарантии, что мы придем именно в глобальный минимум, а не застрянем в локальном(картинка 2).

Кроме того, градиентный спуск будет испытывать трудности в точках перегиба функции, ведь в них градиент тоже равен нулю, и метод может остановиться вблизи этой точки.

Еще одна причина неудачи метода — неверный выбор градиентного шага.

Например, при очень маленьком градиентном шаге метод будет идти в сторону минимума слишком медленно и остановится просто из-за ограничения на число итераций, не дойдя до него. А при слишком большом градиентном шаге метод может не попасть в минимум и «прыгать» вокруг него до тех пор, пока не остановится из-за ограничения на число итераций. Иногда метод при большом градиентном шаге может даже разойтись.

В классическом машинном обучении мы почти не сталкиваемся с описанными проблемами, но вот в Deep Learning этих проблем достаточно. Для их решения придумано множество модификаций градиентного спуска.

@machinelearning_interview

👍15🥱9❤5🤡3🔥2

3.69K views13:11

Machine learning Interview

📖 Introduction to Machine Learning Interviews Book

Книга для подготовки к собеседованию по машинному обучению.
В качестве соискателя автор прошел собеседования в десятке крупных компаний и стартапов и получил предложения на должности в области машинного обучения в таких компаниях, как Google, NVIDIA, Snap, Netflix, Primer AI и Snorkel AI. Полезная книга для для закрепления теоретических и практических знаний в области машинного обучения.

📚 Книга

@machinelearning_interview

❤6🔥3👍2

3.42K views18:16

Machine learning Interview

Kubeflow Pipelines оптимизирует обучение ML-моделей

Свой опыт в статье на Хабре описывает инженер по машинному обучению в ML-команде проектов для бизнесов и покупателей ВКонтакте. Она расскажет, чем Kubeflow Pipelines может быть полезен ML-специалисту и как в нём без потери существующей кодовой базы можно запускать готовые пайплайны.

Благодаря этому материалу вы с помощью библиотеки kfp и нескольких функций сможете интегрировать существующий код для запуска ML-пайплайнов в инструмент Kubeflow Pipelines с удобным интерфейсом, в котором разработчик может быстро запускать эксперименты по машинному обучению и выбирать лучшее решение.

@machinelearning_interview

Хабр

Как мы с помощью Kubeflow Pipelines оптимизировали обучение ML-моделей

Когда кто-то занимается машинным обучением, его задачи часто представляют так: обработать данные, провести несколько десятков экспериментов с разными архитектурами моделей и выбрать ту, которая даёт...

❤11👍2🔥2

3.77K views12:20

About

Blog

Apps

Platform