Machine learning Interview
24.5K subscribers
1.06K photos
74 videos
12 files
714 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
📎 Подробный план обучения для интервью по машинному обучению

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Amazon Data Scientist Interview Guide

Это руководство содержит подробные сведения о подготовке к различным собеседованиям с Amazon Data Scientist.

https://faangpath.com/blog/amazon-data-scientist-interview/

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
💨 Руководство по проведению технических интервью по машинному обучению (компании FAANG)🤖

Этот репозиторий призван служить руководством для подготовки к собеседованию инженера по машинному обучению (ИИ) для работы в крупных технологических компаниях (в частности, в FAANG).

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Data science interview questions with answers.

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Рекруты Microsoft назвали 5 правил идеального резюме

https://incrussia.ru/news/5-resume/


@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Как я готовился к собеседованию на позицию Senior ML Engineer

Расскажу, как я выстроил стратегию подготовки, с чем столкнулся на собеседованиях в разных компаниях и какие выводы из этого сделал. Суммирую свой опыт в эту и прошлые итерации поиска работы, опыт моих знакомых и коллег, а также рекомендации, которые я находил в интернете. Не претендую на универсальность, но мне бы такой рассказ помог.

➡️ Читать дальше

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Подробный учебный план для подготовки программистов к трудоустройству в Google.

Это учебный план, рассчитанный на несколько месяцев для программистов, не имеющих планирующих работать инженерами-программистами (software engineer) в компании Google.

За основу учебного плана я взял список вопросов Google’s coaching notes и значительно расширил его. Тут вы найдёте много полезных вещей, которые необходимо знать. Дополнительные вопросы я добавил в конец списка: их могут задавать на интервью, a также они могут быть полезны в решении повседневных задач.

➡️ Смотреть план

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
super-cheatsheet-machine-learning.pdf
1.3 MB
🎓 Super VIP Cheatsheet: Machine Learning" от Stanford University.

Краткий конспект основных тем ML с самыми важными формулами и понятными и нгалядными иллюстрациями для подготовки к интервью.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Полный список вопросов с собеседований по Python для дата-сайентистов.

Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

✔️ Читать дальше

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Практическая задача

♠️Из колоды карт, содержащей 52 карт, извлекается случайно 5 карт. Каковы вероятности следующих событий:

A: Все 5 карт бубновой масти.
B: Все 5 карт одной масти.
C: Среди извлеченных карт имеется 3 туза.
D: Среди извлеченных карт имеются 2 дамы и один король.
E: Среди извлеченных карт имеются десятка, валет, дама, король и туз.
F: Извлеченные карты – десятка, валет, дама, король и туз одной масти.

✔️ Решение

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Интервью Amazon Data Scientist | Бывший специалист по данным FAANG

В этом
руководстве вы найдете подробные сведения о процессе собеседования и советы по подготовке, которые помогут вам успешно пройти собеседование в Amazon.

⭐️ Medium post

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ 120 вопросов на собеседовании по науке о данных

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 SQL для анализа данных. 7 аспектов SQL, которые следует знать специалисту по работе с данными.

Пост содержит в себе все ключевые элементы SQL, которые должен знать каждый специалист по Data Science. Этой статьей мы начинаем цикла статей – SQL для анализа данных.

➡️ Читать статью
🖥 Десять практических упражнений SQL

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Большой список актуальных лекций, практик, книг и курсов по машинному обучению.

Список актуальных материалов, с которыми можно легко подготовиться к собеседованию по мл.

➡️ Список

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
45 тем, которые могут спросить на собеседовании по Машинному обучению

➡️ Читать дальше

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
💫 Что такое Q-обучение ? Как применяется в сфере оптимизации бизнес-процессов ?

Q-обучение (Q-learning) — метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида oбучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения — то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды. Применяется для ситуаций, которые можно представить в виде марковского процесса принятия решений.

Q-Learning в сфере оптимизации бизнес-процессов

@machinelearning_interview
✔️ Что такое смещение в датасетах? Приведите пример смещения.

Смещение в датасетах (артефакты) – нежелательные взаимосвязи между входными и выходными данными, в частности, между признаками и метками, которые могут эксплуатироваться моделями машинного обучения в качестве опоры при предсказании. Часто они возникают там, где совсем не ожидаешь.

Простой пример смещения можно представить следующим образом: нам нужно определить оскорбительные посты в социальной сети. Высока вероятность, что оскорбительные посты будут содержать нецензурные слова и модель будет опираться на них при принятии решения. Некоторые пользователи могут использовать нецензурные слова и в обычных, нейтральных постах. Те же нецензурные слова могут быть использованы и для выражения позитивных эмоций. В результате, модель, обученная на датасете, в котором мало других примеров: нейтральных или позитивных, будет считать пост оскорбительным, когда в нем есть нецензурные слова. Если тестирование модели провести на похожей тестовой выборке, где нецензурные слова представлены только в оскорбительных постах, то тест подтвердит высокое качество модели. При реальном использовании эта модель будет давать ложно положительные срабатывания. Из-за смещения складывается ложное чувство, что модель работает хорошо, но это происходит ровно до того, как она начинает использоваться в реальности.

Можно посмотреть на эту проблему с другого ракурса. Всем бы хотелось иметь натренированную на определенном количестве данных модель, которую можно было бы использовать везде с высоким качеством работы. При составлении датасета все возможные случаи учесть невозможно, поэтому мы опираемся на способность моделей к генерализации – обобщению опыта, – чтобы делать предсказания на неизвестных данных.

Области, ограниченные какой-то особенностью, называют доменами. Например, медицинским доменом назовут датасет, который содержит медицинские тексты. Использование модели внутри домена называется in-domain, а за его пределами – out-of-domain. Часто получается, что модели хорошо работают внутри домена, но плохо вне его. Это происходит из-за смещения модели в сторону домена, на котором она обучалась, относительно теоретического общего домена, который покрывал бы все возможные варианты.

Пример: модель обучили на комментариях пользователей в социальных сетях, она не учитывает лингвистические особенности языка как глубокие признаки и опирается на словарь. Такая модель будет работать плохо для задачи по классификации научных статей. Минимизация смещения позволяет добиться качественной работы модели при ее обучении на конкретном датасете и, как следствие, лучшей ее генерализации.

В теории сейчас нет строгой классификации факторов, влияющих на появление смещения. На мой взгляд, есть несколько причин появления смещения в данных:

- Разметчики – при разметке люди могут руководствоваться внутренними шаблонами, пропуская важные отличительные детали в данных. Часто люди сами склонны формировать предвзятые, то есть смещенные, мнения .

- Отсутствие баланса – если в датасете примеров одного класса значительно больше, чем другого, то модель, скорее всего, выучится именно на мажорном классе, не принимая во внимание признаки минорного.

- Нерепрезентативность – ситуация, когда в датасете слабо представлены разные случаи. Яркий пример, представленный выше, – с нецензурными словами. Это означает, что в датасете появляется перекос в сторону какого-то класса по определенному признаку.

- Неправильный режим обучения – косвенный фактор, при котором смещение проявляется, когда модель недообучается.

- Отсутствие негативного множества - частный случай нерепрезентативности, при котором в датасете слабо представлено то, чем классифицированное явление не является.

@machinelearning_interview
Какой из способов ансамблирования алгоритмов помогает уменьшить дисперсию?
Anonymous Quiz
42%
Бустинг
39%
Бэггинг
18%
Стекинг
✔️ QUIZ TOPIC - NATURAL LANGUAGE PROCESSING

Интересный тест из 30 вопросов по NLP.

➡️ Quiz

👇Делитесь своими результами в комментариях.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Вопросы о графах на собеседованиях МО

Вам может быть предоставлен список ребер и задача построить собственный граф для выполнения обхода.


Зачастую вопросы о лбщих представлениях о графах включают вопросы о:

1 . Матрицах смежности.
2. Списках примыканий.
3. Хашмап хэшмапов.


Графы делятся на два основных типа: ориентированные и неориентированные. У неориентированных графов рёбра между узлами не имеют какого-либо направления, тогда как у рёбер в ориентированных графах оно есть.

Чаще всего граф изображают в каком-либо из двух видов: это может быть список смежности или матрица смежности.

Список смежности можно представить как перечень элементов, где слева находится один узел, а справа — все остальные узлы, с которыми он соединяется.

Матрица смежности — это сетка с числами, где каждый ряд или колонка соответствуют отдельному узлу в графе. На пересечении ряда и колонки находится число, которое указывает на наличие связи. Нули означают, что она отсутствует; единицы — что связь есть. Чтобы обозначить вес каждой связи, используют числа больше единицы.

Существуют специальные алгоритмы для просмотра рёбер и вершин в графах — так называемые алгоритмы обхода. К их основным типам относят поиск в ширину (breadth-first search) и в глубину (depth-first search). Как вариант, с их помощью можно определить, насколько близко к корневому узлу находятся те или иные вершины графа. В видео ниже показано, как на JavaScript выполнить поиск в ширину.

Вопросы про алгоритмы поиска:

Общие – поиск в ширину, поиск в глубину.

Необычные – топологическая сортировка, алгоритм Дейкстры.
Редкие – алгоритм Беллмана-Форда, Флойда-Уоршелла, Прима, Краскала.

В собеседованиях графы обычно представлены в виде двухмерных матриц, где ячейки являются узлами, и каждая ячейка может пересекаться с ячейками соседними (вверх/вниз/влево/вправо). Поэтому важно, чтобы вы были знакомы с пересечением двумерной матрицы. При рекурсивном перемещении матрицы убедитесь, что ваша следующая позиция находится в пределах матрицы. Больше советов по алгоритмам поиска можно найти здесь.

Простой шаблон для выполнения поиска в глубину выглядит следующим образом:

def traverse(matrix):
rows, cols = len(matrix), len(matrix[0])
visited = set()
directions = ((0, 1), (0, -1), (1, 0), (-1, 0))
def dfs(i, j):
if (i, j) in visited:
return
visited.add((i, j))
# Обход соседей
for direction in directions:
next_i, next_j = i + direction[0], j + direction[1]
if 0 <= next_i < rows and 0 <= next_j < cols: # Проверка границы
# Добавить любую другую проверку здесь ^
dfs(next_i, next_j)

for i in range(rows):
for j in range(cols):
dfs(i, j)


Тупиковые ситуации:

- пустой граф;
- граф с одним или двумя узлами.
- непересекающиеся графы;
- граф с циклами.


@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM