Machine learning Interview
24.6K subscribers
1.06K photos
73 videos
12 files
716 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
✔️Руководство по собеседованию Data Scientist в Facebook

Интервью Facebook по науке о данных состоит из нескольких технических вопросов и бизнес-кейсах, в значительной степени сосредоточенных на применении технических знаний к сценариям бизнес-кейсов. Ожидается, что специалисты по данным Facebook будут работать в разных направлениях и исследовать, анализировать и агрегировать большие наборы данных.

➡️ Читать статью

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Каковы последствия установки неправильной скорости обучения

Если скорость обучения слишком мала, обучение модели будет слишком медленным, поскольку веса будут изменяться ненамного. Однако, если скорость обучения слишком велика, это может привести к тому, что функция потерь будет беспорядочно прыгать вследствие сильных изменений весов. Модель может не сойтись в какой-то одной точке или даже отклониться от минимума, если данные слишком хаотичны для обучения нейронной сети.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Собеседование

Мы предлагаем вам пройти тестовое задание на знание методов обработки данных. Задание никак не связано непосредственно с медициной и необходимо для демонстрации ваших знаний и умении применять их на практике.

Задание основано на открытом датасете https://archive.ics.uci.edu/ml/datasets/automobile , содержащем информацию о параметрах различных автомобилей (подробное описание датасета по ссылке).

Датасет содержит всего 205 строк, очевидно этого недостаточно для создания полноценной стабильной модели. Цель данного кейса не решить конкретную задачу, добившись максимальной точности, а продемонстрировать ход ваших мыслей и владение инструментами и методами анализа данных. Задание рассчитано на 3-4 часа.

Пожалуйста, проанализируйте представленные данные (dataset.csv) и ответьте на несколько вопросов:

1. Придумайте и опишите наибольшее число вариантов использования этих данных.Для решения каких практических задач их можно применить?

2. Выберите одну из описанных вами задачи реализуйте решение на Python/R при помощи оптимальной на ваш взгляд модели. Опишите, почему вы выбрали именно эту модель.

3. Опишите ваш подход к предварительному анализу (в т.ч. визуализации) и обработке данных, работе с признаками, кросс валидацией, настройкой модели и ее оценкой.

4. Объясните выбор того или иного решения и, по возможности, сравните с альтернативами.
Опишите, как бы вы улучшили модель из пункта 2, если бы у вас было больше времени и существенно больший датасет

➡️ Решение
➡️ Датасет

@machinelearning_interview
Какой алгоритм является детерминированным: PCA или k-средних?
Anonymous Quiz
42%
PCA
29%
K-средних
15%
Ни один из них
14%
Оба
#вопросы_с_собеседований
Что такое проблемы взрывающегося и затухающего градиента?

Градиент — это вектор частных производных функции потерь по весам нейросети. Он показывает вектор наибольшего роста функции для всех весов.

В процессе обучения при обратном распространении ошибки при прохождении через слои нейронной сети в элементах градиента могут накапливаться большие значения, что будет приводить к сильным изменениям весов. Это дестабилизирует алгоритм нейросети. Эта проблема называется взрывающимся градиентом.

Аналогичная обратная проблема, в которой при прохождении ошибки через слои градиент становится меньше, называется затухающим градиентом.

Чем больше количество слоев нейросети, тем выше риски данных ошибок. Для решения сложных задач с помощью нейронных сетей необходимо уметь определять и устранять её.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
➡️ Задание Zyfra (Цифра)

Описание процесса
Есть производство некотрого продукта посредством электролиза (нагреваемый ящик, стоит в неотапливаемом помещении). Заглядывать в ящик часто нельзя - лабораторный сбор по уточнению процентного содержания в смеси происходит дважды в день, хотелось бы делать замеры еще реже и в перспективе полагатсья только на модель - отсюда и задача. Требуется предсказать по данным (до 2018-10-18) с различных датчиков процентное содержание продукта в смеси файл target.csv.

В качестве данных доступны
Файл 3min Series (00sec) Outer new:

- Шум в электрике
- Обратная ЭДС сети устройства
- Ср.прир.напр Средний прирост напряжения в сети
- Сум.доз АПГ Сумма доз АПГ (происходит периодичный вброс катализатора в ящик - это число соответствует кол-ву раз которое производилось вбрасывание за промежуток времени)
- Температурные датчики (ящик прямоугольной формы, они рсполагаются по всему периметру, см boards.png - схематическое расположение, нумерация вдоль длины ящика дана как пример)
- Board Temp. {i} - датчики температуры по длинне ящика с обоих сторон
- Board Face Temp. {1,6} - датчики с лицевой стороны
- Board Deaf Temp. {1,6} - датчики с тыльной стороны
Файл Средняя масса доли АПГ New : массовые доли каждого из вбросов показателя Сумма доз АПГ. То есть можно понять сколько массы было вброшено в период Итог масс АПГ = Сум.доз АПГ * avg_mass_apg.

Критерии успешности выполнения задания:
- Получение инсайтов по данным
- Обоснованное построение модели
- Оценка полученной модели
- (Доп.) Запаковка в функцию / модуль / сервис / приложение

✔️ Данные
📎 Решение

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ 20 вопросов и ответов на собеседовании по Azure Machine Learning.

Подготовьтесь к типам вопросов, которые вам, вероятно, будут задавать при собеседовании на должность, где будет использоваться Azure Machine Learning. Вопросы и ответы

✔️ Статья

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Что делать, если классы не сбалансированы? Что делать, если групп больше двух?

Двоичная классификация включает классификацию данных в две группы. Например, независимо от того, покупает ли клиент определенный продукт (Да / Нет), модель строится на основе независимых переменных, таких как пол, возраст, местоположение и т. д.

Поскольку целевая переменная не является непрерывной, двоичная модель классификации предсказывает вероятность того, что целевая переменная будет Да / Нет. Для оценки такой модели используется метрика, называемая матрицей путаницы, также называемая классификацией или матрицей совпадений. С помощью матрицы путаницы мы можем вычислить важные показатели эффективности:

- True Positive Rate (TPR) or Recall or Sensitivity = TP / (TP + FN)
- Precision = TP / (TP + FP)
- False Positive Rate(FPR) or False Alarm Rate = 1 - Specificity = 1 - (TN / (TN + FP))
- Accuracy = (TP + TN) / (TP + TN + FP + FN)
- Error Rate = 1 – Accuracy
- F-measure = 2 / ((1 / Precision) + (1 / Recall)) = 2 * (precision * recall) / (precision + recall)
- ROC (Receiver Operating Characteristics) = plot of FPR vs TPR
- AUC (Area Under the Curve)

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
📎 Подробный план обучения для интервью по машинному обучению

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Amazon Data Scientist Interview Guide

Это руководство содержит подробные сведения о подготовке к различным собеседованиям с Amazon Data Scientist.

https://faangpath.com/blog/amazon-data-scientist-interview/

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
💨 Руководство по проведению технических интервью по машинному обучению (компании FAANG)🤖

Этот репозиторий призван служить руководством для подготовки к собеседованию инженера по машинному обучению (ИИ) для работы в крупных технологических компаниях (в частности, в FAANG).

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Data science interview questions with answers.

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Рекруты Microsoft назвали 5 правил идеального резюме

https://incrussia.ru/news/5-resume/


@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Как я готовился к собеседованию на позицию Senior ML Engineer

Расскажу, как я выстроил стратегию подготовки, с чем столкнулся на собеседованиях в разных компаниях и какие выводы из этого сделал. Суммирую свой опыт в эту и прошлые итерации поиска работы, опыт моих знакомых и коллег, а также рекомендации, которые я находил в интернете. Не претендую на универсальность, но мне бы такой рассказ помог.

➡️ Читать дальше

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Подробный учебный план для подготовки программистов к трудоустройству в Google.

Это учебный план, рассчитанный на несколько месяцев для программистов, не имеющих планирующих работать инженерами-программистами (software engineer) в компании Google.

За основу учебного плана я взял список вопросов Google’s coaching notes и значительно расширил его. Тут вы найдёте много полезных вещей, которые необходимо знать. Дополнительные вопросы я добавил в конец списка: их могут задавать на интервью, a также они могут быть полезны в решении повседневных задач.

➡️ Смотреть план

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
super-cheatsheet-machine-learning.pdf
1.3 MB
🎓 Super VIP Cheatsheet: Machine Learning" от Stanford University.

Краткий конспект основных тем ML с самыми важными формулами и понятными и нгалядными иллюстрациями для подготовки к интервью.

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Полный список вопросов с собеседований по Python для дата-сайентистов.

Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

✔️ Читать дальше

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Практическая задача

♠️Из колоды карт, содержащей 52 карт, извлекается случайно 5 карт. Каковы вероятности следующих событий:

A: Все 5 карт бубновой масти.
B: Все 5 карт одной масти.
C: Среди извлеченных карт имеется 3 туза.
D: Среди извлеченных карт имеются 2 дамы и один король.
E: Среди извлеченных карт имеются десятка, валет, дама, король и туз.
F: Извлеченные карты – десятка, валет, дама, король и туз одной масти.

✔️ Решение

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Интервью Amazon Data Scientist | Бывший специалист по данным FAANG

В этом
руководстве вы найдете подробные сведения о процессе собеседования и советы по подготовке, которые помогут вам успешно пройти собеседование в Amazon.

⭐️ Medium post

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ 120 вопросов на собеседовании по науке о данных

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM