Machine learning Interview
24.5K subscribers
1.05K photos
74 videos
12 files
712 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению. Часть 2

🚀 Часть 1

Вопросы и ответы на собеседования по машинному обучению для специалистов в области анализа данных
Вопросы и ответы на собеседования по глубокому обучению для специалистов в области обработки данных
Вопросы по статистике
Вопросы по теории вероятности
Репозиторий для линейки онлайн-курсов по статистике
Вопросы и ответы для специалистов по анализу данных на Python
Вопросы и ответы для собеседований по SQL и DB для специалистов по обработке данных
Вопросы, основанные на резюме
Вопросы и ответы на собеседования по большим языковым моделям (ВПН)
Вопросы и ответы на собеседования по компьютерному зрению часть 1( ВПН)
Вопросы и ответы на собеседования по компьютерному зрению часть 2 (ВПН)
Вопросы и ответы на собеседования по компьютерному зрению часть 3 (ВПН)

@machinelearning_interview
📌Держите 14 типичных вопросов с собеседования по ML

— Как работает градиентный бустинг?
— Почему бустинг градиентный?
— Расскажи про свой опыт?
— Что такое Uplift-моделирование?
— Что за классы трансформируются в Uplift - моделировании?
— Что будешь делать, когда маркетолог попросит сделать модель оттока?
— Какие метрики знаешь для дисбаланса классов?
— Как подобрать отсчеку при перехода с Presicion на Recall?
— Как работает бустрап?
— Как оценить доверительный интервал площади?
— Как оценить метрику, если есть только модели и их оценки?
— Какие бывают схемы кросс-валидации?
— Как по другому называется точность оценки?
— Какая система валидации нужна оценке финального качества модели?

📎 О том, где искать ответы на эти вопросы, можно почитать тут

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ 4 Репозитория на Github для подготовки к 4 различным типам собеседований по разработке программного обеспечения:

1. Собеседования по системному дизайну: https://github.com/ashishps1/awesome-system-design-resources

2. Собеседования по низкоуровневому проектированию: https://github.com/ashishps1/awesome-low-level-design

3. Собеседования по программированию: https://github.com/ashishps1/awesome-leetcode-resources

4. Поведенческое собеседование: https://github.com/ashishps1/awesome-behavioral-interviews

@machinelearning_interview
🔥 Решение тестового задания на стажировку в Контур Data Science

В данном задании предлагается вам сделать модель, которая поможет отделу госзакупок извлекать нужный кусок текста из документа для того, чтобы сформировать анкету заявки.

То, какой именно фрагмент текста нужно извлечь, зависит от пункта анкеты, соответствующего документу.

Всего в каждом документе, с которыми вы будет работать, есть 1 из 2-х пунктов анкеты, по которым необходимо извлекать кусочки из текста:

обеспечение исполнения контракта
обеспечение гарантийных обязательств

Соответственно, ваша модель, принимая на вход текст документа и наименование одного из двух пунктов, должна возвращать соответствующий кусочек текста из текста документа.

Тестовое задание
Для выполнения тестового задания требуется разработать модель, которая будет способна по паре текст документа и пункт анкеты извлекать из текста документа нужный фрагмент текста. Обучив модель, добавьте в файл test.json поле extracted_part в том же формате, что и в файле train.json.

Новый файл назовите predictions.json

Подсказка: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля extracted_part с answer_start и answer_end равными нулю). Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании файла с ответами.

Тестовое задание
Для выполнения тестового задания требуется разработать модель, которая будет способна по паре текст документа и пункт анкеты извлекать из текста документа нужный фрагмент текста. Обучив модель, добавьте в файл test.json поле extracted_part в том же формате, что и в файле train.json. Новый файл назовите predictions.json

Подсказка: изучив данные, вы можете заметить, что у части наблюдений отсутствует фрагмент текста к извлечению (пустая строка внутри поля extracted_part с answer_start и answer_end равными нулю).

Это означает, что в тексте документа нет нужного фрагмента текста, соответствующего пункту анкеты. Учтите это в обучении вашей модели и при формировании файла с ответами.

Dataset
Решение
Github

@machinelearning_interview
🌟 Введение в машинное обучение (классические методы машинного обучения)

курс "Введение в машинное обучение" для студентов третьего курса ЭФ ЭМИТ РАНХиГС. В курсе расмотрены практические аспекты классических методов машинного обучения.

Github

@machinelearning_interview
Data Structures Reference

​​Если вы собираетесь на техническое собеседование, то не забудьте повторить структуры данных и алгоритмы.

Здесь собраны все структуры данных с краткими определениями и красивой визуализацией.

Помимо всего прочего, в гайде перечислены сильные и слабые стороны каждой структуры, трюки и связанные алгоритмы.

Поэтому держите годную статью, для подготовки.

🔗 Гайд
🔗Теоретические основы всех популярных алгоритмов ML и их реализация на Python

@machinelearning_interview
🖥 Решение задач с помощью SQL является важным навыком для дата-саентиста по нескольким причинам:

1. SQL позволяет эффективно извлекать, фильтровать и обрабатывать данные из баз данных.

2. SQL предоставляет возможность проводить аналитические запросы к данным, выявлять закономерности, тренды и паттерны, что помогает в принятии бизнес-решений.

3. Часто данные хранятся в различных базах данных или системах. Знание SQL помогает дата-саентисту объединять данные из разных источников для создания цельных наборов данных.

4. Написание оптимизированных SQL-запросов позволяет ускорить обработку данных и повысить производительность аналитических процессов.

В целом, знание SQL позволяет дата-саентисту эффективно работать с данными, проводить анализ и извлекать ценные инсайты для бизнеса.

Предлагаю немного попрактиковаться и порешать задачи на знание SQL.

🖇 Решение заданий из тренажера SQL Academy
🖇 Вводный Курс с задачами по работе с Базами данных
🖇В репозитории представлены проекты курса Аналитик данных
🖇Решение задач hackerrank по SQL
🖇100 ключевых Вопросов с собеседований
🖇100 вопросов с собеседований Data Science 

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Подготовка к собеседованию по ML: ответы на основные вопросы

Неплохая шпаргалка с ответами на популярные вопросы с собеседований по Machine Learning.

Вот некоторые из вопросов, которые тут затрагиваются:
Какие популярные модели ML ты знаешь?
Какие метрики используются в ML для оценки производительности моделей?
Как строится ROC-AUC? В чем суть ROC-AUC?
Расскажи о разделении данных train/test split , а также об использовании кросс-валидации

📎 Ответы на вопросы

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Покори цифровой мир и забери крутые призы, но сначала — окажись на код впереди!

Залетай на «Цифровой марафон» от Сбера и «Школы 21» — бесплатный конкурс, который подойдёт новичкам, исследователям и опытным профи. Для разных уровней подготовки будут свои задания и награды: от мерча и гаджетов до поездок на премиум-курорты и миллиона рублей! Участвовать могут все, кому уже исполнилось 18 лет.

В программе: онлайн-игра, тестирование, цифровой диктант и финал в Москве с церемонией награждения победителей. Проверь логику, память и мягкие навыки в онлайн-игре. Выбери свой уровень перед онлайн-тестированием — «Новичок», «Исследователь» или «Эксперт» — и зарабатывай очки на ответах. На цифровом диктанте напиши код решения на языке программирования, который знаешь лучше всего. Далее «Новички» заканчивают марафон и получают призы, а лучшие участники среди «Исследователей» и «Экспертов» попадают в финал.

Успей на проверку своих цифровых навыков — регистрация заканчивается уже 20 апреля. Присоединяйся!
📌Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Нереально полезная статья с огромным количеством полезных ссылок, ресурсов и всего остального

План статьи
Предварительные знания
├╼ 1.1. Математика: линал, матанализ, матстатистика
╰╼ 1.2. Python, C++, SQL, другие ЯП; алгоритмы и структуры данных

Классическое машинное обучение

Глубокое машинное обучение
├╼ 3.1. Основные материалы
├╼ 3.2. Дополнительные материалы
╰╼ 3.3. Если все же хочется пройти платный курс по Deep Learning...

Инструменты для конкретной роли (вакансии)

Поиск работы
├╼ 5.1. CV / резюме
├╼ 5.2. Где искать вакансии
╰╼ 5.3. Как готовиться к собеседованию

📎Вливаемся в Data Science: подробный roadmap что и где изучать
📎 Статья

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🎲 Теория вероятностей пронизывает все сферы науки о данных.

Вероятностные модели и используются практически во всех алгоритмах машинного обучения.

Функции штрафа в задачах регрессии или ошибок классификации основаны на понятии математического ожидания, закона больших чисел, а центральная предельная теорема служит основанием для доказательства сходимости и состоятельности многих алгоритмов и методов анализа данных.

Полезные материалы для подготовки к вопросам по терверу:
Теория вероятностей (на основе программы для поступления в ШАД)

Самые популярные ЗАДАЧИ на ТЕРВЕР на собеседовании АНАЛИТИКА

Теории вероятностей: готовимся к собеседованию и разрешаем «парадоксы»

R для теории вероятностей и математической статистики"

Книга: Математика в машинном обучении

Статистика для экспериментов от Harvard University

Учебное пособие Математическая статистика

Наука о данных 19 вопросов с Интервью по терверу

Вопросы для подготовки к Python Developer

Прикладная статистика

@machinelearning_interview
📈 Одна из важных тем при подготовке к собеседованию, на которой стоит сосредоточиться это статистика.

В конечном итоге, дата-сайентист - это современный статистик, а машинное обучение - это современный термин для статистики.

Если у вас есть время, я рекомендую пройти курс "Математическая статистика" от Computer Science Center и "Статистические методы" от Джорджии Тек, который охватывает основы вероятности, случайные величины,ы распределение вероятностей, тестирование гипотез и многое другое.

Статистика Вопросы для собеседования

Top 75 Statistics Interview Questions

Шпаргалка дата-сайентистов описательная статитска

Машинное обучение для решения прикладных задач

Основы статистики конспект лекций

Разбор ОТВЕТОВ на вопросы (Python, SQL, ТЕРВЕР, статистика)

Statistics Interview Questions & Answers for Data Scientists

40 вопросов по статистике с собеседований на должность Data Scientist

@machinelearning_interview
💡 YandexART обновился до версии 1.3

В статье на Хабре старший разработчик в команде компьютерного зрения рассказывает о переходе на новую технологию латентной диффузии и увеличении датасета в 2,5 раза, а также объясняет, зачем в новой версии используются два текстовых энкодера. Интересно, что по результатам SBS-замеров асессорами Яндекса, нейросеть YandexART 1.3 выигрывает не только у модели-предшественницы, но и в 57 процентах случаев в сравнении с Midjourney V5.2.

📎 Статья

@machinelearning_interview