РАССКАЖИТЕ МНЕ О ТОМ, ДЛЯ ЧЕГО БЫЛ СОЗДАН ЭТОТ НАБОР ДАННЫХ В РАМКАХ АНАЛИТИЧЕСКОГО ПРОЦЕССА.
Esquivel любит этот вопрос, потому что он заставляет кандидатов задуматься о недостатках данных - важной части набора навыков. Говорит Эскивель: «Легко указать и понять, что измеримые структурные атрибуты данных, с которыми мы работаем, часто коррелируют с высокими показателями производительности модели. Однако гораздо менее интуитивно понятно объяснять, как социальный и культурный контекст, в котором был создан набор данных, может привести к моделям, которые воспроизводят предубеждения или полагаются на выводы, исключительные для этого контекста, что приводит к циклам отрицательной обратной связи, неправильному взвешиванию выборки и оценке , а также неожиданные или даже недействительные результаты при применении к другому или большему контексту ».
@machinelearning_interview
Esquivel любит этот вопрос, потому что он заставляет кандидатов задуматься о недостатках данных - важной части набора навыков. Говорит Эскивель: «Легко указать и понять, что измеримые структурные атрибуты данных, с которыми мы работаем, часто коррелируют с высокими показателями производительности модели. Однако гораздо менее интуитивно понятно объяснять, как социальный и культурный контекст, в котором был создан набор данных, может привести к моделям, которые воспроизводят предубеждения или полагаются на выводы, исключительные для этого контекста, что приводит к циклам отрицательной обратной связи, неправильному взвешиванию выборки и оценке , а также неожиданные или даже недействительные результаты при применении к другому или большему контексту ».
@machinelearning_interview
👍5
Как интерпретировать регуляризацию L2 с байесовской точки зрения?
Где p (β | y, X) - апостериорное распределение, p (β) - априорное распределение, а p (y | X, β) - функция правдоподобия. Когда игнорируется априорное распределение и максимизируется только функция правдоподобия для оценки β, у нас нет никакой регуляризации. Имея предположения о предварительном распределении, мы добавляем регуляризацию, что означает, что мы накладываем некоторые ограничения на то, какое значение β может быть выбрано для этой модели. Для L2-регуляризации мы добавляем предположение, что β следует нормальному распределению со средним значением, равным нулю.
Для получения дополнительной информации о байесовской статистике вы можете прочитать следующую статью
@machinelearning_interview
Где p (β | y, X) - апостериорное распределение, p (β) - априорное распределение, а p (y | X, β) - функция правдоподобия. Когда игнорируется априорное распределение и максимизируется только функция правдоподобия для оценки β, у нас нет никакой регуляризации. Имея предположения о предварительном распределении, мы добавляем регуляризацию, что означает, что мы накладываем некоторые ограничения на то, какое значение β может быть выбрано для этой модели. Для L2-регуляризации мы добавляем предположение, что β следует нормальному распределению со средним значением, равным нулю.
Для получения дополнительной информации о байесовской статистике вы можете прочитать следующую статью
@machinelearning_interview
❤5👎1
ОЖИДАЙТЕ ТЕХНИЧЕСКИЕ ВОПРОСЫ ПО ФРЕЙМВОРКАМ И МОДЕЛЯМ МАШИННОГО ОБУЧЕНИЯ, А ТАКЖЕ НЕКОТОРЫЕ КОНЦЕПТУАЛЬНЫЕ ВОПРОСЫ.
Вам следует «убрать свои фреймворки и распространенные модели машинного обучения, например PCA, регрессию и кластеризацию». Вы также должны быть в состоянии «продемонстрировать понимание общих стеков машинного обучения у облачных провайдеров (AWS, Azure или GCloud), например, с помощью AWS - S3 buckets или RDS + lambda + AWS ML и т. д.»
Или воспользуйтесь этим советом Аллена Лу, бывшего стажера по машинному обучению в Google, который в недавнем посте на Quora изложил вопросы собеседования при приеме на работу по машинному обучению, которые он решал, чтобы получить стажировку: «Общие вопросы будут сосредоточены на основных темах машинного обучения, таких как логистическая регрессия, SVM, наивный байесовский метод и т. д. Вас также, вероятно, спросят об основных принципах нейронных сетей, таких как полносвязные уровни, функции активации и плюсы / минусы глубокое обучение (больше скрытых слоев)».
Однако Google не остановился на технических вопросах. (Зачем им?) Как и в вопросах, связанных с принятием решений, которые мы упоминали ранее, Google также любит немного концептуально. Лу говорит: «вы можете ожидать некоторых концептуальных вопросов, таких как смещения и дисперсии, различные функции потерь, переоснащение / регуляризация и т. д.»
Итог: опять же, технические вопросы собеседования будут разными, но лучший способ подготовиться к ним - это просмотреть все основные темы машинного обучения, которые вы изучили, чтобы вы чувствовали себя комфортно, говоря о них.
@machinelearning_interview
Вам следует «убрать свои фреймворки и распространенные модели машинного обучения, например PCA, регрессию и кластеризацию». Вы также должны быть в состоянии «продемонстрировать понимание общих стеков машинного обучения у облачных провайдеров (AWS, Azure или GCloud), например, с помощью AWS - S3 buckets или RDS + lambda + AWS ML и т. д.»
Или воспользуйтесь этим советом Аллена Лу, бывшего стажера по машинному обучению в Google, который в недавнем посте на Quora изложил вопросы собеседования при приеме на работу по машинному обучению, которые он решал, чтобы получить стажировку: «Общие вопросы будут сосредоточены на основных темах машинного обучения, таких как логистическая регрессия, SVM, наивный байесовский метод и т. д. Вас также, вероятно, спросят об основных принципах нейронных сетей, таких как полносвязные уровни, функции активации и плюсы / минусы глубокое обучение (больше скрытых слоев)».
Однако Google не остановился на технических вопросах. (Зачем им?) Как и в вопросах, связанных с принятием решений, которые мы упоминали ранее, Google также любит немного концептуально. Лу говорит: «вы можете ожидать некоторых концептуальных вопросов, таких как смещения и дисперсии, различные функции потерь, переоснащение / регуляризация и т. д.»
Итог: опять же, технические вопросы собеседования будут разными, но лучший способ подготовиться к ним - это просмотреть все основные темы машинного обучения, которые вы изучили, чтобы вы чувствовали себя комфортно, говоря о них.
@machinelearning_interview
❤3👍1
Объясните, что такое регуляризация и почему она полезна
Регуляризация в машинном обучении — метод добавления дополнительных ограничений к условию для того, чтобы предотвратить переобучение системы или решить некорректно поставленную задачу. Часто это ограничение представляет собой штраф за излишнюю сложность модели.
Прогнозы модели должны затем минимизировать функцию потерь, вычисленную на регуляризованном обучающем наборе.
Статья
@machinelearning_interview
Регуляризация в машинном обучении — метод добавления дополнительных ограничений к условию для того, чтобы предотвратить переобучение системы или решить некорректно поставленную задачу. Часто это ограничение представляет собой штраф за излишнюю сложность модели.
Прогнозы модели должны затем минимизировать функцию потерь, вычисленную на регуляризованном обучающем наборе.
Статья
@machinelearning_interview
👍3
КАК ВЫ ОБЩАЕТЕСЬ КАК С ТЕХНИЧЕСКОЙ, ТАК И С НЕТЕХНИЧЕСКОЙ АУДИТОРИЕЙ?
Серхио Моралес Эскивель, специалист по анализу данных из компании Growth Acceleration Partners (GAP), задает вопросы о стиле общения каждый раз, когда он берет на себя собеседование на роль машинного обучения. Зачем? «Я ищу не только кандидатов, которые хотят поделиться своими знаниями и взаимодействовать с другими в рамках нашей аналитической практики, но также тех, кто ценит роль прозрачности и прямого общения в решении проблем, обсуждении альтернативных решений и представлении результатов и идей коллегам. и другие заинтересованные стороны », - говорит Эскивель. «Активное распространение нашего процесса ... может привести нас к мысли, к которой мы бы не пришли в одиночку».
Итог: если вы не можете донести свою работу до людей за пределами вашей команды, вы должны начать работать над этим прямо сейчас. И в процессе собеседования, убедитесь, что вы четко сформулировать, каким образом вы бы общаться внутри и снаружи (в том числе, как они отличаются).
@machinelearning_interview
Серхио Моралес Эскивель, специалист по анализу данных из компании Growth Acceleration Partners (GAP), задает вопросы о стиле общения каждый раз, когда он берет на себя собеседование на роль машинного обучения. Зачем? «Я ищу не только кандидатов, которые хотят поделиться своими знаниями и взаимодействовать с другими в рамках нашей аналитической практики, но также тех, кто ценит роль прозрачности и прямого общения в решении проблем, обсуждении альтернативных решений и представлении результатов и идей коллегам. и другие заинтересованные стороны », - говорит Эскивель. «Активное распространение нашего процесса ... может привести нас к мысли, к которой мы бы не пришли в одиночку».
Итог: если вы не можете донести свою работу до людей за пределами вашей команды, вы должны начать работать над этим прямо сейчас. И в процессе собеседования, убедитесь, что вы четко сформулировать, каким образом вы бы общаться внутри и снаружи (в том числе, как они отличаются).
@machinelearning_interview
👍3🤔1
ПОЧЕМУ ВЫ ИСПОЛЬЗУЕТЕ ЭТОТ АЛГОРИТМ?
Сьюзан Шу Чанг, специалист по обработке данных из Bell, говорит, что по мере прохождения процесса вам следует ожидать таких вопросов: «Почему?». «Я [обычно задаю это] в ответ на то, что кандидат мог упомянуть в качестве ответа в тематическом исследовании науки о данных. Им нужно обосновать это [и показать], что они знают все за и против, а не просто предлагают это, потому что это звучит круто».
Итог: есть много вариантов подхода к проблеме - вам нужно показать, что вы можете критически относиться к той, которую решите использовать.
@machinelearning_interview
Сьюзан Шу Чанг, специалист по обработке данных из Bell, говорит, что по мере прохождения процесса вам следует ожидать таких вопросов: «Почему?». «Я [обычно задаю это] в ответ на то, что кандидат мог упомянуть в качестве ответа в тематическом исследовании науки о данных. Им нужно обосновать это [и показать], что они знают все за и против, а не просто предлагают это, потому что это звучит круто».
Итог: есть много вариантов подхода к проблеме - вам нужно показать, что вы можете критически относиться к той, которую решите использовать.
@machinelearning_interview
👍5
Forwarded from Анализ данных (Data analysis)
3️⃣ распространенные ошибки при поиске работы в области науки о данных в 2022 году
Читать
@data_analysis_ml
Читать
@data_analysis_ml
Telegraph
3 распространенные ошибки при поиске работы в области науки о данных в 2022 году
Ищете работу в области науки о данных и замечаете, что ваши усилия не приносят результатов? Не исключено, что вы практически все делаете правильно, но допускаете одну оплошность, которая не оставляет ни единого шанса на получение работы. Какие распространенные…
👍9
#тест
От чего НЕ зависит величина статистической мощности?
От чего НЕ зависит величина статистической мощности?
Anonymous Quiz
12%
размер выборки для подтверждения статистической гипотезы
21%
величина эффекта (разности между сравниваемыми средними)
44%
матожидание случайной величины
23%
величина уровня значимости
👍9
КАК БЫ ВЫ ПОДОШЛИ К ПОНИМАНИЮ ТОГО, КАКИЕ ОШИБКИ ДОПУСКАЕТ АЛГОРИТМ?
Этот вопрос касается демонстрации ваших навыков решения проблем, помимо выявления ошибки в первую очередь, поэтому сосредоточьте внимание на действенных шагах. Он исходит от Джейсона Дэвиса, генерального директора и соучредителя Simon Data, поставщика платформы данных о клиентах (CDP). Вот почему это нравится Дэвису: «Я хочу видеть, что они думают о проблеме с разных сторон. В Simon Data ключевой частью нашего предложения является партнерство с нашими клиентскими брендами, которое помогает им решать сложные бизнес-задачи. Нам нужен кандидат, который рассмотрит, плохи ли данные или есть ли в алгоритме какие-либо непредвиденные предубеждения, которые мы можем устранить, но правильный кандидат также подумает, не ограничиваясь технической проблемой, и спросит, правильно ли мы моделируем бизнес. проблема для конкретного клиента ».
Итог: для подобных вопросов сосредоточьтесь на действии, например, на том, какие дальнейшие шаги вы предпримете для решения проблем, и вы не сойдете с пути.
@machinelearning_interview
Этот вопрос касается демонстрации ваших навыков решения проблем, помимо выявления ошибки в первую очередь, поэтому сосредоточьте внимание на действенных шагах. Он исходит от Джейсона Дэвиса, генерального директора и соучредителя Simon Data, поставщика платформы данных о клиентах (CDP). Вот почему это нравится Дэвису: «Я хочу видеть, что они думают о проблеме с разных сторон. В Simon Data ключевой частью нашего предложения является партнерство с нашими клиентскими брендами, которое помогает им решать сложные бизнес-задачи. Нам нужен кандидат, который рассмотрит, плохи ли данные или есть ли в алгоритме какие-либо непредвиденные предубеждения, которые мы можем устранить, но правильный кандидат также подумает, не ограничиваясь технической проблемой, и спросит, правильно ли мы моделируем бизнес. проблема для конкретного клиента ».
Итог: для подобных вопросов сосредоточьтесь на действии, например, на том, какие дальнейшие шаги вы предпримете для решения проблем, и вы не сойдете с пути.
@machinelearning_interview
👍5
КАКИЕ СПЕЦИАЛИСТЫ ПО ДАННЫМ ИЛИ СТАРТАПЫ, ОСНОВАННЫЕ НА НАУКЕ О ДАННЫХ, ВАМ БОЛЬШЕ ВСЕГО НРАВЯТСЯ И ПОЧЕМУ?
Даже если вы начинаете заниматься машинным обучением, вы должны быть в курсе тенденций и громких имен в отрасли. Этот вопрос определяет, насколько вы погружены в [науку о данных, машинное обучение, чем бы вы ни занимались], так что как лучше подготовиться? Имейте наготове несколько имен (вроде ваших любимых влиятельных лиц).
@machinelearning_interview
Даже если вы начинаете заниматься машинным обучением, вы должны быть в курсе тенденций и громких имен в отрасли. Этот вопрос определяет, насколько вы погружены в [науку о данных, машинное обучение, чем бы вы ни занимались], так что как лучше подготовиться? Имейте наготове несколько имен (вроде ваших любимых влиятельных лиц).
@machinelearning_interview
👍5
Какой у вас опыт работы с инструментами для работы с большими данными, такими как Spark, которые используются в машинном обучении?
На уровне предприятия Apache Spark играет важную роль в масштабировании моделей машин и обеспечивает аналитику больших данных в реальном времени.
Spark – один из наиболее часто используемых инструментов машинного обучения для работы с большими данными, и он, вероятно, поднимется по крайней мере в некоторых из вопросов собеседования по машинному обучению для должностей, связанных с обработкой больших данных. Это обычная часть вопросов на собеседовании по машинному обучению для профессионалов с опытом.
Документация по Apache Spark
@machinelearning_interview
На уровне предприятия Apache Spark играет важную роль в масштабировании моделей машин и обеспечивает аналитику больших данных в реальном времени.
Spark – один из наиболее часто используемых инструментов машинного обучения для работы с большими данными, и он, вероятно, поднимется по крайней мере в некоторых из вопросов собеседования по машинному обучению для должностей, связанных с обработкой больших данных. Это обычная часть вопросов на собеседовании по машинному обучению для профессионалов с опытом.
Документация по Apache Spark
@machinelearning_interview
👍7
🔥 100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование
https://www.youtube.com/watch?v=BI-yjkRKymg
@machinelearning_interview
https://www.youtube.com/watch?v=BI-yjkRKymg
@machinelearning_interview
YouTube
100 Data Science вопросов мидлу! Парень c Физтеха проходит собеседование
На этот раз мы встретились уже с опытным кандидатом в Data Science. Будем интенсивно задавать разноплановые вопросы!
Канал Андрея t.iss.one/dzis_science
Канал Александра: t.iss.one/datafeeling
00:00 - Вступление
01:06 - Разогреваемся на Python
04:01 - Раскидываем…
Канал Андрея t.iss.one/dzis_science
Канал Александра: t.iss.one/datafeeling
00:00 - Вступление
01:06 - Разогреваемся на Python
04:01 - Раскидываем…
🔥7🤡1
Я построил линейную регрессионную модель, показывающую 95%-ный доверительный интервал.
Означает ли это, что существует 95%-ная вероятность, что коэффициенты моей модели верно оценивают функцию, которую я хочу аппроксимировать? (Подсказка: на самом деле это означает 95% времени…)
@machinelearning_interview
Означает ли это, что существует 95%-ная вероятность, что коэффициенты моей модели верно оценивают функцию, которую я хочу аппроксимировать? (Подсказка: на самом деле это означает 95% времени…)
@machinelearning_interview
👍6🔥1
КАКОВА ЦЕЛЬ A / B ТЕСТИРОВАНИЯ?
Ответ
Вичорек добавляет этот вопрос в смесь, которую она описывает как «тест на общие знания». Для этого и всех собеседований по машинному обучению и науке о данных убедитесь, что вы знаете лучшие практики в своей области. Вас спросят о них.
Итог: знайте общие области машинного обучения и / или науки о данных, а также каковы текущие стандарты, а также почему они являются стандартами.
Подробнее
@machinelearning_interview
Ответ
Вичорек добавляет этот вопрос в смесь, которую она описывает как «тест на общие знания». Для этого и всех собеседований по машинному обучению и науке о данных убедитесь, что вы знаете лучшие практики в своей области. Вас спросят о них.
Итог: знайте общие области машинного обучения и / или науки о данных, а также каковы текущие стандарты, а также почему они являются стандартами.
Подробнее
@machinelearning_interview
👍4
Data Science SQL Интервью Вопрос и ответ Airbnd
https://www.youtube.com/watch?v=gZ7OmLgNglU
@machinelearning_interview
https://www.youtube.com/watch?v=gZ7OmLgNglU
@machinelearning_interview
YouTube
Data Science SQL Interview Question and Answer | Airbnb
🚀 Prep SQL with https://sql.datainterview.com/
====== ✅ Details ======
Love it or hate it - solving the SQL question correctly with speed can make or break your interview success.
That's why in this video, I share:
👉 Three tips that helped clients ace…
====== ✅ Details ======
Love it or hate it - solving the SQL question correctly with speed can make or break your interview success.
That's why in this video, I share:
👉 Three tips that helped clients ace…
🔥5
Не кажется ли вам, что временной ряд — это очень простая задача линейной регрессии с единственной переменной отклика и с единственным предиктором — временем? В чём проблема метода линейной регрессии (необязательно с единственным линейным членом, с многочленами тоже) в случае данных временного ряда? (Подсказка: прошлое указывает на будущее…)
@machinelearning_interview
@machinelearning_interview
👍5👎1
8 вопросов для интервью по визуализации данных с примерами ответовa
Читать дальше
@machinelearning_interview
Читать дальше
@machinelearning_interview
BUOM
8 вопросов для интервью по визуализации данных с примерами ответов • BUOM
26 августа 2021 г.
👍6👎1🔥1
Обработка null-значений, синтаксических ошибок, дубликатов столбцов и строк
От незаполненных полей в датасете никуда не деться. Каждое влияет на погрешность по-своему. Существует целая область, изучающая методы работы с null-полями. Однажды на собеседовании меня просили в деталях рассказать о каждом из них.
Синтаксические ошибки возникают, когда данные в датасет добавлялись вручную, например через форму. Из-за этого можно получить ненужные уровни категорий, как «Горячий», «ГоРяЧий» и «горячий/n» и т. д.
Напоследок о дубликатах. Повторяющиеся столбцы бесполезны, а вот повторение строк искажает баланс данных в сторону одного класса.
@machinelearning_interview
От незаполненных полей в датасете никуда не деться. Каждое влияет на погрешность по-своему. Существует целая область, изучающая методы работы с null-полями. Однажды на собеседовании меня просили в деталях рассказать о каждом из них.
Синтаксические ошибки возникают, когда данные в датасет добавлялись вручную, например через форму. Из-за этого можно получить ненужные уровни категорий, как «Горячий», «ГоРяЧий» и «горячий/n» и т. д.
Напоследок о дубликатах. Повторяющиеся столбцы бесполезны, а вот повторение строк искажает баланс данных в сторону одного класса.
@machinelearning_interview
🔥9👍4
Есть данные о длительности звонков в колл-центр. Разработайте план кодирования и анализа этих данных. Приведите пример, как может выглядеть распределение этих данных. Как бы вы могли проверить, хотя бы графически, подтверждаются ли ваши ожидания?
Ответ
Чтобы очистить, исследовать и представить данные, я бы провел EDA – Exploratory Data Analysis (разведочный анализ данных). В процессе EDA я бы построил гистограмму длительности звонков, чтобы увидеть их распределение.
Можно предположить, что длительность звонков следует логнормальному распределению. Длительность звонка не может быть отрицательной, так что нижнее значение равно 0. На другом конце гистограммы будет небольшое количество очень длинных звонков.
Пример логнормального распределения
Пример логнормального распределения
Чтобы подтвердить, распределена длительность звонков логнормально или нет, мы могли бы использовать график КК (QQPlot).
@machinelearning_interview
Ответ
Чтобы очистить, исследовать и представить данные, я бы провел EDA – Exploratory Data Analysis (разведочный анализ данных). В процессе EDA я бы построил гистограмму длительности звонков, чтобы увидеть их распределение.
Можно предположить, что длительность звонков следует логнормальному распределению. Длительность звонка не может быть отрицательной, так что нижнее значение равно 0. На другом конце гистограммы будет небольшое количество очень длинных звонков.
Пример логнормального распределения
Пример логнормального распределения
Чтобы подтвердить, распределена длительность звонков логнормально или нет, мы могли бы использовать график КК (QQPlot).
@machinelearning_interview
👍11🔥1