Тестовые задания: задачка на SQL для Junior Data Analyst
Нужно написать запрос, который бы реализовал логику алгоритма рекомендаций фильмов, которые пользователи еще не смотрели.
На выходе должна получиться таблица: Пользователь, Рекомендованный фильм, Рейтинг рекомендации.
Что проверяет такая задача?
🔵 Базовое знание SQL.
🔵 Работу с алгоритмами рекомендаций
🔵 Работу с агрегацией и моделированием данных.
Решение
1. Построим систему рекомендаций на принципе коллаборативной фильтрации.
Если пользователи А и Б выбирают какой-то фильм, то высока вероятность схожести их интересов и по другим фильмам.
2. Схожесть интересов пользователей определим как N%общих просмотренных фильмов.
То есть если у пользователя А N% общих просмотренных фильмов с пользователем Б, то мы можем рекомендовать пользователю А фильмы, которые посмотрел пользователь Б.
3. Рейтинг рекомендации построим индивидуально на основании количества просмотров фильма у пользователей со схожими интересами.
Подробное решение и результат описали в карточках.
Код может выглядеть следующим образом
Маленький комментарий по задачи от нашего аналитика Надежды
@leftjoin_career
#разбор_тестового
Нужно написать запрос, который бы реализовал логику алгоритма рекомендаций фильмов, которые пользователи еще не смотрели.
На выходе должна получиться таблица: Пользователь, Рекомендованный фильм, Рейтинг рекомендации.
Что проверяет такая задача?
Решение
1. Построим систему рекомендаций на принципе коллаборативной фильтрации.
Если пользователи А и Б выбирают какой-то фильм, то высока вероятность схожести их интересов и по другим фильмам.
2. Схожесть интересов пользователей определим как N%общих просмотренных фильмов.
То есть если у пользователя А N% общих просмотренных фильмов с пользователем Б, то мы можем рекомендовать пользователю А фильмы, которые посмотрел пользователь Б.
3. Рейтинг рекомендации построим индивидуально на основании количества просмотров фильма у пользователей со схожими интересами.
Подробное решение и результат описали в карточках.
Код может выглядеть следующим образом
with users as (
select
distinct user1_id,
user2_id
from
(select
cus.user_id as user1_id,
ous.user_id as user2_id,
cus.movie_id as movie1_id,
ous.movie_id as movie2_id,
(cus.movie_id = ous.movie_id) as common_interest
from
likes as ous
join likes as cus
on cus.user_id <> ous.user_id) following
group by
user1_id, user2_id
having
((count(*) filter (where "common_interest")::float) / (count(*)::float)) >=
0.1
), user_likes as (
select users.user1_id, likes.movie_id, count(likes.user_id) as like_count
from users
left join likes on users.user2_id = likes.user_id
group by users.user1_id, likes.movie_id
)
select
user_likes.user1_id as "Пользователь",
user_likes.movie_id as "Рекомендованный фильм",
user_likes.like_count as "Рейтинг рекомендации"
from user_likes
left join likes
on user_likes.user1_id = likes.user_id and user_likes.movie_id =
likes.movie_id
where likes.movie_id is null
order by user_likes.user1_id, user_likes.like_count desc
Маленький комментарий по задачи от нашего аналитика Надежды
Задача сложная, а решение неоднозначное и далеко от идеала. От того еще интереснее почитать ваши варианты в комментариях!
@leftjoin_career
#разбор_тестового
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍3🔥3
SQL, Excel, Python — ТОП-3 навыка аналитика данных
Нам на глаза попался любопытный отчет — неравнодушный специалист проанализировал 180 вакансий в LinkedIn и составил топ навыков в разных категориях, которые чаще всего требуют работодатели от аналитиков данных.
Несколько ТОП-3 по категориям
🔵 Programming Languages: SQL, Python и R
🔵 Core Data Science Skills: Machine Learning, AI, NLP
🔵 Data Processing and ETL: ETL, Spark, Databricks
🔵 Data Visualization: Excel, Tableau, PowerBI
Ознакомиться с полной версией отчета можно здесь.
P.S. Регион анализа — США поэтому все, кто задумывается о зарплате в валюте и работе за границей, рекомендуем изучить результаты особенно внимательно, чтобы понимать, на какие навыки делать ставку👀
🔜 @leftjoin_career
Нам на глаза попался любопытный отчет — неравнодушный специалист проанализировал 180 вакансий в LinkedIn и составил топ навыков в разных категориях, которые чаще всего требуют работодатели от аналитиков данных.
Несколько ТОП-3 по категориям
Ознакомиться с полной версией отчета можно здесь.
P.S. Регион анализа — США поэтому все, кто задумывается о зарплате в валюте и работе за границей, рекомендуем изучить результаты особенно внимательно, чтобы понимать, на какие навыки делать ставку
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍4🔥2
Завтра в Data №5: «Аналитику важно быть “умной колонкой” с поддержкой двух языков — бизнесового и разработческого»
И снова пятница, и снова новое интервью с экспертом.
У микрофона Александр Бараков — Head of BI в Luxoft и автор телеграм-канала data nature об управлении BI в корпоративных реалиях.
О чем это интервью?
🔵 От архитектора до BI: путь, который не нужно повторять.
🔵 Рабочее комбо в образовании человека, работающего с данными.
🔵 Бег по кругу и рутина — единственное, что смущает в сфере?
Все подробности — в карточках.
И не забывайте задавать любые вопросы Александру в комментариях.
🔜 @leftjoin_career
#завтра_в_data
И снова пятница, и снова новое интервью с экспертом.
У микрофона Александр Бараков — Head of BI в Luxoft и автор телеграм-канала data nature об управлении BI в корпоративных реалиях.
О чем это интервью?
Все подробности — в карточках.
И не забывайте задавать любые вопросы Александру в комментариях.
#завтра_в_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍7🔥3😱1
У самурая нет цели, только путь. И наш путь лежит через традиционные понедельничные мемы про работу.
Не держите все в себе – делитесь любимыми мемами в комментариях (сделаем этот рабочий понедельник немного легче).
🔜 @leftjoin_career
Не держите все в себе – делитесь любимыми мемами в комментариях (сделаем этот рабочий понедельник немного легче).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4😁3❤2
Forwarded from LEFT JOIN
Онлайн-курсы для аналитиков: за, против, свой вариант?
А мы продолжаем исследование рынка онлайн-образования в сфере аналитики и приглашаем вас принять участие. Если еще не сделали этого — ждем ваших голосов по этой ссылке!
Результаты первого исследования от 2021 года можно увидеть здесь.
Зачем мы это затеяли?
Онлайн-курсы обещают помочь сменить профессию, подтянуть знания и построить карьеру. Мы хотим выяснить:
🔵 Действительно ли курсы помогают достичь этих целей?
🔵 Какие школы наиболее популярны, и больше всего нравятся студентам?
🔵 Видят люди ценность в онлайн-образовании?
Важные примечания
1️⃣ Нам важно узнать отношение к онлайн-образованию как явлению и собрать все мнения: положительные, отрицательные и нейтральные. Проходите опрос, даже если никогда не учились на курсах.
2️⃣ Исследование будет идти до 19 сентября.
3️⃣ Опрос основательный и довольно долгий. Но самых терпеливых, кто дойдет до конца, ждет награда от нашей команды!
🔜 Пройти опрос.
Будем благодарны за репосты и ваши комментарии.❤️
А мы продолжаем исследование рынка онлайн-образования в сфере аналитики и приглашаем вас принять участие. Если еще не сделали этого — ждем ваших голосов по этой ссылке!
Результаты первого исследования от 2021 года можно увидеть здесь.
Зачем мы это затеяли?
Онлайн-курсы обещают помочь сменить профессию, подтянуть знания и построить карьеру. Мы хотим выяснить:
Важные примечания
Будем благодарны за репосты и ваши комментарии.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👏2
«Это база» или что почитать, чтобы прокачаться в Data
Как-то один умный человек сказал: «Все знают и все понимают только дураки да шарлатаны». Поэтому сейчас мы вынуждены постоянно узнавать что-то новое, чтобы развивать свои навыки.
А так хотелось бы скачать все знания на флешку и загрузить себе в мозг. Но пока такой способ еще не изобрели, мы подготовили подборку книг и статей, которые стоит почитать, чтобы лучше «уметь в Data».
🔵 Fundamentals of Data Visualization (Claus O. Wilke)
В книге описаны принципы выбора подходящих графиков, правильное использование цветов и масштабов, а также важность контекста для восприятия информации. А также подробно разобраны do и don't в вопросе отображения данных.
🔵 Introduction to Modern Statistics (2-е издание)
Учебник рассчитан на начинающих изучать статистику. Он знакомит с основами работы с данными, методами анализа и визуализации. Первое издание лежит рядом на том же сайте.
🔵 Лонгрид про базы данных №1
В лонгриде описаны принципы работы и компоненты баз данных. По сути — выжимка всего самого главного из двух классных книг по теме. Ссылки на книги можно найти там же.
🔵 «Графики, которые убеждают всех»: 2-е дополненное и переработанное издание (Александр Богачев)
Книга рассказывает, как подготовить данные к работе, как выбрать подходящий график или диаграмму и оформить их так, чтобы они ясно доносили ваш месседж. А еще там можно найти узнать, как распознать ситуацию, когда статистикой пытаются манипулировать.
🔵 15 Math Concepts Every Data Scientist Should Know (David Hoyle)
Поскольку алгоритмы машинного обучения становятся все более мощными, нужно четко понимать их ключевые компоненты. В этой книге объясняются основные математические принципы, лежащие в основе часто используемых алгоритмов, подробно описывается их важность и практическое применение.
🔵 Data Pipelines Pocket Reference: Moving and Processing Data for Analytics (James Densmore)
В этом справочнике дается определение конвейеров и объясняется, как они работают в современном стеке данных.
🔵 Думай как математик: Как решать любые задачи быстрее и эффективнее (Барабара Оакли)
Эта книга не о формулах и уравнениях. Она о том, как научить свой мозг решать сложные задачи и справляться с большими объемами информации.
Делитесь в комментариях своими рекомендациями книг и статей — будем переопыляться достойными материалами по теме👀
🔜 @leftjoin_career
#into_data
Как-то один умный человек сказал: «Все знают и все понимают только дураки да шарлатаны». Поэтому сейчас мы вынуждены постоянно узнавать что-то новое, чтобы развивать свои навыки.
А так хотелось бы скачать все знания на флешку и загрузить себе в мозг. Но пока такой способ еще не изобрели, мы подготовили подборку книг и статей, которые стоит почитать, чтобы лучше «уметь в Data».
В книге описаны принципы выбора подходящих графиков, правильное использование цветов и масштабов, а также важность контекста для восприятия информации. А также подробно разобраны do и don't в вопросе отображения данных.
Учебник рассчитан на начинающих изучать статистику. Он знакомит с основами работы с данными, методами анализа и визуализации. Первое издание лежит рядом на том же сайте.
В лонгриде описаны принципы работы и компоненты баз данных. По сути — выжимка всего самого главного из двух классных книг по теме. Ссылки на книги можно найти там же.
Книга рассказывает, как подготовить данные к работе, как выбрать подходящий график или диаграмму и оформить их так, чтобы они ясно доносили ваш месседж. А еще там можно найти узнать, как распознать ситуацию, когда статистикой пытаются манипулировать.
Поскольку алгоритмы машинного обучения становятся все более мощными, нужно четко понимать их ключевые компоненты. В этой книге объясняются основные математические принципы, лежащие в основе часто используемых алгоритмов, подробно описывается их важность и практическое применение.
В этом справочнике дается определение конвейеров и объясняется, как они работают в современном стеке данных.
Эта книга не о формулах и уравнениях. Она о том, как научить свой мозг решать сложные задачи и справляться с большими объемами информации.
Делитесь в комментариях своими рекомендациями книг и статей — будем переопыляться достойными материалами по теме
#into_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍9🔥7
Тестовые задания: задача на математическую логику
Сегодня пробуем решить тестовое на позицию в один крупный банк :-)
Условие задачи
Пете нравятся числа {2, 4, 6, 8, 10, 12, 14, 16, 18, 20}.
А Васе: {3, 6, 9, 12, 15, 18, 21, 24, 27, 30}.
Известно, что если Коле нравится некоторое натуральное число, то оно нравится и Пете. А если некоторое натуральное число нравится Васе, то Коле оно точно не нравится.
Укажите наибольшее возможное количество чисел, которые нравятся Коле.
Так как в тексте невозможно отобразить формулы, мы представили процесс решения в карточках.
Задавайте вопросы и присылайте свои варианты ответов в комментариях👀
🔜 @leftjoin_career
#разбор_тестового
Сегодня пробуем решить тестовое на позицию в один крупный банк :-)
Условие задачи
Пете нравятся числа {2, 4, 6, 8, 10, 12, 14, 16, 18, 20}.
А Васе: {3, 6, 9, 12, 15, 18, 21, 24, 27, 30}.
Известно, что если Коле нравится некоторое натуральное число, то оно нравится и Пете. А если некоторое натуральное число нравится Васе, то Коле оно точно не нравится.
Укажите наибольшее возможное количество чисел, которые нравятся Коле.
Так как в тексте невозможно отобразить формулы, мы представили процесс решения в карточках.
Задавайте вопросы и присылайте свои варианты ответов в комментариях
#разбор_тестового
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍7🔥2