Simulative

😱 Будьте аккуратны с последовательностью JOIN в SQL-запросах

Проверяя работы студентов в нашем Симуляторе, мы постоянно сталкиваемся с одной и той же ошибкой:

Люди пренебрегают порядком джоинов в запросе, что ведет к неправильному результату и даже потере данных!

Приведем пример для иллюстрации этой ошибки. Пусть нам даны 3 таблицы:

* Таблица с задачами Problem
* Таблица с тегами TagList
* Таблица со страницами сайта Page
* Таблица-связка задач и тегов ProblemTag

А теперь давайте попробуем написать 2 запроса:

1. Выведем все задачи со всеми соответствующими каждой задаче тегами, а также информацию о странице по каждой задаче
2. Выведем все задачи со всеми соответствующими тегами, а также информацию по каждому тегу

Допустим первый запрос мы написали так:

select *
from problem p 
left join problemtag p2 
on p.id = p2.problem_id 
join page p3
on p.page_id = p3.id

А второй запрос так:

select *
from problem p 
left join problemtag p2 
on p.id = p2.problem_id 
join taglist t
on t.id = p2.tag_id

🟢 А в чем, собственно, ошибка?

По идее, учитывая поставленное задание, количество строк в этих двух запросах должно совпадать. Это логично - в обоих запросах мы отталкиваемся от таблиц Problem и ProblemTag, а меняется только последний джоин. Однако, именно он и является критичным.

Если мы посмотрим на количество строк, то заметим, что во втором запросе мы потеряли строки. Вот так выглядит количество строк:

В первом запросе - 524
Во втором запросе - 451
В таблице ProblemTag - 451
Задач, для которых нет ни одного тега - 73

И вот теперь мы видим, что во втором запросе мы потеряли ровно все задачи, для которых нет ни одного тега!

🟢 Как так получилось?

Очень просто - во всем виновата последовательность джоинов:

1. В первом запросе с помощью left join мы сохраняем все задачи, даже если для них нет тегов. А последний джоин эти задачи не отсеивает, потому что соединяет таблицы Page и Problem, для которых есть соответствие в каждой строке.
2. А во втором запросе последний джоин отбрасывает все задачи без тегов! Это происходит потому что в join фигурирует таблица ProblemTag. Т.к. джоин обычный (inner join), остаются только строки из ProblemTag, а значит все задачи, для которых нет тегов просто выкидываются из расчета.

Получается, во втором запросе left join не имеет никакого смысла и его эффект перебивается последним join? Да, именно так. И это очень частая ошибка, которая встречается во многих боевых задачах. А самое страшное, что ее реально сложно заметить.

🟢 Как исправить?

Есть несколько способов исправить такой запрос:

1. Изменить порядок джоинов (перенести left на последнее место и заменить на right)
2. Вместо последнего inner join также указать

left join

Например:

select *
from problemtag p 
join taglist t 
on t.id = p.tag_id
right join problem p2 
on p2.id = p.problem_id

А вы допускали такую ошибку? На всякий случай проверьте свои рабочие скрипты, вдруг туда затесался враг 😁

- - - - -
🔗 Залетайте в Симулятор «Аналитик данных» 👉🏻 https://vk.cc/ch76dC и не делайте таких ошибок 🙃

👍9🔥4

3.8K views09:22