DataДжунгли🌳

#SQLWednesday
Как же на самом деле крутится "SELECT"

🤪

Как же "движок" базы данных обрабатывает ваш запрос в каком порядке.
Когда то на собеседовании на джуновскую позицию мне задали такой вопрос, может и вам пригодится. И кстати может вы избавитесь от ошибок в текущей работе ⚠️
Логический порядок такой:
FROM → JOIN → WHERE → GROUP BY → HAVING → WINDOW → SELECT → DISTINCT → ORDER BY → LIMIT/OFFSET

Давайте поближе поглядим что происходит на каждом этапе(Да не все запросы содержат ВСЕ операторы но порядок в любом случае такой):

1. FROM --Сначала SQL надо сказать откуда мы берем данные из какой таблицы.
2. JOIN --Логично если на первом месте таблицы то JOIN точно на втором.
3. WHERE --Фильтруем строки после соединения. Теперь понимаете почему нельзя использовать алиасы из SELECT, потому что он только 7 на очереди👀
4. GROUP BY --Лепим группы, считаем агрегаты.
5. HAVING --Фильтруем уже сведённые группы.
6. WINDOW --Считаем оконные функции (ROW_NUMBER, avg() over…). Они видят итог после WHERE, но до SELECT (уверен вы сейчас такие ЧЕ??)
7. SELECT --Выбираем финальные столбцы, присваиваем алиасы. Только сейчас ⚠️
8. DISTINCT --Убираем дубликаты.
9. ORDER BY --Сортируем. Уже видим алиасы из SELECT.
10. LIMIT/OFFSET --Отрезаем кусок результата.

❗️Ставь 🔥 если не знал что порядок именно такой 👀

Давайте примеры посмотрим:


-- Сколько авторов имеют > 3 статей
SELECT   author_id,
         COUNT(*) AS article_cnt
FROM     articles
GROUP BY author_id
HAVING   COUNT(*) > 3;

1. FROM - берём articles
2. GROUP BY - группируем по author_id
3. HAVING - фильтруем готовые группы (в WHERE так не выйдет - агрегатов ещё нет)
4. SELECT - выводим автора и число статей


-- Хотим все ордера + успешные доставки
SELECT  o.id,
        d.tracking_code
FROM    orders o
LEFT JOIN deliveries d
  ON    d.order_id = o.id
  AND   d.status = 'shipped'   -- фильтр СРАЗУ при соединении
WHERE   o.created_at >= current_date - interval '30 days';

Фильтр в JOIN … ON ускоряет LEFT JOIN
Предикат status = 'shipped' выполняется до WHERE, поэтому пустые доставки всё ещё вернутся как NULL, но оптимизатор не тащит лишние статусы.
Это один из способов как можно ускорить ваш запрос вынося из WHERE в JOIN.


WITH active AS (
  SELECT *
  FROM   sessions
  WHERE  started_at >= current_date - 7
)
SELECT  user_id,
        started_at,
        ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY started_at) AS rn
FROM    active
ORDER BY user_id, rn;

Оконка «видит» фильтр из WHERE, но идёт раньше SELECT
WHERE уже отрезал старые сессии.
ROW_NUMBER считается, потом идёт SELECT, где мы выводим rn.

Красиво не правда ли?

😃

Пересылайте коллегам и друзьям шпаргалку по SQL сохраняйте себе в телеграм 😮

Давайте в комментариях обсудим как улучшить этот запрос:


-- Ищем заказы c дорогими товарами и уже оплаченным счётом
SELECT  o.id,
        o.created_at,
        c.total_amount,
        c.status    AS charge_status,
        p.name      AS product_name,
        p.price
FROM    orders      o
JOIN    order_items oi  ON oi.order_id   = o.id
JOIN    products    p   ON p.id          = oi.product_id
JOIN    charges     c   ON c.order_id    = o.id
WHERE   p.price      > 1000                -- фильтр по цене
  AND   c.status     = 'paid'              -- фильтр по чеку
  AND   o.created_at >= current_date - interval '90 days';

За лучший ответ получите статус "Порядочного" в чате DE Data Talks 🙂

Please open Telegram to view this post