SQL и Анализ данных

💡 SQL: группировка по неделям

Иногда нужно посчитать статистику не по дням, а по неделям.
Для этого можно использовать функции работы с датами.


-- PostgreSQL
SELECT 
    DATE_TRUNC('week', order_date) AS week_start,
    COUNT(*) AS orders_count
FROM orders
GROUP BY DATE_TRUNC('week', order_date)
ORDER BY week_start;

-- MySQL
SELECT 
    YEARWEEK(order_date, 1) AS year_week,
    COUNT(*) AS orders_count
FROM orders
GROUP BY YEARWEEK(order_date, 1)
ORDER BY year_week;

🔎 Так можно быстро увидеть динамику заказов по неделям.
Аналогично работает и для month, quarter, year.

👍11❤2🔥2

2.21K views13:02

SQL и Анализ данных

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

🦆 Крутой интерактивный тренажёр по SQL

Учитесь писать SQL-запросы через игру:
- Пошаговые уроки с живым редактором — пишешь код и сразу видишь результат.
- Задачи и мини-квесты, где вы помогаете Дакберту пробираться сквозь потоки данных.
- Работает бесплатно, прямо в браузере или на телефоне.

🎮 Попробовать: https://dbquacks.com/

👍7🔥2😁2❤1🤨1

1.73K views11:11

SQL и Анализ данных

Forwarded from Machine learning Interview

❌ Классический поиск по ключевым словам даёт ограниченные результаты.

В примере выше, такой селективный нашел только одно совпадение: "Machine Learning Overview".

✅ А вот pgvector ищет по смыслу и находит связанные концепции.
Пример запроса возвращает 5 релевантных документов:
– Machine Learning Overview
– Data Mining Basics
– Introduction to AI
– Deep Learning Guide

Семантический поиск > ключевого 🔥

@machinelearning_interview

❤2😁2👍1🔥1🤨1

1.75K views11:22

SQL и Анализ данных

💡 SQL: фильтрация по агрегатам с HAVING !!!

Иногда нужно отобрать только те группы, которые удовлетворяют условию по агрегату.
Для этого используется HAVING — он применяется после GROUP BY.


SELECT 
    customer_id,
    COUNT(order_id) AS orders_count,
    SUM(amount)     AS total_amount
FROM orders
GROUP BY customer_id
HAVING SUM(amount) > 1000
   AND COUNT(order_id) >= 5;

🔎 Так можно сразу выбрать клиентов, у которых больше 5 заказов и общая сумма превышает 1000.
HAVING работает с SUM(), COUNT(), AVG(), MAX() и другими агрегатами.

👍10❤2🔥2

1.44K views10:46

SQL и Анализ данных

Microsoft SQL Interview Question — разбор №2: Early Responders

Задача: найти топ-3 пользователей, которые чаще всего отвечали на сообщения в течение 5 минут в августе 2022.
Нужно вывести их sender_id и число «быстрых ответов».

Данные: таблица messages(message_id, sender_id, receiver_id, content, sent_date).

Подход:
— Фильтруем август полуинтервалом [2022-08-01, 2022-09-01).
— Группируем переписку по паре пользователей (conv_id = min(sender,receiver)–max(sender,receiver)).
— Используем LAG по conv_id, чтобы взять предыдущее сообщение в диалоге.
— Быстрый ответ — когда направление сменилось и прошло ≤ 5 минут.

Решение (T-SQL):


WITH aug AS (
  SELECT message_id, sender_id, receiver_id, sent_date
  FROM   messages
  WHERE  sent_date >= '2022-08-01'
     AND sent_date <  '2022-09-01'
),
conv AS (
  SELECT *,
         CONCAT(
           IIF(sender_id < receiver_id, sender_id, receiver_id), '-',
           IIF(sender_id < receiver_id, receiver_id, sender_id)
         ) AS conv_id
  FROM aug
),
seq AS (
  SELECT *,
         LAG(sender_id) OVER (PARTITION BY conv_id ORDER BY sent_date, message_id) AS prev_sender,
         LAG(sent_date) OVER (PARTITION BY conv_id ORDER BY sent_date, message_id) AS prev_time
  FROM conv
),
fast AS (
  SELECT sender_id
  FROM   seq
  WHERE  prev_sender IS NOT NULL
     AND sender_id <> prev_sender
     AND DATEDIFF(minute, prev_time, sent_date) <= 5
)
SELECT TOP (3)
       sender_id,
       COUNT(*) AS fast_reply_count
FROM   fast
GROUP BY sender_id
ORDER BY COUNT(*) DESC, sender_id;

Вариант с учётом ничьих (возьмёт всех на 1-3 местах):


WITH aug AS (
  SELECT message_id, sender_id, receiver_id, sent_date
  FROM   messages
  WHERE  sent_date >= '2022-08-01'
     AND sent_date <  '2022-09-01'
),
conv AS (
  SELECT *,
         CONCAT(
           IIF(sender_id < receiver_id, sender_id, receiver_id), '-',
           IIF(sender_id < receiver_id, receiver_id, sender_id)
         ) AS conv_id
  FROM aug
),
seq AS (
  SELECT *,
         LAG(sender_id) OVER (PARTITION BY conv_id ORDER BY sent_date, message_id) AS prev_sender,
         LAG(sent_date) OVER (PARTITION BY conv_id ORDER BY sent_date, message_id) AS prev_time
  FROM conv
),
fast AS (
  SELECT sender_id
  FROM   seq
  WHERE  prev_sender IS NOT NULL
     AND sender_id <> prev_sender
     AND DATEDIFF(minute, prev_time, sent_date) <= 5
),
agg AS (
  SELECT sender_id, COUNT(*) AS fast_reply_count
  FROM   fast
  GROUP BY sender_id
),
ranked AS (
  SELECT sender_id, fast_reply_count,
         DENSE_RANK() OVER (ORDER BY fast_reply_count DESC) AS rnk
  FROM   agg
)
SELECT sender_id, fast_reply_count
FROM   ranked
WHERE  rnk <= 3
ORDER BY fast_reply_count DESC, sender_id;

Почему так:
— Диапазон дат без функций сохраняет использование индекса по sent_date.
— LAG по conv_id гарантирует, что сравниваем соседние сообщения в одном диалоге.
— Проверяем смену направления (sender_id ≠ prev_sender) и порог по времени (≤ 5 минут).

👍5❤2😁2🤨1

849 views13:04

About

Blog

Apps

Platform