SQL и Анализ данных – Telegram

SQL и Анализ данных

12.4K subscribers

604 photos

53 videos

3 files

633 links

Базы данных и всё, что с ними связано!

Сотрудничество: @haarrp

РКН № 6001430881

Download Telegram

About

Blog

Apps

Platform

SQL и Анализ данных

12.4K subscribers

SQL и Анализ данных

📘 Шпаргалки по SQL — база и оконные функции в одном месте

Хочешь быстро освежить SQL или подготовиться к собеседованию?
Нашёл отличные PDF-шпаргалки, которые удобно сохранить себе и использовать как в работе, так и в учёбе.

🔹 Базовый SQL:
Каждая команда объясняется не только по синтаксису, но и по сути — когда и зачем использовать.

1️⃣ SELECT, WHERE, GROUP BY, HAVING
2️⃣ Все типы JOIN с примерами
3️⃣ CASE WHEN, UNION и подзапросы
4️⃣ Агрегатные функции и фильтрация

Основы SQL

🔹 Оконные функции (window functions):
Это уже продвинутый уровень, особенно полезный для аналитиков и дата-инженеров.

1️⃣ ROW_NUMBER, RANK, DENSE_RANK, NTILE
2️⃣ LAG, LEAD, FIRST_VALUE, LAST_VALUE
3️⃣ Работа с рамками окна: ROWS BETWEEN, RANGE, GROUPS
4️⃣ Сортировка внутри окна и реальные примеры запросов

🔗

Оконные функции в SQL

📌 Когда только начинал учить SQL, не хватало понятных материалов. А тут — всё чётко, наглядно и по делу. За это авторам — уважение 🙌

▶️

Сохраняйте себе, чтобы не потерять

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13👍7🔥7

4.39K views11:18

SQL и Анализ данных

Forwarded from Machine learning Interview

This media is not supported in your browser

VIEW IN TELEGRAM

🔊 OpenVoice — опенсовр инструмент для клонирования голоса

Вы можете сгенерировать копию любого голоса всего по одной короткой записи — и озвучивать тексты с нужной интонацией, эмоцией и даже на другом языке.

💡 Что умеет:
— Воспроизводит голос с точным тембром и стилем
— Меняет тон, темп, эмоции и акцент
— Работает даже с языками, которых не было в обучении (zero-shot)
— Быстрая генерация и минимальные ресурсы — дешевле многих коммерческих решений

⚙️ Как устроено:
OpenVoice использует комбинацию моделей: одна отвечает за стиль, вторая — за тональность и характеристики речи. Обучена на сотнях тысяч голосов и стилей.

Онлайн-демо: https://huggingface.co/spaces/myshell-ai/OpenVoice

🎯 Кому подойдёт:
— Авторам подкастов, дикторам и блогерам
— Разработчикам — для интеграции озвучки в приложения
— Исследователям — для изучения архитектуры голосовых моделей

• Github: https://github.com/myshell-ai/OpenVoice/tree/main

@machinelearning_interview

❤5👍4🔥3

2.71K views09:21

SQL и Анализ данных

📑 go-sqlite3 — необычная реализация SQLite для Go, которая обходится без cgo. Вместо традиционных биндингов проект использует Wasm-сборку SQLite и рантайм wazero, что делает его полностью независимым от системных библиотек.

Драйвер остаётся совместимым с стандартным интерфейсом database/sql, но при этом предлагает прямой доступ к низкоуровневым функциям SQLite. Разработчики уделили внимание тестированию: поддержка множества архитектур и ОС, включая экзотические вроде RISC-V или Solaris.

🤖 GitHub

🔥7❤2👍2😁1🆒1

2.75K viewsedited 08:50

SQL и Анализ данных

Forwarded from Machinelearning

🌟

Mixture-of-Recursions: концепция селективного ризонинга.

Архитектура Mixture-of-Recursions (MoR), предложенная Google в соавторстве с KAIST AI объединяет в едином фреймворке традиционные подходы разделения параметров и адаптивные вычисления, заставляя модель думать над каждым токеном с разной глубиной.

Под капотом MoR - рекурсивный трансформер, который прогоняет входные данные через один и тот же блок слоев несколько раз. Но главная фишка в том, что количество этих прогонов, или глубина рекурсии, не фиксированное, а динамическое и определяется для каждого токена индивидуально.

Легковесный обучаемый роутер анализирует токен и решает, сколько вычислительных усилий на него потратить. Простые слова могут пройти всего один цикл рекурсии, в то время как семантически нагруженные термины отправятся на более глубокую обработку из нескольких циклов.

Это дает два главных преимущества:

🟢Во-первых, модель тратит вычислительные ресурсы только на те токены, которые все еще активны на данной глубине рекурсии. Токены, которые вышли раньше, в дальнейших вычислениях не участвуют. Это уже само по себе сокращает объем вычислений.

🟢Во-вторых, что самое интересное для инженеров, MoR позволяет реализовать очень эффективное KV caching. Вместо того чтобы хранить в памяти огромный кеш для каждого виртуального слоя, модель кеширует KV-пары только для активных в данном цикле рекурсии токенов. Это кардинально снижает требования к памяти и ускоряет инференс, решая одну из главных головных болей при развертывании LLM.

При одинаковом бюджете на обучение (в FLOPs) и меньшем размере самой модели MoR показывает более низкую перплексию и лучшие результаты в few-shot задачах, чем стандартные и рекурсивные аналоги.

▶️ Попробовать MoR можно на практике - код для трейна и оценки доступен в репозитории проекта на Github.

📌Лицензирование: Apache 2.0 License.

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Architecture #MoR

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1🔥1

3.84K views13:53

SQL и Анализ данных

📄 Sparrow — интеллектуальный парсинг документов с помощью LLM. Этот проект сочетает компьютерное зрение и языковые модели для извлечения информации из счетов, банковских выписок и других сложных документов.

Инструмент имеет модульную архитектуру, позволяющую запускать pipelines как локально, так и в облаке через Hugging Face. Интересно, что Sparrow не просто распознает текст, а понимает семантику документов — система может извлекать конкретные поля по JSON-шаблону и даже обрабатывать многостраничные PDF с сохранением структуры.

🤖 GitHub

➡ SQL Community | Чат

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥2

3.58K viewsedited 08:52

SQL и Анализ данных

120 ключевых вопросов по SQL за 2025 год

Статья содержит 120 ключевых вопросов по SQL для собеседований, разделённых по темам и уровням сложности, с краткими пояснениями.

Основываясь на актуальных требованиях 2025 года, вопросы охватывают базу данных, оптимизацию, практические задачи и нюансы СУБД (MySQL, PostgreSQL, SQL Server).

🔜

Подробности

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤5🔥3

3.77K views06:46

SQL и Анализ данных

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Продвинутый SQL-трюк: как найти строки с дубликатами по одному полю, но с разными значениями в другом

Частая задача в аналитике — найти записи, где, например, один и тот же email встречается с разными user_id или IP. Это может быть индикатором мультиаккаунта, спама или ошибок.



-- Найдём email-адреса, у которых более одного уникального user_id
SELECT email
FROM users
GROUP BY email
HAVING COUNT(DISTINCT user_id) > 1;

-- Если нужно вытащить сами строки — можно использовать подзапрос
SELECT *
FROM users
WHERE email IN (
    SELECT email
    FROM users
    GROUP BY email
    HAVING COUNT(DISTINCT user_id) > 1
);

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20👍6❤1🥰1

3.92K views11:04

SQL и Анализ данных

🧩 Анатомия SQL‑запроса: как он устроен на самом деле

SQL выглядит просто, но за каждой строчкой — строгая логика и порядок выполнения. Вот из чего состоит любой запрос:

🧱 Компоненты:
- SELECT, FROM, WHERE, JOIN, GROUP BY, HAVING, ORDER BY, LIMIT — это клаузы, блоки, из которых строится запрос.
- Идентификаторы — названия таблиц и колонок.
- Литералы — значения: 'USA', 100, '2025-01-01'.
- Выражения — salary * 1.2, age > 30.

⚙️ Порядок выполнения СУБД (не как в коде!):
1. FROM и JOIN
2. WHERE
3. GROUP BY
4. HAVING
5. SELECT
6. ORDER BY
7. LIMIT

📌 То есть сначала СУБД соединяет таблицы, потом фильтрует, группирует, считает, сортирует и только потом возвращает результат.

🧠 SQL — декларативный язык. Ты описываешь, что хочешь получить, а не как это сделать.

🔗 Полная статья

👍16❤5🔥2😁2🤨1💊1

3.55K views14:12

SQL и Анализ данных

Forwarded from Python/ django

🖥 Transfunctions — библиотека транзакционных функций на Python

Transfunctions — это инструмент для создания чистых, переиспользуемых и управляемых пайплайнов из функций. Подходит для задач, где нужно чётко контролировать каждый шаг выполнения.

Что такое транзакционные функции?

Это функции, которые:
• имеют чёткое начало и откат (rollback) — как в базах данных
• могут быть объединены в цепочки, где каждая часть знает, как отменить свои действия
• обрабатывают ошибки и контекст централизованно
• позволяют писать бизнес-логику без дублирования и хаоса

Что умеет Transfunctions:
• Объединение функций в контролируемые пайплайны
• Поддержка отката и логирования
• Контекстное выполнение (например, сессии, транзакции, данные)
• Минимум шаблонного кода

Подходит для ETL, финансовых операций, инфраструктурных обработчиков и сценариев с проверками и откатами.

pip install transfunctions

🔗 GitHub: https://github.com/pomponchik/transfunctions

#python #pipeline #transactions #opensource #architecture

@pythonl

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥3❤2

3.43K views08:42

SQL и Анализ данных

🚀 УСКОРЕНИЕ ТРАНЗАКЦИЙ В SQL ЧЕРЕЗ BATCHING !

Ускоряй SQL-транзакции с помощью batched inserts/updates и минимизации количества round‑trip'ов

Одна из главных причин медленных транзакций — множество отдельных запросов. Каждый INSERT или UPDATE — это отдельная поездка в базу (round-trip), которая стоит времени и ресурсов.

Решение: объединяй операции в батчи, используй VALUES (...), (...), (...) или CASE WHEN для обновлений.

Пример:


-- Вместо этого (медленно):
INSERT INTO logs (user_id, action) VALUES (1, 'login');
INSERT INTO logs (user_id, action) VALUES (2, 'logout');
INSERT INTO logs (user_id, action) VALUES (3, 'login');

-- Делай так (быстрее):
INSERT INTO logs (user_id, action)
VALUES 
    (1, 'login'),
    (2, 'logout'),
    (3, 'login');

-- Аналогично для обновлений:
UPDATE accounts
SET balance = CASE user_id
    WHEN 1 THEN 100
    WHEN 2 THEN 200
    WHEN 3 THEN 300
END
WHERE user_id IN (1, 2, 3);

📌 Преимущества:
– Меньше сетевых вызовов
– Лучше используется план выполнения
– Меньше блокировок и нагрузка на транзакционный лог

👍15🔥4❤2

3.62K views11:20

SQL и Анализ данных

🖥

SQL-задача с подвохом: почему запрос работает не так, как ожидаешь?

🧠 Условие:

Есть таблица orders:

| id | customer_id | total  |
|----|-------------|--------|
| 1  | A           | 100.00 |
| 2  | A           | 200.00 |
| 3  | B           | 150.00 |
| 4  | B           | 300.00 |
| 5  | C           | 400.00 |

Нужно выбрать заказ с максимальной суммой (`total`) для каждого клиента.

Вы пишете:


SELECT customer_id, MAX(total)
FROM orders
GROUP BY customer_id;

✅ Работает? Да. Но теперь вы хотите вернуть всю строку заказа с максимальной суммой — включая id.

Вы пишете:


SELECT *
FROM orders
GROUP BY customer_id
HAVING total = MAX(total);

❌ Ошибка. Или — неожиданные результаты.

📌 Подвох: нельзя использовать HAVING total = MAX(total) без подзапроса.
MAX — агрегат, а total вне GROUP BY — это ошибка или неопределённость.

✅ Правильное решение — с подзапросом:


SELECT o.*
FROM orders o
JOIN (
SELECT customer_id, MAX(total) AS max_total
FROM orders
GROUP BY customer_id
) t ON o.customer_id = t.customer_id AND o.total = t.max_total;

💡 Такое решение:

🟢Возвращает всю строку заказа с максимальной суммой
🟢Работает корректно даже при одинаковых суммах у нескольких заказов
🟢Избегает путаницы с агрегатами в основном SELECT

🧠 Вывод:
Нельзя просто так использовать MAX() и при этом возвращать столбцы вне GROUP BY.
Для этого всегда нужен JOIN с агрегатом или window-функции.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤1🔥1💊1

3K views12:15

SQL и Анализ данных

🖥 Мощный учебник по SQL — охватывает всё от базы до продвинутого уровня.

Внутри — 4 модуля, разбитые по сложности:
🟣 Основы SQL
🟣 Средний уровень
🟣 Продвинутый SQL
🟣 Аналитика на SQL

📚 Каждый модуль — это около 10 практичных уроков с возможностью сразу применять знания.

📌 Ссылка тут: https://mode.com/sql-tutorial

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍2🥰1

3.38K views11:45

SQL и Анализ данных

🔐 Postgresus - self-hosted инструмент для резервного копирования и мониторинга PostgreSQL базы данных, написанный на Go

🔥 Возможности:
- создание бекапов по расписанию для PostgreSQL 13-17;
- уведомления в Telegram, Slack, Discord, если бекап сломался или база недоступна;
- хранение бекапов локально, в S3 или Google Drive;
- health check базы данных раз в минуту.

Запуск через Docker:


docker run -d \
  --name postgresus \
  -p 4005:4005 \
  -v ./postgresus-data:/postgresus-data \
  --restart unless-stopped \
  rostislavdugin/postgresus:latest

📌 GitHub

🔥4👍2🥰1

3.24K views10:04

SQL и Анализ данных

📘 OpenAI выпустила GPT-5 Prompting Guide — руководство по созданию эффективных промтов

Что внутри:
- 🛠 Agentic workflows — как настраивать автономность модели и управлять глубиной размышлений (`reasoning_effort`).
- 📋 Tool preambles — структура работы с инструментами: цель, план, комментарии, итог.
- ⚡ Responses API — альтернатива Chat Completions для экономии токенов и улучшения качества.
- 💻 Кодинг — советы по интеграции в Next.js, React, Tailwind и оптимизации стиля кода.
- 🎯 Steering & verbosity — контроль длины и стиля ответа, избегание конфликтующих инструкций.
- 🚀 Minimal reasoning mode — быстрые задачи с чётким планом и приоритетами.
- 🔄 Метапромтинг — использование GPT-5 для улучшения собственных промтов.

Кому полезно:
Разработчикам агентных систем, AI-ассистентов и всем, кто хочет выжать максимум из GPT-5.

🔗 Полный гайд и примеры

#GPT5 #PromptEngineering #OpenAI #AI

❤6🔥3👍2

3.25K views11:08

SQL и Анализ данных

This media is not supported in your browser

VIEW IN TELEGRAM

🗓️ SQL-трюк: как быстро найти "дыры" в данных по датам

В аналитике часто нужно понять, за какие дни нет записей — например, продаж или логов.
Вместо сложных процедур можно сгенерировать календарь через generate_series() (Postgres) и сделать LEFT JOIN к данным. Так вы мгновенно выявите пропуски и сможете строить непрерывные временные ряды.


-- Дни без заказов за последние 30 дней
WITH calendar AS (
  SELECT generate_series(
    current_date - interval '30 days',
    current_date,
    interval '1 day'
  )::date AS day
),
orders_per_day AS (
  SELECT
    order_ts::date AS day,
    COUNT(*)       AS orders_count
  FROM sales
  WHERE order_ts >= current_date - interval '30 days'
  GROUP BY order_ts::date
)
SELECT
  c.day,
  COALESCE(o.orders_count, 0) AS orders_count
FROM calendar c
LEFT JOIN orders_per_day o USING(day)
WHERE o.orders_count IS NULL
ORDER BY c.day;

https://www.youtube.com/shorts/CAkHyUx6iiU

#SQL #Postgres #DataAnalytics #generate_series

👍14❤8🔥4

2.91K viewsedited 12:03

SQL и Анализ данных

🔍 DVC — Git для данных и ML-моделей. Этот инструмент делает для данных то же, что Git для кода — позволяет отслеживать изменения, переключаться между версиями и работать в команде без хаоса.

DVC не загружает тяжелые файлы в Git-репозиторий, а хранит их в облаке или локально, записывая только метаданные. Особенно удобна интеграция с ML-пайплайнами: можно настраивать зависимости между этапами обработки данных и обучения, а он будет перезапускать только изменившиеся части. При этом инструмент отлично дополняет MLflow: первый управляет версиями данных, второй — трекит эксперименты.

🤖 GitHub

👍5❤2🔥1

2.87K viewsedited 13:40

SQL и Анализ данных

🖥

Задача (Oracle SQL, продвинутая): управление запасами с MODEL, скользящим спросом и детектом «stockout»

Таблицы:
• items(item_id NUMBER, init_qty NUMBER) — стартовый остаток по товару
• movements(item_id NUMBER, ts DATE, qty NUMBER) — движения: приход (qty>0) и расход (qty<0), событий может быть несколько в день

Нужно:
1) Построить помесячный/подневный календарь по каждому item_id между мин(ts) и max(ts).
2) Посчитать ежедневный итоговый остаток (onhand), применяя суммарные дневные движения к старту, даже если в конкретный день не было событий.
3) Найти «окна нулевого остатка» (stockout): количество, самую длинную протяжённость и дату первого пополнения после самого длинного окна.
4) Спрогнозировать риск обнуления в ближайшие 14 дней при текущем тренде: взять 7-дневное скользящее среднее спроса (по расходам), спроецировать остаток и отметить товары, которые уйдут в ноль.


-- Демоданные
WITH items AS (
  SELECT 101 item_id, 50 init_qty FROM dual UNION ALL
  SELECT 102,  5 FROM dual
),
movements_raw AS (
  SELECT 101 item_id, DATE'2025-08-01' ts,  30 qty FROM dual UNION ALL -- приход
  SELECT 101, DATE'2025-08-02',            -20     FROM dual UNION ALL -- расход
  SELECT 101, DATE'2025-08-04',            -40     FROM dual UNION ALL -- перерасход → stockout
  SELECT 101, DATE'2025-08-06',             60     FROM dual UNION ALL -- пополнение
  SELECT 102, DATE'2025-08-01',            - 2     FROM dual UNION ALL
  SELECT 102, DATE'2025-08-03',            - 3     FROM dual UNION ALL
  SELECT 102, DATE'2025-08-05',              5     FROM dual
),
-- 1) Свернём движения по дням (может быть несколько событий в день)
movements AS (
  SELECT item_id, ts, SUM(qty) qty_per_day
  FROM movements_raw
  GROUP BY item_id, ts
),


-- 1) Календарь на ежедневной сетке для каждого товара
date_bounds AS (
  SELECT item_id,
         LEAST(MIN(ts), TRUNC(SYSDATE)) AS dmin,
         GREATEST(MAX(ts), TRUNC(SYSDATE)) AS dmax
  FROM movements
  GROUP BY item_id
),
calendar AS (
  SELECT b.item_id, (b.dmin + LEVEL - 1) d
  FROM date_bounds b
  CONNECT BY LEVEL <= b.dmax - b.dmin + 1
  AND PRIOR item_id = item_id
  AND PRIOR SYS_GUID() IS NOT NULL
),


-- 2) Посчитаем ежедневный остаток MODEL-ом
onhand AS (
  SELECT item_id, d, onhand, qty_per_day
  FROM (
    SELECT c.item_id,
           c.d,
           NVL(m.qty_per_day, 0) qty_per_day,
           i.init_qty
    FROM calendar c
    JOIN items i USING(item_id)
    LEFT JOIN movements m ON m.item_id = c.item_id AND m.ts = c.d
  )
  MODEL
    PARTITION BY (item_id)
    DIMENSION BY (d)
    MEASURES (init_qty, qty_per_day, CAST(NULL AS NUMBER) AS onhand)
    RULES SEQUENTIAL ORDER (
      onhand[MIN(d)] = init_qty[MIN(d)] + qty_per_day[MIN(d)],
      onhand[FOR d FROM MIN(d)+1 TO MAX(d)] =
        onhand[CV(d)-1] + qty_per_day[CV(d)]
    )
),


-- 3) Найдём окна нулевого остатка и их длины
stockout_runs AS (
  SELECT *
  FROM onhand
  MATCH_RECOGNIZE (
    PARTITION BY item_id
    ORDER BY d
    MEASURES
      FIRST(d) AS start_d,
      LAST(d)  AS end_d,
      COUNT(*) AS days_zero
    ONE ROW PER MATCH
    PATTERN (z+)
    DEFINE
      z AS onhand = 0
  )
),


-- 3) Для самого длинного окна найдём дату первого пополнения после него
longest_zero AS (
  SELECT s.item_id, s.start_d, s.end_d, s.days_zero,
         LEAD(s.end_d) OVER (PARTITION BY s.item_id ORDER BY s.days_zero, s.end_d) dummy
  FROM (
    SELECT s.*, ROW_NUMBER() OVER (PARTITION BY item_id ORDER BY days_zero DESC, end_d) rn
    FROM stock

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥3❤2

2.54K views10:34