- Проблема: Выбор всех столбцов с помощью
SELECT *
приводит к передаче ненужных данных, увеличению использования памяти и снижению производительности запросов.- Решение: Укажите в операторе SELECT только необходимые столбцы.
-- Пример проблемы
SELECT * FROM employees;
-- Улучшенный запрос
SELECT employee_id, first_name, last_name FROM employees;
- Проблема: Отсутствие индексов может привести к полному сканированию таблицы и снижению производительности запросов.
- Решение: Создайте и используйте индексы для часто используемых в выражениях WHERE столбцов.
-- Создание индекса
CREATE INDEX idx_last_name ON employees(last_name);
-- Использования индекса в запросе
SELECT * FROM employees WHERE last_name = 'Smith';
- Проблема: Подзапросы могут работать медленнее, чем JOIN, особенно при работе с большими наборами данных.
- Решение: Используйте JOIN, когда это возможно, а подзапросы оставьте для ситуаций, в которых они более эффективны.
-- Пример проблемы (подзапрос)
SELECT department_name FROM departments WHERE department_id IN (SELECT department_id FROM employees);
-- Улучшенный запрос (JOIN)
SELECT DISTINCT d.department_name FROM departments d JOIN employees e ON d.department_id = e.department_id;
- Проблема: Выбор неправильного типа JOIN (например, Cartesian JOIN) или неправильное указание условий соединения может привести к неправильным результатам или замедлению запросов.
- Решение: Разберитесь в различных типах JOIN (INNER, LEFT, RIGHT, FULL) и используйте их по назначению.
-- Пример проблемы (Cartesian JOIN)
SELECT * FROM employees, departments;
-- Улучшенный запрос (INNER JOIN)
SELECT e.employee_name, d.department_name FROM employees e
INNER JOIN departments d ON e.department_id = d.department_id;
- Проблема: Отсутствие фильтрации данных с помощью выражений WHERE может привести к запросу ненужных данных.
- Решение: Всегда включайте выражения WHERE, ограничивающие набор результатов.
-- Пример проблемы (без выражения WHERE)
SELECT * FROM orders;
-- Улучшенный запрос (с выражением WHERE)
SELECT * FROM orders WHERE order_date >= '2023-01-01';
- Проблема: Игнорирование планов выполнения запросов может привести к упущенным возможностям оптимизации.
- Решение: Используйте такие инструменты, как EXPLAIN, для анализа планов выполнения и внесения необходимых оптимизаций.
-- Просмотр плана выполнения
EXPLAIN SELECT * FROM products WHERE category = 'Electronics';
- Проблема: Запросы, хорошо работающие с небольшими наборами данных, могут плохо работать с большими объёмами данных.
- Решение: Реализуйте такие стратегии, как пагинация, разбиение данных на разделы и оптимизация индексов для больших наборов данных.
-- реализация пагинации
SELECT * FROM products LIMIT 10 OFFSET 20;
- Проблема: Повторение одних и тех же агрегаций в нескольких частях запроса может быть неэффективным.
- Решение: Используйте CTE (Общие табличные выражения) для хранения промежуточных результатов и избегайте лишних вычислений.
-- Пример проблемы (повторяющаяся агрегация)
SELECT department, SUM(salary) AS total_salary FROM employees GROUP BY department;
-- Улучшенный запрос (с CTE)
WITH DepartmentSalaries AS (
SELECT department, SUM(salary) AS total_salary FROM employees GROUP BY department
)
SELECT * FROM DepartmentSalaries;
- Проблема: Неправильная обработка ошибок может привести к сбоям в работе приложения или неправильным результатам.
- Решение: Реализуйте надлежащую обработку ошибок в SQL запросах или в коде приложения.
-- Пример обработки ошибок в SQL (MySQL)
BEGIN;
-- SQL выражение
IF some_condition THEN
ROLLBACK; -- Откат транзакции при ошибке
ELSE
COMMIT; -- Коммит транзакции при успешном выполнении всех выражений
END IF;
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40❤9🔥5👎2
Представьте, что у вас есть несколько таблиц Postgres, с которыми вам нужно работать и обрабатывать данные из таблиц с помощью Pandas по расписанию.
Как вы можете этого добиться?
Kestra, orchestrator проект с открытым исходным кодом, который поможет вам без особых усилий организовать этот рабочий процесс, используя файл
https://pypi.org/project/kestra/
@sqlhub
Как вы можете этого добиться?
Kestra, orchestrator проект с открытым исходным кодом, который поможет вам без особых усилий организовать этот рабочий процесс, используя файл
YAML
.https://pypi.org/project/kestra/
@sqlhub
❤10🔥3🤔2👍1
Временные таблицы в SQL обеспечивают удобный способ разбиения сложных задач на более мелкие и управляемые. Они позволяют разделить этапы обработки данных, что может повысить производительность, улучшить читаемость кода и упростить логику запросов.
CREATE TABLE
с ключевым словом TEMPORARY
или TEMP
перед именем таблицы:CREATE TEMPORARY TABLE temp_table (
id INT,
name VARCHAR(50),
age INT
);
Что тут происходит:
— Инструкция
CREATE TEMPORARY TABLE
используется для создания временной таблицы.—
temp_table
— это имя, которое присваивается временной таблице. Имя можно выбрать любое.— Внутри круглых скобок мы определяем столбцы временной таблицы.
— В данном примере временная таблица
temp_table
имеет три столбца: id
типа INT
, name
типа VARCHAR(50)
и age
типа INT
.— При необходимости мы можем добавить дополнительные столбцы, указав их имена и типы данных.
— Временная таблица автоматически удаляется в конце сеанса или при завершении сеанса.
Допустим, у нас есть большой набор данных, и мы хотим выполнить сложный анализ или вычисления на меньшей части этих данных. Для такого анализа можно создать временную таблицу, содержащую только необходимые строки и столбцы.
-- Создать временную таблицу с подмножеством данных
CREATE TEMPORARY TABLE subset_data AS
SELECT column1, column2, column3
FROM original_table
WHERE condition;
-- Анализ подмножества данных
SELECT column1, AVG(column2) AS average_value
FROM subset_data
GROUP BY column1;
-- Удалить временную таблицу
DROP TABLE subset_data;
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍9🔥3
💎 Квантизация нейросетевых моделей
Интересная статья, в которой ML-разработчик Яндекса рассказывает, что такое квантизация и как она помогает экономить ресурсы, разбирает типы данных и объясняет, что квантизовать, чтобы улучшить эффективность модели.
Автор также рассказывает, что такое выбросы, как они портят жизнь ML-инженерам, а также как с ними бороться.
📎 Статья
@sqlhub
Интересная статья, в которой ML-разработчик Яндекса рассказывает, что такое квантизация и как она помогает экономить ресурсы, разбирает типы данных и объясняет, что квантизовать, чтобы улучшить эффективность модели.
Автор также рассказывает, что такое выбросы, как они портят жизнь ML-инженерам, а также как с ними бороться.
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3😁2🔥1
В статье показано, как с помощью matching в Oracle #SQL найти серию последовательных строк с начальной даты и до конечной:
MATCH_RECOGNIZE (
...
PATTERN (str e+)
DEFINE e AS start_date = PREV(end_date) + 1 --start is 1 day after previous end
)
https://how2ora-en.blogspot.com/2023/01/how-to-check-if-row-is-continuation-of.html@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3🔥2
Скажем, вам необходимо реализовать систему рассылки пуш-уведомлений на android-устройства клиентов. Вы пишете сервис, который будет работать с FCM. Пишете функции в вашей БД, которые будут выдавать списки token-текст (да там много полей вообще).
Так вот, необходимо, чтобы такие ручки для разных модулей (бэкендов) лежали в отдельных схемах.
Предположим, что вы реализовали пункт выше, теперь ваш сервис должен подключаться к БД и крутить свои запросы. Но под каким пользователем? Не будет же он бегать под
postgres
или admin
?)PostgreSQL — это мощная СУБД. Но и она не может быть универсальной. Не надо полагать, что всё делается штатными средствами PostgreSQL. Так-же не надо пробовать писать свои системы чего-либо.
Возьмите за привычку в БД всегда хранить
timestampTZ
и когда-нибудь Вам скажут большое спасибо за это.Так-же рекомендую сразу установить расширения для мониторинга запросов (например
pg_stat_statements
)PostgreSQL всегда временные таблицы кладёт на диск, это займёт много времени. Используйте табличные выражения. Да и лучше всё писать одним оператором.
Да да, секции — это круто. Но вот их использовать я бы рекомендовал только в некоторых случаях
Да, когда планировщик не так представляет выхлоп — у вас могут получиться очень медленные запросы.
Наверное сразу стоит добавить и тот пункт, что не надо хранить в
TOAST
( например json/text
с дефолтным параметром хранения ) аналитические данные.@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤5🔥1🤔1
Функции, которые вы ожидаете от IDE, работают прямо в вашем терминале". Среди этих функций:
- Каталог данных: просмотр таблиц, столбцов и их типов.
- Редактор запросов.
- Окно для отображения результатов (возможность вывода 1M+ записей).
- Экспорт результатов и история запросов.
▪Github
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤2🔥2🤔2🥰1
— Внутри базы создается отдельный счетчик, который привязывается к каждой таблице
— Счетчик увеличивается на единицу при вставке новой строки
— Получившееся значение записывается в поле, которое помечается как автогенерируемое
++
.GENERATED AS IDENTITY
:CREATE TABLE colors (
-- Одновременное использование и первичного ключа и автогенерации
id bigint PRIMARY KEY GENERATED ALWAYS AS IDENTITY,
name varchar(255)
);
INSERT INTO colors (name) VALUES ('Red'), ('Blue');
SELECT * FROM colors;
-- id name
-- 1 Red
-- 2 Blue
Если удалить запись с
id
равным двум и вставить еще одну запись, то значением поля id
будет 3
. Автогенерация не связана с данными в таблице. Это отдельный счетчик, который всегда увеличивается. Так избегаются вероятные коллизии и ошибки, когда один и тот же идентификатор принадлежит сначала одной записи, а потом другой.column_name type GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY[ ( sequence_option ) ]
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥5👍2👎2🥰2
Отличная статья, в которой обсуждаются:
UNION
, INTERSECT
, EXCEPT
)Common Table Expression
, CTE (WITH)
WINDOW
/ OVER
)GROUP BY
)FROM
)JOIN
) и выражения подзапросов@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤5🔥3🎉1
Неплохая статья, в которой рассматривается пример создания DDL лога в PostgreSQL – это своего рода журнал DDL операций.
Подробно описывается, как реализовывать DDL лог с помощью триггеров событий.
Структура статьи
— Типы событий
— Команды DDL, на которые срабатывают триггеры событий
— Функции для триггеров событий
— Функции для получения информации в событийных триггерах
— Команда CREATE EVENT TRIGGER
— Таблица для хранения информации
— Функция, которая будет вызываться при наступлении события
— Создание событийных триггеров
— Пример работы DDL лога
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤4🔥1