🌊📊 pg_lake: Postgres для Iceberg и хранилищ данных
🚀Основные моменты:
- Создание и модификация таблиц Iceberg с полными транзакционными гарантиями.
- Запрос и импорт данных из файлов в форматах Parquet, CSV, JSON.
- Экспорт результатов запросов обратно в облачные хранилища.
- Поддержка геопространственных форматов через GDAL.
- Использование встроенного типа данных для полуструктурированных данных.
📌 GitHub: https://github.com/Snowflake-Labs/pg_lake
#postgresql
pg_lake позволяет интегрировать файлы Iceberg и хранилищ данных в PostgreSQL, превращая его в полноценную lakehouse-систему. Поддерживает транзакции и быстрые запросы к таблицам Iceberg, а также работу с сырыми данными из облачных хранилищ, таких как S3.🚀Основные моменты:
- Создание и модификация таблиц Iceberg с полными транзакционными гарантиями.
- Запрос и импорт данных из файлов в форматах Parquet, CSV, JSON.
- Экспорт результатов запросов обратно в облачные хранилища.
- Поддержка геопространственных форматов через GDAL.
- Использование встроенного типа данных для полуструктурированных данных.
📌 GitHub: https://github.com/Snowflake-Labs/pg_lake
#postgresql
👍5❤4🔥2
Что из перечисленного верно для DELAYED вставок в MySQL?
Anonymous Quiz
9%
Вставки выполняются синхронно и сразу
65%
Вставки временно буферизуются и выполняются позже
11%
DELAYED поддерживается во всех движках хранения
15%
Вставки с DELAYED гарантируют порядок
👍8❤2🔥1
Большинство разработчиков делают частичные индексы так:
CREATE INDEX idx_active_users ON users(id) WHERE active = true;
Но фишка в том, что partial index может радикально ускорить запросы, где фильтр стоит не в WHERE, а «прячется» в JOIN-условии. Оптимизатор всё равно понимает условие и использует индекс.
Например, у вас есть таблица logs, где 95% строк — архив, и только 5% актуальные. Запрос делает join:
SELECT u.id, l.event
FROM users u
JOIN logs l ON l.user_id = u.id AND l.is_archived = false;
Если делать обычный индекс, он будет огромный. Но partial index:
CREATE INDEX idx_logs_active ON logs(user_id)
WHERE is_archived = false;
Теперь:
- индекс в 20–30 раз меньше
- cache hit rate выше
- планы меняются с seq scan на index scan
- JOIN начинает работать почти как в in-memory базе
Прикольно, что работает даже если в SELECT самого условия нет — главное, чтобы оно было в ON.
Это отличный способ ускорять «холодные» большие таблицы, где часто обращаются только к маленькому активному сегменту.
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥8❤6
За 2,5 часа прокачаем маркетинг с нейросетями
Технари, проходите мимо — здесь эфир для ребят из маркетинга.
25 ноября приходите на онлайн-интенсив по AI. Вас ждет:
📈 Кейс-стади. COFIX, CDEK, Звук и Gulliver расскажут, как оптимизировали маркетинг с ML и LLM. С результатами в цифрах!
Например, Cofix ускорил обработку клиентских отзывов в 7000 раз. А Gulliver удвоил CTR товарных карточек на маркетплейсах.
👨🏫 Воркшоп по промптингу. Эксперты в прямом эфире помогут сегментировать клиентов, персонализировать рассылки и рекламу с ChatGPT.
📅 25 ноября, 11:00–13:30 мск
💻 Онлайн, бесплатно
Зарегистрироваться
erid: 2W5zFJPvCvk
Технари, проходите мимо — здесь эфир для ребят из маркетинга.
25 ноября приходите на онлайн-интенсив по AI. Вас ждет:
📈 Кейс-стади. COFIX, CDEK, Звук и Gulliver расскажут, как оптимизировали маркетинг с ML и LLM. С результатами в цифрах!
Например, Cofix ускорил обработку клиентских отзывов в 7000 раз. А Gulliver удвоил CTR товарных карточек на маркетплейсах.
👨🏫 Воркшоп по промптингу. Эксперты в прямом эфире помогут сегментировать клиентов, персонализировать рассылки и рекламу с ChatGPT.
📅 25 ноября, 11:00–13:30 мск
💻 Онлайн, бесплатно
Зарегистрироваться
erid: 2W5zFJPvCvk
❤2👎1
Antares SQL Client
Современный, быстрый и ориентированный на продуктивность SQL-клиент с акцентом на пользовательский опыт (UX).
Текущие ключевые функции:
- Подключение к нескольким базам данных одновременно.
- Управление базами данных (добавление/редактирование/удаление).
- Полное управление таблицами, включая индексы и внешние ключи.
- Управление представлениями, триггерами, хранимыми процедурами, функциями и планировщиками (добавление/редактирование/удаление).
- Современная и удобная система вкладок; держите открытыми все необходимые вкладки в вашем рабочем пространстве.
- Заполнение тестовых данных в таблицах для генерации большого объема данных.
- Подсказки и автозаполнение запросов.
- История запросов: поиск по последним 1000 запросам.
- Сохранение запросов, заметок или задач.
- Поддержка SSH-туннелей.
- Режим ручного выполнения транзакций.
- Импорт и экспорт дампов баз данных.
- Настраиваемые горячие клавиши.
- Темная и светлая тема.
- Темы редактора.
https://github.com/antares-sql/antares
Современный, быстрый и ориентированный на продуктивность SQL-клиент с акцентом на пользовательский опыт (UX).
Текущие ключевые функции:
- Подключение к нескольким базам данных одновременно.
- Управление базами данных (добавление/редактирование/удаление).
- Полное управление таблицами, включая индексы и внешние ключи.
- Управление представлениями, триггерами, хранимыми процедурами, функциями и планировщиками (добавление/редактирование/удаление).
- Современная и удобная система вкладок; держите открытыми все необходимые вкладки в вашем рабочем пространстве.
- Заполнение тестовых данных в таблицах для генерации большого объема данных.
- Подсказки и автозаполнение запросов.
- История запросов: поиск по последним 1000 запросам.
- Сохранение запросов, заметок или задач.
- Поддержка SSH-туннелей.
- Режим ручного выполнения транзакций.
- Импорт и экспорт дампов баз данных.
- Настраиваемые горячие клавиши.
- Темная и светлая тема.
- Темы редактора.
https://github.com/antares-sql/antares
❤5🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы работаете с большими таблицами в SQL через Python, и не хотите тянуть всё в память, используйте ленивую подгрузку данных с генерацией чанков. Это особенно полезно, если вы делаете агрегации, фильтрации или сохраняете результат в файл — можно обрабатывать данные частями, не загружая весь датасет сразу.
Удобно, быстро и экономит память. Работает даже с миллионами строк.
import pandas as pd
from sqlalchemy import create_engine
# подключение к базе данных (пример для PostgreSQL)
engine = create_engine("postgresql://user:password@localhost:5432/dbname")
# читаем по 10000 строк за раз
chunk_iter = pd.read_sql("SELECT * FROM big_table", engine, chunksize=10000)
# обработка: сохраняем отфильтрованные строки в файл
with open("filtered_output.csv", "w", encoding="utf-8") as f:
for i, chunk in enumerate(chunk_iter):
filtered = chunk[chunk["amount"] > 1000]
filtered.to_csv(f, index=False, header=(i == 0))
https://www.youtube.com/shorts/y5orXDD2mdU
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥4👍1
# ⚠️ Расследователи сомневается в AI-сделках Oracle на $300 млрд — и это тревожный сигнал
Сейчас мы видим, как крупнейшие IT-компании (гиперскейлеры) заключают многолетние контракты на искусственный интеллект на сотни миллиардов долларов.
Но никто ещё не проверял, насколько всё это реально окупается. Это - эксперимент на деньгах, технологиях и времени.
💸 Если хотя бы часть этих сделок не сработает, задержится или не принесёт ожидаемой прибыли, удар почувствует вся AI-индустрия - от чипов до облаков.
🧱 Да, AI-бум реален. Но его финансовый фундамент пока как мокрый цемент — выглядит крепко, но легко может просесть.
🎯 Если у Oracle получится - они войдут в список самых влиятельных компаний мира.
❗ Если нет — вся отрасль поймёт, насколько эта гонка на самом деле рискованна и нестабильна.
> 📊 Пузыри не лопаются, когда в них перестают верить.
> Они лопаются, когда кто-то наконец проверяет цифры.
@sqlhub
Сейчас мы видим, как крупнейшие IT-компании (гиперскейлеры) заключают многолетние контракты на искусственный интеллект на сотни миллиардов долларов.
Но никто ещё не проверял, насколько всё это реально окупается. Это - эксперимент на деньгах, технологиях и времени.
💸 Если хотя бы часть этих сделок не сработает, задержится или не принесёт ожидаемой прибыли, удар почувствует вся AI-индустрия - от чипов до облаков.
🧱 Да, AI-бум реален. Но его финансовый фундамент пока как мокрый цемент — выглядит крепко, но легко может просесть.
🎯 Если у Oracle получится - они войдут в список самых влиятельных компаний мира.
❗ Если нет — вся отрасль поймёт, насколько эта гонка на самом деле рискованна и нестабильна.
> 📊 Пузыри не лопаются, когда в них перестают верить.
> Они лопаются, когда кто-то наконец проверяет цифры.
@sqlhub
👍5❤2