Data Science. SQL hub
35.8K subscribers
915 photos
49 videos
37 files
974 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Продвинутый SQL-трюк: Как одним запросом вытащить только самую последнюю запись по каждой группе — и при этом сохранить все остальные поля

Если ты хочешь, например, получить последний заказ по каждому клиенту, но у тебя нет оконных функций или ты хочешь максимально производительный запрос — вот чистый, понятный способ.


-- Найдём последнюю покупку по каждому customer_id
SELECT o.*
FROM orders o
JOIN (
SELECT customer_id, MAX(order_date) AS max_date
FROM orders
GROUP BY customer_id
) latest
ON o.customer_id = latest.customer_id
AND o.order_date = latest.max_date;

-- Работает даже если в таблице десятки миллионов строк, индекс на order_date и customer_id ускорит запрос


@sqlhub
🔥24👍114👎1🥰1
🔥 DbCls — мощный интерактивный клиент баз данных, который объединяет SQL-редактор с продвинутой визуализацией данных.

Поддерживает MySQL, PostgreSQL, ClickHouse и SQLite. Встроенный редактор с подсветкой синтаксиса, автодополнением и горячими клавишами для мгновенного выполнения запросов.

Результаты отображаются в интерактивных таблицах с возможностью форматирования и анализа. Идеальное решение для разработчиков и аналитиков данных, которым нужен быстрый и удобный доступ к базам данных

⚡️ Github

@sqlhub
🔥43👍3
🧪 uQLM — движок для SQL‑запросов к LLM, разработанный в CVS Health

Что если к языковой модели можно обращаться как к обычной базе данных?

💡 uQLM (Universal Query Language for Models) позволяет писать SQL‑подобные запросы, чтобы:

Обращаться к LLM как к таблице
Фильтровать, агрегировать и комбинировать ответы
Подключать собственные модели и источники данных
Использовать привычный синтаксис SQL без prompt-инженерии

📌 Пример запроса:

SELECT generate_response(prompt)
FROM gpt4
WHERE prompt LIKE '%explain%'
LIMIT 5;


uQLM работает как прослойка между пользователем и языковой моделью, облегчая интеграцию ИИ в аналитические пайплайны.

🔗 GitHub: https://github.com/cvs-health/uqlm

@sqlhub
4👍3🥰1
120 ключевых вопросов по SQL за 2025 год

Статья содержит 120 ключевых вопросов по SQL для собеседований, разделённых по темам и уровням сложности, с краткими пояснениями.

Основываясь на актуальных требованиях 2025 года, вопросы охватывают базу данных, оптимизацию, практические задачи и нюансы СУБД (MySQL, PostgreSQL, SQL Server).

🔜 Подробности
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍8🔥7
🖥 SQL-задача с подвохом: почему COUNT(*) считает не так, как ты думаешь?

🧠 Условие:

У тебя есть две таблицы:


users
---------
id | name
---|-----
1 | Alice
2 | Bob
3 | Charlie

orders
----------
id | user_id | total
----|---------|-------
1 | 1 | 100
2 | 1 | 200
3 | 2 | 300


Нужно вывести всех пользователей и количество их заказов, включая тех, у кого заказов нет вообще.

Ты пишешь:


SELECT u.id, u.name, COUNT(o.id) AS order_count
FROM users u
JOIN orders o ON u.id = o.user_id
GROUP BY u.id, u.name;


Результат:


1 | Alice | 2
2 | Bob | 1
А где Charlie? 😡


📌 Подвох: JOIN убирает строки без соответствий — Charlie не попадает в результат вообще.
Нужно использовать LEFT JOIN, чтобы сохранить всех пользователей.

Правильное решение:


SELECT u.id, u.name, COUNT(o.id) AS order_count
FROM users u
LEFT JOIN orders o ON u.id = o.user_id
GROUP BY u.id, u.name;


Теперь результат:


1 | Alice | 2
2 | Bob | 1
3 | Charlie | 0


💡 Вывод:
Хочешь сохранить всех из "левой" таблицы — используй LEFT JOIN.
А COUNT(о.id) не считает NULL — и это хорошо: ты получаешь реальное число заказов, а не просто 1 за NULL.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2510🔥4😁3👏1
🖥 MongoDB выпускает MCP Server — теперь любой может стать дата-инженером

MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой.

Теперь даже без знаний запросов можно просто написать:
• «Покажи самых активных пользователей»
• «Создай нового пользователя с правами только на чтение»
• «Как устроена коллекция orders?»

⚙️ MCP Server поддерживает:
• MongoDB Atlas
• Community Edition
• Enterprise Advanced

📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка.

💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы.
Открытый исходный код. Готово к продакшену.

📌 GitHub

#MongoDB #AItools #OpenSource #MCP

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥6👎2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥SQL ТРЮК: Как выбрать первые N строк в каждой группе

Вот полезный трюк: используем функцию роз намбер с патришн бай чтобы нумеровать строки внутри каждой группы, а потом фильтруем по номеру.

Ты получишь первые два события для каждого пользователя. Можно легко адаптировать под «топ‑пять товаров в каждой категории.

Этот трюк работает в большинстве современных СУБД, поддерживающих оконные функци


sql
WITH ranked AS (
SELECT
user_id,
event_time,
event_type,
ROW_NUMBER() OVER (
PARTITION BY user_id
ORDER BY event_time ASC
) AS rn
FROM user_events
)
SELECT *
FROM ranked
WHERE rn <= 2;


📌 Этот запрос выберет первые 2 события *по каждому пользователю*. Просто, чисто и кросс‑совместимо — работает в PostgreSQL, MySQL 8+, SQL Server и других.

https://www.youtube.com/shorts/X5CJn1eLW20

@sqlhub
👍17🔥6😁52
📊 Mathesar — необычный веб-интерфейс для PostgreSQL, который превращает работу с базами данных в процесс, напоминающий таблицы Excel. Проект разработан некоммерческой организацией и позволяет даже не-техническим специалистам редактировать данные, строить запросы через визуальный конструктор и управлять правами доступа через стандартные роли Postgres.

Вместо создания промежуточного слоя Mathesar работает напрямую с вашей БД, сохраняя все возможности PostgreSQL — от внешних ключей до сложных ограничений. Можно подключить как новую, так и существующую базу данных, а развертывание через Docker занимает минуты.

🤖 GitHub

@sqlhub
🔥86🥰2
🗄️ Вышел первый стабильный релиз ветки MariaDB 12.0 — версия 12.0.2

MariaDB 12.0 относится к промежуточным (rolling) выпускам и пришла на смену ветке 11.8. Поддержка этой ветки продлится до выхода MariaDB 12.1.2.
Параллельно представлен релиз-кандидат MariaDB 12.1.1.

📌 Напомним:
MariaDB — форк MySQL, совместимый по API/CLI, но с дополнительными движками хранения и расширенными функциями. Развивается MariaDB Foundation с открытым процессом разработки.
MariaDB уже заменяет MySQL во многих Linux-дистрибутивах (RHEL, Fedora, Debian, Arch и др.) и используется в крупных проектах вроде Wikipedia и Google Cloud SQL.

Главное в MariaDB 12.0:
- 🔐 Поддержка SSL-ключей с паролем (`ssl_passphrase` или ввод вручную при запуске).
- 👤 Команда SET SESSION AUTHORIZATION — выполнение под другим пользователем (аналог sudo в БД).
- 🗝️ Плагин file_key_management.so — поддержка SHA-2.
- 🔄 Weak cursor variables (`SYS_REFCURSOR`) для возврата курсора из процедур и функций + настройка max_open_cursors.
- 📅 TO_CHAR — режим FM (Fill Mode) без лишних пробелов.
- 🛠 mariadb-check / CHECK TABLE теперь работают с таблицами SEQUENCE.
- Оптимизатор — поддержка MySQL-совместимых *hints*: QB_NAME, BKA, NO_BKA, MAX_EXECUTION_TIME и др.
- 🌍 GIS-функции: ST_Validate, ST_GeoHash, ST_IsValid и др.
- 🔔 Триггеры для нескольких событий в одном CREATE TRIGGER.
- 📝 Audit-плагин пишет в лог и сетевой порт подключения.
- 📂 mariadb — новая опция --script-dir для кастомного каталога скриптов.
- 🗑️ Удалены устаревшие переменные: big_tables, large_page_size, storage_engine.

https://github.com/MariaDB/server/releases/tag/mariadb-12.0.2

#MariaDB #Database #SQL #Opensource

@sqlhub
7👍3🔥2
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

E-CUP 2025 — соревнование, где Everything as code. Решай ML-задачи в стиле Ozon Tech. Призовой фонд — 7 200 000 рублей 🔥

🗓 Регистрация: https://cnrlink.com/ecup25dshub
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Призовой фонд — 7 200 000 рублей для девяти сильнейших команд.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Эксклюзивный мерч и подарки.
🔹 Питчинг — онлайн или очно на конференции E-CODE. Финалистам Ozon Tech предоставит билеты и оплатит поездку.

Регистрация открыта до 17 августа включительно
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2👍1👎1
🔮 CozoDB — графовая база данных с поддержкой Datalog-запросов, временными срезами и векторным поиском через HNSW-индексы.

Инструмент имеет встроенные алгоритмы для работы с графами и кроссплатформенность: работает как embedded-решение на Python, Node.js, Android и даже в браузере через WASM. Поддерживает SQLite, RocksDB и распределённое хранилище TiKV.

🤖 GitHub

@sqlhub
4👍3🔥2
🚀 sebastien/multiplex — Command‑Line Process Multiplexer

Что это: простой CLI и Python API для запуска нескольких процессов параллельно, с гибким управлением зависимостями, задержками и завершением.

Фичи:
- Параллельный или последовательный запуск процессов
- Задержки: +2s, +500ms
- Зависимости: :A, :A&
- Именование процессов и цветной вывод
- Управление через Python API

🔧 Примеры:

- Запуск двух серверов:

multiplex "python -m http.server -p 8000" "python -m http.server -p 8001"


- Сначала сервер, потом бенчмарк:

multiplex "SERVER=python -m http.server" "+2s=ab -n1000 https://localhost:8000/"


- Сценарий: DB → API → тесты:

multiplex "DB=mongod" "API:DB&+2=node server.js" ":API&|end=npm test"


📦 Установка:
pip install multiplex-sh
или просто multiplex.py напрямую с GitHub

🔗 GitHub: https://github.com/sebastien/multiplex

🧰 Подходит всем, кто запускает несколько сервисов — API, БД, фоновые задачи — и хочет сделать это красиво.

@sqlhub
3👍3🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥VK зовет всех поглитчевать и обсудить RecSys. 27 августа на встрече AI VK & Pro спецы обсудят реальные тренды и рекомендательные системы.

Нетворкингу быть

@sqlhub
👎127👍2🥰2🤬2😁1
Starbucks Korea ввела жёсткий запрет на «офис в кофейне»

Теперь по всей стране нельзя приносить в залы стационарные компьютеры, принтеры, сетевые фильтры и сооружать перегородки.

Причина — вирусное фото, на котором посетитель развернул полноценный офисный сетап, ушёл на три часа и оставил всё без присмотра.

Ранее отдельные точки пытались ограничивать время за столом, отключать розетки и мягко намекать клиентам, что пора уходить. Теперь это закреплено официальным национальным правилом.

📌 Подробнее

@sqlhub
👍24😁145🔥1
Data Scientist — одна из самых перспективных профессий 2025 года, по данным Мирового экономического форума 📊

Освоить эту профессию можно на курсе Нетологии — с погружением в практику, сопровождением ментора, поддержкой профессионального комьюнити и экспертов из Яндекса, Сбера, VK и Amazon.

В результате обучения вы:
- изучите Apache Spark, pandas, PostgreSQL и другие инструменты для обработки больших данных;
- научитесь применять технологии машинного обучения для решения бизнес-задач;
- отработаете навыки на реальных проектах компаний-партнёров: «Северстали», «Гринатома», Neoflex.

Чтобы ещё больше расширить скиллсет, сможете пройти бонусные модули по английскому языку, рекомендательным системам, нейросетям и deep learning.

Сейчас на курс действует скидка 40% — записывайтесь

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5wDk42d
😁41
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Open-source инструмент для просмотра CSV, JSON, Excel и других таблиц прямо в терминале — без потери форматирования, аккуратно и читабельно.

🔥 Что умеет:
— Встроенный SQL-движок: фильтры, джойны и анализ прямо в терминале;
— Vim-подобные хоткеи (для фанатов, да 😁);
— Быстрый поиск, работа с несколькими таблицами, поддержка тем (Monokai, Nord и др.).

https://github.com/shshemi/tabiew
🔥13👍73
Летняя школа по аналитике, Data Science и Data Engineering

Центр непрерывного образования ФКН НИУ ВШЭ открывает регистрацию на летнюю школу «IT-сеанс: погружение в мир данных». Вас ждут выступления спикеров из таких компаний, как: Яндекс, Т-Банк, Ozon Tech, МТС Web Services, Альфа-Банк, X5 Tech, Magnit Tech, Авито и Вкусно — и точка.

Приглашаем всех, кто хочет разобраться:
〰️〰️〰️〰️〰️〰️
Зачем переходить в IT:
🟣Как данные меняют бизнес-процессы и какие роли в этом играют аналитики, дата-сайентисты и инженеры данных?
🟣Какие тренды в Al и Big Data формируют будущее технологий и компаний?

Как построить карьеру в аналитике, в Data Science и в Data Engineering:
🟣Какие навыки являются востребованными для каждого из трех карьерных путей и где их прокачать?
🟣Можно ли перейти в сферу данных с непрофильным образованием?
🟣На что смотрят HR и технические интервьюеры?

Как аналитика, Data Science и Data Engineering применяются в разных индустриях:
🟣Какие задачи решают аналитики, дата-сайентисты и инженеры данных в банковской, телеком- и ритейл-отраслях?
🟣Какие инструменты и технологии входят в рабочий стек специалистов в ритейле, банках и digital-сервисах?

Школа подойдет как тем, кто только решил освоить новую профессию, так и начинающим специалистам.

Когда: 21 августа в онлайн-формате, 23 августа — очно.
Где: Центр Культур НИУ ВШЭ, г. Москва, Покровский бульвар, 11.

📁Участие бесплатное для всех желающих, требуется регистрация: по ссылке 📍
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2
🚀 RisingLight — образовательная OLAP-база данных. Этот проект разрабатывается как учебная реализация OLAP-системы с поддержкой SQL-запросов, включая выполнение TPC-H тестов.

Для тех, кто хочет заглянуть под капот аналитических баз данных, RisingLight предлагает отличную возможность изучить их устройство на практике. Хотя проект пока не готов для production, он уже даёт представление о ключевых компонентах СУБД: от парсера запросов до исполнителя. Сообщество активно развивается: есть Discord, Telegram и даже WeChat-чат для обсуждения. Авторы приветствуют вклад новичков и предлагают список "good first issues" для первых PR.

🤖 GitHub

@sqlhub
👍1
Приглашаем на ежегодный хакатон от The Experts: School of Analytics!

Зарегистрированные участники уже получили задание и приступили к работе — но у вас всё ещё есть шанс присоединиться и побороться за место в финале!

👉 Задание хакатона
Участникам хакатона предстоит проанализировать данные A/B-теста нового рекомендательного алгоритма в музыкальном стриминговом сервисе, рассчитать ключевые метрики, проверить гипотезу о его эффективности и подготовить рекомендации о внедрении.

Почему стоит участвовать?
- Преимущества при поступлении в School of Analytics
- Возможность попасть на годовую программу на трек Top Talents 2025/26 со скидкой до 94%
- Доступ к fast track на позиции в компаниях
- Скидки на экспресс-курсы и специальные условия на дополнительные программы

Если хотите проверить свои силы — регистрируйтесь по ссылке, времени осталось немного!

А если вам интересны количественные финансы, статистический анализ, машинное обучение и риск-менеджмент открыта регистрация на хакатон School of Quants. Все подробности и форма регистрации доступны по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🔥1