Data Science. SQL hub

🚀 Jupyter Agent 2

Этот агент умеет:
📂 Загружать данные
💻 Запускать код
📊 Строить графики прямо в Jupyter — быстрее, чем вы успеете прокрутить экран!

🤖 Основан на движке Qwen3-Coder
⚡️ Работает на Cerebras
⚙️ Запускается в E2B
↕️ Поддерживает загрузку файлов

👉 Попробовать можно здесь: https://hf.co/spaces/lvwerra/jupyter-agent-2

@sqlhub

👍14❤7🔥4👎2

6.55K views09:22

Data Science. SQL hub

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

🦆 Полезный интерактивный тренажёр по SQL

Учитесь писать SQL-запросы через игру:
- Пошаговые уроки с живым редактором — пишешь код и сразу видишь результат.
- Задачи и мини-квесты, где вы помогаете Дакберту пробираться сквозь потоки данных.
- Работает бесплатно, прямо в браузере или на телефоне.

🎮 Попробовать: https://dbquacks.com/

🔥11❤9👍4

5.23K views10:11

Data Science. SQL hub

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

📚🎮 SQL + Покемоны = Querymon!

Энтузиасты сделали игру, которая превращает изучение баз данных в настоящее приключение.

✨ С нуля — начнёте с простых таблиц и базовых запросов, сложность растёт постепенно.
🔎 Освоите SELECT, FROM, WHERE, фильтры LIKE, BETWEEN, IN и функции sum(), count(), avg().
🎯 Геймплей — сотни миссий, где, чтобы пройти дальше, нужно правильно писать SQL-запросы.

SQL ещё никогда не был таким весёлым: учиться теперь так же увлекательно, как ловить покемонов.
И самое приятное — игра полностью бесплатная.

👉 Попробовать можно здесь.

❤10👎6👍5🔥2🤬1

4.37K views13:00

Data Science. SQL hub

🖥

YTsaurus — инфраструктура хранения и обработки больших данных. Включает динамические таблицы, которые позволяют хранить и обрабатывать большие данные для десятков тысяч пользователей в реальном времени.

Инструмент идеально подходит для высоконагруженных сценариев, где требуются горизонтальное масштабирование, exactly-once семантика и время отклика в миллисекунды. Может применяться в том числе и для создания системы поведенческого таргетинга. Поддерживает MapReduce и NVMe SSD.

🟠 Пример использования YTsaurus на Хабре

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6🥰3👎1

4.12K viewsedited 14:07

Data Science. SQL hub

❌ Классический поиск по ключевым словам даёт ограниченные результаты.

Нашёл только одно совпадение: "Machine Learning Overview".

✅ А вот pgvector ищет по смыслу и находит связанные концепции.
Пример запроса возвращает 5 релевантных документов:
– Machine Learning Overview
– Data Mining Basics
– Introduction to AI
– Deep Learning Guide

Семантический поиск > ключевого 🔥

🔥12👍4👎3🥰2

4.2K views16:20

Data Science. SQL hub

🗄 MySQL vs Postgres: как кэшируют страницы данных

⚡ Подходы разные:
- MySQL (InnoDB) стремится всё держать под своим контролем
- Postgres больше доверяет операционной системе

MySQL / InnoDB
- Своя память под кэш: innodb_buffer_pool_size обычно = 70%+ RAM на выделенном сервере
- Обход кэша ОС: с innodb_flush_method='O_DIRECT' InnoDB работает напрямую с диском
- Двухсекционный LRU: страницы сначала в old, только потом (через innodb_old_blocks_time`) в `young. Это спасает от «выметания» кэша при больших сканах

Postgres
- Внутренний кэш + page cache ОС: shared_buffers обычно около 30% RAM, остальное оставляют ОС
- Clock-sweep: у страницы счётчик обращений, уменьшается при «прокрутке часов». Когда падает до нуля — страница освобождается

Практические выводы
- Bulk-операции: InnoDB устойчивее к «пробиванию» кэша, в Postgres часть нагрузки идёт в кэш файловой системы
- Тюнинг памяти: в MySQL раздувают buffer pool, в Postgres shared_buffers умеренный, а остальное доверяют ОС

Что стоит проверить в бенчмарках Postgres
- Размер shared_buffers: 4% / 10% / 30% / 50% RAM
- Сценарии: OLTP, последовательные сканы, смешанные нагрузки
- Рабочий набор: меньше / равен / больше доступной RAM
- Метрики: TPS/QPS, p95/p99 латентность, hit ratio, про

https://github.com/postgres/postgres/blob/master/src/backend/storage/buffer/README

❤5👍5🔥3

4.04K views14:37

Data Science. SQL hub

⚡️Вчера команда VK собрала буквально всю RecSys-тусовку. Судя по ленте, на ивенте было стильно и глитчово

Это первая встреча AI VK & Pro. На ней рассказали о будущем рекомендаций, о том, как строят единую Discovery-платформу для рекомендательных систем во всех продуктах VK и еще много всего полезного

Успели всё: отыграть DJ-сеты, эффективно понетворкать, был даже турнир по су-е-фа

🔥7👍3👎2❤1🥰1

4.32K views17:34

Data Science. SQL hub

💡 SQL: условные агрегаты через CASE !!!

Хотите посчитать сумму только по условию прямо внутри агрегата?
Для этого не нужен отдельный WHERE — используйте CASE WHEN.


SELECT 
    customer_id,
    SUM(CASE WHEN status = 'completed' THEN amount ELSE 0 END) AS completed_sum,
    SUM(CASE WHEN status = 'pending' THEN amount ELSE 0 END)   AS pending_sum
FROM orders
GROUP BY customer_id;

🔎 В одном запросе можно посчитать суммы по разным статусам — и не делать несколько JOIN или подзапросов.
Работает также с COUNT(), AVG() и другими агрегатами.

@sqlhub

👍23❤7🥰4

4.91K views18:40

Data Science. SQL hub

💡 SQL: поиск уникальных значений с COUNT(DISTINCT)

Хотите посчитать количество уникальных элементов по каждому пользователю?
Не нужно подзапросов — используйте COUNT(DISTINCT ...) прямо в выборке.


SELECT 
    user_id,
    COUNT(DISTINCT product_id) AS unique_products,
    COUNT(DISTINCT category)   AS unique_categories
FROM purchases
GROUP BY user_id;

🔎 В одном запросе можно узнать, сколько разных товаров и категорий купил каждый пользователь.
Это упрощает аналитику и заменяет сложные вложенные запросы.

@sqlhub

👍24❤7🔥7

4.92K views10:41

Data Science. SQL hub

Forwarded from Machinelearning

⚡️

Tencent дропнули Hunyuan-MT — мощные open-source модели для перевода

Что внутри:
- Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B
- Поддержка 33 языков
- Chimera-7B — это первая d индустрии откртытая ансамблевая модель

🏆 Результаты:
- 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу)
- Hunyuan-MT-7B лидирует среди моделей своего размера

🟠

Модели: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597

🟠

Репозиторий: https://github.com/Tencent-Hunyuan/Hunyuan-MT
Demo: https://hunyuan.tencent.com/modelSquare/home/list

@ai_machinelearning_big_data

#AI #NLP #Translation #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍5🔥5🥰1

3.73K views10:38

Data Science. SQL hub

📦 C++ обертка для SQLite с расширенными возможностями ⚙️

Библиотека boost_sqlite предоставляет удобный интерфейс для работы с SQLite в C++. Она поддерживает типизированные запросы, подготовленные выражения, функции на основе JSON и пользовательские функции. Библиотека не скрывает C-API SQLite, а дополняет его.

🚀Основные моменты:
- Типизированные запросы и подготовленные выражения
- Поддержка JSON и пользовательских функций
- Виртуальные таблицы и хуки событий
- Легкая интеграция с существующими проектами

@sqlhub

❤4🔥4🥰2

3.7K views10:28

Data Science. SQL hub

🧩 Задача из интервью TikTok по SQL

Найдите пользователей, которые не подтвердили регистрацию в день регистрации, но подтвердили на следующий день.

Исходные таблицы:
- emails(email_id, user_id, signup_date)
- texts(text_id, email_id, signup_action {'Confirmed','Not confirmed'}, action_date)

Решение (универсально для Postgres/MySQL):


SELECT DISTINCT e.user_id
FROM emails e
WHERE EXISTS (
  SELECT 1
  FROM texts t1
  WHERE t1.email_id = e.email_id
    AND t1.signup_action = 'Confirmed'
    AND DATE(t1.action_date) = DATE(e.signup_date + INTERVAL '1 day')  -- подтвердил на 2-й день
)
AND NOT EXISTS (
  SELECT 1
  FROM texts t0
  WHERE t0.email_id = e.email_id
    AND t0.signup_action = 'Confirmed'
    AND DATE(t0.action_date) = DATE(e.signup_date)                      -- не подтвердил в день регистрации
);

Вариант через агрегацию (Postgres)🧩️️


SELECT e.user_id
FROM emails e
JOIN texts  t ON t.email_id = e.email_id
GROUP BY e.user_id, e.signup_date
HAVING COUNT(*) FILTER (
  WHERE t.signup_action = 'Confirmed' AND DATE(t.action_date) = DATE(e.signup_date)
) = 0
AND COUNT(*) FILTER (
  WHERE t.signup_action = 'Confirmed' AND DATE(t.action_date) = DATE(e.signup_date + INTERVAL '1 day')
) >= 1;

@sqlhub

🔥9👍4❤2🥰1

3.23K views13:03

Data Science. SQL hub

🔬 DuckDB in Science

Свежий сайт с подборкой статей, лекций и подкастов и примеров о том, как DuckDB используется в научных исследованиях:

https://duckdb.org/science

@sqlhub

❤6👍4🔥3

3.2K views10:40

Data Science. SQL hub

Первый раз в ~~первый~~ X5 Tech-класс!

Школьники бегут за парты, а X5 Tech открывает набор в уникальный IT-класс для студентов. Здесь можно проверить свои скилы в кодерских задачах, получить звездочки в IT-дневник и забрать крутые призы. Покажи всему классу, на что способен!

Что ждет участников:
— задачи по backend-, frontend-, мобильной разработке, Data Science, DevOps-инфраструктуре и аналитике данных;
— ценные призы: проходки на экскурсию в распределительный центр для москвичей, подарочные карты в Пятёрочку и другие подарки от X5 Tech;
— сбор звездочек в IT-дневник и карьерные гайды;
— задания в формате квеста.

Первый звонок в X5 Tech-классе уже прозвенел! Записывай первую домашку — изучить расписание предметов по ссылке.

❤1👎1

3.21K views07:38

Data Science. SQL hub

🛠️ Удобный инструмент для управления кластерами Postgres

Ivory — это инструмент с открытым исходным кодом, который упрощает работу с кластерами Postgres, предоставляя удобный интерфейс для разработчиков и администраторов баз данных. Он позволяет управлять конфигурацией кластера, выполнять запросы и контролировать состояние в одном месте.

🚀 Основные моменты:
- Упрощает управление Postgres кластерами
- Интуитивно понятный интерфейс для основных функций Patroni
- Возможность работы локально или в виртуальной машине
- Поддержка редактирования конфигурации кластера
- Инструменты для диагностики и устранения проблем

📌 GitHub: https://github.com/veegres/ivory

#go

👍3❤2🔥2

3.31K views09:40

Data Science. SQL hub

🔥 Успех в IT = скорость + знания + окружение

Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/devops_teleg
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_1001_notes
Java: t.iss.one/java_library
Базы данных: t.iss.one/databases_tg
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy

Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

❤4👍3🔥1

2.93K views12:02

Data Science. SQL hub

🧩 SQL хитрый трюк

Хотите быстро найти дубликаты в таблице — но не просто значения, а ещё и сразу оставить только уникальные строки?

Вместо сложных подзапросов используйте `ROW_NUMBER()` с PARTITION BY:


WITH numbered AS (
    SELECT 
        id,
        email,
        ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS rn
    FROM users
)
SELECT id, email
FROM numbered
WHERE rn = 1;

📌 Что происходит:
- PARTITION BY email группирует строки по email
- ROW_NUMBER() нумерует их внутри группы
- WHERE rn = 1 оставляет только первую запись (а все дубликаты убираются)

💡 Так можно элегантно чистить таблицы от дублей без лишних вложенных запросов.

@sqlhub

👍15🔥6❤1🥰1

3.11K viewsedited 14:02

About

Blog

Apps

Platform