🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней
У вас есть таблица
Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.
Показать:
-
-
-
✅ Решение:
🔍 Пояснение:
-
- Мы соединяем первую и вторую покупки клиента через self-join.
- В финальном
⚠️ Важно:
- Клиенты с одной покупкой отфильтруются (у них нет второй).
- Сравнение выполняется через
- Это не поиск любых двух покупок в пределах 7 дней, а именно проверка интервала между первой и второй.
@sqlhub
У вас есть таблица
purchases
:
purchases (
id SERIAL PRIMARY KEY,
customer_id INT,
purchase_date DATE,
amount NUMERIC
)
Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.
Показать:
-
customer_id
-
first_purchase_date
-
second_purchase_date
✅ Решение:
WITH ordered_purchases AS (
SELECT
customer_id,
purchase_date,
ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
FROM purchases
),
first_second_purchases AS (
SELECT
p1.customer_id,
p1.purchase_date AS first_purchase_date,
p2.purchase_date AS second_purchase_date
FROM ordered_purchases p1
JOIN ordered_purchases p2
ON p1.customer_id = p2.customer_id
AND p1.rn = 1
AND p2.rn = 2
)
SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';
🔍 Пояснение:
-
ROW_NUMBER()
присваивает каждой покупке номер в пределах одного клиента.- Мы соединяем первую и вторую покупки клиента через self-join.
- В финальном
SELECT
фильтруем только те пары, где разница между датами ≤ 7 дней.⚠️ Важно:
- Клиенты с одной покупкой отфильтруются (у них нет второй).
- Сравнение выполняется через
INTERVAL '7 days'
, чтобы корректно обрабатывать даты.- Это не поиск любых двух покупок в пределах 7 дней, а именно проверка интервала между первой и второй.
@sqlhub
👍23❤7🥰1
🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней
У вас есть таблица
Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.
Показать:
-
-
-
✅ Решение:
🔍 Пояснение:
-
- Через self-join соединяем первую и вторую покупку клиента.
- Далее фильтруем, оставляя только те, у кого вторая покупка была не позднее 7 дней после первой.
⚠️ Важно:
- Клиенты с одной покупкой исключаются — у них нет второй.
- Мы не ищем любые две покупки в пределах 7 дней, а только первую и вторую по порядку.
-
@sqlhub
У вас есть таблица
purchases
:
purchases (
id SERIAL PRIMARY KEY,
customer_id INT,
purchase_date DATE,
amount NUMERIC
)
Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.
Показать:
-
customer_id
-
first_purchase_date
-
second_purchase_date
✅ Решение:
WITH ordered_purchases AS (
SELECT
customer_id,
purchase_date,
ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
FROM purchases
),
first_second_purchases AS (
SELECT
p1.customer_id,
p1.purchase_date AS first_purchase_date,
p2.purchase_date AS second_purchase_date
FROM ordered_purchases p1
JOIN ordered_purchases p2
ON p1.customer_id = p2.customer_id
AND p1.rn = 1
AND p2.rn = 2
)
SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';
🔍 Пояснение:
-
ROW_NUMBER()
присваивает каждой покупке порядковый номер в рамках клиента.- Через self-join соединяем первую и вторую покупку клиента.
- Далее фильтруем, оставляя только те, у кого вторая покупка была не позднее 7 дней после первой.
⚠️ Важно:
- Клиенты с одной покупкой исключаются — у них нет второй.
- Мы не ищем любые две покупки в пределах 7 дней, а только первую и вторую по порядку.
-
INTERVAL '7 days'
обеспечивает корректное сравнение дат.@sqlhub
❤7👍1🔥1
Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2🥰1
Система готова из коробки и может сразу писать проекты любой сложности.
Что внутри:
• ИИ-агенты с разными ролями — один пишет код, другой проверяет, третий ищет уязвимости и передаёт задачи дальше по цепочке
• Генератор структуры проекта — помогает агентам понимать архитектуру и держать весь контекст
• Интеграция с MCP — ИИ использует только актуальные спецификации и документацию
🔧 Установка и подробности — по ссылке: https://github.com/peterkrueck/Claude-Code-Development-Kit
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4❤2
Forwarded from Machinelearning
Размер — 1 триллион параметров, при этом:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.
Также доступна через API:
- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов
Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!
@ai_machinelearning_big_data
#kimi #china #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤2👎1
🛠️ AI + SQL = мгновенный доступ к данным в базе
На картинке — простой пример, как с помощью
📦 Что происходит:
1. Человек пишет: *"Show me all tables in the ecommerce database"*
2. AI вызывает
3. Возвращается JSON и сгенерированный ответ на естественном языке
⚙️ Используемые технологии:
-
-
-
🧠 Это база для создания умных ботов-помощников, которые умеют работать с реальными базами данных и выдавать ответы, понятные человеку.
Интерфейс будущего уже здесь — не SQL-запрос, а обычный вопрос на английском.
@sqlhub
На картинке — простой пример, как с помощью
FastMCP
и SQLAlchemy
можно подключить инструмент к базе данных, который по человеческому запросу выводит список всех таблиц.📦 Что происходит:
1. Человек пишет: *"Show me all tables in the ecommerce database"*
2. AI вызывает
list_tables()
, получает список через SQLAlchemy3. Возвращается JSON и сгенерированный ответ на естественном языке
⚙️ Используемые технологии:
-
FastMCP
— для регистрации инструментов и взаимодействия с агентами-
@mcp.tool
— декоратор, позволяющий превращать функции в доступные действия для ИИ-
inspect()
из SQLAlchemy — безопасный способ получить метаданные БД🧠 Это база для создания умных ботов-помощников, которые умеют работать с реальными базами данных и выдавать ответы, понятные человеку.
Интерфейс будущего уже здесь — не SQL-запрос, а обычный вопрос на английском.
@sqlhub
❤6🔥5👍4👎3
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Исследователь OpenAI Ноам Браун заявил:
"Все эти модные AI-системы с роутерами, обвязками и агентами смоет масштабом.
Будущее — за моделями, которые просто работают хорошо из коробки."
Что это значит?
▪ GPT‑5, похоже, не будет использовать роутеры — то есть, не будет выбирать отдельную подмодель под каждый запрос.
▪ Вместо этого — одна большая универсальная модель, способная справляться со всем сразу.
Но возникает важный вопрос:
Как они собираются держать цену инференса низкой?
Без роутера даже на простой вопрос будет отвечать вся огромная модель — это дорого.
Если OpenAI реально решила эту задачу, это будет революция:
▪ Без костылей
▪ Без сборок из агентов
▪ Просто умная, быстрая и универсальная модель
Следим внимательно. Это может многое изменить.
"Все эти модные AI-системы с роутерами, обвязками и агентами смоет масштабом.
Будущее — за моделями, которые просто работают хорошо из коробки."
Что это значит?
▪ GPT‑5, похоже, не будет использовать роутеры — то есть, не будет выбирать отдельную подмодель под каждый запрос.
▪ Вместо этого — одна большая универсальная модель, способная справляться со всем сразу.
Но возникает важный вопрос:
Как они собираются держать цену инференса низкой?
Без роутера даже на простой вопрос будет отвечать вся огромная модель — это дорого.
Если OpenAI реально решила эту задачу, это будет революция:
▪ Без костылей
▪ Без сборок из агентов
▪ Просто умная, быстрая и универсальная модель
Следим внимательно. Это может многое изменить.
🔥14🤔6👍2👎1🥰1
🧠 Как оценивать качество RAG-систем: метрики и MLflow в действии
Retrieval-Augmented Generation (RAG) — мощная архитектура, но её тонко настраивать сложно. Ответы могут казаться "разумными", даже если они на самом деле некорректны. Как понять, работает ли ваша система так, как надо?
В свежем гайде от CodeCut показано, как системно оценивать качество RAG-моделей, а не надеяться на «на глаз»:
🔹 Метрики качества:
- Context Precision / Recall — насколько релевантны и достаточны извлечённые документы
- Faithfulness — насколько ответ действительно основан на контексте, а не «галлюцинирует»
- Answer Relevance — насколько сам ответ полезен и по теме
🔹 Интеграция с MLflow:
Можно логировать не только метрики, но и:
- Извлечённые документы
- Ответы модели
- Ground truth (если есть)
- Скриншоты или HTML-рендеринг всей цепочки
🔹 Автоматическая разметка:
Используется GPT/Claude для автоматического суждения о faithfulness и relevance — удобно при отсутствии human-annotators.
📌 Вывод:
Если вы строите RAG-решения, важно думать не только о качестве retrieval и LLM по отдельности, но и о том, как оценивать весь pipeline.
Метрики + MLflow дают структуру, чтобы сравнивать улучшения и принимать обоснованные решения.
#RAG #MLflow #LLM #Evaluation #AIProduct
@sqlhub
Retrieval-Augmented Generation (RAG) — мощная архитектура, но её тонко настраивать сложно. Ответы могут казаться "разумными", даже если они на самом деле некорректны. Как понять, работает ли ваша система так, как надо?
В свежем гайде от CodeCut показано, как системно оценивать качество RAG-моделей, а не надеяться на «на глаз»:
🔹 Метрики качества:
- Context Precision / Recall — насколько релевантны и достаточны извлечённые документы
- Faithfulness — насколько ответ действительно основан на контексте, а не «галлюцинирует»
- Answer Relevance — насколько сам ответ полезен и по теме
🔹 Интеграция с MLflow:
Можно логировать не только метрики, но и:
- Извлечённые документы
- Ответы модели
- Ground truth (если есть)
- Скриншоты или HTML-рендеринг всей цепочки
🔹 Автоматическая разметка:
Используется GPT/Claude для автоматического суждения о faithfulness и relevance — удобно при отсутствии human-annotators.
📌 Вывод:
Если вы строите RAG-решения, важно думать не только о качестве retrieval и LLM по отдельности, но и о том, как оценивать весь pipeline.
Метрики + MLflow дают структуру, чтобы сравнивать улучшения и принимать обоснованные решения.
#RAG #MLflow #LLM #Evaluation #AIProduct
@sqlhub
❤5👍2🔥2
Огромная Python-шпаргалка с удобной навигацией!
В репозитории собраны шпаргалки (на русском) по Python и не только, разделённые по категориям. Каждая ссылка ведёт к PDF с нужной темой.
🗂 Кроме Python, есть материалы по Git, CORS, Docker, API, SQL, CI/CD, Kubernetes и другим темам разработки.
👉 https://github.com/Dv-nn/Cheat-Sheet-Python
#Python #Программирование #Шпаргалки
@sqlhub
В репозитории собраны шпаргалки (на русском) по Python и не только, разделённые по категориям. Каждая ссылка ведёт к PDF с нужной темой.
🗂 Кроме Python, есть материалы по Git, CORS, Docker, API, SQL, CI/CD, Kubernetes и другим темам разработки.
👉 https://github.com/Dv-nn/Cheat-Sheet-Python
#Python #Программирование #Шпаргалки
@sqlhub
❤7🔥3🥰2
🚀 Amazon запускает S3 Vectors — и это может перевернуть рынок векторных БД
На первый взгляд — просто новый сервис. На деле — возможно, главная новость для AI-инфраструктуры в 2024.
Когда Amazon представил S3 в 2006, он навсегда изменил подход к хранению данных: больше не нужно думать о дисках — только API и бесконечное масштабирование. S3 Vectors может сделать то же самое с векторными БД.
💡 Почему это важно
1️⃣ Резкое удешевление
- $0.06/GB за хранение, $0.004/TB за запросы
- В 10–400 раз дешевле, чем популярные векторные хостинги
- Подходит для стартапов, особенно с бесплатными AWS-кредитами
2️⃣ Масштабируемость без DevOps
- Храни миллиарды векторов
- Запросы — за сотни миллисекунд
- Без серверов: просто создаёшь *vector bucket* и используешь API
3️⃣ Глубокая интеграция с AWS-экосистемой
- Bedrock (RAG-приложения)
- OpenSearch (tiered storage)
- SageMaker и другие сервисы
- Всё подключается "из коробки"
🛠️ Что можно делать
- Масштабируемый RAG с низкой ценой
- Поиск по смыслу в документах, видео, медизображениях, коду
- Долгосрочная память для AI-агентов
- Семантический корпоративный поиск
📈 Сообщество уже тестирует: среднее время запроса — ~250 мс. Preview-доступ открыт в регионах US East/West, Frankfurt и Sydney.
🔗 https://aws.amazon.com/blogs/aws/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/
Если пробуете — делитесь результатами. Это может быть началом нового стандарта.
@sqlhub
На первый взгляд — просто новый сервис. На деле — возможно, главная новость для AI-инфраструктуры в 2024.
Когда Amazon представил S3 в 2006, он навсегда изменил подход к хранению данных: больше не нужно думать о дисках — только API и бесконечное масштабирование. S3 Vectors может сделать то же самое с векторными БД.
💡 Почему это важно
1️⃣ Резкое удешевление
- $0.06/GB за хранение, $0.004/TB за запросы
- В 10–400 раз дешевле, чем популярные векторные хостинги
- Подходит для стартапов, особенно с бесплатными AWS-кредитами
2️⃣ Масштабируемость без DevOps
- Храни миллиарды векторов
- Запросы — за сотни миллисекунд
- Без серверов: просто создаёшь *vector bucket* и используешь API
3️⃣ Глубокая интеграция с AWS-экосистемой
- Bedrock (RAG-приложения)
- OpenSearch (tiered storage)
- SageMaker и другие сервисы
- Всё подключается "из коробки"
🛠️ Что можно делать
- Масштабируемый RAG с низкой ценой
- Поиск по смыслу в документах, видео, медизображениях, коду
- Долгосрочная память для AI-агентов
- Семантический корпоративный поиск
📈 Сообщество уже тестирует: среднее время запроса — ~250 мс. Preview-доступ открыт в регионах US East/West, Frankfurt и Sydney.
🔗 https://aws.amazon.com/blogs/aws/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/
Если пробуете — делитесь результатами. Это может быть началом нового стандарта.
@sqlhub
❤4👍4🥰3🔥1
🦉 Tonbo — новый игрок в мире embedded-баз данных. В отличие от традиционных key-value хранилищ, использует LSM-дерево поверх Apache Arrow/Parquet, что открывает интересные возможности для аналитических запросов с pushdown-оптимизациями.
Проект находится в активной разработке, но уже примечателен type-safe API через derive-макросы и поддержкой транзакций. Интересно наблюдать, как он будет развивать интеграцию с экосистемой Arrow (DataFusion) в будущих версиях.
🤖 GitHub
@sqlhub
Проект находится в активной разработке, но уже примечателен type-safe API через derive-макросы и поддержкой транзакций. Интересно наблюдать, как он будет развивать интеграцию с экосистемой Arrow (DataFusion) в будущих версиях.
🤖 GitHub
@sqlhub
👍7❤2🔥1
800+ SQL Server Interview Questions and Answers .pdf
1 MB
Подойдёт, чтобы:
— прокачать SQL-навыки с нуля до продвинутого уровня
— быстро освежить синтаксис перед интервью
— попрактиковаться на реальных задачах
Полезно как джунам, так и мидлам. Отличный способ проверить себя и закрыть пробелы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4❤2
😈 Немного токсичности — на пользу?
В финальном обзоре от команды AI VK с ICML 2025 — работа, в которой добавление умеренно токсичных текстов в обучающую выборку помогает улучшить ответы LLM, не повышая при этом токсичность. Всё дело в согласованной настройке данных, обучения и инференса (prompting & steering).
💡 Результат — +10% к объёму датасета, рост качества по MMLU и управляемая токсичность за счёт лучшего подавления нежелательных паттернов на инференсе.
В финальном обзоре от команды AI VK с ICML 2025 — работа, в которой добавление умеренно токсичных текстов в обучающую выборку помогает улучшить ответы LLM, не повышая при этом токсичность. Всё дело в согласованной настройке данных, обучения и инференса (prompting & steering).
💡 Результат — +10% к объёму датасета, рост качества по MMLU и управляемая токсичность за счёт лучшего подавления нежелательных паттернов на инференсе.
Telegram
AI VK Hub
Финальная статья из нашей серии обзоров будет про умеренную токсичность в обучении, которая улучшает детоксикацию моделей.
В теории размер обучающего датасета положительно влияет на работу моделей машинного обучения. Большие языковые модели не являются…
В теории размер обучающего датасета положительно влияет на работу моделей машинного обучения. Большие языковые модели не являются…
❤6👍2🔥1
🧠 HASH — открытая база данных с элементами ИИ, которая самостоятельно структурирует информацию и проверяет её достоверность. Проект объединяет данные из разных источников в реальном времени, предлагая удобные инструменты для работы с ними даже не-техническим пользователям.
HASH имеет автономных агентов, которые автоматически дополняют и очищают данные, а в будущем система превратится в полноценную рабочую среду с AI-интерфейсами. Для старта можно использовать облачную версию или развернуть локально.
🤖 GitHub
@sqlhub
HASH имеет автономных агентов, которые автоматически дополняют и очищают данные, а в будущем система превратится в полноценную рабочую среду с AI-интерфейсами. Для старта можно использовать облачную версию или развернуть локально.
🤖 GitHub
@sqlhub
❤2👍2🔥1
🔑 Oracle выпустила масштабные обновления безопасности для своих ключевых продуктов. В июльском патче устранено 309 уязвимостей разной степени критичности, затрагивающих популярные решения компании.
Наибольшую опасность представляли 9 уязвимостей в Java SE, позволяющих удалённое выполнение кода без аутентификации. Серьёзные проблемы обнаружены и в VirtualBox — три критические уязвимости дают возможность скомпрометировать гипервизор из гостевой системы. Обновления уже доступны для всех поддерживаемых версий затронутых продуктов.
🔗 Ссылка - *клик*
@sqlhub
Наибольшую опасность представляли 9 уязвимостей в Java SE, позволяющих удалённое выполнение кода без аутентификации. Серьёзные проблемы обнаружены и в VirtualBox — три критические уязвимости дают возможность скомпрометировать гипервизор из гостевой системы. Обновления уже доступны для всех поддерживаемых версий затронутых продуктов.
🔗 Ссылка - *клик*
@sqlhub
❤3👍1🔥1
🎁 РАЗЫГРЫВАЕМ MacBook Air!
Разыгрываем шикарный 13-дюймовый MacBook Air! Отличная рабочая машинка!
Условия участия максимально простые:
🔸Подписаться на телеграм-канал: @sqlhub
🔸Подписаться на телеграм-канал: @ai_machinelearning_big_data
🔸Нажать кнопку "Участвовать" ниже.
ВСЁ! Вы участник! Бот выберет одного человека, которому мы подарим этот MacBook. Доставка по зоне СДЭК.
Итоги подведём 14 августа.
Всем удачи! Пусть победит самый приятный человек!
⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвую».
Разыгрываем шикарный 13-дюймовый MacBook Air! Отличная рабочая машинка!
Условия участия максимально простые:
🔸Подписаться на телеграм-канал: @sqlhub
🔸Подписаться на телеграм-канал: @ai_machinelearning_big_data
🔸Нажать кнопку "Участвовать" ниже.
ВСЁ! Вы участник! Бот выберет одного человека, которому мы подарим этот MacBook. Доставка по зоне СДЭК.
Итоги подведём 14 августа.
Всем удачи! Пусть победит самый приятный человек!
⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвую».
👍23❤6👎4🔥3🎉1
🔥 Nhost — свежий взгляд на backend-разработку с открытым исходным кодом. Этот проект предлагает готовую облачную платформу или возможность самому развернуть альтернативу Firebase, но с GraphQL и PostgreSQL под капотом. Вместо NoSQL — привычный SQL, вместо REST — мощный GraphQL API на базе Hasura, а также встроенные аутентификация, хранилище и serverless-функции.
При этом Nhost не привязывает разработчика к конкретному фронтенд-фреймворку. Один и тот же SDK работает с React, Vue, Next.js и даже Flutter. Локальная разработка упрощена благодаря CLI, а для продакшна можно выбрать как managed-решение от создателей, так и развернуть всё на своих серверах через Docker.
🤖 GitHub
@sqlhub
При этом Nhost не привязывает разработчика к конкретному фронтенд-фреймворку. Один и тот же SDK работает с React, Vue, Next.js и даже Flutter. Локальная разработка упрощена благодаря CLI, а для продакшна можно выбрать как managed-решение от создателей, так и развернуть всё на своих серверах через Docker.
🤖 GitHub
@sqlhub
❤6🔥4🥰3
📊 Argilla — инструмент для создания качественных датасетов под AI. Проект помогает разработчикам и экспертам совместно работать над разметкой данных для NLP, LLM и мультимодальных моделей.
Платформа предлагает удобный интерфейс для аннотирования с фильтрами, семантическим поиском и AI-подсказками. Argilla используют в Red Cross и других организациях для задач классификации, RAG и тонкой настройки моделей.
🖥 Github
@sqlhub
Платформа предлагает удобный интерфейс для аннотирования с фильтрами, семантическим поиском и AI-подсказками. Argilla используют в Red Cross и других организациях для задач классификации, RAG и тонкой настройки моделей.
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍4🔥3