Data Science. SQL hub – Telegram

Data Science. SQL hub

35.9K subscribers

936 photos

52 videos

37 files

989 links

По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo

Download Telegram

About

Blog

Apps

Platform

Data Science. SQL hub

35.9K subscribers

Data Science. SQL hub

Forwarded from Machinelearning

🤖

Reachy Mini — первый доступный робот от Hugging face

Reachy Mini — это выразительный и полностью open-source робот, созданный для взаимодействия с человеком, коммуникации и экспериментов с ИИ.

🧠 Что делает его особенным?
- Все ПО открыто и написано на Python, а скоро будет достнуо — и на JavaScript и Scratch
- Базовая версия стоит $299, еще доступна wireless-версия за $449
- Открытая архитектура и SDK — идеален для экспериментов с LLM, аудио- и визуальными агентами

С ним можно разрабатывать, тестировать, запускать и делиться реальными ИИ-приложениями — на базе современных LLM-моделей.

Технические характеристики

- Высота: 28 см, в режиме сна — 23 см
- Ширина: 16 см, вес: 1.5 кг
- Поставляется в виде конструктора:
- Lite-версия — базовый функционал
- Полноценная версия — автономная версия с Raspberry 5 внутри, встроенным питанием, Wi‑Fi, микрофонами и камерой

🎤 Датчики и интерфейсы
- Микрофоны: Lite — 2, Wireless — 4 встроенных микрофонов
hyper.ai
- Камера: широкоугольная фронтальная камера (в wireless-версии)
- Акселерометр: встроен в Wireless-версию

🔗 Подробнее: https://hf.co/blog/reachy-mini

@ai_machinelearning_big_data

#huggingface #Reachy #opensource #Python

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥5👍1

3.71K views14:14

Data Science. SQL hub

🌊 OceanBase — распределённая СУБД от Ant Group с поддержкой векторного поиска. Это необычная opensource-база данных, сочетающая реляционную модель с возможностями векторного поиска для AI-сценариев. Изначально создавалась для обработки финансовых транзакций Alibaba, но теперь доступна всем.

OceanBase имеет архитектуру на основе Paxos-протокола, обеспечивающая нулевую потерю данных (RPO=0) и восстановление за 8 секунд. Опробовать её можно в Docker или развернуть кластер в Kubernetes через ob-operator.

🤖 GitHub

@sqlhub

❤9🔥5🥰1😱1

3.97K views16:14

Data Science. SQL hub

⚡Крутейший релиз от Anthropic — парни выпустили собственные бесплатные курсы!

Вы нижете десятки лекций, тесты и даже сертификаты по различным темам: от Anthropic API до MCP и лучших практик Claude Code. Всё с реальными примерами от разработчиков.

Забираем здесь.

👍9❤5🔥3🥰1

3.91K views06:40

Data Science. SQL hub

Как начать в Data Science, когда все вокруг уже сеньоры?

В Вышке открыт набор на онлайн-магистратуру «Магистр по наукам о данных». Поступить можно даже без технического бэкграунда, а учиться — в удобном формате.

Уже сейчас идет марафон подготовки к вступительным испытаниям, после которого вы сможете успешно поступить на программу.

За 4 встречи вы
— Разберетесь в математике
— Попрактикуетесь на задачах вступительных испытаний
— Познакомитесь с преподавателями и магистратурой
— Получите доступ в чат комьюнити

Когда: 9-14 июля, 18:00 (МСК)
Где: онлайн

📎 Зарегистрироваться и начать карьеру в DS

❤3🔥1

3.86K views09:44

Data Science. SQL hub

🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней

У вас есть таблица purchases:


purchases (
  id SERIAL PRIMARY KEY,
  customer_id INT,
  purchase_date DATE,
  amount NUMERIC
)

Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.

Показать:

- customer_id
- first_purchase_date
- second_purchase_date

✅ Решение:


WITH ordered_purchases AS (
  SELECT
    customer_id,
    purchase_date,
    ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
  FROM purchases
),

first_second_purchases AS (
  SELECT
    p1.customer_id,
    p1.purchase_date AS first_purchase_date,
    p2.purchase_date AS second_purchase_date
  FROM ordered_purchases p1
  JOIN ordered_purchases p2
    ON p1.customer_id = p2.customer_id
   AND p1.rn = 1
   AND p2.rn = 2
)

SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';

🔍 Пояснение:

- ROW_NUMBER() присваивает каждой покупке номер в пределах одного клиента.
- Мы соединяем первую и вторую покупки клиента через self-join.
- В финальном SELECT фильтруем только те пары, где разница между датами ≤ 7 дней.

⚠️ Важно:

- Клиенты с одной покупкой отфильтруются (у них нет второй).
- Сравнение выполняется через INTERVAL '7 days', чтобы корректно обрабатывать даты.
- Это не поиск любых двух покупок в пределах 7 дней, а именно проверка интервала между первой и второй.

@sqlhub

👍27❤8🥰1

3.86K views11:44

Data Science. SQL hub

🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней

У вас есть таблица purchases:


purchases (
  id SERIAL PRIMARY KEY,
  customer_id INT,
  purchase_date DATE,
  amount NUMERIC
)

Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.

Показать:

- customer_id
- first_purchase_date
- second_purchase_date

✅ Решение:


WITH ordered_purchases AS (
  SELECT
    customer_id,
    purchase_date,
    ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
  FROM purchases
),

first_second_purchases AS (
  SELECT
    p1.customer_id,
    p1.purchase_date AS first_purchase_date,
    p2.purchase_date AS second_purchase_date
  FROM ordered_purchases p1
  JOIN ordered_purchases p2
    ON p1.customer_id = p2.customer_id
   AND p1.rn = 1
   AND p2.rn = 2
)

SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';

🔍 Пояснение:

- ROW_NUMBER() присваивает каждой покупке порядковый номер в рамках клиента.
- Через self-join соединяем первую и вторую покупку клиента.
- Далее фильтруем, оставляя только те, у кого вторая покупка была не позднее 7 дней после первой.

⚠️ Важно:

- Клиенты с одной покупкой исключаются — у них нет второй.
- Мы не ищем любые две покупки в пределах 7 дней, а только первую и вторую по порядку.
- INTERVAL '7 days' обеспечивает корректное сравнение дат.

@sqlhub

❤9👍4🔥2

4.16K views18:02

Data Science. SQL hub

🔥

Дата-инженеры, встречаемся на митапе ЮMoney

Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным:

🟣

101 Performance Tuning: невредные советы. Проверяем и анализируем самые популярные советы по оптимизации хранилищ на основе реляционных баз данных.

🟣

Качество данных: от осознания до реализации. Если вы тоже сталкивались с ошибками в отчётах, дублированием данных и недоверием к аналитике, этот доклад для вас.

🟣

Обзор фреймворка DBT и примеры его использования. Почему он стал таким популярным? Рассмотрим основные возможности DBT, альтернативы и как DBT используют в дата-командах.

✅ Участие бесплатное, но нужно зарегистрироваться на сайте.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥2🥰1

4.03K views08:27

Data Science. SQL hub

▶️

Для Claude Code выпустили фреймворк, который превращает одну нейросеть в полноценную команду ИИ-разработчиков.

Система готова из коробки и может сразу писать проекты любой сложности.

Что внутри:

• ИИ-агенты с разными ролями — один пишет код, другой проверяет, третий ищет уязвимости и передаёт задачи дальше по цепочке
• Генератор структуры проекта — помогает агентам понимать архитектуру и держать весь контекст
• Интеграция с MCP — ИИ использует только актуальные спецификации и документацию

🔧 Установка и подробности — по ссылке: https://github.com/peterkrueck/Claude-Code-Development-Kit

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥5❤3

4.54K views10:32

Data Science. SQL hub

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Китай выпускает новую опенсорс модель: Kimi K2 — llm уровня Claude 4, которая обходит DeepSeek v3, Qwen и даже GPT-4.1

Размер — 1 триллион параметров, при этом:

📊 В бенчмарках:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.

Также доступна через API:

- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов

Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!

🟡

Github

@ai_machinelearning_big_data

#kimi #china #llm #ml #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥5❤3👎1

5.45K views20:52

Data Science. SQL hub

🛠️ AI + SQL = мгновенный доступ к данным в базе

На картинке — простой пример, как с помощью FastMCP и SQLAlchemy можно подключить инструмент к базе данных, который по человеческому запросу выводит список всех таблиц.

📦 Что происходит:
1. Человек пишет: *"Show me all tables in the ecommerce database"*
2. AI вызывает list_tables(), получает список через SQLAlchemy
3. Возвращается JSON и сгенерированный ответ на естественном языке

⚙️ Используемые технологии:
- FastMCP — для регистрации инструментов и взаимодействия с агентами
- @mcp.tool — декоратор, позволяющий превращать функции в доступные действия для ИИ
- inspect() из SQLAlchemy — безопасный способ получить метаданные БД

🧠 Это база для создания умных ботов-помощников, которые умеют работать с реальными базами данных и выдавать ответы, понятные человеку.

Интерфейс будущего уже здесь — не SQL-запрос, а обычный вопрос на английском.

@sqlhub

❤7🔥6👍5👎3

4.35K views09:01

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 Исследователь OpenAI Ноам Браун заявил:

"Все эти модные AI-системы с роутерами, обвязками и агентами смоет масштабом.

Будущее — за моделями, которые просто работают хорошо из коробки."

Что это значит?

▪ GPT‑5, похоже, не будет использовать роутеры — то есть, не будет выбирать отдельную подмодель под каждый запрос.
▪ Вместо этого — одна большая универсальная модель, способная справляться со всем сразу.

Но возникает важный вопрос:
Как они собираются держать цену инференса низкой?
Без роутера даже на простой вопрос будет отвечать вся огромная модель — это дорого.

Если OpenAI реально решила эту задачу, это будет революция:
▪ Без костылей
▪ Без сборок из агентов
▪ Просто умная, быстрая и универсальная модель

Следим внимательно. Это может многое изменить.

🔥15🤔6👍3👎1🥰1

4.52K views12:03

Data Science. SQL hub

🧠 Как оценивать качество RAG-систем: метрики и MLflow в действии

Retrieval-Augmented Generation (RAG) — мощная архитектура, но её тонко настраивать сложно. Ответы могут казаться "разумными", даже если они на самом деле некорректны. Как понять, работает ли ваша система так, как надо?

В свежем гайде от CodeCut показано, как системно оценивать качество RAG-моделей, а не надеяться на «на глаз»:

🔹 Метрики качества:
- Context Precision / Recall — насколько релевантны и достаточны извлечённые документы
- Faithfulness — насколько ответ действительно основан на контексте, а не «галлюцинирует»
- Answer Relevance — насколько сам ответ полезен и по теме

🔹 Интеграция с MLflow:
Можно логировать не только метрики, но и:
- Извлечённые документы
- Ответы модели
- Ground truth (если есть)
- Скриншоты или HTML-рендеринг всей цепочки

🔹 Автоматическая разметка:
Используется GPT/Claude для автоматического суждения о faithfulness и relevance — удобно при отсутствии human-annotators.

📌 Вывод:
Если вы строите RAG-решения, важно думать не только о качестве retrieval и LLM по отдельности, но и о том, как оценивать весь pipeline.

Метрики + MLflow дают структуру, чтобы сравнивать улучшения и принимать обоснованные решения.

#RAG #MLflow #LLM #Evaluation #AIProduct

@sqlhub

❤6👍3🔥2

4.7K viewsedited 09:50

Data Science. SQL hub

Огромная Python-шпаргалка с удобной навигацией!

В репозитории собраны шпаргалки (на русском) по Python и не только, разделённые по категориям. Каждая ссылка ведёт к PDF с нужной темой.

🗂 Кроме Python, есть материалы по Git, CORS, Docker, API, SQL, CI/CD, Kubernetes и другим темам разработки.

👉 https://github.com/Dv-nn/Cheat-Sheet-Python

#Python #Программирование #Шпаргалки

@sqlhub

❤9🔥4🥰2

5.13K views11:03

Data Science. SQL hub

🚀 Amazon запускает S3 Vectors — и это может перевернуть рынок векторных БД

На первый взгляд — просто новый сервис. На деле — возможно, главная новость для AI-инфраструктуры в 2024.

Когда Amazon представил S3 в 2006, он навсегда изменил подход к хранению данных: больше не нужно думать о дисках — только API и бесконечное масштабирование. S3 Vectors может сделать то же самое с векторными БД.

💡 Почему это важно

1️⃣ Резкое удешевление

- $0.06/GB за хранение, $0.004/TB за запросы
- В 10–400 раз дешевле, чем популярные векторные хостинги
- Подходит для стартапов, особенно с бесплатными AWS-кредитами

2️⃣ Масштабируемость без DevOps

- Храни миллиарды векторов
- Запросы — за сотни миллисекунд
- Без серверов: просто создаёшь *vector bucket* и используешь API

3️⃣ Глубокая интеграция с AWS-экосистемой

- Bedrock (RAG-приложения)
- OpenSearch (tiered storage)
- SageMaker и другие сервисы
- Всё подключается "из коробки"

🛠️ Что можно делать

- Масштабируемый RAG с низкой ценой
- Поиск по смыслу в документах, видео, медизображениях, коду
- Долгосрочная память для AI-агентов
- Семантический корпоративный поиск

📈 Сообщество уже тестирует: среднее время запроса — ~250 мс. Preview-доступ открыт в регионах US East/West, Frankfurt и Sydney.

🔗 https://aws.amazon.com/blogs/aws/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/

Если пробуете — делитесь результатами. Это может быть началом нового стандарта.

@sqlhub

❤5👍5🥰3🔥1

4.99K viewsedited 09:01

Data Science. SQL hub

🦉 Tonbo — новый игрок в мире embedded-баз данных. В отличие от традиционных key-value хранилищ, использует LSM-дерево поверх Apache Arrow/Parquet, что открывает интересные возможности для аналитических запросов с pushdown-оптимизациями.

Проект находится в активной разработке, но уже примечателен type-safe API через derive-макросы и поддержкой транзакций. Интересно наблюдать, как он будет развивать интеграцию с экосистемой Arrow (DataFusion) в будущих версиях.

🤖 GitHub

@sqlhub

👍8❤3🔥1

5.05K views09:02

Data Science. SQL hub

800+ SQL Server Interview Questions and Answers .pdf

🖥 Нашли кладезь знаний из 800+ SQL-вопросов с задачами — идеально для подготовки к собеседованиям.

Подойдёт, чтобы:
— прокачать SQL-навыки с нуля до продвинутого уровня
— быстро освежить синтаксис перед интервью
— попрактиковаться на реальных задачах

Полезно как джунам, так и мидлам. Отличный способ проверить себя и закрыть пробелы.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥5❤3

5.3K views11:02

Data Science. SQL hub

😈 Немного токсичности — на пользу?

В финальном обзоре от команды AI VK с ICML 2025 — работа, в которой добавление умеренно токсичных текстов в обучающую выборку помогает улучшить ответы LLM, не повышая при этом токсичность. Всё дело в согласованной настройке данных, обучения и инференса (prompting & steering).

💡 Результат — +10% к объёму датасета, рост качества по MMLU и управляемая токсичность за счёт лучшего подавления нежелательных паттернов на инференсе.

Финальная статья из нашей серии обзоров будет про умеренную токсичность в обучении, которая улучшает детоксикацию моделей.

В теории размер обучающего датасета положительно влияет на работу моделей машинного обучения. Большие языковые модели не являются…

❤7👍2🔥1

5.45K views12:43

Data Science. SQL hub

🧠 HASH — открытая база данных с элементами ИИ, которая самостоятельно структурирует информацию и проверяет её достоверность. Проект объединяет данные из разных источников в реальном времени, предлагая удобные инструменты для работы с ними даже не-техническим пользователям.

HASH имеет автономных агентов, которые автоматически дополняют и очищают данные, а в будущем система превратится в полноценную рабочую среду с AI-интерфейсами. Для старта можно использовать облачную версию или развернуть локально.

🤖 GitHub

@sqlhub

❤3👍3🔥2

5.27K views11:24