Data Science. SQL hub – Telegram

Data Science. SQL hub

36K subscribers

982 photos

60 videos

37 files

1.03K links

По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo

Download Telegram

About

Blog

Apps

Platform

Data Science. SQL hub

36K subscribers

Data Science. SQL hub

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Китай выпускает новую опенсорс модель: Kimi K2 — llm уровня Claude 4, которая обходит DeepSeek v3, Qwen и даже GPT-4.1

Размер — 1 триллион параметров, при этом:

📊 В бенчмарках:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.

Также доступна через API:

- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов

Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!

🟡

Github

@ai_machinelearning_big_data

#kimi #china #llm #ml #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥5❤3👎1

5.65K views20:52

Data Science. SQL hub

🛠️ AI + SQL = мгновенный доступ к данным в базе

На картинке — простой пример, как с помощью FastMCP и SQLAlchemy можно подключить инструмент к базе данных, который по человеческому запросу выводит список всех таблиц.

📦 Что происходит:
1. Человек пишет: *"Show me all tables in the ecommerce database"*
2. AI вызывает list_tables(), получает список через SQLAlchemy
3. Возвращается JSON и сгенерированный ответ на естественном языке

⚙️ Используемые технологии:
- FastMCP — для регистрации инструментов и взаимодействия с агентами
- @mcp.tool — декоратор, позволяющий превращать функции в доступные действия для ИИ
- inspect() из SQLAlchemy — безопасный способ получить метаданные БД

🧠 Это база для создания умных ботов-помощников, которые умеют работать с реальными базами данных и выдавать ответы, понятные человеку.

Интерфейс будущего уже здесь — не SQL-запрос, а обычный вопрос на английском.

@sqlhub

❤7🔥6👍5👎3

4.56K views09:01

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 Исследователь OpenAI Ноам Браун заявил:

"Все эти модные AI-системы с роутерами, обвязками и агентами смоет масштабом.

Будущее — за моделями, которые просто работают хорошо из коробки."

Что это значит?

▪ GPT‑5, похоже, не будет использовать роутеры — то есть, не будет выбирать отдельную подмодель под каждый запрос.
▪ Вместо этого — одна большая универсальная модель, способная справляться со всем сразу.

Но возникает важный вопрос:
Как они собираются держать цену инференса низкой?
Без роутера даже на простой вопрос будет отвечать вся огромная модель — это дорого.

Если OpenAI реально решила эту задачу, это будет революция:
▪ Без костылей
▪ Без сборок из агентов
▪ Просто умная, быстрая и универсальная модель

Следим внимательно. Это может многое изменить.

🔥15🤔6👍3👎1🥰1

4.69K views12:03

Data Science. SQL hub

🧠 Как оценивать качество RAG-систем: метрики и MLflow в действии

Retrieval-Augmented Generation (RAG) — мощная архитектура, но её тонко настраивать сложно. Ответы могут казаться "разумными", даже если они на самом деле некорректны. Как понять, работает ли ваша система так, как надо?

В свежем гайде от CodeCut показано, как системно оценивать качество RAG-моделей, а не надеяться на «на глаз»:

🔹 Метрики качества:
- Context Precision / Recall — насколько релевантны и достаточны извлечённые документы
- Faithfulness — насколько ответ действительно основан на контексте, а не «галлюцинирует»
- Answer Relevance — насколько сам ответ полезен и по теме

🔹 Интеграция с MLflow:
Можно логировать не только метрики, но и:
- Извлечённые документы
- Ответы модели
- Ground truth (если есть)
- Скриншоты или HTML-рендеринг всей цепочки

🔹 Автоматическая разметка:
Используется GPT/Claude для автоматического суждения о faithfulness и relevance — удобно при отсутствии human-annotators.

📌 Вывод:
Если вы строите RAG-решения, важно думать не только о качестве retrieval и LLM по отдельности, но и о том, как оценивать весь pipeline.

Метрики + MLflow дают структуру, чтобы сравнивать улучшения и принимать обоснованные решения.

#RAG #MLflow #LLM #Evaluation #AIProduct

@sqlhub

❤6👍3🔥2

4.9K viewsedited 09:50

Data Science. SQL hub

Огромная Python-шпаргалка с удобной навигацией!

В репозитории собраны шпаргалки (на русском) по Python и не только, разделённые по категориям. Каждая ссылка ведёт к PDF с нужной темой.

🗂 Кроме Python, есть материалы по Git, CORS, Docker, API, SQL, CI/CD, Kubernetes и другим темам разработки.

👉 https://github.com/Dv-nn/Cheat-Sheet-Python

#Python #Программирование #Шпаргалки

@sqlhub

❤10🔥4🥰2😢1

5.53K views11:03

Data Science. SQL hub

🚀 Amazon запускает S3 Vectors — и это может перевернуть рынок векторных БД

На первый взгляд — просто новый сервис. На деле — возможно, главная новость для AI-инфраструктуры в 2024.

Когда Amazon представил S3 в 2006, он навсегда изменил подход к хранению данных: больше не нужно думать о дисках — только API и бесконечное масштабирование. S3 Vectors может сделать то же самое с векторными БД.

💡 Почему это важно

1️⃣ Резкое удешевление

- $0.06/GB за хранение, $0.004/TB за запросы
- В 10–400 раз дешевле, чем популярные векторные хостинги
- Подходит для стартапов, особенно с бесплатными AWS-кредитами

2️⃣ Масштабируемость без DevOps

- Храни миллиарды векторов
- Запросы — за сотни миллисекунд
- Без серверов: просто создаёшь *vector bucket* и используешь API

3️⃣ Глубокая интеграция с AWS-экосистемой

- Bedrock (RAG-приложения)
- OpenSearch (tiered storage)
- SageMaker и другие сервисы
- Всё подключается "из коробки"

🛠️ Что можно делать

- Масштабируемый RAG с низкой ценой
- Поиск по смыслу в документах, видео, медизображениях, коду
- Долгосрочная память для AI-агентов
- Семантический корпоративный поиск

📈 Сообщество уже тестирует: среднее время запроса — ~250 мс. Preview-доступ открыт в регионах US East/West, Frankfurt и Sydney.

🔗 https://aws.amazon.com/blogs/aws/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/

Если пробуете — делитесь результатами. Это может быть началом нового стандарта.

@sqlhub

❤5👍5🥰3🔥1

5.25K viewsedited 09:01

Data Science. SQL hub

🦉 Tonbo — новый игрок в мире embedded-баз данных. В отличие от традиционных key-value хранилищ, использует LSM-дерево поверх Apache Arrow/Parquet, что открывает интересные возможности для аналитических запросов с pushdown-оптимизациями.

Проект находится в активной разработке, но уже примечателен type-safe API через derive-макросы и поддержкой транзакций. Интересно наблюдать, как он будет развивать интеграцию с экосистемой Arrow (DataFusion) в будущих версиях.

🤖 GitHub

@sqlhub

👍8❤3🔥1

5.27K views09:02

Data Science. SQL hub

800+ SQL Server Interview Questions and Answers .pdf

🖥 Нашли кладезь знаний из 800+ SQL-вопросов с задачами — идеально для подготовки к собеседованиям.

Подойдёт, чтобы:
— прокачать SQL-навыки с нуля до продвинутого уровня
— быстро освежить синтаксис перед интервью
— попрактиковаться на реальных задачах

Полезно как джунам, так и мидлам. Отличный способ проверить себя и закрыть пробелы.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16🔥5❤3

5.77K views11:02

Data Science. SQL hub

🧠 HASH — открытая база данных с элементами ИИ, которая самостоятельно структурирует информацию и проверяет её достоверность. Проект объединяет данные из разных источников в реальном времени, предлагая удобные инструменты для работы с ними даже не-техническим пользователям.

HASH имеет автономных агентов, которые автоматически дополняют и очищают данные, а в будущем система превратится в полноценную рабочую среду с AI-интерфейсами. Для старта можно использовать облачную версию или развернуть локально.

🤖 GitHub

@sqlhub

❤3👍3🔥2

5.56K views11:24

Data Science. SQL hub

🔑 Oracle выпустила масштабные обновления безопасности для своих ключевых продуктов. В июльском патче устранено 309 уязвимостей разной степени критичности, затрагивающих популярные решения компании.

Наибольшую опасность представляли 9 уязвимостей в Java SE, позволяющих удалённое выполнение кода без аутентификации. Серьёзные проблемы обнаружены и в VirtualBox — три критические уязвимости дают возможность скомпрометировать гипервизор из гостевой системы. Обновления уже доступны для всех поддерживаемых версий затронутых продуктов.

🔗 Ссылка - *клик*

@sqlhub

❤4👍2🔥1

5.67K views10:02

Data Science. SQL hub

🔥 Nhost — свежий взгляд на backend-разработку с открытым исходным кодом. Этот проект предлагает готовую облачную платформу или возможность самому развернуть альтернативу Firebase, но с GraphQL и PostgreSQL под капотом. Вместо NoSQL — привычный SQL, вместо REST — мощный GraphQL API на базе Hasura, а также встроенные аутентификация, хранилище и serverless-функции.

При этом Nhost не привязывает разработчика к конкретному фронтенд-фреймворку. Один и тот же SDK работает с React, Vue, Next.js и даже Flutter. Локальная разработка упрощена благодаря CLI, а для продакшна можно выбрать как managed-решение от создателей, так и развернуть всё на своих серверах через Docker.

🤖 GitHub

@sqlhub

❤8🔥5🥰3👍1

7.83K views15:18

Data Science. SQL hub

📊 Argilla — инструмент для создания качественных датасетов под AI. Проект помогает разработчикам и экспертам совместно работать над разметкой данных для NLP, LLM и мультимодальных моделей.

Платформа предлагает удобный интерфейс для аннотирования с фильтрами, семантическим поиском и AI-подсказками. Argilla используют в Red Cross и других организациях для задач классификации, RAG и тонкой настройки моделей.

🖥

Github

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍5🔥4

8.39K viewsedited 08:14

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Продвинутый SQL-трюк: как найти строки, отличающиеся только одним символом

Иногда нужно найти пары строк, которые почти совпадают — например, из-за опечатки в одной букве. Такой кейс часто встречается при поиске дублей в именах, email или товарах.

С помощью функции levenshtein() из расширения pg_trgm в PostgreSQL, можно находить строки, отличающиеся ровно на 1 символ. Это удобно для очистки данных, поиска дублей и реализации "умного" поиска в интерфейсе.


-- Убедись, что pg_trgm расширение включено
CREATE EXTENSION IF NOT EXISTS pg_trgm;

-- Найдём строки из таблицы users, у которых name отличается на 1 символ
SELECT a.name AS name1, b.name AS name2
FROM users a
JOIN users b ON a.id < b.id
WHERE levenshtein(a.name, b.name) = 1;

-- Пример: найдёт пары вроде ('Anna', 'Anya') или ('John', 'Joan')

📌Больше видео

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20🔥9❤4👎1🥰1

6.71K views10:22

Data Science. SQL hub

🦆 DuckDB vs 🐼 pandas: кто быстрее разберётся с «капризным» CSV?

📊 Сценарий
1. pandas read_csv("flight_data.csv") → весь файл свалился в одну колонку
2. DuckDB SELECT * FROM read_csv('flight_data.csv') → автоматически подхватил разделитель и выдал аккуратные столбцы

💡 Вывод
Если работаете с CSV с нестандартным delimiter’ом, попробуйте прочитать его через DuckDB: детектирует разделители сам и экономит ваше время на ручной настройке.

@sqlhub

👍11❤7🔥5👎2🥰1🤔1

6.19K views18:00

Data Science. SQL hub

⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Devops: t.iss.one/DevOPSitsec
Базы данных: t.iss.one/sqlhub
Мл собес t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
МЛ: t.iss.one/machinelearning_ru
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Физика: t.iss.one/fizmat
SQL: t.iss.one/databases_tg
Базы данных: t.iss.one/sql_lib

Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot -

📕Ит-книги: https://t.iss.one/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.iss.one/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3👎3🥰1

6.46K viewsedited 09:44

Data Science. SQL hub

⚡️ Replibyte — реалистичные данные для разработки без рисков. Инструмент для безопасного копирования продакшен-данных в тестовые окружения. Поддерживает PostgreSQL, MySQL и MongoDB, автоматически заменяя конфиденциальную информацию на правдоподобные фейковые значения.

Инструмент умеет работать с большими БД (10+ ГБ), сжимать и шифровать данные на лету, а также масштабировать данные до разумного размера. Всё в одном бинарном файле без серверных компонентов.

🤖 GitHub

@sqlhub

❤9👍9🔥4👎1😁1

7.3K views11:01

Data Science. SQL hub

📊 GridDB — гибридная СУБД для IoT с поддержкой SQL и NoSQL. Этот проект предлагает необычное сочетание: ключ-значение хранилище с возможностью SQL-запросов, что делает его удобным для промышленного IoT.

Инструмент имеет встроенную поддержка временных рядов и распределённую архитектуру, оптимизированную под высокую нагрузку сенсорных данных. Система работает на Linux и предоставляет клиентские библиотеки для Java, Python, Go и других языков. Установка возможна через RPM/DEB-пакеты или сборку из исходников. Для управления есть CLI и WebAPI.

🤖 GitHub

@sqlhub

❤8👍6🔥3👎1

6.57K views11:02

Data Science. SQL hub

💡 Полезный SQL-трюк: как получить первую строку в каждой группе — без подзапросов и оконных функций (если они недоступны)

Иногда нужно из каждой группы выбрать одну запись, например, самую раннюю по дате. Если у вас нет оконных функций (например, в старом MySQL), используйте трюк с GROUP BY и JOIN:


SELECT t1.*
FROM orders t1
JOIN (
  SELECT customer_id, MIN(order_date) AS min_date
  FROM orders
  GROUP BY customer_id
) t2 ON t1.customer_id = t2.customer_id AND t1.order_date = t2.min_date;

✅ Этот приём вытаскивает первую покупку каждого клиента без оконных функций.

@sqlhub

😁13👍9❤7🔥3👎1

6.42K views13:00

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

Продвинутый SQL-трюк: Как одним запросом вытащить только самую последнюю запись по каждой группе — и при этом сохранить все остальные поля

Если ты хочешь, например, получить последний заказ по каждому клиенту, но у тебя нет оконных функций или ты хочешь максимально производительный запрос — вот чистый, понятный способ.


-- Найдём последнюю покупку по каждому customer_id
SELECT o.*
FROM orders o
JOIN (
    SELECT customer_id, MAX(order_date) AS max_date
    FROM orders
    GROUP BY customer_id
) latest
ON o.customer_id = latest.customer_id
AND o.order_date = latest.max_date;

-- Работает даже если в таблице десятки миллионов строк, индекс на order_date и customer_id ускорит запрос

🔥26👍12❤6👎2🥰1

6.77K views11:04

Data Science. SQL hub

🔥 DbCls — мощный интерактивный клиент баз данных, который объединяет SQL-редактор с продвинутой визуализацией данных.

Поддерживает MySQL, PostgreSQL, ClickHouse и SQLite. Встроенный редактор с подсветкой синтаксиса, автодополнением и горячими клавишами для мгновенного выполнения запросов.

Результаты отображаются в интерактивных таблицах с возможностью форматирования и анализа. Идеальное решение для разработчиков и аналитиков данных, которым нужен быстрый и удобный доступ к базам данных

⚡️ Github

@sqlhub

🔥5❤4👍4

6.49K views13:04

Data Science. SQL hub

🧪 uQLM — движок для SQL‑запросов к LLM, разработанный в CVS Health

Что если к языковой модели можно обращаться как к обычной базе данных?

💡 uQLM (Universal Query Language for Models) позволяет писать SQL‑подобные запросы, чтобы:

✅ Обращаться к LLM как к таблице
✅ Фильтровать, агрегировать и комбинировать ответы
✅ Подключать собственные модели и источники данных
✅ Использовать привычный синтаксис SQL без prompt-инженерии

📌 Пример запроса:


SELECT generate_response(prompt) 
FROM gpt4 
WHERE prompt LIKE '%explain%' 
LIMIT 5;

uQLM работает как прослойка между пользователем и языковой моделью, облегчая интеграцию ИИ в аналитические пайплайны.

🔗 GitHub: https://github.com/cvs-health/uqlm

@sqlhub

❤5👍4🥰1

6.18K views09:56