Data Science. SQL hub
35.9K subscribers
914 photos
49 videos
37 files
973 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
💫 DB-GPT-Hub — проект, предлагающий преобразование обычных человеческих вопросов в точные SQL-запросы с помощью больших языковых моделей. Этот исследовательский проект фокусируется на тонкой настройке LLM для задач Text-to-SQL, позволяя пользователям взаимодействовать с базами данных на естественном языке.

Проект охватывает весь цикл: от сбора и обработки данных до тонкой настройки моделей и оценки их точности. Уже сейчас система демонстрирует впечатляющие 76-82% точности выполнения запросов для 13B-модели, что открывает большие перспективы для автоматизации работы с базами данных.

🤖 GitHub

@sqlhub
👍84🔥3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
💻 Выбираем базу данных правильно

В мире разработки выбор БД — ключ к производительности, масштабируемости и эффективности. Это не просто SQL vs NoSQL, а поиск инструмента под данные, нагрузку и цели бизнеса. От IoT до ИИ — тип не важен, важна задача. Разбираем:

➡️ SQL
💬 Структурированность, ACID, надёжность.
📦 Для: финансы, CRM, ERP.
📌 Примеры: MySQL, PostgreSQL.

➡️ NoSQL
💬 Document DB: JSON/XML (MongoDB, Couchbase).
🔑 Key-Value: быстрый доступ (Redis, DynamoDB).
📊 Columnar: аналитика (Cassandra, Redshift).
🔗 Graph DB: связи (Neo4j, Cosmos DB).

➡️ Специализированные
📍 Time-Series: метрики, IoT (InfluxDB, TimescaleDB).
📍 Vector DB: ИИ, поиск (Milvus, Pinecone).
📍 Spatial DB: карты (PostGIS, Oracle Spatial).

➡️ Высокая производительность
⚡️ In-Memory: скорость (SAP HANA, MemSQL).
🧱 NewSQL: масштаб + SQL (Spanner, CockroachDB).

➡️ Нишевые
🧬 Blockchain DB: доверие (BigchainDB).
📦 Object-Oriented: кодовая структура (ObjectDB).

🎯 БД — это про масштабируемость, интеллект и гибкость. Выбирайте под задачу, а не по привычке.

#sql #nosql #db

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥65
⚡️ SQLAdmin — инструмент, превращающий ваши SQLAlchemy или SQLModel-модели в функциональный бэкенд-интерфейс за несколько минут.

Особенно в проекте радует поддержка как синхронных, так и асинхронных движков SQLAlchemy, что делает его универсальным выбором для современных проектов.

Интерфейс построен на Tabler — чистом и современном CSS-фреймворке, который не требует тонн JavaScript.

🤖 GitHub

@sqlhub
🔥7👍4🥰4
🌐 openHalo позволяет приложениям, написанным для MySQL, работать с PostgreSQL, предлагая при этом лучшую производительность, чем MySQL!

openHalo поддерживает диалект SQL MySQL и использует тот же протокол соединения, что позволяет легко адаптировать приложения с MySQL к openHalo с минимальными изменениями кода. Это значительно упрощает миграцию с MySQL 5.7 или новее на openHalo, делая процесс быстрее, безопаснее и экономичнее.

С openHalo вы получаете повышенную производительность без дополнительных усилий и затрат, особенно для сложных SQL-запросов. Вы можете продолжать использовать знакомые инструменты, команды и драйверы MySQL для разработки.

🔗 GitHub

#openHalo #MySQL #PostgreSQL #database #migration

@sqlhub
6🔥5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Блокировка состояния Terraform с использованием S3 (без DynamoDB)

В этом посте мы рассмотрим:

- Зачем нужна блокировка состояния Terraform
- Блокировка состояния с помощью DynamoDB
- Блокировка состояния только с использованием S3, без DynamoDB
- Когда стоит использовать DynamoDB
- Когда можно обойтись только S3
- Лучшие практики хранения state-файлов в S3

🔗 Подробнее

#devops #девопс

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🥰1
🚀 Релиз: SQL Formatting Preview в T-SQL Analyzer CLI​

В последнем обновлении инструмента T-SQL Analyzer CLI от ErikEJ появилась функция предварительного просмотра форматирования SQL-кода.​

Основные возможности:
Автоматическое форматирование T-SQL скриптов с использованием встроенных правил.​

Интеграция с анализатором кода, позволяющая одновременно проверять и форматировать скрипты.​

Поддержка командной строки, что удобно для автоматизации процессов и интеграции в CI/CD пайплайны.​

🔧 Пример использования:

tsqlanalyze -i "C:\scripts\proc.sql" --format
Эта команда проанализирует и отформатирует указанный SQL-скрипт согласно установленным правилам.​

📌 Подробнее о новых возможностях и инструкциях по установке читайте в официальной документации.​

#sqlserver #tsql #dotnet #cli #devtools

https://github.com/ErikEJ/SqlServer.Rules/tree/master/tools/SqlAnalyzerCli#sql-formatting-preview

@sqlhub
👍63🥰1
📌 Kor — прототип для извлечения структуры из текста через LLM

Проект имеет интеграцию с LangChain, но предлагает свой подход: вместо JSON-режима или function calling он полагается на шаблонизацию промптов. Это позволяет работать даже с моделями, не поддерживающими новые режимы вроде GPT-4-turbo.

Новая версия 1.0.0 принесла совместимость с Pydantic v2, хотя разработчики предупреждают, что работа может заметно замедлиться

🤖 GitHub

@sqlhub
👍53🔥3
🚀 SQLModel — удобное решение для работы с базами данных в Python, объединяющее силу SQLAlchemy и валидацию Pydantic. Проект устраняет главную боль разработчиков: необходимость дублировать модели для БД и API.

Инструмент имеет синтаксис на основе аннотаций типов. Один класс одновременно описывает таблицу в БД и схему для FastAPI, а встроенная поддержка IDE сразу подсказывает поля и выявляет ошибки. Например, модель Hero с полями name и secret_name готова к использованию и в миграциях, и в эндпоинтах без лишнего кода.

🤖 GitHub

@sqlhub
🔥112👎2🥰2
Forwarded from Machinelearning
🔥 FireEdit — новая методика редактирования изображений по инструкции

🌟 В основе FireEdit — усовершенствованная Vision Language Model (VLM), способная выполнять тонкое и точное редактирование изображений на основе текстовых промптов.

🌟 Что внутри:
🟢Region Tokens
Позволяют VLM точно определять редактируемые объекты даже в сложных сценах, не затрагивая остальное изображение.
🟢Time-Aware Target Injection
Динамически регулирует степень редактирования на разных этапах шумоподавления, интегрируя информацию о времени с текстовыми эмбеддингами.
🟢Hybrid Visual Cross-Attention
Позволяет сохранить высокочастотные визуальные детали и семантическую согласованность изображения.

✔️Результаты
FireEdit превосходит другие SOTA-методы на датасете Emu Edit — как по точности локализации, так и по качеству результата.

✔️ Визуальные сравнения показывают, что FireEdit:
🟢Лучше локализует редактируемые области
🟢Меньше искажает фон и окружающие детали
🟢Сохраняет высокую семантическую точность

🔜 Статья
🔜Проект

@ai_machinelearning_big_data


#AI #VLM #Diffusion #ImageEditing #FireEdit #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4👎1🔥1
🧩 SQLite Internal — визуализатор структуры .sqlite-файлов

Если ты хочешь понять внутреннюю структуру SQLite, то этот инструмент — находка. SQLite Internal — веб-приложение для интерактивного анализа .sqlite-файлов.

📝 Что умеет:
• Загрузи .sqlite и изучай структуру файла
• Визуализация страниц, заголовков и схем
• Всё работает локально в браузере

💡 Технологии:
• TypeScript, Tailwind CSS, Vite
GitHub — invisal/sqlite-internal

🧪 Попробуй онлайн: https://sqlite-internal.pages.dev

#SQLite #DevTools #WebApp

@sqlhub
👍72🔥2
📒 Awesome LangChain — коллекция лучших инструментов для работы с LLM.

В этом репозитории собраны 500+ проектов — порты на другие языки (Go, Java, Ruby), шаблоны для быстрого старта и даже готовые решения вроде DB GPT для приватного общения с данными.

Особенно выделяются:
▪️LangServe — развёртывание цепочек как REST API от создателей LangChain
▪️GPTCache — семантическое кеширование запросов к LLM
▪️SuperAGI — фреймворк для автономных агентов с продвинутым планированием

🤖 GitHub

@sqlhub
👍31
🚀 AWESOME DATA SCIENCE

Репозиторий данных с открытым исходным кодом для изучения, применения и решения реальных проблем в data science.

Это кратчайший путь к началу изучения науки о данных. Опытным специалистам, репозиторий поможет найти необходимые топики, которые удобно систематизированы.

🖥 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
Forwarded from Golang
👣 Оптимизация выделения памяти в Go: как одна строчка замедлила всё на 30%

В базе данных Dolt (аналог Git, но для SQL-таблиц) после рефакторинга один из бенчмарков (types_scan) внезапно стал работать на 30% медленнее. Причина? Казалось бы, невинная строчка кода.

📉 Что произошло
Метод GetBytes() начал вызывать ReadBytes() у интерфейса ValueStore. Всё выглядело логично, пока не включили профилировщик Go и не обнаружили странную активность:
🔍 runtime.newobject вызывался слишком часто → программа делала много лишних аллокаций в куче.

📦 Где зарыта собака

func (vs nodeStore) ReadBytes(...) ...

Этот метод использовал приёмник по значению (vs nodeStore). Это значит, что вся структура копировалась при каждом вызове метода, даже если она большая.

🚑 Как пофиксили
Просто поменяли на приёмник по указателю:

func (vs *nodeStore) ReadBytes(...) ...

Вуаля — аллокейшны исчезли, производительность восстановилась.

🧠 Вывод
Методы с приёмником по значению = риск лишнего копирования и аллокаций
🛠 Даже один маленький метод может резко замедлить ваш код
🔍 Профилировка в Go — мощный инструмент. Используй pprof!

Полный разбор в блоге DoltHub
Подробнее про Dolt

@golang_google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥2
🖥 Задача: “Невидимая строка”

Дана таблица users:

CREATE TABLE users (
id SERIAL PRIMARY KEY,
name TEXT,
deleted_at TIMESTAMP
);


Вы выполняете:

SELECT COUNT(*) FROM users WHERE deleted_at = NULL;


✔️ И получаете... 0. Хотя вы уверены, что есть пользователи, у которых deleted_at не задано.

Вопрос:
Что не так с запросом? Как правильно получить количество “неудалённых” пользователей?

Вопрос: В чем ошибка? И как надо правильно писать такой фильтр?

✔️ Правильный запрос будет выглядеть так:

Чтобы проверить, является ли значение NULL, нужно использовать специальный оператор IS NULL.

SELECT COUNT(*) FROM users WHERE deleted_at IS NULL;

Этот запрос корректно найдёт все строки, где в столбце deleted_at действительно отсутствует значение (т.е. он равен NULL), и посчитает их количество.

Итог:
Не используйте = или != для сравнения с NULL.
Используйте IS NULL для проверки на NULL.
Используйте IS NOT NULL для проверки на не NULL (если бы вам понадобилось посчитать удалённых пользователей, у которых deleted_at заполнено).


@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍274🔥3
✔️ Presto (prestoDB/presto)

Это высокопроизводительный распределённый движок SQL для анализа больших объёмов данных в реальном времени. Основные характеристики:

Распределённая архитектура

Состоит из координатора и множества воркеров, которые параллельно выполняют фрагменты запросов, обеспечивая низкую задержку даже при обработке петабайтовых данных
GitHub

Поддержка ANSI SQL и UDF

Полноценная поддержка стандартного SQL с возможностью расширения набором пользовательских функций (UDF), агрегатов и аналитических функций.

Плагинные коннекторы
Из коробки доступны коннекторы к Hive (HDFS/S3), Cassandra, Kafka, MongoDB, MySQL, PostgreSQL, Elasticsearch и многим другим системам хранения. При желании можно написать собственный плагин
GitHub
.

Масштабируемость и отказоустойчивость
Горизонтальное масштабирование за счёт добавления воркеров, автоматическое перераспределение задач при выходе узлов из строя.

Удобство развёртывания
Можно собрать из исходников через Maven (./mvnw clean install), развернуть через Docker (официальный образ есть в папке docker/), или сразу использовать готовые пакеты на prestodb.io.

Клиенты и интеграции
Имеется CLI (presto-cli), JDBC/ODBC‑драйверы, REST API. Лёгко встраивается в BI‑инструменты и платформы визуализации.

Сферы применения
Ad‑hoc‑аналитика, интерактивные дашборды, federated query (объединение данных из разных источников), подготовка данных для машинного обучения.

https://github.com/prestodb/presto

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Нашел лучший сайт для изучения SQL
Хороший ресурс для освоения SQL — SQL Academy!

Это интерактивная платформа с практическими заданиями от ведущих российских компаний: ВКонтакте, Альфа-Банка, Сбера и других. Здесь найдётся всё, что нужно разработчикам, аналитикам, тестировщикам и студентам, интересующимся базами данных.интересующихся студентов.

Попробовать здесь

@sqlhub
9👍5👎1🔥1
✔️ Wal-listener — это инструмент для прослушивания логов транзакций PostgreSQL (WAL) и конвертации их в удобный для обработки формат JSON.

Возможности

- Прослушивание изменений в PostgreSQL в режиме реального времени.
- Поддержка нескольких слотов репликации.
- Удобный вывод в формате JSON.
- Готов к использованию в качестве сервиса.

Пример использования

1. Создаём слот репликации:

SELECT * FROM pg_create_logical_replication_slot('test_slot', 'wal2json');


2. Запускаем wal-listener:

wal-listener --dsn "host=localhost port=5432 user=postgres dbname=test" --slot test_slot


3. Получаем JSON-объекты при изменениях в базе данных.

https://github.com/ihippik/wal-listener

#devops #девопс #PostgreSQL #sql

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍52