Data Science. SQL hub
35.9K subscribers
914 photos
49 videos
37 files
973 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🌟 txtai — универсальная база данных эмбеддингов для семантического поиска, оркестрации LLM и для управления рабочими процессами, связанными с ML

pip install txtai

Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥4
💻 Релиз новой версии nxs-data-anonymizer 1.9.0 — инструмента анонимизации баз данных

Опубликован nxs-data-anonymizer 1.9.0 — инструмент для анонимизации дампа баз данных PostgreSQL и MySQL/MariaDB/Percona. Инструмент написан на языке Go и выпускается под лицензией Apache License 2.0.

Программа поддерживает анонимизацию данных на основе шаблонов и функций библиотеки Sprig. Nxs-data-anonymizer можно использовать через неименованные каналы (pipe) в командной строке для перенаправления дампа из исходной БД непосредственно в целевую БД с необходимыми преобразованиями. Процесс анонимизации может быть индексирован - через указанные промежутки выводятся данные о прогрессе выполнения операции. Благодаря внешним командам через добавление в значение столбца "type: command" можно задавать значение полей.

В зависимости от типа сущностей в настройках безопасности инструмент анонимизирует столбцы для таблиц с правилами, описанными в разделе filters. Если таблица не содержит никаких правил, данные все равно будут в надёжно защищены, так как анонимайзер не включит их в результирующий дамп.

🖥 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍6🥰2
💻 node-postgres — удобный клиент PostgreSQL для Node.js

npm install pg

node-postgres представляет собой набор модулей Node.js для взаимодействия с PostgreSQL.
В node-postgres есть поддержка колбеков, промисов, async/await, пула соединений, курсоров, привязки к C/C++ и многого другого.
node-postgres написан на чистом JavaScript

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥3
ТОП 30 статей для изучения языка T-SQL - Уровень «Начинающий»

📌 Ссылка

@sqlhub
👍1110🔥5
💻 Kuzu — это встроенная СУБД графов, созданная для обеспечения скорости запросов и масштабируемости

pip install kuzu

Kuzu оптимизирована для выдерживания больших нагрузок и обладает следующим набором основных функций:
— гибкая модель данных Property Graph и язык запросов Cypher
— колоночное хранилище
— быстрые алгоритмы объединения данных
— многоядерный параллелизм запросов
— последовательные ACID-транзакции

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2
💻 WrenAI — open-source инструмент, который делает имеющуюся БД готовой к работе с RAG

curl -L https://github.com/Canner/WrenAI/releases/latest/download/wren-launcher-darwin.tar.gz | tar -xz && ./wren-launcher-darwin

WrenAI позволяет преобразовывать текст в SQL, изучать данные из БД без написания SQL, и делать многое другое

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5🔥4
💻Doris — простая в использовании, высокопроизводительная и универсальная аналитическая БД

wget https://apache-doris-releases.oss-accelerate.aliyuncs.com/apache-doris-2.0.3-bin-x64.tar.gz
tar zxf apache-doris-2.0.3-bin-x64.tar.gz
mv apache-doris-2.0.3-bin-x64 apache-doris

JAVA_HOME=/home/doris/jdk8

./bin/start_fe.sh --daemon


Если кто ещё не сталкивался, существует Doris — быстрая БД на основе MPP. При запросах к большим массивам данных она возвращает результаты за пару секунд.

С использованием Doris можно создавать приложения для анализа поведения пользователей, платформы для A/B-тестирования, анализа логов и заказов в e-commerce.

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87🔥3
sql_nosql.pdf
6.4 MB
Шпаргалка по SQL и NoSQL

Your Go-To Quick Reference Guide for SQL & NoSQL

@sqlhub
14👍10🔥1
🖥 RethinkDB — база данных, ориентированная на работу в реальном времени. Она поддерживает хранение данных в формате JSON любой структуры (NoSQL) и позволяет "слушать" стримы данных как с помощью Python, так и непосредственно с фронтенда.


Упрощает создание:
приложений для совместного редактирования документов (например, Google Docs, Trello),
мультиплеерных игр (например, для мгновенного оповещения игроков о действиях других),
маркетплейсов (биржи, ставки),
дешбордов с данными в реальном времени,
систем для общения между IoT-устройствами: обмен сообщениями, сигнализация, запуск действий через прослушивание одного источника.

https://github.com/rethinkdb/rethinkdb

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥2
🖥 Уязвимость в PostgreSQL, позволяющая выполнить SQL-код с правами пользователя, запускающего pg_dump

Сформированы корректирующие обновления для всех
поддерживаемых веток PostgreSQL 16.4, 15.8, 14.13, 13.16, 12.20, в которых исправлено 56 ошибок, выявленных за последние три месяца.

Cреди прочего в новых версиях устранена уязвимость (CVE-2024-7348), помеченная как опасная (уровень опасности 8.8 из 10). Уязвимость вызвана состоянием гонки в утилите pg_dump, позволяющем атакующему, имеющему возможность создания и удаления постоянных объектов в СУБД, добиться выполнения произвольного SQL-кода с правами пользователя, под которым запускается утилита pg_dump (обычно pg_dump запускается с правами суперпользователя для резервного копирования СУБД).

Для успешной атаки требуется отследить момент запуска утилиты pg_dump, что легко реализуется через манипуляции с открытой транзакцией.

Атака сводится к замене последовательности (sequence) на представление или внешнюю таблицу, определяющих запускаемый SQL-код, в момент запуска pg_dump, когда информация о наличии последовательности уже получена, но данные ещё не выведены. Для блокирования уязвимости добавлена настройка "restrict_nonsystem_relation_kind", запрещающая раскрытие не системных представлений и доступ к внешним таблицам в pg_dump.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115🔥4
💻EventStoreDB — open-source БД, в основе которой событийно-ориентированный подход

Благодаря событийно-ориентированному подходу EventStoreDB позволяет извлекать больше пользы из данных, видеть больше связей и закономерностей
EventStoreDB позволяет создавать кластеры в AWS, Azure и GCP и безопасно подключать их к собственным облачным ресурсам.

Быстрый старт с Docker:
docker run --name esdb-single-node -it -p 2113:2113 -p 1113:1113 eventstore/eventstore:latest --insecure --run-projections=All --enable-atom-pub-over-http

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍3🔥1