Data Science. SQL hub
35.9K subscribers
914 photos
49 videos
37 files
973 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
💻Bitalostored — высокопроизводительная распределенная система хранения данных, совместимая с протоколом Redis

Bitalostored — это недавно опубликованная распределенная система хранения данных, ядро которой основано на bitalosdb, совместимая с протоколом Redis.
Bitalostored отличается высокой производительностью

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥1
🔥 Rainbow Brackets — плагин для IDE, основанных на IntelliJ IDEA, который раскрашивает любые скобки

Поддерживаемые языки: Java, Scala, Clojure, Kotlin, Python, Haskell, Agda, Rust, JavaScript, TypeScript, Erlang, Go, Groovy, Ruby, Elixir, ObjectiveC, PHP, C#, HTML, XML, SQL, Apex language.

@sqlhub
👍127🔥6😁5
🖥 Известная компания Postgres Professional выпустила свой обновлённый базовый курс DBA-1 по администрированию свободно распространяемой СУБД PostgreSQL.

Курс доступен для самостоятельного изучения на сайте, а также в авторизованных учебных центрах.

Основные изменения:

- Добавлена информация про версии PostgreSQL 14, 15 и 16.
- Заменены четыре темы раздела «Управление доступом», по которым в дальнейшем появится отдельный подробный курс;
- Частично изменена структура: изложение стало более логичным и последовательным;
- Физическая и логическая репликации теперь рассматриваются в отдельных темах.
- Исправлены недочёты в изложении, ошибки в скриптах демонстраций и практических заданий.

📌 Курс

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏25👍129
ИИ в аспирантуре с уклоном в практику — молодые ученые будут исследовать и развивать ИИ уже в этому году

В ИТМО и НИУ ВШЭ открывается новый формат аспирантуры от Яндекса. Чтобы молодые ученые развивали, исследовали и улучшали ИИ-технологии, им будут давать ежегодные гранты 800 тысяч рублей и задачи реальных сервисов (в первую очередь, облачные технологии и беспилотники).

У каждого будет свой научный руководитель из университета и проектный из компании. Наставниками станут лиды из сервисов и будут делиться экспертизой, апробировать результаты исследований в реальных продуктовых командах.

Надеемся, что это поможет сокращению разрыва между исследованиями и практикой, а результатом станет ускоренное внедрение научных разработок в реальные продукты.

Узнать больше о программе: Яндекс Аспирантура по ИИ

#Яндекс #ИИ #Аспирантура #Образование #Наука #Технологии #ИТМО #НИУВШЭ
11👎3👍2🔥2
💻Spice — унифицированный интерфейс запросов SQL и портативная среда выполнения для быстрого извлечения данных из любой БД, хранилища данных или озера данных

curl https://install.spiceai.org | /bin/bash
spice init spice_qs
cd spice_qs
spice run


Spice — open-source портативная среда выполнения, предлагающая унифицированный интерфейс SQL для получения данных из любой базы данных и не только.
Spice написана на Rust для максимальной производительности.

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥2😁2
🌟 Создание text-to-SQL системы с Mistral AI, Neon, и LangChain

Если использовать просто LLM для генерации SQL, то может получиться синтаксически неверный SQL, усугубляет ситуацию и масса диалектов SQL в разных БД.
К тому же LLM не имеет доступа к полной схеме базы данных, именам таблиц и столбцов, а также индексам, что ограничивает его возможности по созданию точных/эффективных запросов. А передавать полную схему в промпте каждый раз дорого и неудобно.

Ок, но ведь LLM отлично обучаются в контексте, поэтому, передавая релевантную информацию в промпте, можно улучшить их результаты — так мы приходим к RAG.
И здесь по ссылке ниже разбирается построение системы RAG с использованием Mistral AI, Neon Postgres как векторной БД, и LangChain, чтобы связать всё это вместе.

🟡 Создание Text-to-SQL системы

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥4
🌟 Lance — колоночная БД для ML- и LLM-приложений

pip install pylance

Lance — колоночная БД для ML и LLM, реализованная на Rust.
Предназначена для работы с изображениями, видео, 3D-облаками точек, аудио и конечно с табличными данными. Поддерживает любые файловые системы POSIX, а также облачные хранилища, такие как AWS S3 и Google Cloud Storage.

Lance совместима с Pandas, DuckDB, Polars, Pyarrow.

🖥 GitHub
🟡 Примеры использования

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥3
🌟 qsv — анализ и разные манипуляции с CSV-файлами

cargo install qsv --locked --features all_features

Иногда для отдельных кейсов достаточно хранить информацию просто в csv вместо базы данных.
И в таких случаях для удобной работы можно использовать утилиту qsv.

qsv — это программа командной строки для индексирования, нарезки, анализа, фильтрации, сортировки и объединения CSV-файлов.
Для всех этих манипуляций предусмотрены простые и удобные команды.

🖥 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍6🔥1
🌟 txtai — универсальная база данных эмбеддингов для семантического поиска, оркестрации LLM и для управления рабочими процессами, связанными с ML

pip install txtai

Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥4
💻 Релиз новой версии nxs-data-anonymizer 1.9.0 — инструмента анонимизации баз данных

Опубликован nxs-data-anonymizer 1.9.0 — инструмент для анонимизации дампа баз данных PostgreSQL и MySQL/MariaDB/Percona. Инструмент написан на языке Go и выпускается под лицензией Apache License 2.0.

Программа поддерживает анонимизацию данных на основе шаблонов и функций библиотеки Sprig. Nxs-data-anonymizer можно использовать через неименованные каналы (pipe) в командной строке для перенаправления дампа из исходной БД непосредственно в целевую БД с необходимыми преобразованиями. Процесс анонимизации может быть индексирован - через указанные промежутки выводятся данные о прогрессе выполнения операции. Благодаря внешним командам через добавление в значение столбца "type: command" можно задавать значение полей.

В зависимости от типа сущностей в настройках безопасности инструмент анонимизирует столбцы для таблиц с правилами, описанными в разделе filters. Если таблица не содержит никаких правил, данные все равно будут в надёжно защищены, так как анонимайзер не включит их в результирующий дамп.

🖥 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍6🥰2
💻 node-postgres — удобный клиент PostgreSQL для Node.js

npm install pg

node-postgres представляет собой набор модулей Node.js для взаимодействия с PostgreSQL.
В node-postgres есть поддержка колбеков, промисов, async/await, пула соединений, курсоров, привязки к C/C++ и многого другого.
node-postgres написан на чистом JavaScript

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥3