Data Science. SQL hub
35.9K subscribers
914 photos
49 videos
37 files
973 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🚀 DevToys — open-source набор инструментов для разработчика

Если кто вдруг не знает, существует замечательный набор инструментов для разработчика — DevToys.
Проект написан на C#, всего в DevToys доступно более 28 утилит, включая конвертер JSON в YAML и обратно, конвертер изображений в Base64, хеш-генераторы MD5, SHA1, SHA256, SHA512, генератор заглушек Lorem Ipsum, валидатор XML, превью разметки Markdown, среду для тестирования регулярных выражений, конвертер изображений, пипетку для выбора цветов, симулятор дальтонизма, инструмент для сжатия изображений и другие.

🖥 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥43
💻Bitalostored — высокопроизводительная распределенная система хранения данных, совместимая с протоколом Redis

Bitalostored — это недавно опубликованная распределенная система хранения данных, ядро которой основано на bitalosdb, совместимая с протоколом Redis.
Bitalostored отличается высокой производительностью

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥1
🔥 Rainbow Brackets — плагин для IDE, основанных на IntelliJ IDEA, который раскрашивает любые скобки

Поддерживаемые языки: Java, Scala, Clojure, Kotlin, Python, Haskell, Agda, Rust, JavaScript, TypeScript, Erlang, Go, Groovy, Ruby, Elixir, ObjectiveC, PHP, C#, HTML, XML, SQL, Apex language.

@sqlhub
👍127🔥6😁5
🖥 Известная компания Postgres Professional выпустила свой обновлённый базовый курс DBA-1 по администрированию свободно распространяемой СУБД PostgreSQL.

Курс доступен для самостоятельного изучения на сайте, а также в авторизованных учебных центрах.

Основные изменения:

- Добавлена информация про версии PostgreSQL 14, 15 и 16.
- Заменены четыре темы раздела «Управление доступом», по которым в дальнейшем появится отдельный подробный курс;
- Частично изменена структура: изложение стало более логичным и последовательным;
- Физическая и логическая репликации теперь рассматриваются в отдельных темах.
- Исправлены недочёты в изложении, ошибки в скриптах демонстраций и практических заданий.

📌 Курс

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏25👍129
ИИ в аспирантуре с уклоном в практику — молодые ученые будут исследовать и развивать ИИ уже в этому году

В ИТМО и НИУ ВШЭ открывается новый формат аспирантуры от Яндекса. Чтобы молодые ученые развивали, исследовали и улучшали ИИ-технологии, им будут давать ежегодные гранты 800 тысяч рублей и задачи реальных сервисов (в первую очередь, облачные технологии и беспилотники).

У каждого будет свой научный руководитель из университета и проектный из компании. Наставниками станут лиды из сервисов и будут делиться экспертизой, апробировать результаты исследований в реальных продуктовых командах.

Надеемся, что это поможет сокращению разрыва между исследованиями и практикой, а результатом станет ускоренное внедрение научных разработок в реальные продукты.

Узнать больше о программе: Яндекс Аспирантура по ИИ

#Яндекс #ИИ #Аспирантура #Образование #Наука #Технологии #ИТМО #НИУВШЭ
11👎3👍2🔥2
💻Spice — унифицированный интерфейс запросов SQL и портативная среда выполнения для быстрого извлечения данных из любой БД, хранилища данных или озера данных

curl https://install.spiceai.org | /bin/bash
spice init spice_qs
cd spice_qs
spice run


Spice — open-source портативная среда выполнения, предлагающая унифицированный интерфейс SQL для получения данных из любой базы данных и не только.
Spice написана на Rust для максимальной производительности.

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥2😁2
🌟 Создание text-to-SQL системы с Mistral AI, Neon, и LangChain

Если использовать просто LLM для генерации SQL, то может получиться синтаксически неверный SQL, усугубляет ситуацию и масса диалектов SQL в разных БД.
К тому же LLM не имеет доступа к полной схеме базы данных, именам таблиц и столбцов, а также индексам, что ограничивает его возможности по созданию точных/эффективных запросов. А передавать полную схему в промпте каждый раз дорого и неудобно.

Ок, но ведь LLM отлично обучаются в контексте, поэтому, передавая релевантную информацию в промпте, можно улучшить их результаты — так мы приходим к RAG.
И здесь по ссылке ниже разбирается построение системы RAG с использованием Mistral AI, Neon Postgres как векторной БД, и LangChain, чтобы связать всё это вместе.

🟡 Создание Text-to-SQL системы

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥4
🌟 Lance — колоночная БД для ML- и LLM-приложений

pip install pylance

Lance — колоночная БД для ML и LLM, реализованная на Rust.
Предназначена для работы с изображениями, видео, 3D-облаками точек, аудио и конечно с табличными данными. Поддерживает любые файловые системы POSIX, а также облачные хранилища, такие как AWS S3 и Google Cloud Storage.

Lance совместима с Pandas, DuckDB, Polars, Pyarrow.

🖥 GitHub
🟡 Примеры использования

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥3
🌟 qsv — анализ и разные манипуляции с CSV-файлами

cargo install qsv --locked --features all_features

Иногда для отдельных кейсов достаточно хранить информацию просто в csv вместо базы данных.
И в таких случаях для удобной работы можно использовать утилиту qsv.

qsv — это программа командной строки для индексирования, нарезки, анализа, фильтрации, сортировки и объединения CSV-файлов.
Для всех этих манипуляций предусмотрены простые и удобные команды.

🖥 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍6🔥1
🌟 txtai — универсальная база данных эмбеддингов для семантического поиска, оркестрации LLM и для управления рабочими процессами, связанными с ML

pip install txtai

Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥4
💻 Релиз новой версии nxs-data-anonymizer 1.9.0 — инструмента анонимизации баз данных

Опубликован nxs-data-anonymizer 1.9.0 — инструмент для анонимизации дампа баз данных PostgreSQL и MySQL/MariaDB/Percona. Инструмент написан на языке Go и выпускается под лицензией Apache License 2.0.

Программа поддерживает анонимизацию данных на основе шаблонов и функций библиотеки Sprig. Nxs-data-anonymizer можно использовать через неименованные каналы (pipe) в командной строке для перенаправления дампа из исходной БД непосредственно в целевую БД с необходимыми преобразованиями. Процесс анонимизации может быть индексирован - через указанные промежутки выводятся данные о прогрессе выполнения операции. Благодаря внешним командам через добавление в значение столбца "type: command" можно задавать значение полей.

В зависимости от типа сущностей в настройках безопасности инструмент анонимизирует столбцы для таблиц с правилами, описанными в разделе filters. Если таблица не содержит никаких правил, данные все равно будут в надёжно защищены, так как анонимайзер не включит их в результирующий дамп.

🖥 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍6🥰2
💻 node-postgres — удобный клиент PostgreSQL для Node.js

npm install pg

node-postgres представляет собой набор модулей Node.js для взаимодействия с PostgreSQL.
В node-postgres есть поддержка колбеков, промисов, async/await, пула соединений, курсоров, привязки к C/C++ и многого другого.
node-postgres написан на чистом JavaScript

🖥 GitHub
🟡 Доки

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥3