Data Science. SQL hub – Telegram

Data Science. SQL hub

36K subscribers

902 photos

46 videos

37 files

960 links

По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo

Download Telegram

About

Blog

Apps

Platform

Data Science. SQL hub

36K subscribers

Data Science. SQL hub

🖥

DuckDB

Теперь в DuckDB можно подключать базы данных MySQL, Postgres и SQLite в дополнение к базам данных, хранящимся в ее собственном формате.

Это позволяет считывать данные в DuckDB и перемещать их между этими системами удобным способом.

▪Подробнее
▪Github

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤3🔥3

8.2K views11:01

Data Science. SQL hub

SCDB: простая Open Source БД типа «ключ — значение»

Представляем SCDB, то есть Solid-Core-Database. Этот проект еще находится на ранних стадиях разработки и задуман для решения задач и проблем разработчиков.

Что такое SCDB?

▪️scdb — легковесная, простая и скоростная подсистема хранения данных типа «ключ — значение». Сделана она по примеру архитектуры хранилища Bitcask, эффективной при операциях записи.
▪️Основной принцип проектирования scdb и Bitcask — журналируемые файловые системы. Здесь все изменения добавляются в конец журнала, а записи очень быстрые, так как выполняются последовательно. При таком построении, помимо скорости, обеспечивается целостность данных: даже в случае отказа системы они легко восстанавливаются благодаря этому методу с возможностью только добавлять.
▪️В scdb реализован процесс объединения лог-файлов. Со временем вместе с записываемыми приложением данными увеличивается и количество лог-файлов. Объединением лог-файлов предотвращается фрагментация, поддерживается производительность. Для данных это как домашняя уборка, после которой хранилище остается организованным и эффективным.
▪️Созданная для беспроблемного хранения и извлечения пар «ключ — значение», SCDB придется кстати разработчикам приложений с быстрой записью данных и простым, но надежным хранилищем.

Пример:

📌

Читать дальше

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤3🔥1

8.41K viewsedited 07:46

Data Science. SQL hub

👍43🔥14😁12🤯4❤1

12.9K views10:51

Data Science. SQL hub

🖥

Полезная шпаргалка SQL

Это руководство охватывает широкий спектр тем, начиная от основных команд SQL и заканчивая продвинутыми темами.

Материао сопровождается практичесикми примерами, которые помогут вам лучше усвоить материал.

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

❤28👍17🔥10

8.54K viewsedited 10:31

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Jless — полезный инструмент для просмотра JSON-файлов в командной строке.

Отображение данных в удобном виде — с подсветкой синтаксиса для отдельных элементов объекта. Инструмент позволяет обрабатывать и расширять массивы.

Поддерживает полнотекстовый поиск и использование регулярных выражений.

▪Github
▪Docs

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍14❤2🔥1👏1🤩1

7.39K views13:36

Data Science. SQL hub

🖥

SQL в Фокусе: Полное Руководство. 100 ключевых Вопросов с собеседований. Часть 1.

▪Читать

#junior

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24👍8❤2👏1

7.6K viewsedited 06:49

Data Science. SQL hub

🖥

Загрузка SQL-таблиц в Pandas DataFrames позволяет анализировать и предварительно обрабатывать данные, используя богатый функционал pandas.

Чтобы загрузить таблицу SQL в pandas DataFrame, передайте соединение с базой данных, полученное от SQLAlchemy Engine, методу pandas read_sql.

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤7🔥5

7.59K views08:03

Data Science. SQL hub

🖥

Огромная шпаргалка с готовыми запросами SQL (SQLite)

▪ Смотреть

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23🔥5❤4

7.81K views14:36

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Разница между двумя временными метками - представляет собо интервал.

Чтобы получить его в единицах измерения (например, часах или секундах) в Oracle #SQL

Сначала вы извлекаете необходимый интервал времени, затем преобразовываете его в целевую единицу (час/секунду и тд).

например:

EXTRACT ( DAY FROM diff ) * 24 ) +
EXTRACT ( HOUR FROM diff ) +
EXTRACT ( MINUTE FROM diff ) / 60...

Please open Telegram to view this post

VIEW IN TELEGRAM

👏9🔥7❤4👍3

6.05K views10:18

Data Science. SQL hub

🦆 Вышла новая версия DuckDB v0.10.0

Некоторые основные моменты релиза:
- Переработанный и гораздо более быстрый CSV-ридер

- Поддержка нескольких баз данных
- Новый менеджер секретных ключей
- Добавлены массивы фиксированной длины
- Менеджер временной памяти
- Добавлено адаптивное сжатие данных с плавающей запятой без потерь
- Новый редактор CLI
- ...и многое другое

▪Релиз
▪DuckDb

@sqlhub

👍12🔥6❤4🎉1

5.28K views08:39

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

5 главных компонентов SQL:

▪DDL: data definition language
▪DQL: data query language
▪DML: data manipulation language
▪DCL: data control language
▪TCL: transaction control language

👉

Источник

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥30👍17🥰1

6.1K views12:03

Data Science. SQL hub

🖥

Dataflare

Полезный и бесплатный менеджер баз данных.

Инстркмент предназначен для удобного подключения к вашим БД PostgreSQL, MySQL, MariaDB, MSSQL, SQLite, управления таблицами и выполнения запросов

Он отличается простотой и лёгкостью использования, что позволяет без труда управлять вашей базой данных и улучшить эффективность работы

Dataflare основан на Tauri, в нем используется Rust в качестве бэкенда, Dataflare обеспечивает отличную производительность и быстрое выполнение операций, будь то запросы к данным, выполнение SQL или другие операции.

https://dataflare.app/

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥5❤2

5.66K views10:15

Data Science. SQL hub

🖥

Открытая модель SQL-запросы из естественного языка

На HuggingFace вышла модель Text-to-SQL на 6.91 млрд. параметров.

Модель позволяет превращать обычный текстовый запрос к БД в SQL-выражение:

Вопрос: Выведи день, когда пришло больше всего пользователей

Ответ:
SELECT created_at::DATE AS day, COUNT(*) AS user_count
FROM users
GROUP BY day
ORDER BY user_count DESC

LIMIT 1;

Код:



import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("chatdb/natural-sql-7b")
model = AutoModelForCausalLM.from_pretrained(
    "chatdb/natural-sql-7b",
    device_map="auto",
    torch_dtype=torch.float16,
)

#sql #llm

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥6❤5😢1

5.55K views10:10

Data Science. SQL hub

PySpark_SQL_Cheat_Sheet.pdf

🖥

Полезная шпаргалка PySpark

PySpark — это API Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределенной обработки больших данных.

#pyspark

▪Руководство по PySpark для начинающих

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤9🔥4

7.57K views16:03

Data Science. SQL hub

🔥29👍10😁5❤3🤬2👏1

6.22K views09:12

Data Science. SQL hub

🎯 SqliSniper— это полезный инструмент, написанный на Python, предназначенный для обнаружения слепых SQL-инъекций.

Слепая инъекция SQL - это тип атаки SQLi, которая задает базе данных истинные или ложные вопросы и определяет истинность на основе ответа приложений.

Эта атака часто используется, когда веб-приложение настроено на отображение общих сообщений об ошибках, но при этом не фильтрует код, уязвимый для внедрения SQL.

▪Github

@sqlhub

❤12👍5🔥2

6.53K views16:02

Data Science. SQL hub

Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой?

Анонс для тех, кто устал вручную выгружать и сводить данные из разных источников. На деле ситуация серьезней, чем кажется.

Часто компании работают с разными источниками данных с собственной логикой. Каждая выгрузка превращается в хоррор-квест и отнимает много времени и сил. Формально аналитика работает, но все понимают, что можно лучше.

Облегчить жизнь команде аналитики поможет правильная инфраструктура, и ее можно собрать по готовому алгоритму. А где его взять?

28 февраля в 17:00 МСК архитектор VK Cloud Алексей Белозерский проведет вебинар. Там он покажет, как с помощью облачных сервисов и открытого ПО организовать хранение, обработку и доставку данных до конечных пользователей.

В программе:

🔹Основные принципы и этапы работы с данными: DWH, ETL, BI.

🔹Проектирование системы: создание DWH, передача и обработка данных с помощью Apache Airflow и DBT, подключение BI-систему Redash.

🔹Live-demo: эксплуатация системы. Подключаем источники, редактируем витрины, обогащаем дашборды в Redash дополнительными данными.

🔹 QA-сессия.

Посетите вебинар дата-инженеров , старших аналитиков и разработчиков DWH, а также менеджеров продуктов, ориентированных на data-driven подход.

У VK Cloud большой опыт в построении различных инфраструктур. Поэтому добавьте событие в календарь.

⏰ 28.02.2024, 17:00 МСК

Зарегистрироваться

❤10👍2

7K views08:01

Data Science. SQL hub

🖥

SQL в Фокусе: Полное Руководство. 100 ключевых Вопросов с собеседований

▪Часть 1
▪Часть2

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22🔥6❤4🥰2

9.07K views10:02

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Хотите остановить все часть транзакций, наапример, INSERT, UPDATE и DELETE?

Вы можете заблокировать их с помощью:

LOCK TABLE ... IN EXCLUSIVE MODE

Другие транзакции могут обращаться к таблице, пока вы не отмените блокировку.

#oracle #sql

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥3❤2

6.82K views10:26

Data Science. SQL hub

🔝

Полезные библиотеки для анализа данных.

▪fastparquet - библиотека, которая ускоряет ввод-вывод pandas примерно в 5 раз. fastparquet - это высокопроизводительная реализация формата Parquet на Python, предназначенная для бесперебойной работы с фреймами данных Pandas. Она обеспечивает быструю производительность чтения и записи, эффективное сжатие и поддержку широкого спектра типов данных.
▪SciencePlots - полезная библиотека для создания графиков matplotlib для презентаций, исследовательских работ.
▪CleverCSV - библиотека, которая устраняет различные ошибки синтаксического анализа при чтении CSV-файлов с помощью Pandas
▪PyGWalker - инструмент, который упрощает рабочий процесс анализа и визуализации данных в Jupyter Notebook, превращая фрейм данных pandas в пользовательский интерфейс в стиле Tableau для визуального исследования.
▪Feather - библиотека, которая предназначена для чтения и записи данных с устройств. Данная библиотека отлично подходит для перевода данных из одного языка в другой. Также она способна достаточно быстро считывать большие массивы данных
▪Dask - эта библиотека позволяет эффективно организовывать параллельные вычисления. Коллекции больших данных хранятся здесь как параллельные массивы/списки и позволяют работать с ними через Numpy/Pandas
▪Ibis - обеспечивает доступ между локальным окружение в Python и удаленными хранилищами данных (например, Hadoop)
▪Lightwood - AutoML фреймворк, который принимает на вход данные, целевую переменную и генерирует для вас целый конвейер машинного обучения.
▪Taipy — инструмент, который позволяет дата-сайентистам создавать интерактивный Web UI для ML-проектов.

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - MrPowers/fastparquet: python implementation of the parquet columnar file format.

python implementation of the parquet columnar file format. - MrPowers/fastparquet

❤17🔥7👍2🥰1

6.39K viewsedited 12:01