Data Science. SQL hub
36.1K subscribers
902 photos
46 videos
37 files
959 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🔍 Manticoresearch

Manticore Search - это простая в использовании быстрая база данных с открытым исходным кодом для поиска. Хорошая альтернатива Elasticsearch. От других решений его отличает следующее:

Она очень быстрая и более экономичная, чем альтернативы, например, Manticore:

182 раза быстрее, чем MySQL для небольших датасетов
В 29 раз быстрее, чем Elasticsearch для анализа журналов
В 15 раз быстрее, чем Elasticsearch для небольших наборов данных
В 5 раз быстрее, чем Elasticsearch для средних датасетов
В 4 раза быстрее, чем Elasticsearch для больших датасетов

github.com/manticoresoftware/manticoresearch

@sqlhub
👍15🔥76
🖥 Как вы решаете, какой тип базы данных использовать?

Сегодня существуют сотни и даже тысячи баз данных, таких как Oracle, MySQL, MariaDB, SQLite, PostgreSQL, Redis, ClickHouse, MongoDB, S3, Ceph и т. д. Как выбрать архитектуру для своей системы? Вкратце я могу сказать следующее:

🔹Реляционные базы данных. С их помощью можно решить практически любую задачу.
🔹In-memory СУБД это система управления базами данных, которая хранит информацию непосредственно в оперативной памяти.
🔹Базы данных временных рядов. Хранят и управляют данными с временными метками.
🔹Графовая база данных. Подходит для сложных отношений между неструктурированными объектами.
🔹Документное хранилище. Хорошо подходят для больших неизменяемых данных.
🔹Хранилище широких колонок. Обычно используются для больших данных, аналитики, отчетности и т. д., где требуются денормализованные данные.

Очевидно, что тут не описаны все типы баз данных.

Есть ли что-то еще, что вы часто используете, и почему вы выбрали именно эту технологию?

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍8🔥4👎2
🖥 DuckDB

Теперь в DuckDB можно подключать базы данных MySQL, Postgres и SQLite в дополнение к базам данных, хранящимся в ее собственном формате.

Это позволяет считывать данные в DuckDB и перемещать их между этими системами удобным способом.

Подробнее
Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥3
SCDB: простая Open Source БД типа «ключ — значение»

Представляем SCDB, то есть Solid-Core-Database. Этот проект еще находится на ранних стадиях разработки и задуман для решения задач и проблем разработчиков.

Что такое SCDB?

▪️scdb  — легковесная, простая и скоростная подсистема хранения данных типа «ключ — значение». Сделана она по примеру архитектуры хранилища Bitcask, эффективной при операциях записи.
▪️Основной принцип проектирования scdb и Bitcask  — журналируемые файловые системы. Здесь все изменения добавляются в конец журнала, а записи очень быстрые, так как выполняются последовательно. При таком построении, помимо скорости, обеспечивается целостность данных: даже в случае отказа системы они легко восстанавливаются благодаря этому методу с возможностью только добавлять.
▪️В scdb реализован процесс объединения лог-файлов. Со временем вместе с записываемыми приложением данными увеличивается и количество лог-файлов. Объединением лог-файлов предотвращается фрагментация, поддерживается производительность. Для данных это как домашняя уборка, после которой хранилище остается организованным и эффективным.
▪️Созданная для беспроблемного хранения и извлечения пар «ключ — значение», SCDB придется кстати разработчикам приложений с быстрой записью данных и простым, но надежным хранилищем.

Пример:

📌 Читать дальше

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥1
👍43🔥14😁12🤯41
Master_SQL.pdf
754.9 KB
🖥 Полезная шпаргалка SQL

Это руководство охватывает широкий спектр тем, начиная от основных команд SQL и заканчивая продвинутыми темами.

Материао сопровождается практичесикми примерами, которые помогут вам лучше усвоить материал.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
28👍17🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Jless —   полезный инструмент для просмотра JSON-файлов в командной строке.

Отображение данных в удобном виде — с подсветкой синтаксиса для отдельных элементов объекта. Инструмент позволяет обрабатывать и расширять массивы.

Поддерживает полнотекстовый поиск и использование регулярных выражений. 

Github
Docs

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍142🔥1👏1🤩1
🖥 SQL в Фокусе: Полное Руководство. 100 ключевых Вопросов с собеседований. Часть 1.

Читать

#junior

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍82👏1
🖥 Загрузка SQL-таблиц в Pandas DataFrames позволяет анализировать и предварительно обрабатывать данные, используя богатый функционал pandas.

Чтобы загрузить таблицу SQL в pandas DataFrame, передайте соединение с базой данных, полученное от SQLAlchemy Engine, методу pandas read_sql.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍227🔥5
🖥 Огромная шпаргалка с готовыми запросами SQL (SQLite)

Смотреть

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥54
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Разница между двумя временными метками - представляет собо интервал.

Чтобы получить его в единицах измерения (например, часах или секундах) в Oracle #SQL

Сначала вы извлекаете необходимый интервал времени, затем преобразовываете его в целевую единицу (час/секунду и тд).

например:

EXTRACT ( DAY FROM diff ) * 24 ) +
EXTRACT ( HOUR FROM diff ) +
EXTRACT ( MINUTE FROM diff ) / 60...

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏9🔥74👍3
🦆 Вышла новая версия DuckDB v0.10.0

Некоторые основные моменты релиза:
- Переработанный и гораздо более быстрый CSV-ридер

- Поддержка нескольких баз данных
- Новый менеджер секретных ключей
- Добавлены массивы фиксированной длины
- Менеджер временной памяти
- Добавлено адаптивное сжатие данных с плавающей запятой без потерь
- Новый редактор CLI
- ...и многое другое

Релиз
DuckDb

@sqlhub
👍12🔥64🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 5 главных компонентов SQL:

DDL: data definition language
DQL: data query language
DML: data manipulation language
DCL: data control language
TCL: transaction control language

👉 Источник

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30👍17🥰1
🖥 Dataflare

Полезный и бесплатный менеджер баз данных.


Инстркмент предназначен для удобного подключения к вашим БД PostgreSQL, MySQL, MariaDB, MSSQL, SQLite, управления таблицами и выполнения запросов

Он отличается простотой и лёгкостью использования, что позволяет без труда управлять вашей базой данных и улучшить эффективность работы

Dataflare основан на Tauri, в нем используется Rust в качестве бэкенда, Dataflare обеспечивает отличную производительность и быстрое выполнение операций, будь то запросы к данным, выполнение SQL или другие операции.

https://dataflare.app/

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥52
🖥 Открытая модель SQL-запросы из естественного языка

На HuggingFace вышла модель Text-to-SQL на 6.91 млрд. параметров.

Модель позволяет превращать обычный текстовый запрос к БД в SQL-выражение:

Вопрос: Выведи день, когда пришло больше всего пользователей

Ответ:
SELECT created_at::DATE AS day, COUNT(*) AS user_count
FROM users
GROUP BY day
ORDER BY user_count DESC
LIMIT 1;

Код:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("chatdb/natural-sql-7b")
model = AutoModelForCausalLM.from_pretrained(
"chatdb/natural-sql-7b",
device_map="auto",
torch_dtype=torch.float16,
)

#sql #llm

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥65😢1
PySpark_SQL_Cheat_Sheet.pdf
5.1 MB
🖥 Полезная шпаргалка PySpark

PySpark —
это API Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределенной обработки больших данных.

#pyspark

Руководство по PySpark для начинающих

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍129🔥4
🔥29👍10😁53🤬2👏1
🎯 SqliSniper— это полезный инструмент, написанный на Python, предназначенный для обнаружения слепых SQL-инъекций.

Слепая инъекция SQL - это тип атаки SQLi, которая задает базе данных истинные или ложные вопросы и определяет истинность на основе ответа приложений.

Эта атака часто используется, когда веб-приложение настроено на отображение общих сообщений об ошибках, но при этом не фильтрует код, уязвимый для внедрения SQL.

Github

@sqlhub
12👍5🔥2
Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой?

Анонс для тех, кто устал вручную выгружать и сводить данные из разных источников. На деле ситуация серьезней, чем кажется.

Часто компании работают с разными источниками данных с собственной логикой. Каждая выгрузка превращается в хоррор-квест и отнимает много времени и сил. Формально аналитика работает, но все понимают, что можно лучше.

Облегчить жизнь команде аналитики поможет правильная инфраструктура, и ее можно собрать по готовому алгоритму. А где его взять?

28 февраля в 17:00 МСК архитектор VK Cloud Алексей Белозерский проведет вебинар. Там он покажет, как с помощью облачных сервисов и открытого ПО организовать хранение, обработку и доставку данных до конечных пользователей.

В программе:

🔹Основные принципы и этапы работы с данными: DWH, ETL, BI.

🔹Проектирование системы: создание DWH, передача и обработка данных с помощью Apache Airflow и DBT, подключение BI-систему Redash.

🔹Live-demo: эксплуатация системы. Подключаем источники, редактируем витрины, обогащаем дашборды в Redash дополнительными данными.

🔹 QA-сессия.

Посетите вебинар дата-инженеров , старших аналитиков и разработчиков DWH, а также менеджеров продуктов, ориентированных на data-driven подход.

У VK Cloud большой опыт в построении различных инфраструктур. Поэтому добавьте событие в календарь.

28.02.2024, 17:00 МСК

Зарегистрироваться
10👍2
🖥 SQL в Фокусе: Полное Руководство. 100 ключевых Вопросов с собеседований

Часть 1
Часть2

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥64🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Хотите остановить все часть транзакций, наапример, INSERT, UPDATE и DELETE?

Вы можете заблокировать их с помощью:

LOCK TABLE ... IN EXCLUSIVE MODE

Другие транзакции могут обращаться к таблице, пока вы не отмените блокировку.

#oracle #sql

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥32