Data Science. SQL hub
36.1K subscribers
901 photos
46 videos
37 files
958 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🖥 Огромная шпаргалка с готовыми запросами SQL (SQLite)

Смотреть

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥54
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Разница между двумя временными метками - представляет собо интервал.

Чтобы получить его в единицах измерения (например, часах или секундах) в Oracle #SQL

Сначала вы извлекаете необходимый интервал времени, затем преобразовываете его в целевую единицу (час/секунду и тд).

например:

EXTRACT ( DAY FROM diff ) * 24 ) +
EXTRACT ( HOUR FROM diff ) +
EXTRACT ( MINUTE FROM diff ) / 60...

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👏9🔥74👍3
🦆 Вышла новая версия DuckDB v0.10.0

Некоторые основные моменты релиза:
- Переработанный и гораздо более быстрый CSV-ридер

- Поддержка нескольких баз данных
- Новый менеджер секретных ключей
- Добавлены массивы фиксированной длины
- Менеджер временной памяти
- Добавлено адаптивное сжатие данных с плавающей запятой без потерь
- Новый редактор CLI
- ...и многое другое

Релиз
DuckDb

@sqlhub
👍12🔥64🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 5 главных компонентов SQL:

DDL: data definition language
DQL: data query language
DML: data manipulation language
DCL: data control language
TCL: transaction control language

👉 Источник

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30👍17🥰1
🖥 Dataflare

Полезный и бесплатный менеджер баз данных.


Инстркмент предназначен для удобного подключения к вашим БД PostgreSQL, MySQL, MariaDB, MSSQL, SQLite, управления таблицами и выполнения запросов

Он отличается простотой и лёгкостью использования, что позволяет без труда управлять вашей базой данных и улучшить эффективность работы

Dataflare основан на Tauri, в нем используется Rust в качестве бэкенда, Dataflare обеспечивает отличную производительность и быстрое выполнение операций, будь то запросы к данным, выполнение SQL или другие операции.

https://dataflare.app/

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥52
🖥 Открытая модель SQL-запросы из естественного языка

На HuggingFace вышла модель Text-to-SQL на 6.91 млрд. параметров.

Модель позволяет превращать обычный текстовый запрос к БД в SQL-выражение:

Вопрос: Выведи день, когда пришло больше всего пользователей

Ответ:
SELECT created_at::DATE AS day, COUNT(*) AS user_count
FROM users
GROUP BY day
ORDER BY user_count DESC
LIMIT 1;

Код:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("chatdb/natural-sql-7b")
model = AutoModelForCausalLM.from_pretrained(
"chatdb/natural-sql-7b",
device_map="auto",
torch_dtype=torch.float16,
)

#sql #llm

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥65😢1
PySpark_SQL_Cheat_Sheet.pdf
5.1 MB
🖥 Полезная шпаргалка PySpark

PySpark —
это API Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределенной обработки больших данных.

#pyspark

Руководство по PySpark для начинающих

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍129🔥4
🔥29👍10😁53🤬2👏1
🎯 SqliSniper— это полезный инструмент, написанный на Python, предназначенный для обнаружения слепых SQL-инъекций.

Слепая инъекция SQL - это тип атаки SQLi, которая задает базе данных истинные или ложные вопросы и определяет истинность на основе ответа приложений.

Эта атака часто используется, когда веб-приложение настроено на отображение общих сообщений об ошибках, но при этом не фильтрует код, уязвимый для внедрения SQL.

Github

@sqlhub
12👍5🔥2
Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой?

Анонс для тех, кто устал вручную выгружать и сводить данные из разных источников. На деле ситуация серьезней, чем кажется.

Часто компании работают с разными источниками данных с собственной логикой. Каждая выгрузка превращается в хоррор-квест и отнимает много времени и сил. Формально аналитика работает, но все понимают, что можно лучше.

Облегчить жизнь команде аналитики поможет правильная инфраструктура, и ее можно собрать по готовому алгоритму. А где его взять?

28 февраля в 17:00 МСК архитектор VK Cloud Алексей Белозерский проведет вебинар. Там он покажет, как с помощью облачных сервисов и открытого ПО организовать хранение, обработку и доставку данных до конечных пользователей.

В программе:

🔹Основные принципы и этапы работы с данными: DWH, ETL, BI.

🔹Проектирование системы: создание DWH, передача и обработка данных с помощью Apache Airflow и DBT, подключение BI-систему Redash.

🔹Live-demo: эксплуатация системы. Подключаем источники, редактируем витрины, обогащаем дашборды в Redash дополнительными данными.

🔹 QA-сессия.

Посетите вебинар дата-инженеров , старших аналитиков и разработчиков DWH, а также менеджеров продуктов, ориентированных на data-driven подход.

У VK Cloud большой опыт в построении различных инфраструктур. Поэтому добавьте событие в календарь.

28.02.2024, 17:00 МСК

Зарегистрироваться
10👍2
🖥 SQL в Фокусе: Полное Руководство. 100 ключевых Вопросов с собеседований

Часть 1
Часть2

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥64🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Хотите остановить все часть транзакций, наапример, INSERT, UPDATE и DELETE?

Вы можете заблокировать их с помощью:

LOCK TABLE ... IN EXCLUSIVE MODE

Другие транзакции могут обращаться к таблице, пока вы не отмените блокировку.

#oracle #sql

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥32
🔝 Полезные библиотеки для анализа данных.

fastparquet - библиотека, которая ускоряет ввод-вывод pandas примерно в 5 раз. fastparquet - это высокопроизводительная реализация формата Parquet на Python, предназначенная для бесперебойной работы с фреймами данных Pandas. Она обеспечивает быструю производительность чтения и записи, эффективное сжатие и поддержку широкого спектра типов данных.
SciencePlots - полезная библиотека для создания графиков matplotlib для презентаций, исследовательских работ.
CleverCSV - библиотека, которая устраняет различные ошибки синтаксического анализа при чтении CSV-файлов с помощью Pandas
PyGWalker - инструмент, который упрощает рабочий процесс анализа и визуализации данных в Jupyter Notebook, превращая фрейм данных pandas в пользовательский интерфейс в стиле Tableau для визуального исследования.
Feather - библиотека, которая предназначена для чтения и записи данных с устройств. Данная библиотека отлично подходит для перевода данных из одного языка в другой. Также она способна достаточно быстро считывать большие массивы данных
Dask - эта библиотека позволяет эффективно организовывать параллельные вычисления. Коллекции больших данных хранятся  здесь как параллельные массивы/списки и позволяют работать с ними через Numpy/Pandas
Ibis - обеспечивает доступ между локальным окружение в Python и удаленными хранилищами данных (например, Hadoop)
Lightwood - AutoML фреймворк, который принимает на вход данные, целевую переменную и генерирует для вас целый конвейер машинного обучения.
Taipy — инструмент, который позволяет дата-сайентистам создавать интерактивный Web UI для ML-проектов.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥7👍2🥰1
📖Полное руководство по CASE WHEN в SQL

В сфере SQL освоение условной логики имеет такое же значение, как овладение стратегическими ходами в шахматной игре.

Оператор CASE WHEN, определяющий эту логику, — универсальный инструмент, способный изменить данные и процесс принятия решений в таких средах SQL, как SQL Server, Oracle и Snowflake. Предлагаемое руководство научит вас использовать CASE WHEN в различных сценариях и поможет усовершенствовать навыки работы с данными независимо от опыта и квалификации.

Определение и назначение CASE WHEN
Оператор CASE WHEN в SQL — условное выражение, аналогичное логике if-else в языках программирования.

Он позволяет выполнять условные проверки в SQL-запросах, предлагая динамический способ манипулирования данными на основе определенных критериев.

Обзор синтаксиса
CASE
WHEN condition1 THEN result1
WHEN condition2 THEN result2
...
ELSE resultN
END


Базовый пример использования в SQL Server
Начнем с SQL Server.

📌Читать

@sqlhub
13👍11🔥4
🏗️ Анонимайзер PostgreSQL

Postgresql_anonymizer - это расширение для маскировки или замены персональной информации (или коммерчески важных данных в базах данных PostgreSQL.

https://postgresql-anonymizer.readthedocs.io/en/stable/

@sqlhub
👍17🔥52🥰1
🔝 Где искать работу аналитику данных в различные направления DS,SQL, Аналитики и ML

Подборка с каналами, где можно найти вакансии или подработку:
Data Jobs
Data engineering/SQL
Python Jobs
Папка с вакансиями по различным направлениям
Аналитика данных
Машинное обучение полная папка

🔎 Полный ресурсов для поиска работы аналитику данных.

@sqlhub
🔥397👍5🥰2
🖥 Toolong

Полезный инструмен, который упрощает работу с логами.

Предоставляет возможность эффективного взаимодействия с большими объёмами данных логирования прямо из терминала.

pip install toolong

Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3👍2
Куда движется индустрия аналитики и когда заменят всех специалистов данных данных на AI?
А точно стоит изучать новую для себя профессию, связанную с традиционной Аналитикой?
Как не оказаться в списках layoff?
Как адаптироваться в новой для себя стране и хорошо зарабатывать? Как удвоить зарплату?
А точно нужно быть лояльным к вашему работодателю?
Куда инвестировать в 2024?
Реально ли достичь FIRE в наше время? (Досрочно уйти на пенсию)

На эти и многие другие вопросы, вы сможете найти ответы в канале Инжиниринг Данных, который ведет Дмитрий Аношин. Он больше 14 лет работает с аналитическими решения и строил решения для Amazon и Microsoft.

В 2022-2023 году Дмитрий пережил 5 волн увольнений и в одну даже попал, но благодаря своей стратегии диверсификации усилий финансово сильно не пострадал. В нашем время уже не работает вариант долго и упорно работать на одну компанию и надеятся на повышение и спокойную жизнь. Нужно быть готовым всегда учиться, улучшать свои навыки и искать работу, и не забывать про развитие собственного бренда и нетворкинг.

Про все это можно прочитать в канале @rockyourdata.
🔥84👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 GQL - Git Query Language

GQL — язык запросов с синтаксисом, который похож на SQL, с минималистичным движком для выполнения запросов к файлам .git вместо файлов базы данных.

Этот движок выполняет запрос «на лету» без необходимости создавать файлы базы данных или конвертировать файлы .git в любой другой формат.

Github
Документация

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥86
🎓 MITx: Машинное обучение на Python: от линейных моделей до глубокого обучения (бесплатный курс от MIT)

Курс

@sqlhub
10👍5🔥5