Data Science. SQL hub – Telegram

Data Science. SQL hub

35.8K subscribers

927 photos

52 videos

37 files

983 links

По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo

Download Telegram

About

Blog

Apps

Platform

Data Science. SQL hub

35.8K subscribers

Data Science. SQL hub

🖥

Открытая модель SQL-запросы из естественного языка

На HuggingFace вышла модель Text-to-SQL на 6.91 млрд. параметров.

Модель позволяет превращать обычный текстовый запрос к БД в SQL-выражение:

Вопрос: Выведи день, когда пришло больше всего пользователей

Ответ:
SELECT created_at::DATE AS day, COUNT(*) AS user_count
FROM users
GROUP BY day
ORDER BY user_count DESC

LIMIT 1;

Код:



import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("chatdb/natural-sql-7b")
model = AutoModelForCausalLM.from_pretrained(
    "chatdb/natural-sql-7b",
    device_map="auto",
    torch_dtype=torch.float16,
)

#sql #llm

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥6❤5😢1

5.57K views10:10

Data Science. SQL hub

PySpark_SQL_Cheat_Sheet.pdf

🖥

Полезная шпаргалка PySpark

PySpark — это API Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределенной обработки больших данных.

#pyspark

▪Руководство по PySpark для начинающих

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12❤9🔥4

7.58K views16:03

Data Science. SQL hub

🔥29👍10😁5❤3🤬2👏1

6.23K views09:12

Data Science. SQL hub

🎯 SqliSniper— это полезный инструмент, написанный на Python, предназначенный для обнаружения слепых SQL-инъекций.

Слепая инъекция SQL - это тип атаки SQLi, которая задает базе данных истинные или ложные вопросы и определяет истинность на основе ответа приложений.

Эта атака часто используется, когда веб-приложение настроено на отображение общих сообщений об ошибках, но при этом не фильтрует код, уязвимый для внедрения SQL.

▪Github

@sqlhub

❤12👍5🔥2

6.54K views16:02

Data Science. SQL hub

Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой?

Анонс для тех, кто устал вручную выгружать и сводить данные из разных источников. На деле ситуация серьезней, чем кажется.

Часто компании работают с разными источниками данных с собственной логикой. Каждая выгрузка превращается в хоррор-квест и отнимает много времени и сил. Формально аналитика работает, но все понимают, что можно лучше.

Облегчить жизнь команде аналитики поможет правильная инфраструктура, и ее можно собрать по готовому алгоритму. А где его взять?

28 февраля в 17:00 МСК архитектор VK Cloud Алексей Белозерский проведет вебинар. Там он покажет, как с помощью облачных сервисов и открытого ПО организовать хранение, обработку и доставку данных до конечных пользователей.

В программе:

🔹Основные принципы и этапы работы с данными: DWH, ETL, BI.

🔹Проектирование системы: создание DWH, передача и обработка данных с помощью Apache Airflow и DBT, подключение BI-систему Redash.

🔹Live-demo: эксплуатация системы. Подключаем источники, редактируем витрины, обогащаем дашборды в Redash дополнительными данными.

🔹 QA-сессия.

Посетите вебинар дата-инженеров , старших аналитиков и разработчиков DWH, а также менеджеров продуктов, ориентированных на data-driven подход.

У VK Cloud большой опыт в построении различных инфраструктур. Поэтому добавьте событие в календарь.

⏰ 28.02.2024, 17:00 МСК

Зарегистрироваться

❤10👍2

7.01K views08:01

Data Science. SQL hub

🖥

SQL в Фокусе: Полное Руководство. 100 ключевых Вопросов с собеседований

▪Часть 1
▪Часть2

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22🔥6❤4🥰2

9.09K views10:02

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Хотите остановить все часть транзакций, наапример, INSERT, UPDATE и DELETE?

Вы можете заблокировать их с помощью:

LOCK TABLE ... IN EXCLUSIVE MODE

Другие транзакции могут обращаться к таблице, пока вы не отмените блокировку.

#oracle #sql

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥3❤2

6.83K views10:26

Data Science. SQL hub

🔝

Полезные библиотеки для анализа данных.

▪fastparquet - библиотека, которая ускоряет ввод-вывод pandas примерно в 5 раз. fastparquet - это высокопроизводительная реализация формата Parquet на Python, предназначенная для бесперебойной работы с фреймами данных Pandas. Она обеспечивает быструю производительность чтения и записи, эффективное сжатие и поддержку широкого спектра типов данных.
▪SciencePlots - полезная библиотека для создания графиков matplotlib для презентаций, исследовательских работ.
▪CleverCSV - библиотека, которая устраняет различные ошибки синтаксического анализа при чтении CSV-файлов с помощью Pandas
▪PyGWalker - инструмент, который упрощает рабочий процесс анализа и визуализации данных в Jupyter Notebook, превращая фрейм данных pandas в пользовательский интерфейс в стиле Tableau для визуального исследования.
▪Feather - библиотека, которая предназначена для чтения и записи данных с устройств. Данная библиотека отлично подходит для перевода данных из одного языка в другой. Также она способна достаточно быстро считывать большие массивы данных
▪Dask - эта библиотека позволяет эффективно организовывать параллельные вычисления. Коллекции больших данных хранятся здесь как параллельные массивы/списки и позволяют работать с ними через Numpy/Pandas
▪Ibis - обеспечивает доступ между локальным окружение в Python и удаленными хранилищами данных (например, Hadoop)
▪Lightwood - AutoML фреймворк, который принимает на вход данные, целевую переменную и генерирует для вас целый конвейер машинного обучения.
▪Taipy — инструмент, который позволяет дата-сайентистам создавать интерактивный Web UI для ML-проектов.

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - MrPowers/fastparquet: python implementation of the parquet columnar file format.

python implementation of the parquet columnar file format. - MrPowers/fastparquet

❤17🔥7👍2🥰1

6.4K viewsedited 12:01

Data Science. SQL hub

📖Полное руководство по CASE WHEN в SQL

В сфере SQL освоение условной логики имеет такое же значение, как овладение стратегическими ходами в шахматной игре.

Оператор CASE WHEN, определяющий эту логику, — универсальный инструмент, способный изменить данные и процесс принятия решений в таких средах SQL, как SQL Server, Oracle и Snowflake. Предлагаемое руководство научит вас использовать CASE WHEN в различных сценариях и поможет усовершенствовать навыки работы с данными независимо от опыта и квалификации.

Определение и назначение CASE WHEN
Оператор CASE WHEN в SQL — условное выражение, аналогичное логике if-else в языках программирования.

Он позволяет выполнять условные проверки в SQL-запросах, предлагая динамический способ манипулирования данными на основе определенных критериев.

Обзор синтаксиса

CASE
    WHEN condition1 THEN result1
    WHEN condition2 THEN result2
    ...
    ELSE resultN
END

Базовый пример использования в SQL Server
Начнем с SQL Server.

📌Читать

@sqlhub

❤13👍11🔥4

5.7K views08:03

Data Science. SQL hub

🏗️ Анонимайзер PostgreSQL

Postgresql_anonymizer - это расширение для маскировки или замены персональной информации (или коммерчески важных данных в базах данных PostgreSQL.

https://postgresql-anonymizer.readthedocs.io/en/stable/

@sqlhub

👍17🔥5❤2🥰1

5.84K views07:57

Data Science. SQL hub

🖥

Sql тренажеры для практики

▪sql-academy.org
▪sql-ex.ru
▪schoolsw3.com
▪SQL Fiddle
▪sqltest.online
▪Oracle LiveSQL
▪stratascratch.com
▪stepik.org (Интерактивный тренажер SQL)
▪sql-practice.com
▪pgexercises.com
▪HackerRank
▪sqlzoo.net

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥12❤7

7.77K viewsedited 11:01

Data Science. SQL hub

🔝 Где искать работу аналитику данных в различные направления DS,SQL, Аналитики и ML

Подборка с каналами, где можно найти вакансии или подработку:
▪Data Jobs
▪Data engineering/SQL
▪Python Jobs
▪Папка с вакансиями по различным направлениям
▪Аналитика данных
▪Машинное обучение полная папка

🔎 Полный ресурсов для поиска работы аналитику данных.

@sqlhub

🔥39❤7👍5🥰2

21.2K viewsedited 12:02

Data Science. SQL hub

🖥

Toolong

Полезный инструмен, который упрощает работу с логами.

Предоставляет возможность эффективного взаимодействия с большими объёмами данных логирования прямо из терминала.

pip install toolong

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥3👍2

5.59K views18:02

Data Science. SQL hub

Куда движется индустрия аналитики и когда заменят всех специалистов данных данных на AI?
А точно стоит изучать новую для себя профессию, связанную с традиционной Аналитикой?
Как не оказаться в списках layoff?
Как адаптироваться в новой для себя стране и хорошо зарабатывать? Как удвоить зарплату?
А точно нужно быть лояльным к вашему работодателю?
Куда инвестировать в 2024?
Реально ли достичь FIRE в наше время? (Досрочно уйти на пенсию)

На эти и многие другие вопросы, вы сможете найти ответы в канале Инжиниринг Данных, который ведет Дмитрий Аношин. Он больше 14 лет работает с аналитическими решения и строил решения для Amazon и Microsoft.

В 2022-2023 году Дмитрий пережил 5 волн увольнений и в одну даже попал, но благодаря своей стратегии диверсификации усилий финансово сильно не пострадал. В нашем время уже не работает вариант долго и упорно работать на одну компанию и надеятся на повышение и спокойную жизнь. Нужно быть готовым всегда учиться, улучшать свои навыки и искать работу, и не забывать про развитие собственного бренда и нетворкинг.

Про все это можно прочитать в канале @rockyourdata.

🔥8❤4👍1

5.32K views10:02

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

GQL - Git Query Language

GQL — язык запросов с синтаксисом, который похож на SQL, с минималистичным движком для выполнения запросов к файлам .git вместо файлов базы данных.

Этот движок выполняет запрос «на лету» без необходимости создавать файлы базы данных или конвертировать файлы .git в любой другой формат.

▪Github
▪Документация

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17🔥8❤6

6.13K views12:02

Data Science. SQL hub

🎓 MITx: Машинное обучение на Python: от линейных моделей до глубокого обучения (бесплатный курс от MIT)

▪Курс

@sqlhub

❤10👍5🔥5

5.56K views08:58

Data Science. SQL hub

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Panel: The powerful data exploration & web app framework for Python

Блокноты Jupyter отлично подходят для изучения данных.
Но они не так хороши для визуализации данных.

Попробуйте библиотеку с открытым исходным кодом на Python, которая поможет вам создавать информативные дашборды ↓

▪ Github

pip install panel

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6👍4

5.19K views15:02

Data Science. SQL hub

🔑 Знание регулярных выражений поднимает вас над общей серой массой, так что не бойтесь выделяться)

Regex и ~ в SQL помогут вам найти абсолютно всё, вот примеры некоторых особенно полезных регулярок:

🔵типичное имя пользователя — ^[a-z0-9_-]{3,16}$; начало строки (^), потом любая буква (a-z), число (0-9), символ подчёркивания/дефис. Нам нужно от 3 до 16 этих символов ({3,16}), потом конец строки ($)

🔵

^[a-z0-9_-]{6,18}$ — типичный пароль, должно быть от 6 до 18 символов

🔵

^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$ — типичный email;
под это выражение подходит [email protected],
не подходит [email protected] (TLD длинный)

🔵

^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$ — типичный URL из латинских букв;
https://net.tutsplus.com/about подходит под это выражение
https://google.com/some/file!.html не подходит под это выражение

🔵

^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$ — тег html

Вообще, есть очень удобный сайт regex101.com для составления regex, use it

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31🔥10❤3

5.33K viewsedited 09:34

Data Science. SQL hub

🖥

Генераторы данных с открытым исходным кодом!

🟡

Mimesis - надежный генератор данных для Python, который может создавать широкий спектр поддельных данных на различных языках.

🟡

Spawner - инструмент для создания данных для разнообразных баз данных и искусственного интеллекта. Содержит широкий набор полей, включая возможность пользовательской настройки вручную.

🟡

Benerator - генератор текстовых данных для оценки, тестирования и обучения ИИ-моделей.

🟡

DataFactory - удобный способ создавать разнообразные наборы тестовых данных для наполнения баз данных и проверки ИИ-моделей.

🟡

MockNeat - простой интерфейс для программной генерации данных в форматах json, xml, csv и sql.

🟡

Faker - с помощью этого инструмента можно быстро создать фейковые данные для тестов.

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤3🔥2

4.99K viewsedited 15:02

Data Science. SQL hub

🖥

Как можно избежать усложнения запроса лишними CASE

Тут ниже представлена попытка заNULLить значение, если оно равно чему-то.

, CASE WHEN sdate = '1900-01-01' THEN NULL ELSE sdate END sdate
, CASE WHEN mdate = '1900-01-01' THEN NULL ELSE mdate END mdate

Но ведь в PostgreSQL есть функция nullif, которая делает ровно то же самое.
NULLIF(значение1, значение2)

Функция NULLIF выдаёт значение NULL, если значение1 равно значение2; в противном случае она возвращает значение1. Это может быть полезно для реализации обратной операции к COALESCE. В частности, для примера, показанного выше:

SELECT NULLIF(value, '(none)') ...

В данном примере если value равно (none), выдаётся null, а иначе возвращается значение value.

То есть в примере выше можно переписать короче и понятнее:

, NULLIF(sdate, '1900-01-01') sdate
, NULLIF(mdate, '1900-01-01') mdate

#PostgreSQL

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥5❤4

4.37K viewsedited 08:01

Data Science. SQL hub

🖥

Огромное количество полезных шпаргалок для разработчиков

Отличный сборник шпаргалок, в том числе по SQL, для повышения производительности и быстрого запоминания в процессе работы.

▪Github
▪SQL

@sqlhub

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥5👍3

4.77K views16:02