На HuggingFace вышла модель Text-to-SQL на 6.91 млрд. параметров.
Модель позволяет превращать обычный текстовый запрос к БД в SQL-выражение:
Вопрос: Выведи день, когда пришло больше всего пользователей
Ответ:
SELECT created_at::DATE AS day, COUNT(*) AS user_count
FROM users
GROUP BY day
ORDER BY user_count DESC
LIMIT 1;
Код:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("chatdb/natural-sql-7b")
model = AutoModelForCausalLM.from_pretrained(
"chatdb/natural-sql-7b",
device_map="auto",
torch_dtype=torch.float16,
)
#sql #llm@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6❤5😢1
PySpark_SQL_Cheat_Sheet.pdf
5.1 MB
PySpark — это API Apache Spark, который представляет собой систему с открытым исходным кодом, применяемую для распределенной обработки больших данных.
#pyspark
▪Руководство по PySpark для начинающих
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤9🔥4
🎯 SqliSniper— это полезный инструмент, написанный на Python, предназначенный для обнаружения слепых SQL-инъекций.
Слепая инъекция SQL - это тип атаки
Эта атака часто используется, когда веб-приложение настроено на отображение общих сообщений об ошибках, но при этом не фильтрует код, уязвимый для внедрения SQL.
▪Github
@sqlhub
Слепая инъекция SQL - это тип атаки
SQLi,
которая задает базе данных истинные или ложные вопросы и определяет истинность на основе ответа приложений. Эта атака часто используется, когда веб-приложение настроено на отображение общих сообщений об ошибках, но при этом не фильтрует код, уязвимый для внедрения SQL.
▪Github
@sqlhub
❤12👍5🔥2
Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой?
Анонс для тех, кто устал вручную выгружать и сводить данные из разных источников. На деле ситуация серьезней, чем кажется.
Часто компании работают с разными источниками данных с собственной логикой. Каждая выгрузка превращается в хоррор-квест и отнимает много времени и сил. Формально аналитика работает, но все понимают, что можно лучше.
Облегчить жизнь команде аналитики поможет правильная инфраструктура, и ее можно собрать по готовому алгоритму. А где его взять?
28 февраля в 17:00 МСК архитектор VK Cloud Алексей Белозерский проведет вебинар. Там он покажет, как с помощью облачных сервисов и открытого ПО организовать хранение, обработку и доставку данных до конечных пользователей.
В программе:
🔹Основные принципы и этапы работы с данными: DWH, ETL, BI.
🔹Проектирование системы: создание DWH, передача и обработка данных с помощью Apache Airflow и DBT, подключение BI-систему Redash.
🔹Live-demo: эксплуатация системы. Подключаем источники, редактируем витрины, обогащаем дашборды в Redash дополнительными данными.
🔹 QA-сессия.
Посетите вебинар дата-инженеров , старших аналитиков и разработчиков DWH, а также менеджеров продуктов, ориентированных на data-driven подход.
У VK Cloud большой опыт в построении различных инфраструктур. Поэтому добавьте событие в календарь.
⏰ 28.02.2024, 17:00 МСК
Зарегистрироваться
Анонс для тех, кто устал вручную выгружать и сводить данные из разных источников. На деле ситуация серьезней, чем кажется.
Часто компании работают с разными источниками данных с собственной логикой. Каждая выгрузка превращается в хоррор-квест и отнимает много времени и сил. Формально аналитика работает, но все понимают, что можно лучше.
Облегчить жизнь команде аналитики поможет правильная инфраструктура, и ее можно собрать по готовому алгоритму. А где его взять?
28 февраля в 17:00 МСК архитектор VK Cloud Алексей Белозерский проведет вебинар. Там он покажет, как с помощью облачных сервисов и открытого ПО организовать хранение, обработку и доставку данных до конечных пользователей.
В программе:
🔹Основные принципы и этапы работы с данными: DWH, ETL, BI.
🔹Проектирование системы: создание DWH, передача и обработка данных с помощью Apache Airflow и DBT, подключение BI-систему Redash.
🔹Live-demo: эксплуатация системы. Подключаем источники, редактируем витрины, обогащаем дашборды в Redash дополнительными данными.
🔹 QA-сессия.
Посетите вебинар дата-инженеров , старших аналитиков и разработчиков DWH, а также менеджеров продуктов, ориентированных на data-driven подход.
У VK Cloud большой опыт в построении различных инфраструктур. Поэтому добавьте событие в календарь.
⏰ 28.02.2024, 17:00 МСК
Зарегистрироваться
❤10👍2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥6❤4🥰2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3❤2
▪fastparquet - библиотека, которая ускоряет ввод-вывод pandas примерно в 5 раз. fastparquet - это высокопроизводительная реализация формата Parquet на Python, предназначенная для бесперебойной работы с фреймами данных Pandas. Она обеспечивает быструю производительность чтения и записи, эффективное сжатие и поддержку широкого спектра типов данных.
▪SciencePlots - полезная библиотека для создания графиков matplotlib для презентаций, исследовательских работ.
▪CleverCSV - библиотека, которая устраняет различные ошибки синтаксического анализа при чтении CSV-файлов с помощью Pandas
▪PyGWalker - инструмент, который упрощает рабочий процесс анализа и визуализации данных в Jupyter Notebook, превращая фрейм данных pandas в пользовательский интерфейс в стиле Tableau для визуального исследования.
▪Feather - библиотека, которая предназначена для чтения и записи данных с устройств. Данная библиотека отлично подходит для перевода данных из одного языка в другой. Также она способна достаточно быстро считывать большие массивы данных
▪Dask - эта библиотека позволяет эффективно организовывать параллельные вычисления. Коллекции больших данных хранятся здесь как параллельные массивы/списки и позволяют работать с ними через Numpy/Pandas
▪Ibis - обеспечивает доступ между локальным окружение в Python и удаленными хранилищами данных (например, Hadoop)
▪Lightwood - AutoML фреймворк, который принимает на вход данные, целевую переменную и генерирует для вас целый конвейер машинного обучения.
▪Taipy — инструмент, который позволяет дата-сайентистам создавать интерактивный Web UI для ML-проектов.
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - MrPowers/fastparquet: python implementation of the parquet columnar file format.
python implementation of the parquet columnar file format. - MrPowers/fastparquet
❤17🔥7👍2🥰1
📖Полное руководство по CASE WHEN в SQL
В сфере SQL освоение условной логики имеет такое же значение, как овладение стратегическими ходами в шахматной игре.
Оператор
Определение и назначение CASE WHEN
Оператор
Он позволяет выполнять условные проверки в SQL-запросах, предлагая динамический способ манипулирования данными на основе определенных критериев.
Обзор синтаксиса
Базовый пример использования в SQL Server
Начнем с SQL Server.
📌Читать
@sqlhub
В сфере SQL освоение условной логики имеет такое же значение, как овладение стратегическими ходами в шахматной игре.
Оператор
CASE WHEN
, определяющий эту логику, — универсальный инструмент, способный изменить данные и процесс принятия решений в таких средах SQL, как SQL Server, Oracle и Snowflake. Предлагаемое руководство научит вас использовать CASE WHEN в различных сценариях и поможет усовершенствовать навыки работы с данными независимо от опыта и квалификации.Определение и назначение CASE WHEN
Оператор
CASE WHEN
в SQL — условное выражение, аналогичное логике if-else в языках программирования.Он позволяет выполнять условные проверки в SQL-запросах, предлагая динамический способ манипулирования данными на основе определенных критериев.
Обзор синтаксиса
CASE
WHEN condition1 THEN result1
WHEN condition2 THEN result2
...
ELSE resultN
END
Базовый пример использования в SQL Server
Начнем с SQL Server.
📌Читать
@sqlhub
❤13👍11🔥4
🏗️ Анонимайзер PostgreSQL
https://postgresql-anonymizer.readthedocs.io/en/stable/
@sqlhub
Postgresql_anonymizer
- это расширение для маскировки или замены персональной информации (или коммерчески важных данных в базах данных PostgreSQL.https://postgresql-anonymizer.readthedocs.io/en/stable/
@sqlhub
👍17🔥5❤2🥰1
🔝 Где искать работу аналитику данных в различные направления DS,SQL, Аналитики и ML
Подборка с каналами, где можно найти вакансии или подработку:
▪Data Jobs
▪Data engineering/SQL
▪Python Jobs
▪Папка с вакансиями по различным направлениям
▪Аналитика данных
▪Машинное обучение полная папка
🔎 Полный ресурсов для поиска работы аналитику данных.
@sqlhub
Подборка с каналами, где можно найти вакансии или подработку:
▪Data Jobs
▪Data engineering/SQL
▪Python Jobs
▪Папка с вакансиями по различным направлениям
▪Аналитика данных
▪Машинное обучение полная папка
🔎 Полный ресурсов для поиска работы аналитику данных.
@sqlhub
🔥39❤7👍5🥰2
Куда движется индустрия аналитики и когда заменят всех специалистов данных данных на AI?
А точно стоит изучать новую для себя профессию, связанную с традиционной Аналитикой?
Как не оказаться в списках layoff?
Как адаптироваться в новой для себя стране и хорошо зарабатывать? Как удвоить зарплату?
А точно нужно быть лояльным к вашему работодателю?
Куда инвестировать в 2024?
Реально ли достичь FIRE в наше время? (Досрочно уйти на пенсию)
На эти и многие другие вопросы, вы сможете найти ответы в канале Инжиниринг Данных, который ведет Дмитрий Аношин. Он больше 14 лет работает с аналитическими решения и строил решения для Amazon и Microsoft.
В 2022-2023 году Дмитрий пережил 5 волн увольнений и в одну даже попал, но благодаря своей стратегии диверсификации усилий финансово сильно не пострадал. В нашем время уже не работает вариант долго и упорно работать на одну компанию и надеятся на повышение и спокойную жизнь. Нужно быть готовым всегда учиться, улучшать свои навыки и искать работу, и не забывать про развитие собственного бренда и нетворкинг.
Про все это можно прочитать в канале @rockyourdata.
А точно стоит изучать новую для себя профессию, связанную с традиционной Аналитикой?
Как не оказаться в списках layoff?
Как адаптироваться в новой для себя стране и хорошо зарабатывать? Как удвоить зарплату?
А точно нужно быть лояльным к вашему работодателю?
Куда инвестировать в 2024?
Реально ли достичь FIRE в наше время? (Досрочно уйти на пенсию)
На эти и многие другие вопросы, вы сможете найти ответы в канале Инжиниринг Данных, который ведет Дмитрий Аношин. Он больше 14 лет работает с аналитическими решения и строил решения для Amazon и Microsoft.
В 2022-2023 году Дмитрий пережил 5 волн увольнений и в одну даже попал, но благодаря своей стратегии диверсификации усилий финансово сильно не пострадал. В нашем время уже не работает вариант долго и упорно работать на одну компанию и надеятся на повышение и спокойную жизнь. Нужно быть готовым всегда учиться, улучшать свои навыки и искать работу, и не забывать про развитие собственного бренда и нетворкинг.
Про все это можно прочитать в канале @rockyourdata.
🔥8❤4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
GQL — язык запросов с синтаксисом, который похож на SQL, с минималистичным движком для выполнения запросов к файлам .git вместо файлов базы данных.
Этот движок выполняет запрос «на лету» без необходимости создавать файлы базы данных или конвертировать файлы .git в любой другой формат.
▪Github
▪Документация
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥8❤6
This media is not supported in your browser
VIEW IN TELEGRAM
Блокноты Jupyter отлично подходят для изучения данных.
Но они не так хороши для визуализации данных.
Попробуйте библиотеку с открытым исходным кодом на
Python
, которая поможет вам создавать информативные дашборды ↓▪ Github
pip install panel
@sqlhubPlease open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6👍4
🔑 Знание регулярных выражений поднимает вас над общей серой массой, так что не бойтесь выделяться)
Regex и
🔵 типичное имя пользователя —
🔵
🔵
под это выражение подходит
не подходит
🔵
🔵
Вообще, есть очень удобный сайт regex101.com для составления regex, use it
@sqlhub
Regex и
~
в SQL помогут вам найти абсолютно всё, вот примеры некоторых особенно полезных регулярок:^[a-z0-9_-]{3,16}$
; начало строки (^
), потом любая буква (a-z
), число (0-9
), символ подчёркивания/дефис. Нам нужно от 3 до 16 этих символов ({3,16}
), потом конец строки ($
)^[a-z0-9_-]{6,18}$
— типичный пароль, должно быть от 6 до 18 символов^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$
— типичный email; под это выражение подходит
[email protected]
, не подходит
[email protected]
(TLD длинный)^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$
— типичный URL из латинских букв; https://net.tutsplus.com/about
подходит под это выражение https://google.com/some/file!.html
не подходит под это выражение ^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$
— тег htmlВообще, есть очень удобный сайт regex101.com для составления regex, use it
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥10❤3
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤3🔥2
CASE
Тут ниже представлена попытка заNULLить значение, если оно равно чему-то.
, CASE WHEN sdate = '1900-01-01' THEN NULL ELSE sdate END sdate
, CASE WHEN mdate = '1900-01-01' THEN NULL ELSE mdate END mdate
Но ведь в PostgreSQL есть функция
nullif
, которая делает ровно то же самое.NULLIF(значение1, значение2)
Функция
NULLIF
выдаёт значение NULL
, если значение1 равно значение2; в противном случае она возвращает значение1. Это может быть полезно для реализации обратной операции к COALESCE
. В частности, для примера, показанного выше:SELECT NULLIF(value, '(none)') ...
В данном примере если
value
равно (none)
, выдаётся null
, а иначе возвращается значение value
.То есть в примере выше можно переписать короче и понятнее:
, NULLIF(sdate, '1900-01-01') sdate
, NULLIF(mdate, '1900-01-01') mdate
#PostgreSQL
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥5❤4