Data Science. SQL hub
36K subscribers
902 photos
46 videos
37 files
959 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
😁686👍4😢2🔥1
🖥 Реальный вопрос c собеседования Microsoft SQL:

"Какой клиент Azure из базы покупателей, приобретает хотя бы 1 продукт Azure из каждой категории продуктов?"

Подсказки:
- Объединить таблицы с помощью LEFT JOIN
- Подсчитайть разные категории продуктов с помощью COUNT и DISTINCT.

Доп задание: напишие код с использованием Pandas для решения задачи.

Протестировать свой SQL-запрос и посмотреть таблицы можно здесь: https://datalemur.com/questions/supercloud-customer

Пишите свое решение в комментариях👇

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥1👏1
⚡️ 100 вопросов с собеседований Data Science

Habr: https://habr.com/ru/articles/783766/

Видео: https://www.youtube.com/watch?v=6Pk4OgdNxXQ

@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
🦆 Загрузка набора данных на сервер базы данных перед загрузкой его в pandas датафрейм обычно требуется для работы pandas.

duckdb устраняет этот шаг, позволяя выполнять эффективные SQL-операции непосредственно над pandas DataFrame.

@sqlhub
👍133🔥1
🔥 Дайджест полезных материалов из мира SQL за неделю

Почитать:
100 вопросов для подготовки к собесу Data Science
Немного про OR в SQL запросах
Вот так я изучаю ML
Версионная миграция структуры базы данных через PHP атрибуты
Миграции в YDB с помощью «goose»
Использование Postgres-триггеров для исторических таблиц
Введение в SQL & СУБД на примере доступа к данным через Python
PostgreSQL в «Тензоре» — публикации за год (#4)
Version up test for Aurora MySQL 2 EOL with SQL test tool
ORDER BY x LIMIT y Gotcha
Summary of results
Finding the best SQL query for the task.
How Modern SQL Databases Are Changing Web Development - #4 Into the AI Era
Mastering SQL Transactions: The Power of COMMIT and ROLLBACK in Database Management
Reading Postgres Execution Plans doesn't have to be so complicated
SQL vs NoSQL Databases: Which is Better?
Unlock Complex Time Series Analysis in SQL with Range Queries
The Syntax of Discreteness - Using SQL as an Example
Десять самых ярких ИИ-работ от NVIDIA Research за 2023 год

Посмотреть:
🌐 100 вопросов с собеседований Data Science — часть 1 ( 36:48)
🌐 💡Топ задача #Python: Бинарный поиск #python #программирование #код #yotube #питон #собеседование ( 00:41)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг ( 00:40)
🌐 💡 Задача: Ряд клавиатуры #Python #yotube #код #алгоритмы #программирование #собеседование #кодинг ( 01:00)

Хорошего дня!

@sqlhub
🔥7👍63
SQLNotesForProfessionals.pdf
1.5 MB
📚 Книга SQL Notes for Professionals

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥53
🖥 Complete-Advanced-SQL-Series

Этот репозиторий содержит все, что вам нужно, чтобы прокачать свои навыки работы с #SQL.

Более 100 упражнений и примеров по SQL.

Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥4👍3
🖥 SQL дорожная карта 2024 года

Читать

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍165🔥3👎1
😁58🔥28👍62👎1🤔1
🖥 DBChaos

Проведите стресс-тестирование своей базе данных с помощью заранее заданных запросов.

Библиотека поможет найти медленные и неэффективные запросы, которые мешают работе.

go install github.com/adaptive-scale/[email protected]

Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥3👎1
🖥 В PySpark параметризованные запросы позволяют повторно использовать одну и ту же структуру запроса с разными входными данными, не переписывая SQL.

Кроме того, они защищают от атак SQL-инъекций, поскольку рассматривают входные данные как параметры, а не как исполняемый код.

#ApacheSpark
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1310🔥9
🖥 Начинается новая волна атак Mimic ransomware на серверы SQL-баз данных в трех континентах

В серии кибератак, о которых сообщает BleepingComputer, несколько неправильно настроенных серверов баз данных Microsoft SQL стали жертвами организованной хакерской операции. Эта масштабная кампания успешно нацелилась на серверы в Соединенных Штатах, Латинской Америке и Европейском союзе, заражая их известным шифровальщиком Mimic ransomware, часто называемым N3ww4v3.

Злоумышленники в киберпреступных делах все более совершенствуются, и эта атака, получившая название RE#TURGENCE (Возрождение), подчеркивает постоянную необходимость надежных мер кибербезопасности как на индивидуальном, так и на корпоративном уровне. Взламывая неправильно настроенные серверы, хакеры получают доступ к конфиденциальным данным и шифруют их с помощью практически непроницаемого шифровальщика.

Негативные последствия этой атаки выходят за рамки региональных границ, что подчеркивает глобальный характер киберпреступности. Поскольку бизнесы и отдельные лица все больше полагаются на системы баз данных для хранения и обработки больших объемов информации, становится критически важным укрепление этих систем от потенциальных угроз.

Ушли те времена, когда достаточно было простых межсетевых экранов и антивирусного программного обеспечения для защиты от кибератак. Современные угрозы требуют многопланового подхода, включающего применение передовых мер безопасности, таких как системы обнаружения вторжений, сегментация данных, контроль доступа и регулярные обновления программного обеспечения. Внедрение этих комплексных протоколов безопасности может значительно снизить риск стать жертвой злонамеренных действующих лиц, стремящихся использовать уязвимости.

Последствия попадания в зону риска кибератак с шифрованием данных могут быть серьезными и включать продолжительное простояние, финансовые потери и ущерб репутации. Чтобы снизить эти риски, бизнесам следует приоритезировать инвестиции в кибербезопасность, формировать культуру осведомленности и готовности. Оставаясь бдительными, старательно следуя за состоянием системы и незамедлительно устраняя возможные уязвимости безопасности, организации могут сохранить ценную информацию и поддерживать операционную устойчивость.

Борьба против киберпреступности
– это непрекращающийся бой, требующий постоянной адаптации к новым угрозам. Как показывают атаки Mimic ransomware, поддержание актуальных практик безопасности и регулярная оценка уязвимостей систем ключевы для оставания впереди киберпреступников. В этом цифровом веке, где важная информация находится у нас под рукой, защита наших баз данных от усовершенствованных атак является главным условием сохранения нашей безопасности и продолжения прогресса.

🔎 Новость

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥1😱1
🖥 Pandas vs Polars vs SQL

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥117
⚡️ Для чего использовать Redis?

Redis - это отличный инструмент, он надежен и прост в использовании (при правильном использовании).

Вот 5 примеров использования Redis:

1. Кэширование

Самый распространенный вариант использования Redis для кэшированя. Это помогает защитить базу данных от перегрузки. Redis обеспечивает быстрый поиск кэшированных данных и может помочь повысить производительность приложения.

2. Хранение сессий

Redis подходит для обмена данными пользовательских сессий между серверами без статических данных. Redis предоставляет централизованное место для хранения данных сеансов и позволяет легко масштабировать серверы.

3. Распределенная блокировка

Импользование- распределенной блокировки Redis для предоставления взаимоисключающего доступа к общим ресурсам. Это предотвращает возникновение ситуаций гонки в распределенных системах. Блокировки Redis просты в реализации и автоматически истекают.

4. Счетчик и ограничитель скорости

Redis подходит для отслеживания количества лайков, просмотров и т. д. в приложениях для социальных сетей. Счетчики Redis обеспечивают атомарное увеличение/уменьшение. Redis также используется для ограничения скорости на эндпоинтах API.

5. Таблицы лидеров (Лидерборды)

Отсортированные данные позволяют легко реализовать в Redis таблицы Лидерборды. Мы можем добавлять, обновлять или удалять пользователей из таблицы лидеров и эффективно запрашивать данные для них.

📌 Примеры с кодом

@sqlhub
👍183🔥2
🖥 NaturalQuery-6.7B-v0.1

NaturalQuery - это LLM, который может переводить запросы на естественном языке в SQL на основе вашей схемы.

NaturalQuery-v0.1 отлажен на 8k парах "текст запрос PostgreSQL <>".


Убедитесь, что у вас установлена правильная версия библиотеки transformers:

pip install transformers==4.35.2

Загрузка модели
Используйте следующий код Python для загрузки модели:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("cfahlgren1/NaturalSQL-6.7B-v0")
model = AutoModelForCausalLM.from_pretrained(
"cfahlgren1/NaturalSQL-6.7B-v0",
device_map="auto",

torch_dtype=torch.float16,
)


Генерация текста
Чтобы сгенерировать текст, используйте следующий код на Python.

messages=[
{ 'role': 'user', 'content': prompt}
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)

# 32023 is the id of <|EOT|> token
outputs = model.generate(inputs, max_new_tokens=512, do_sample=False, top_k=50, top_p=0.95, num_return_sequences=1, eos_token_id=32023)

print(tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True))

Подробнее

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥1
🖥 Проект инженерии данных с DAG Airflow «от и до». Часть 1

Сделаем конвейер данных, целиком оркестрируемый в Airflow. Сначала создадим тему Kafka, затем отправим сообщения, в которых в качестве записей содержатся электронная почта и одноразовый пароль OTP. Таким образом проиллюстрируем потоковую передачу данных в тему Kafka.

Далее получим эти данные из темы Kafka, вставим их в таблицу Cassandra и в коллекцию MongoDB и проверим наличие в них корректных данных.

Если таковые имеются, отправим письмо на электронную почту и сообщение в Slack с адресом почты и одноразовым паролем OTP.

Это реальный проект валидации электронной почты. Отправку в тему Kafka потоковых записей, включая данные электронной почты и одноразового пароля OTP, проиллюстрируем с отправителем Kafka. Наличие почты и пароля определим с помощью получателя Kafka и проверки данных.

Читать

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥5👍3
🖥 Сравнение векторных БД

Это очень удобный сайт с полезной информацией для сравнения векторных баз данных.

Вся информация собрана в одном месте, доступна для поиска, и вы можете добавить фильтры по интересующим вас параметрам.

Очень полная и очень полезная информация!

https://vdbs.superlinked.com/

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍3🔥1
🖥 Join-операции в MySQL — инструмент оптимизации поиска данных

Извлечение данных из нескольких таблиц — важнейший навык в области управления базами данных.

Одним из мощных инструментов, находящимся в нашем распоряжении, является join (джоин, т. е. соединение). В этой статье рассмотрим концепции, лежащие в основе join-операций, и изучим стратегии эффективного извлечения данных.

Сосредоточимся на MySQL — одной из самых популярных систем управления реляционными базами данных.

Читать

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍7👎5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Преобразование документов #XML в строки и столбцы в Oracle #SQL с помощью

XMLTABLE ( '/path/to/elements' PASSING <xml> COLUMNS ... )

Команда генерирует строку для каждого элемента, на который ссылается путь.

COLUMNS определяет путь к элементам и атрибутам, находящимся в этом пункте.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🔥3
🔥Подборка лучших обучающих каналов для программистов.

➡️Делитесь с коллегами и Сохраняйте себе, чтобы не потерять

Машинное обучение

Machine Learning - полезные статьи новости гайды и разбор кода
Ml Собеседование - подготовка к собеседовению мл, алгоритмам, кодингу
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат

🛢Базы данных
Sql базы данных
Библиотека баз данных
SQL чат

🏆 Golang

Golang собеседование
Golang вакансии
Golang книги
Golang задачи и тесты
Golang чат
Golang news - новости go
Golang

#️⃣C#

С# академия
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа

🚀 Data Science

Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data
🐍 Python

Python/django
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги

Java

Java академия
Java вакансии
Java чат
Java вопросы с собеседований
Java книги

💻 C++

C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии

💥 Хакинг Kali Linux

Kali linux
linux_kal - kali чат
Информационная безопасность

🐧 Linux

Linux academy

🦀 Rust
Rust программирование
Rust чат

📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки

🖥 Javascript/React/PHP
Javascript академия
React программирование
PHP
Книги frontend
Задачи frontend

🇬🇧 Английский для программистов

🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence

🔥 DevOPs
Devops для программистов
Книги Devops

🌟 Docker/Kubernets
Docker
Kubernets

😂 IT мемы

📓 Книги
Библиотеки Книг для программситов

💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
8👍4🔥2🎉1