Data Science. SQL hub
35.8K subscribers
915 photos
49 videos
37 files
974 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🚀 SQL для Data Science Полный учебный план.

План рассчитан на 28 дней, в течение которых необходимо уделять не менее 1,5 часов в день.

Неделя 1: Основы SQL

День 1-3: Знакомство с синтаксисом SQL, операторами SELECT, фильтрацией и сортировкой.
Ресурсы: Курс Khan Academy "Intro to SQL" на YouTube.
📌Python и базы данных

День 4-5: Работа с несколькими таблицами с помощью операций JOIN.
Ресурс: Курс DataCamp "Объединение данных в SQL".

День 6-7: Агрегирование данных с помощью GROUP BY, HAVING и понимание подзапросов.
Ресурс: Специализация Coursera "SQL for Data Science".

Неделя 2: Углубляемся в SQL

День 8-10: Изучение запросов(INSERT, UPDATE, DELETE) и работа со значениями NULL.
Ресурсы: Плейлист YouTube Калеба Карри на тему "Самоучители SQL".

День 11-12: Погружение в нормализацию данных и принципы проектирования баз данных.
Ресурсы: Плейлист YouTube - Базовая концепция нормализации баз данных

День 13-14: Знакомство с оконными функциями для расширенного манипулирования данными.
Ресурс: Самоучитель SQL - оконные функции от BeardedDev

Неделя 3: Расширенные методы работы с SQL

День 15-17: Освоение подзапросов и коррелированных подзапросов.
Ресурс: курс techTFQ "Подзапросы в SQL".

День 18-20: Изучение индексов, оптимизации производительности и настройки запросов.
Ресурс: Настройка производительности SQL и оптимизация запросов

День 21-22: Понимание хранимых процедур, определяемых пользователем функций и триггеров.

Неделя 4: Применение SQL в реальных условиях и практика

День 23-24: Реализация задач анализа данных, таких как очистка, преобразование и визуализация данных с помощью SQL.

День 25-28: Итоговый проект: Решение сложной задачи с использованием SQL и презентация результатов.
Ресурсы: Наборы данных Kaggle с задачами, связанными с SQL.

@sqlhub
👍35🔥94
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 𝗦𝗤𝗟 𝗧𝘂𝘁𝗼𝗿𝗶𝗮𝗹 𝗳𝗼𝗿 𝗗𝗮𝘁𝗮 𝗔𝗻𝗮𝗹𝘆𝘁𝗶𝗰𝘀 / 𝗗𝗮𝘁𝗮 𝗦𝗰𝗶𝗲𝗻𝗰𝗲:

31 интерактивный урок по SQL БЕСПЛАТНО.
20+ практических упражнений, которые вы решаете прямо в браузере - установка не требуется.

🔗 https://datalemur.com/sql-tutorial

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥62
🖥 3 большие мифа о базах данных:

1. Базы данных NoSQL не поддерживают SQL-запросы

Многие NoSQL-базы поддерживают, например CosmosDB и Couchbase.

2. Реляционные базы данных не поддерживают возможности NoSQL.

Вы можете создавать таблицы, содержащие только два столбца, и использовать их в качестве строк ключ-значение.

3. Формат данных JSON поддерживается только базами данных NoSQL.

Такие базы данных, как SQL Server и PostgreSQL, имеют встроенную поддержку данных в формате JSON.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163🔥2
🖥 Если бы Эминем писал SQL запрос .

Лайк, если Закачал голов в такт запросу😂

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48😁145🔥3👏1🤔1
SQL — широко используемый язык запросов для взаимодействия с реляционными базами данных.

Это ключевой навык для специалистов по данным и всех, кому необходимо эффективно управлять данными.

В этом углубленном курсе вы настроите свою БД, узнаете об агрегации и группировке и многом другом.

Курс

@sqlhub
👍6👎51🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Список лучших Data Science шпаргалок

🔸SQL - https://s3.amazonaws.com/assets.datacamp.com/email/other/SQL+for+Data+Science.pdf

🔸Статистика - https://res.cloudinary.com/dyd911kmh/image/upload/v1662111933/Marketing/Blog/Descriptive_Statistics_Cheat_Sheet.pdf

🔸Теория вероятностей - https://res.cloudinary.com/dyd911kmh/image/upload/v1674822557/Marketing/Blog/Probability_Cheat_Sheet.pdf

🔸Data storytelling - https://res.cloudinary.com/dyd911kmh/image/upload/v1662633286/Marketing/Blog/Data_Storytelling_Cheat_Sheet.pdf

🔸Data Visualization - https://s3.amazonaws.com/assets.datacamp.com/email/other/Data+Visualizations+-+DataCamp.pdf

🔸Machine Learning - https://s3.amazonaws.com/assets.datacamp.com/email/other/ML+Cheat+Sheet_2.pdf

🔸Deep Learning - https://github.com/afshinea/stanford-cs-229-machine-learning/blob/master/en/cheatsheet-deep-learning.pdf

🔸Big Data - https://github.com/Ritik2703/Data-Science-Cheat-Notes-/blob/master/Big%20Data/Hadoop-and-mapreduce-cheat-sheet.pdf

🔸NLP - https://cheatography.com/sree017/cheat-sheets/nlp/

🔸Python - https://res.cloudinary.com/dyd911kmh/image/upload/v1673614153/Marketing/Blog/Python_Cheat_Sheet_for_Beginners.pdf

🔸R Programming - https://res.cloudinary.com/dyd911kmh/image/upload/v1654763044/Marketing/Blog/R_Cheat_Sheet.pdf

🔸Plotly Express - https://res.cloudinary.com/dyd911kmh/image/upload/v1668605954/Marketing/Blog/Plotly_Cheat_Sheet.pdf

🔸Git - https://res.cloudinary.com/dyd911kmh/image/upload/v1656573882/Marketing/Blog/git_cheat_sheet.pdf

🔸Excel - https://res.cloudinary.com/dyd911kmh/image/upload/v1674225421/Marketing/Blog/Excel_Cheat_Sheet.pdf

🔸Tableau - https://s3.amazonaws.com/assets.datacamp.com/email/other/Tableau+Cheat+Sheet.pdf

🔸Power BI - https://s3.amazonaws.com/assets.datacamp.com/email/other/Power+BI_Cheat+Sheet.pdf

@sqlhub
👍157🔥2
Наиболее распространенные операторы Pandas и Sql

@sqlhub
👍23🔥52🤔2
🔥 Дайджест полезных материалов из мира SQL за неделю

Почитать:
Как расширить компетенции аналитиков при работе с Big Data
Иерархическая база данных
PostgreSQL Antipatterns: ходим по JSON-граблям
SQLx: raw SQL в Rust
@DynamicUpdate with column-level locking in YugabyteDB and how to avoid write skew anomalies
MASTERING MYSQL
Foreign Key validation in YugabyteDB when created in NOT VALID
Snowflake SQL Unique Functions
Recommendation Engines with Graph Databases using Apache AGE
My Takeaways from "How Query Engines Work"
Postgres: DB parameters configuration on the level of User / Database
How to prevent database problems from hitting production?
Postgres Order By: the resultset is sorted differently
1075. Project Employees I

Посмотреть:
🌐 Python и базы данных
🌐 Задача с реального Python собеседования middle разработчика. Рекурсивная сумма. ( 13:00)
🌐 Определение диабета при помощи машинного обучения в 60 строк кода! ( 12:54)
🌐 Что такое vector в c++ ( 00:51)
🌐 STL C++ стандартная библиотека ( 00:57)
🌐 deque разбор в С++ ( 00:58)
🌐 Нейросеть для превращения #YouTube видео в презентацию ( 00:28)
🌐 SQL for beginners in 60 minutes | Learn SQL | SQL Tutorial for Beginners | Edureka

Хорошего дня!

@sqlhub
👍12🔥32
Forwarded from Machinelearning
This media is not supported in the widget
VIEW IN TELEGRAM
👍10🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
SuperDuperDB для использования в AI-проектах

Предлагает специализированные функции, включающие:
✔️ деплой ИИ-API;
✔️ утилиту для тренировки моделей;
✔️ Feature Store - это «магазин» фичей, интерфейс между данными и моделями ML;
✔️ полноценную векторную базу данных.

Он может быть интегрирован с различными базами данных, такими как mongoDB и PostgreSQL, а также с платформами Amazon S3 и фреймворками машинного обучения, такими как PyTorch, Transformers и scikit-learn.

🐱 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 TRUNCATE мгновенно удаляет все строки в таблице

Одновременно удалите строки из дочерних таблиц с помощью функции

TRUNCATE TABLE ... CASCADE

Для этого внешние ключи должны быть ON DELETE CASCADE

#SQLAlchemy

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥21
⚡️ Впечатляющая монолитная архитектура Stack Overflow

Компания Stack Overflow, поддерживает тенденцию развития микросервисов их сервис обрабатывает 1,3 млрд. просмотров страниц в месяц на своих 200 сайтах, используя удивительно эффективную монолитную архитектуру с минимальной инфраструктурой.

Веб-серверы:

- Используется всего 9 локальных веб-серверов IIS.
- Каждый сервер имеет 64 ГБ оперативной памяти и работает на высокооптимизированном коде .NET
- Обработка 450 пиковых запросов в секунду на каждом сервере при использовании всего 12% процессорной мощности
- Код минимизирует потребление памяти и настроен на ограничения сбора мусора

Серверы SQL:

- Организованы в 2 отказоустойчивых кластера по 2 сервера в каждом
- Первый кластер: 1,5 ТБ оперативной памяти на сервер
- Второй кластер: 768 ГБ оперативной памяти на сервер
- Около трети массива данных Q&A находится в памяти.
- Каждый кластер обрабатывает более 10 000 пиковых запросов в секунду при ~15% CPU

Redis:

- Один основной сервер с репликой на 256 ГБ.
- Обработка 60000 пиковых операций в секунду при 2% CPU

Stack Overflow эффективно масштабирует монолитное приложение.

📌 Архитектура наглядно
📌 Подкаст об архитектуре Stack Overflow

@sqlhub
🔥12👍61
🐘 Индексирование - важный процесс в PostgreSQL.

Он включает в себя создание структур данных, оптимизированных для эффективного поиска и извлечения данных из таблиц.

В этом руководстве показывается на примерах некоторые продвинутые стратегии индексирования в Postgres.

🖥 Читать

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍6🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Выполнение побитовых операций над числами из Oracle Database 21c с помощью:

BIT_AND_AGG
BIT_XOR_AGG
BIT_OR_AGG



Преобразование десятичных чисел в двоичные (5 = 101, 6 = 110 и т. д.).
Сравнение значений в каждой битовой позиции
Преобразование результатов обратно в десятичный вид

@sqlhub
👍101🔥1😁1
🔥 Дайджест полезных материалов из мира SQL за неделю

Почитать:
Как жесткую программную систему превратить в гибкую или Двадцать лет спустя
Многомерный анализ данных: исследование многомерных кубов и SQL OLAP-запросов
SQL-инъекция: разбор уязвимости на примере
Иерархическая база данных (продолжение)
Как расширить компетенции аналитиков при работе с Big Data
Иерархическая база данных
XGBoost – один из наиболее эффективных алгоритмов прогнозирования временных рядов.
PostgreSQL Antipatterns: ходим по JSON-граблям
SQLx: raw SQL в Rust
Explorando el Mundo de los Archivos de Recurso en C# con Visual Studio
Easily Generate Mock Data with PostgreSQL
Why 0 is better than NULL sometimes
Monolithic vs. Distributed SQL
🚛 Deploy Database Schema Migrations with Bytebase
Comparing Types of Databases: A Real-World Benchmark Analysis
[SQL Performance Killers] Individual inserts vs. Bulk inserts
SQL Server - Types of System Databases and Tables
Postgres. How to check the top queries that use temporary files?
PostgreSQL. How to list the most IOPs-intensive queries?

Посмотреть:
🌐 STL C++ стандартная библиотека ( 00:57)
🌐 deque разбор в С++ ( 00:58)
🌐 Последовательные контейнеры c++ List ( 00:47)
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. ( 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию ( 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python ( 00:20)
🌐 The Only Database Abstraction You Need | Prime Reacts

Хорошего дня!

@sqlhub
7👍1🔥1
Чтобы без особых усилий создавать поддельные данные для тестирования в #Python, используйте Faker.

@sqlhub
👍173🔥3
🖥 Почему PostgreSQL признан самым лбимой бд по результатам опроса разработчиков Stackoverflow?

На диаграмме показано множество вариантов использования PostgreSQL - одной базы данных, которая включает в себя почти все функции необходимых разработчикам.

🔹OLTP (Online Transaction Processing)
Мы можем использовать PostgreSQL для CRUD-операций (Create-Read-Update-Delete).

🔹OLAP (Online Analytical Processing)
Мы можем использовать PostgreSQL для аналитической обработки. PostgreSQL основан на архитектуре 𝐇𝐓𝐀𝐏 (Hybrid transactional/analytical processing), поэтому он может хорошо работать как с OLTP, так и с OLAP.

🔹FDW (Foreign Data Wrapper)
FDW - это расширение, доступное в PostgreSQL, которое позволяет нам обращаться к таблице или схеме одной базы данных из другой.

🔹Streaming
PipelineDB - это расширение PostgreSQL для высокопроизводительной агрегации временных рядов, предназначенное для работы с отчетами и аналитическими приложениями в реальном времени.

🔹Geospatial
PostGIS - это расширитель базы данных для объектно-реляционной базы данных PostgreSQL. Он добавляет поддержку географических объектов, позволяя выполнять запросы на определение местоположения в SQL.

🔹Временные ряды
Timescale расширяет PostgreSQL для работы с временными рядами и аналитикой. Например, разработчики могут объединять непрерывные потоки финансовых и тиковых данных с другими бизнес-данными для создания новых приложений и получения уникальных знаний.

🔹Распределенные таблицы
CitusData масштабирует Postgres за счет распределения данных и запросов.

Какая база данных вам нравится больше всего?

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥6👍2