Data Science. SQL hub
35.9K subscribers
914 photos
49 videos
37 files
973 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Классный сайт для тренировки навыков SQL.

На сайте размещены задачи, которые решаются через базу данных больницы.

Уровни сложности разные — от простых запросов с SELECT до по-настоящему сложных.
Берём на вооружение для практики!

https://www.sql-practice.com/

@sqlhub
👍347🔥4
🔥 ERD Lab — это бесплатный онлайн-инструмент, предназначенный для профессионального проектирования и визуализации баз данных с использованием диаграмм "сущность-связь" (ERD)! Он позволяет импортировать существующие SQL-скрипты или создавать новые базы данных без необходимости писать код, что упрощает процесс разработки и документирования структур данных.

🔗 Ссылка: *клик*

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
🖥 Шпаргалка по последовательности выполнения SQL запроса!

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍574🔥3
Как построить конвейер ETL (Extract, Transform and Load) из SQL Server в Postgres?

💡 Узнайте, как создать конвейер ETL с PySpark для извлечения данных из SQL Server, их преобразования и загрузки в базу данных Postgres. Используйте распределенную мощь Spark для бесперебойной обработки больших наборов данных!

🕞 Продолжительность: 8:32

🔗 Ссылка: *клик*

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
4
🐼 Pandas умирает медленной и мучительной смертью.

Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.

Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.

Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.

Я уже давно работаю с FireDucks 🦆

Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.

Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :


import fireducks.pandas as pd


Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py


FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks побеждает с отрывом.

⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:

https://fireducks-dev.github.io/docs/benchmarks/

@sqlhub

#fireducks #Pandas #dataanalysis #datascience #python #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👎21🤔13👍8👏1😁1
🖥SuperMassive — это распределенная, масштабируемая, устойчивая к сбоям и самовосстанавливающаяся база данных ключ-значение, работающая в оперативной памяти! Она предназначена для обработки больших объемов критически важных данных с низкой задержкой.

🔐 Лицензия: BSD-3-Clause

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥3
🔥 MetaGPT — это фреймворк, который преобразует простое текстовое описание задачи в полный пакет проектной документации и кода!

🌟 Он моделирует работу IT-компании, назначая различные роли, такие как менеджер продукта, менеджер проекта, инженер и другие, каждому из которых соответствует агент на основе большой языковой модели. Эти агенты взаимодействуют друг с другом, следуя стандартизированным операционным процедурам (SOP), что позволяет эффективно разрабатывать сложные программные продукты.

🔐 Лицензия: MIT

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82
🖥SQL Noir — это интерактивная игра с открытым исходным кодом, в которой вы выступаете в роли детектива, решающего преступления с помощью SQL-запросов!

🌟 Каждое дело представляет уникальный сценарий преступления и базу данных с уликами, где ваша задача — выявлять подозрительные закономерности, отслеживать отсутствующие записи, связывать подозреваемых и раскрывать мошеннические операции, используя SQL.

🔗 Ссылка: *клик*

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥253👍1
🔥 Smallpond — это легковесный фреймворк для обработки данных, разработанный на основе DuckDB и 3FS!

🌟 Он обеспечивает высокопроизводительную обработку данных и масштабируемость для работы с наборами данных петабайтного масштаба. Фреймворк упрощает операции, не требуя длительно работающих сервисов.

🔐 Лицензия: MIT

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
🖥 FalkorDB — это масштабируемая графовая база данных с низкой задержкой, предназначенная для команд разработчиков, управляющих структурированными и неструктурированными взаимосвязанными данными в реальном времени или интерактивных средах!

🌟 Она использует разреженные матрицы для представления матриц смежности и линейную алгебру для выполнения запросов, что обеспечивает высокую производительность и эффективность.

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
🔥 Meta Learning: Deep Learning Guide — практическое руководство по освоению машинного и глубокого обучения!

🌟 Автор делится своим опытом, начиная с изучения программирования в 29 лет и достигая успехов в соревнованиях Kaggle. Основные темы включают эффективные стратегии обучения, улучшение навыков разработки, выбор инструментов, работу с сообществом, поиск наставников и построение карьеры без формального образования.

🔗 Ссылка: *клик*

#machinelearning #deeplearning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32
Defog Introspect

Defog Introspect позиционируется как сервис для глубокого исследования ваших данных. Он позволяет:

- Анализировать структурированные данные: Поддерживаются популярные СУБД (PostgreSQL, MySQL, SQLite, BigQuery, Redshift, Snowflake, Databricks) и файлы форматов CSV/Excel.
- Работать с неструктурированными данными: Интеграция PDF-документов, что позволяет получать дополнительные сведения из документации или отчетов.
- Выполнять поиск в интернете: Инструмент способен обращаться к веб-источникам для получения дополнительного контекста, что расширяет возможности анализа данных.
Источник:

Как это работает?
Инструмент использует "умного" AI-агента, который может:

- Преобразовывать текстовые запросы в SQL-запросы (инструмент text_to_sql), что упрощает работу с базами данных.
- Использовать веб-поиск (инструмент web_search) для поиска дополнительной информации и контекста.
- Анализировать PDF-файлы (инструмент pdf_with_citations) с возможностью цитирования источников.
Для реализации этих функций используются передовые модели, такие как:

o3-mini для преобразования текста в SQL.
gemini-2.0-flash для веб-поиска.
claude-3-7-sonnet для работы с PDF и общей оркестрации запросов.
Источник:

https://github.com/defog-ai/introspect

@sqlhub
👍8👎21🔥1
800+ SQL Server Interview Questions and Answers .pdf
1 MB
🖥 Полезнейший сборник из 800+ вопросов по SQL, которые часто задают на собеседованиях.

Он также включает задачи для самостоятельной работы и множество примеров.

Сборник отлично подходит для тех, кто хочет прокачать свои навыки работы с SQL, освежить знания и проверить свои знания.

GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19👎42🔥1
SQL реально спасает жизни 😂

@sqlhub
😁8311🔥6👍2👎1
🖥 Эта статья посвящена инструменту pg-index-health, созданному для статического анализа индексов PostgreSQL баз данных!

🌟 Автор описывает эволюцию инструмента, который помогает находить проблемы в структуре базы данных, такие как дублирующиеся или избыточные индексы, неиспользуемые индексы, а также потенциальные ошибки проектирования.

🔗 Ссылка: *клик*

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
🖥 Простыми словами: Как хранятся пароли в базах данных

В современном мире защиты данных крайне важно, чтобы пароли не хранились в виде обычного текста. Вместо этого используются их «закодированные отпечатки» – хеши, полученные в результате специального процесса хеширования. Это гарантирует, что даже при компрометации базы данных злоумышленник не сможет восстановить исходный пароль.

📌 Как это работает:
  • При регистрации пароль проходит хеширование с применением современных алгоритмов (например, bcrypt, scrypt или Argon2), часто с добавлением уникальной соли для каждого пользователя.
  • При авторизации введённый пароль снова хешируется, и полученный хеш сравнивается с тем, что хранится в базе. Совпадение означает, что введённый пароль верный.

📌 Почему так делают:
  • Безопасность: Даже если база будет взломана, злоумышленник увидит лишь набор случайных символов, из которых восстановить оригинальный пароль практически невозможно.
  • Секретность: Администраторы системы не имеют доступа к исходным паролям – хеши необратимы.
  • Надёжность: Использование соли и, при необходимости, перца, значительно усложняет атаки с помощью радужных таблиц и повышает общую стойкость системы.

В итоге, пароли в базах данных – это не сами пароли, а их «отпечатки», которые можно сравнивать, но никак не восстановить. Этот подход напоминает замок, который открывается лишь при наличии правильного ключа, при этом сам ключ нигде не хранится.

#базыданных #безопасность #хеширование #пароли

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥3🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 ingestr — инструмент командной строки, предназначенный для копирования данных между различными базами данных с помощью одной команды!

🌟 Он поддерживает множество источников и пунктов назначения, включая Postgres, BigQuery, Snowflake, Redshift, Databricks, DuckDB, Microsoft SQL Server и другие. ingestr позволяет выполнять как полное обновление данных, так и инкрементальную загрузку с использованием стратегий append, merge или delete+insert. Установка инструмента осуществляется через пакетный менеджер pip, а использование не требует написания кода — достаточно указать необходимые параметры в командной строке.

🔐 Лицензия: MIT

🖥 Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🥰1
🖥 Pumpfun-Smart-Contract-SOL — это реализация смарт-контракта для блокчейна Solana, размещённая на GitHub.

Он может быть полезен разработчикам по следующим направлениям:

Обучение и практика: Проект демонстрирует, как писать, тестировать и разворачивать смарт-контракты в экосистеме Solana.
Пример архитектуры: Разработчики могут изучить структуру кода, способы взаимодействия с блокчейном и методы обеспечения безопасности смарт-контрактов.
Инструменты и библиотеки: В репозитории могут быть использованы современные инструменты разработки, что помогает быстрее освоить лучшие практики создания децентрализованных приложений.
Расширяемость: Исходный код можно адаптировать под конкретные задачи, что делает его отличным шаблоном для создания собственных проектов на Solana.

📌 GitHub

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
⚡️ R1-Omni — это исследовательский проект, направленный на создание объяснимой омни-мультимодальной системы распознавания эмоций с использованием обучения с подкреплением с верифицируемой наградой (RLVR).

Основные особенности:

Объяснимость и мультимодальность: Проект объединяет визуальные, аудио и текстовые данные для распознавания эмоций, что позволяет глубже анализировать эмоциональные состояния.
RLVR: Применение обучения с подкреплением с верифицируемой наградой значительно улучшает способность модели к рассуждению и пониманию влияния разных модальностей.
Улучшенная обобщаемость: Модель демонстрирует высокие результаты не только на обучающих данных, но и в условиях, когда данные отличаются от тех, на которых модель обучалась (out-of-distribution).
Инновационный подход: Это первая в отрасли система, использующая RLVR для омни-мультимодального анализа, что открывает новые возможности в области эмоционального распознавания.

Польза для разработчиков:

Исследования и разработки: Проект предоставляет открытый код, подробные инструкции и примеры, что делает его ценным ресурсом для экспериментов и дальнейших исследований в области мультимодальных ИИ-систем.
Практическое применение: Возможность интеграции системы в приложения для мониторинга эмоций, интеллектуальных ассистентов и других сервисов, где важна эмоциональная оценка.
Обучение и вдохновение: R1-Omni демонстрирует современные методы работы с данными из разных источников, что может стать основой для создания новых решений в области обработки естественного языка, компьютерного зрения и аудиоанализа.

Таким образом, R1-Omni интересен разработчикам и исследователям, стремящимся создавать интеллектуальные системы с глубоким пониманием эмоций и мультиканальными данными.

📌 GitHub

@sqlhub
👍42
Как изменился рынок аналитики за 2024 год?

Агентство NEWHR опубликовало новое исследование, опросив 1293 аналитиков разных уровней — от Junior-специалистов до руководителей. Главные тейки:

🟠Авито стал лучшим работодателем для аналитиков — его выбрали более 35% опрошенных.
🟠Хотя бы один раз за последние 2 года место работы меняли 60% респондентов.
🟠На текущем месте работы аналитиков чаще всего удерживают интересные задачи (52,6), хорошая зарплата (51,5%) и перспективы профессионального роста (49,4%).
🟠51,5% респондентов работают на удаленке.
🟠Более 70% в 2024 году стали получать больше.

@sqlhub
This media is not supported in your browser
VIEW IN TELEGRAM
Быстрый путь к увольнению — просто покажите env-файл компании в прямом эфире 😁

@sqlhub
😁553👍3🔥2