Data Science. SQL hub
36K subscribers
902 photos
46 videos
37 files
959 links
По всем вопросам- @workakkk

@itchannels_telegram - 🔥лучшие ит-каналы

@ai_machinelearning_big_data - Machine learning

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

РКН: https://vk.cc/cIi9vo
Download Telegram
🔝 Где искать работу аналитику данных в различные направления DS,SQL, Аналитики и ML

Подборка с каналами, где можно найти вакансии или подработку:
Data Jobs
Data engineering/SQL
Python Jobs
Папка с вакансиями по различным направлениям
Аналитика данных
Машинное обучение полная папка

🔎 Полный ресурсов для поиска работы аналитику данных.

@sqlhub
🔥397👍5🥰2
🖥 Toolong

Полезный инструмен, который упрощает работу с логами.

Предоставляет возможность эффективного взаимодействия с большими объёмами данных логирования прямо из терминала.

pip install toolong

Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3👍2
Куда движется индустрия аналитики и когда заменят всех специалистов данных данных на AI?
А точно стоит изучать новую для себя профессию, связанную с традиционной Аналитикой?
Как не оказаться в списках layoff?
Как адаптироваться в новой для себя стране и хорошо зарабатывать? Как удвоить зарплату?
А точно нужно быть лояльным к вашему работодателю?
Куда инвестировать в 2024?
Реально ли достичь FIRE в наше время? (Досрочно уйти на пенсию)

На эти и многие другие вопросы, вы сможете найти ответы в канале Инжиниринг Данных, который ведет Дмитрий Аношин. Он больше 14 лет работает с аналитическими решения и строил решения для Amazon и Microsoft.

В 2022-2023 году Дмитрий пережил 5 волн увольнений и в одну даже попал, но благодаря своей стратегии диверсификации усилий финансово сильно не пострадал. В нашем время уже не работает вариант долго и упорно работать на одну компанию и надеятся на повышение и спокойную жизнь. Нужно быть готовым всегда учиться, улучшать свои навыки и искать работу, и не забывать про развитие собственного бренда и нетворкинг.

Про все это можно прочитать в канале @rockyourdata.
🔥84👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 GQL - Git Query Language

GQL — язык запросов с синтаксисом, который похож на SQL, с минималистичным движком для выполнения запросов к файлам .git вместо файлов базы данных.

Этот движок выполняет запрос «на лету» без необходимости создавать файлы базы данных или конвертировать файлы .git в любой другой формат.

Github
Документация

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥86
🎓 MITx: Машинное обучение на Python: от линейных моделей до глубокого обучения (бесплатный курс от MIT)

Курс

@sqlhub
10👍5🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Panel: The powerful data exploration & web app framework for Python

Блокноты Jupyter отлично подходят для изучения данных.
Но они не так хороши для визуализации данных.

Попробуйте библиотеку с открытым исходным кодом на Python, которая поможет вам создавать информативные дашборды

Github

pip install panel

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6👍4
🔑 Знание регулярных выражений поднимает вас над общей серой массой, так что не бойтесь выделяться)

Regex и ~ в SQL помогут вам найти абсолютно всё, вот примеры некоторых особенно полезных регулярок:

🔵типичное имя пользователя — ^[a-z0-9_-]{3,16}$; начало строки (^), потом любая буква (a-z), число (0-9), символ подчёркивания/дефис. Нам нужно от 3 до 16 этих символов ({3,16}), потом конец строки ($)

🔵^[a-z0-9_-]{6,18}$ — типичный пароль, должно быть от 6 до 18 символов

🔵^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$ — типичный email;
под это выражение подходит [email protected],
не подходит [email protected] (TLD длинный)

🔵^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$ — типичный URL из латинских букв;
https://net.tutsplus.com/about подходит под это выражение
https://google.com/some/file!.html не подходит под это выражение

🔵^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$ — тег html

Вообще, есть очень удобный сайт regex101.com для составления regex, use it

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥103
🖥 Генераторы данных с открытым исходным кодом!

🟡Mimesis - надежный генератор данных для Python, который может создавать широкий спектр поддельных данных на различных языках.

🟡Spawner - инструмент для создания данных для разнообразных баз данных и искусственного интеллекта. Содержит широкий набор полей, включая возможность пользовательской настройки вручную.

🟡Benerator - генератор текстовых данных для оценки, тестирования и обучения ИИ-моделей.

🟡DataFactory - удобный способ создавать разнообразные наборы тестовых данных для наполнения баз данных и проверки ИИ-моделей.

🟡MockNeat - простой интерфейс для программной генерации данных в форматах json, xml, csv и sql.

🟡Faker - с помощью этого инструмента можно быстро создать фейковые данные для тестов.

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133🔥2
🖥 Как можно избежать усложнения запроса лишними CASE

Тут ниже представлена попытка заNULLить значение, если оно равно чему-то.
, CASE WHEN sdate = '1900-01-01' THEN NULL ELSE sdate END sdate
, CASE WHEN mdate = '1900-01-01' THEN NULL ELSE mdate END mdate


Но ведь в PostgreSQL есть функция nullif, которая делает ровно то же самое.
NULLIF(значение1, значение2)

Функция NULLIF выдаёт значение NULL, если значение1 равно значение2; в противном случае она возвращает значение1. Это может быть полезно для реализации обратной операции к COALESCE. В частности, для примера, показанного выше:

SELECT NULLIF(value, '(none)') ...

В данном примере если value равно (none), выдаётся null, а иначе возвращается значение value.

То есть в примере выше можно переписать короче и понятнее:
, NULLIF(sdate, '1900-01-01') sdate
, NULLIF(mdate, '1900-01-01') mdate


#PostgreSQL

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥54
🖥 Огромное количество полезных шпаргалок для разработчиков

Отличный сборник шпаргалок, в том числе по SQL, для повышения производительности и быстрого запоминания в процессе работы.

Github
SQL

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥5👍3
📈 PyGraphistry: Explore Relationships

PyGraphistry полезная это библиотека Python с ИИ для визуальных графов, позволяющая извлекать, преобразовывать, анализировать и визуализировать большие графы вместе со сквозными сеансами графического сервера Graphistry.

Библиотека создана специально для больших графов.

Пользовательский механизм рендеринга WebGL клиента рендерит до 8 миллионов узлов + ребер за раз, а большинство клиентских GPU поддерживают от 100 000 до 2 миллионов элементов.

Мощный механизм аналитики графического процессора на стороне сервера поддерживает графы еще большего размера.

Graphistry сглаживает графические рабочие процессы в экосистеме PyData, включая датафреймы Pandas/Spark/Dask, графического процессора Nvidia RAPIDS, графы GPU, графовые нейросети DGL/PyTorch и различные коннекторы данных.

PyGraphistry — это дружественный и оптимизированный нативный интерфейс PyData для API-интерфейсов REST Graphistry, не зависящих от языка. Можно использовать PyGraphistry с традиционными источниками данных Python, такими как CSV, SQL, Neo4j, Splunk и другими.

Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🥰4🔥2
🖥 Если вдруг вам понадобилось базу IP2Location перевести из DECIMAL-представления IP-адресов в "родной" для PostgreSQL тип inet, то для IPv4-адресов все будет тривиально:
'0.0.0.0'::inet + ipnum::bigint


А вот для преобразования числа к формату IPv6-адреса придется проявить немного изобретательности:
— "математически" разбиваем число на 8 двухбайтовых сегментов по (2 ^ 16) ^ i
— каждое значение преобразуем в шестнадцатеричную систему счисления и добиваем лидирующими нулями
— склеиваем сегменты через двоеточие и кастуем к inet
array_to_string(ARRAY(
SELECT
lpad(to_hex(trunc(
ipnum % (2::numeric(39,0) ^ ((i + 1) * 16)) / (2::numeric(39,0) ^ (i * 16))
)::integer), 4, '0')
FROM
generate_series(7, 0, -1) i
), ':')::inet


В принципе, после этого мы можем "свернуть" ip_from и ip_to в подсеть, не обращая внимания на исходный формат:
inet_merge(ip_from, ip_to) subnet


А если проиндексируем эти подсети с помощью gist...
CREATE INDEX ON country_inet USING gist(subnet inet_ops);

... то сможем по индексу быстро определять принадлежность произвольного IPv4/IPv6-адреса подсетям с помощью соответствующих операторов примерно таким запросом:
SELECT
*
FROM
country_inet
WHERE
subnet >> '8.8.8.8' AND
country <> '-'
ORDER BY
masklen(subnet) DESC
LIMIT 1;


@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥7👍6🥰1
🎯 Tarantool Column Store — новая гибридная СУБД с поддержкой как колоночного, так и строчного хранения и обработки данных в режиме реального времени.

Транзакционные и аналитические системы в одном месте – возможность проводить анализ на актуальных данных
Моментальный анализ – все данные доступны в одной СУБД
Быстрая обработка данных – можно обрабатывать задачи AI
Совместимость – обновление работает с российскими операционными системами Astra Linux, РЕД ОС и «Альт».

@sqlhub
9👍3🔥1
🖥 sqlite-web - это веб-браузер баз данных SQLite, написанный на Python.

Работает с существующими базами данных SQLite или может использоваться для создания новых баз данных.
Экспорт данных в формате JSON или CSV.
Импорт файлов JSON или CSV.


$ pip install sqlite-web

Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍9🔥3
🛠 Gephi — один из наиболее функциональных и доступных инструментов для всех, кто изучает социальные сети и графы.

Gephi Lite — это его облегчённая веб-версия.

Пользователи могут видеть все параметры сети, использовать фильтры, настраивать визуализацию графа, сохранять и экспортировать файлы.

🔗 gephi.org/gephi-lite

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133🔥2
Forwarded from Борис опять
ОУ Карьера курс ML_Pro 27.02.24 (3).pdf
3.5 MB
Презентация с моего вебинара для ОТУС: Что нужно джунам знать про найм в ML/DS в начале карьеры

Я не виню вас, если вы не готовы слушать меня два с половиной часа. Поэтому вот презентация, там вы найдете 80% контента
5👍4🥰1
⚡️ SpeedML - это библиотека Python, целью которой является ускорение процесса разработки конвейера машинного обучения.

Она объединяет часто используемые пакеты ML, такие как Pandas, NumPy, Scikit-learn, XGBoost и Matplotlib. SpeedML также предоставляет функциональные возможности для автоматизированного EDA.

pip install speedml

Github

@sqlhub
9👍6🔥5
⚡️ Dolt — первая в мире база данных SQL с контролем версий.

Для достижения этой цели Dolt использует Prolly Tree-хранилище схемы и данных, представленных в виде графа. Таким образом достигается контроль версий базы данных на уровне хранилища.

Контроль версий БД в стиле Git предоставляет ряд полезных фичей:
— Мгновенный откат к любому предыдущему состоянию
— Полный журнал аудита с возможностью запроса, содержащий все данные с момента их создания.
— Несколько развивающихся ветвей данных
— Возможность объединения ветвей данных
— Быстрая синхронизация с удаленными версиями для резервного копирования или децентрализованной совместной работы.
— Запрашиваемые различия (т. е. различия) между версиями

Механизм хранения Dolt построен на графе коммитов Prolly Trees в стиле Git. Схема таблицы и данные хранятся в Prolly Trees. Корни этих деревьев Prolly вместе с другими метаданными хранятся в графе коммитов, чтобы обеспечить контроль версий в стиле Git.

🔗 Подробнее можно почитать на официальной страничке
🔗Github

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍52