Data & IT Career
1.06K subscribers
793 photos
49 videos
14 files
1.35K links
Карьера в дата-профессиях и в ИТ в общем

Tags:
#подборка #survey
#career #зп #CV
#skills
#опросы

По вакансиям: t.iss.one/data_career/1576
Feedback: @black_titmouse

Branched from @data_events
See also @ml_career
tgstat.ru/channel/@data_career/stat/citation
Download Telegram
Forwarded from Ваня
#DE #python #sql #Sweden #удаленка

Ищу DE, который согласится работать с таким фриком как я к шведам в fishbrain.com. Будем клепать ELT, дорабатывать дата модели в обожаемом мной dbt, покрывать тестами, запилим гугловский стриминг, а в перерывах будем ходить на фику по гугл митс и рассказывать друг другу восхитительные истории. Работа удалённая, платят валютой.

Технологии
Python, SQL, облако преимущественно GCP, но есть немного AWS; BigQuery, Airflow, dbt. В компании английский язык и полный интернационал: шведы, славяне, турки, филиппинцы, американцы и другие.

Ништяки
Кайфовая культура. Бирюза, Servant Leadership, взаимоуважение и поддержка безо всякого унылого корпо-буллшита. Слово пацана даю. Собственно, это даже на найм влияет — много кандидатов с улицы отсеиваются именно по культуре — так что всё это не случайность.
Кайфовый стек. Последние/предпоследнии версии питона/эйрфлоу/дибити и всего, до чего мои руки уже дотянулись. Модели данных жирно обмазаны тестами. Для страждущих говнокод найдётся, но его реально мало.

Пишите уже короч в личку мне @skatromb. Описание вакансии тут.
🔥12👍2
Высоконагруженные приложения.pdf
14 MB
📕 Высоконагруженные приложения. Программирование, масштабирование, поддержка
🐷 Книга с кабанчиком 😀
Автор: Мартин Клеппман, 2018

Описание:
В этой книге вы найдете ключевые принципы, алгоритмы и компромиссы, без которых не обойтись при разработке высоконагруженных систем для работы с данными. Материал рассматривается на примере внутреннего устройства популярных программных пакетов и фреймворков.

В книге три основные части, посвященные, прежде всего, теоретическим аспектам работы с распределенными системами и базами данных. От читателя требуются базовые знания SQL и принципов работы баз данных.

#python #SQL
Do you speak SQL? 👅
Мы решили собрать подборку 10 суперполезных, на наш взгляд, сервисов для проверки и прокачки навыков SQL.

DATALEMUR
Сервис позволяет потренироваться на тестовых заданиях, выбрав один из трех уровней сложности: Easy, Medium и Hard. Создатель сервиса — Ник Сингх, автор книги «Ace the Data Science Interview». Сервис бесплатный, но требуется регистрация.

LEETCODE
Удобный в навигации сервис с более чем 2.5К тестовых заданий, позволяющий задать себе собственную программу обучения, чтобы подготовиться к конкретному карьерному апгрейду. Есть два вида подписок: на месяц ($35) и на год ($13.25/месяц).

Zachary Thomas' SQL Questions
Небольшой гид для аналитика данных с тестовыми задачами средней и повышенной сложности. Успеете разобрать за 1 час — лишним не будет!

WINDOW FUNCTIONS
Вы же любите оконные функции? Тогда этот бесплатный тренажер на Postgres стоит добавить в закладки.

CODE ACADEMY
Более 940К студентов, сертификат по окончании курса — прекрасные показатели того, что закончив этот курс (пишут, что можно уложиться в 8 часов), начинающий дата аналитик освоит SQL в достаточной мере, чтобы любое тестовое задание было по силам. Есть бесплатный базовый аккаунт, Pro Lite ($13.99/месяц) или Pro ($19.99/месяц).

SQL BOLT
Полностью бесплатный курс по SQL из 20ти интерактивных уроков, создатели которого будут благодарны донатам через Paypal, но не настаивают. Интерфейс сервиса довольно строг и минималистичен, что позволит по максимуму погрузиться в тему, не отвлекаясь на рекламу и лимиты бесплатных версий, как бывает с конкурентами этого курса.

SQL ZOO
Построенный на движке MediaWiki, этот каталог бесплатных уроков начинает с азов и поэтапно подводит ученика к использованию SQL с C#, PHP на серверах Amazon EC2 и транзакциям.

HACKERANK
Сервис, клиентами которого являются компании из списка Fortune 100, Atlassian, Bloomberg, Adobe, LinkedIn, у которого свыше 3К компаний-клиентов. Он не только предоставляет услуги опосредованного тестирования соискателя, но и предлагает курсы по совершенствованию навыков SQL. Регистрация обязательна.

SQL TEACHING
CASE, SUBSTR, COALESCE — это темы трех последних уроков из курса, который вы можете пройти совершенно бесплатно. Целых 31 функции, навыки использования которых вы можете отшлифовать, всего лишь открыв ссылку сверху!

W3 SCHOOL
Довольно удобный бесплатный сервис, но с небольшим недостатком — интерактивные упражнения открываются в новой вкладке, и если вы не минималист, познавший дзен в браузере, вкладки и окна которого можно пересчитать на пальцах одной руки, то три сосны могут внезапно разрастись в целый сосновый бор.

🆒 Все сервисы англоязычные!

Знаете ли вы подобные проекты на русском? Если да, кидайте ссылки и ваши впечатления в комментарии.

Источник: https://t.iss.one/leftjoin/852
#SQL #подборка
Please open Telegram to view this post
VIEW IN TELEGRAM
Не так давно я нашёл в сети статью, где расставляются «точки над И» с всеми известным NULL (он же Nan, он же nulllable).

Казалось бы, чего тут думать, и так все известно?! Но есть подозрение, что не все достаточно про него знают.

Это касается, как работы с языками программирования, так и с базами данных.

В общем, ловите чужую рефлексию насчёт #NULL.

https://t.iss.one/data_magic/241
#SQL #NULL #nulls
Reveal the Data
За последние время накопились ссылки, которыми хотел поделиться, собрал в небольшую подборку вам на выходные: 💼 Яндекс Лавка ищет BI-аналитика делать крутые дашборды, не пропустите классную вакансию. 🎓 Коля Валиотти с командой запустили бесплатный курс по…
https://t.iss.one/KarpovCourses/1097

Вы интересовались, когда выйдет Симулятор
#SQL, а мы обещали запустить его до Нового года. Хорошие новости: этот день наступил!

Симулятор будет полезен всем, кто работает или планирует работать с данными: от аналитиков и менеджеров до тестировщиков и разработчиков. Вы будете решать задачи на реальной инфраструктуре, составлять запросы к базе данных PostgreSQL, строить дашборды в Redash, а также проверять гипотезы и рассчитывать продуктовые метрики (и это далеко не всё!).

Знакомьтесь с программой и присоединяйтесь :)
Mathshub - Бесплатный интенсив по SQL
Старт 30 января

Кому:
🟢Новичкам в IT
🟢Практикующим SQL-аналитикам и тем, кто хочет пополнить свой skill-set новым языком программирования
🟢Тем, кто хочет сменить профессию: #SQL – базовый навык для дата-аналитика, дата-сайентиста и дата-инженера

Чему научат:
— Основам SQL и созданию баз данных
— Работе с базами данных и формированию запросов для поиска информации
— Узнаете преимущества SQL в сравнении с Excel для оптимизации аналитики баз данных

Кто ведет: Любовь Цурикова
🟢Ведущий эксперт аналитики данных в Билайне
🟢Ex-преподаватель математики в Association Maison Russe | École Russe à Genève;
🟢Выпускница НИЯУ МИФИ

Структура интенсива:
➡️Длительность интенсива – 3 недели
➡️6 живых уроков: лекций и семинаров
➡️Проведенные занятия будут доступны в записи
➡️Прошедшим интенсив студентам школа выдает сертификат – пригодится в портфолио

Регистрируйтесь по ссылке

Об Айре Монгуш и ее проекте Mathshub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
SQL и SCD: понимание медленно меняющихся измерений [Slowly Changing Dimensions]

В мире хранилищ данных обработка изменений данных измерений может быть сложной задачей. Именно здесь вступают в действие медленно меняющиеся измерения (SCD). Подход SCD позволяет вести историю изменений данных измерений с течением времени, что имеет решающее значение для многих целей анализа данных и создания отчетов.

Существует два основных типа SCD: SCD типа 1 и SCD типа 2.

SCD Тип 1: при этом подходе, когда в записи измерения происходит изменение, старая запись перезаписывается новой информацией. Этот метод прост и понятен, но он не поддерживает историю изменений данных.

SCD типа 2: в этом подходе создается новая запись для фиксации изменения, а старая запись сохраняется. Этот метод обеспечивает историческую запись изменений, что особенно полезно для отслеживания тенденций и изменений с течением времени.

Реализация подхода SCD типа 2 в SQL включает создание новой записи в таблице измерений с новым суррогатным ключом и использование исходного суррогатного ключа в качестве ссылки. Таким образом, все факты в таблице фактов могут быть связаны с правильной записью измерения, даже если со временем вносятся изменения.

В заключение, подход SCD является ценным инструментом для хранения и анализа данных. Независимо от того, выберете ли вы SCD типа 1 или SCD типа 2, важно тщательно рассмотреть требования ваших процессов анализа данных и отчетности, чтобы выбрать наилучший подход для ваших нужд. При правильной реализации SCD в SQL вы можете гарантировать, что ваши данные останутся точными, непротиворечивыми и актуальными с течением времени.

#sql #scd #dwh
SQL и хранилищам данных, полезные ссылки по теме:

🟡PostgreSQL

🔘Домашняя страница базы данных

🔘Что такое PostgreSQL? (краткие сведения)

🔘Документация к PostgreSQL 14.5 на русском языке

🔘Курс молодого бойца PostgreSQL

🔘Подборка статей

🔘Язык SQL

🟢Архитектура хранилищ данных

🔘Хранилище данных: понятия

🔘Архитектура хранилищ данных: традиционная и облачная

🔘Что такое хранилище данных?

🔘Публикации, рассказывающие о хранилищах данных, подборка Habr

🔘Обзор гибких методологий проектирования DWH

🔘Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

🔘Создание Data Lake и Warehouse на GCP

#sql #postgresql #dwh #clickhouse #datalake
https://t.iss.one/data_engi/101 #подборка
Please open Telegram to view this post
VIEW IN TELEGRAM
#Друзья!
Оконные функции – главное, что вам надо знать, чтобы пройти техсобес по SQL* (со знанием дела готоворю 😉) Ну и для работы это must-have, конечно же!

Делятся на 3 группы – по функционалу и, как раз где-то +- по сложности использования / скиллу:

1️⃣ Aggreate: count/sum/min etc – на тройку) (отдельно здесь "нарастающий итог" добавил – простой но не такой уж частый кейс – плюс за него можно себе добавить))
На "тройку" ещё точно добавил бы row_number (это уже ranking - см ниже) из-за частоты его применения и простоты.

2️⃣ Ranking / 3️⃣ Value: dense_rank,.. lag/lead,.. - на 4ку / 4+ – тут от сложности задачи многое зависит)),

Плавающее окно (aka «скользящее» – которое через RANGE/ROWS задаётся) – это уже на твёрдую пятёрку!🤓 (ну, если задание вдруг дадут, и решите его (но, как правило, достаточно знать, что это и когда нужно, так как если вы не на какую-нибудь сложную аналитику идёте, то это довольно редкий кейс, встретивши который на практике, надо просто вспомнить, что это есть, загуглить синтаксис и поотлаживать запрос))
Это не отдельный вид оконных функций, а вид построения самого окна – более редкий, гибкий, но и более сложный для понимания способ построения самого окна (группы строк), когда его границы задаются на основе какого-то правила от текущей строки, а не по группе строк, попадающим в эту группу по значению ключа (комбинации полей), по которому производится разбивка на окна (надеюсь, понятно написал 😅) Отсюда и особенность: такие окна могут накладываться друг на друга в отличие от окно по ключу, которые разбиваются всё множество входных строк на группы... Короче, можно долго пытаться описывать, но лучше найти картинки понагляднее (под рукой нет)), и побольше задач таких порешать. Но, ещё раз скажу – на собесах такое редкость. Разве что на какой-нибудь лайвкодинг в Яндекс на продвинутую аналитику такое могу себе представить или типа того (там была самая сложня задача на SQL из моего опыта)

ну и алиасы окон - чтобы без усилий эрудицией блеснуть 😁

* - подразумевается, конечно, что неоконный SQL "от зубов", иначе совсем плохи дела 😅

https://towardsdatascience.com/anatomy-of-sql-window-functions-7256d8cf509a
(Ну и английский заодно подтянете))
#sql #windowfunctions #todo #лайвкодинг #оконки #livecoding
👍4🔥1
Data & IT Career
На этой неделе стартовал 5-й поток Лаборатории Apache Spark Advanced – хардкор-программа для middle и senior дата-инженеров от #NewProLab! Подключиться к потоку можно ещё успеть до 7 июля! (Говорят, что это одна из самых глубоких русскоязычных программ…
Собрали ссылки на бесплатные ресурсы, которые будут полезны при подготовке к нашей программе Apache Spark и Scala для дата-инжиниринга

📌Новый поток стартует уже 4 сентября https://newprolab.com/ru/spark-de, а до 30 июля действует промокод DE2023


Для прохождения программы потребуются знания по следующим темам: Scala (желательно, но если вы не знаете Scala, то рекомендуется уверенное знание Python или Java), Apache Spark, Linux, SQL, Kafka, HDFS для формирования витрин данных для последующего анализа, математическая статистика и линейная алгебра.

Ниже — ресурсы по каждой теме. Пожалуйста, готовьтесь до программы, чтобы во время обучения получить максимум новых знаний и не отвлекаться на базовые вещи.

📌Scala
- Базовый туториал по Scala
- Курс на Stepik

📌Apache Spark
- Памятка по Spark в Kubernetes

📌Linux
- курс на CodeAcademy
- курс на Stepik
- курс на edX

📌SQL
- Книга Бен Форта Освой самостоятельно SQL за 10 минут

📌Kafka
- Как работает Kafka в облаке

📌HDFS
- Какие еще есть способы хранения данных и чем S3 лучше HDFS: вебинар

📌Математическая статистика и линейная алгебра
Курсы на Stepik:
- Основы статистики
- Линейная алгебра: методы и задачи

#подборка #free #курсы #spark #scala #sql #linux #hadoop #hdfs #kafka #матстат #linalg #stepic
https://t.iss.one/newprolab_news/149 #NewProLab
🔥2
Data & IT Career
Как раз о "проблеме времени билда" (в конце 5-го абзаца в моём посте реплайнутом) вышло у учителя по ведению канала: https://t.iss.one/rockyourdata/4215 -> https://t.iss.one/roma_reporting/562 #Яндекс, кстати, в защиту своих задач по лавкодингу и указывает на этот…
Секции маркет дата инженер.pdf
55 KB
Хе-хе, хорошо, когда телега, как "заметочник" +-хорошо настроена, как у меня - всё раскидано примерно по правильным каналам / чатам / топикам, помечено нужными тегами - всегда всё можно быстро найти 😁

Вот и мануал по сампо DE в ЯМ упомянутый, а в нём же ссылка на статью про алгосекции Яндекса с упомянутым аргументом, почему хорошему разработчику нужно уметь "кодить на бумажке"

#DE #Yandex #подготовка к собесам
#алгосы #SQL(по просьбам подписчиков))
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2
#meme #sql #postgresql

Чего не хватает? 🤓😂
https://t.iss.one/data_engi/443
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3
Please open Telegram to view this post
VIEW IN TELEGRAM
Кстати, если вы вдруг думаете, что #SQL прекрасен и закончен и/или высечен в камне, то нет
- кто давно с ним, тот понимает, что он не далеко не идеал!
- и, насколько мне известно, ни один вендор не соответствует стандарту ANSI SQL 99+ (а мб и 92 даже)
- но уже давно исторически сложилось, что почти все вендоры, не жёстко следуя стандарту, ещё и отступают от него, в тч для развития каких-то спец фич у себя, которые потом могут переночевать и в сам стандарт (если не путаю, напр, оконки в своё время в него завёз Oracle (а много чего интересного из него так и осталось не завезённым, кстати))

Тч язык живёт, развивается и даже пытается переосмысливаться, причём обычно в нужную сторону!
- напр, такие ништяки как group by all, * except я ждал много лет 😁

Ещё одна фишка от гугла. Сначала не понял, но потом как понял! 👍😁
- https://t.iss.one/data_whisperer/467?comment=846
- https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql/
#GoogleSQL #SQLPipeSyntax
Please open Telegram to view this post
VIEW IN TELEGRAM