Недавно скидывал вам книгу от Ральфа Кимбалла про хранилище данных. Теперь почитайте про Data Lakehouse от Билла Инмона (краткий документ на английском)
🔥6
Forwarded from Книги по аналитике (BA, DA, SA, PA)
Bill Inmon / Building the Data Lakehouse
"The data lakehouse architecture presents an opportunity comparable to the one seen during the early years of the data
warehouse market. The unique ability of the lakehouse to manage data in an open environment, blend all varieties of
data from all parts of the enterprise, and combine the data science focus of the data lake with the end user analytics of the data warehouse will unlock incredible value for organizations."
Скачать книгу
"The data lakehouse architecture presents an opportunity comparable to the one seen during the early years of the data
warehouse market. The unique ability of the lakehouse to manage data in an open environment, blend all varieties of
data from all parts of the enterprise, and combine the data science focus of the data lake with the end user analytics of the data warehouse will unlock incredible value for organizations."
Скачать книгу
🔥4👍1
Время летит быстрей с возрастом…
Вам не кажется, что чем старше ты становишься, тем быстрей пролетают дни/недели/года?
Вроде только недавно планировал отпуск и собирал сумки 🧳 , а все так быстро пролетело.
Только недавно кажется праздновали Новый Год и планировали лето, а за окном уже осень 🍂
Еще смотря на стажеров с их началом учебного года понимаю, что раньше успевал учиться, работать, создавать и вести свои курсы, при этом учеба занимала большой пласт времени.
А сейчас постоянной учебы нет, а времени кажется еще меньше стало по ощущениям чем было раньше ⏳
Вам не кажется, что чем старше ты становишься, тем быстрей пролетают дни/недели/года?
Вроде только недавно планировал отпуск и собирал сумки 🧳 , а все так быстро пролетело.
Только недавно кажется праздновали Новый Год и планировали лето, а за окном уже осень 🍂
Еще смотря на стажеров с их началом учебного года понимаю, что раньше успевал учиться, работать, создавать и вести свои курсы, при этом учеба занимала большой пласт времени.
А сейчас постоянной учебы нет, а времени кажется еще меньше стало по ощущениям чем было раньше ⏳
👍25❤16😁2
Сентябрь - время новых начинаний и начала обучения 📚🤓
Это у нас заложено видимо на уровне биологических часов после обучения в школе и университете. Лично я всегда в сентябре чувствую потребность в знаниях. Вчера выбирал интересные для себя курсы, хочу прокачаться в позиции tech lead, также хочу научиться на новом уровне писать ботов, ну и конечно направление аналитики не осталось без внимания. Есть потребность развиваться в 2 векторах:
- hard техничка (инжиниринг данных и dba)
- менеджмент
Остается еще курсы по игре на барабанной установке найти и буду укомплектован 😅
Это у нас заложено видимо на уровне биологических часов после обучения в школе и университете. Лично я всегда в сентябре чувствую потребность в знаниях. Вчера выбирал интересные для себя курсы, хочу прокачаться в позиции tech lead, также хочу научиться на новом уровне писать ботов, ну и конечно направление аналитики не осталось без внимания. Есть потребность развиваться в 2 векторах:
- hard техничка (инжиниринг данных и dba)
- менеджмент
Остается еще курсы по игре на барабанной установке найти и буду укомплектован 😅
🔥21👍4❤3
С праздником, друзья 🧑💻👩💻 🎉
Сегодня празднуют день программиста, всех причастных тоже поздравляю)
Ну и чтобы была польза, ловите ссылку на шпаргалку по git командам, которые пригодятся всем в IT вне зависимости от специализации
Статья
Сегодня празднуют день программиста, всех причастных тоже поздравляю)
Ну и чтобы была польза, ловите ссылку на шпаргалку по git командам, которые пригодятся всем в IT вне зависимости от специализации
Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
30 команд Git, необходимых для освоения интерфейса командной строки Git
Git — самая популярная в мире распределённая система контроля версий. Линус Торвальдс, разработчик ядра ОС Linux, создал этот инструмент ещё в 2005 году, а сегодня Git активно поддерживается как...
🎉13👍3🔥3
Вредные советы по работе с данными. Если вы сломать решили всю отчетность у коллег
✏️ Не используйте стандартов — Творчество важней всего
✏️ Данные не изучайте, так грузите. Бизнес разберется сам
✏️ Про проверки и ошибки Вы не думайте впустую: Пусть искрится и горит В закромах системы
Статья с юмором
✏️ Не используйте стандартов — Творчество важней всего
✏️ Данные не изучайте, так грузите. Бизнес разберется сам
✏️ Про проверки и ошибки Вы не думайте впустую: Пусть искрится и горит В закромах системы
Статья с юмором
Хабр
Вредные советы по работе с данными. Если вы сломать решили всю отчетность у коллег
Привет, Хабр! Меня зовут Леонид Калядин, я Cluster Data lead в МТС Диджитал, занимаюсь развитием практики Data Governance и Data Quality в 25+ продукта кластера. Мне довелось долго работать в...
👍10
Мысли вслух
В последнее время очень много рефлексирую и анализирую свое поведение, настроение, взгляд на мир и меняющиеся планы 🧠
Немного поделюсь накопившимся.
Прошлый год оказывается выдался очень активных на события в профессиональной и личной жизни, даже дух захватывает когда все вспоминаю
🎓закончил магистратуру
🤵♂️ женился
✍️ поменял место работы
и много других ярких моментов и достижений)
Даже несмотря на это казалось, что я делаю меньше чем могу, что-то не успеваю. В общем понял что словил FOMO (fear of missed opportunity - страх упущенной возможности).
Но анализируя текущий год с намного меньшим количеством выдающихся событий и более простым и приземленным отношением ко всему происходящему, понимаю, что все зависит от приоритетов. Тот год и этот отличает меня набором приоритетов.
Если еще год назад было нормой после работы ехать на пары, а после пар садиться за свои проекты и курсы. То в этом году после работы я хожу в зал, гуляю с женой, и только в отдельные периоды времени активно занимаюсь проектной работой.
Конечно есть и свои внешние факторы, повлияющие на такой изменение приоритетов, но об этом расскажу как-нибудь отдельно, как и возвращающееся часто чувство FOMO формата "лучше бы новый курс записал, чем потратил время на прогулку".
Увы, но мне дается слишком тяжело ценить момент, а не думать постоянно планами активностями на будущее 🤷♂️
Немного сумбурно получилось, но я думаю часть людей узнают себя в этом посте 👍
В последнее время очень много рефлексирую и анализирую свое поведение, настроение, взгляд на мир и меняющиеся планы 🧠
Немного поделюсь накопившимся.
Прошлый год оказывается выдался очень активных на события в профессиональной и личной жизни, даже дух захватывает когда все вспоминаю
🎓закончил магистратуру
🤵♂️ женился
✍️ поменял место работы
и много других ярких моментов и достижений)
Даже несмотря на это казалось, что я делаю меньше чем могу, что-то не успеваю. В общем понял что словил FOMO (fear of missed opportunity - страх упущенной возможности).
Но анализируя текущий год с намного меньшим количеством выдающихся событий и более простым и приземленным отношением ко всему происходящему, понимаю, что все зависит от приоритетов. Тот год и этот отличает меня набором приоритетов.
Если еще год назад было нормой после работы ехать на пары, а после пар садиться за свои проекты и курсы. То в этом году после работы я хожу в зал, гуляю с женой, и только в отдельные периоды времени активно занимаюсь проектной работой.
Конечно есть и свои внешние факторы, повлияющие на такой изменение приоритетов, но об этом расскажу как-нибудь отдельно, как и возвращающееся часто чувство FOMO формата "лучше бы новый курс записал, чем потратил время на прогулку".
Увы, но мне дается слишком тяжело ценить момент, а не думать постоянно планами активностями на будущее 🤷♂️
Немного сумбурно получилось, но я думаю часть людей узнают себя в этом посте 👍
👍39🔥6
Вчера после работы гуляли и зашли в книжный магазин. Нашел много интересных книг, но покупать их там конечно же не стал, ведь на озоне они в 2 раза дешевле)
Заказал пока только «Мама, я тимлид», после прочтения поделюсь своими впечатлениями
Заказал пока только «Мама, я тимлид», после прочтения поделюсь своими впечатлениями
👍37🔥12❤4
Хочется пожелать всем замечательной рабочей недели и чтобы вы не испытывали стресс как и эти котики 😉
❤27🔥9👍6😁2
Где искать вакансии с анализом данных
Привет! Это статья будет полезна начинающим специалистам по анализу и работы с данными в формате сборника ресурсов для поиска вакансий.
Статья
Привет! Это статья будет полезна начинающим специалистам по анализу и работы с данными в формате сборника ресурсов для поиска вакансий.
Статья
Хабр
Где искать вакансии с анализом данных
Привет! Это статья будет полезна начинающим специалистам по анализу и работы с данными в формате сборника ресурсов для поиска вакансий. Сайты вакансий HeadHunter Хабр Карьера Superjob Работа ру...
👍10🔥3
Фреймворки Python с параллельной обработкой данных
Часто на практике возникает потребность обрабатывать большие объемы данных, либо работать с большим набором запросов к сервису. Делать это в один поток выполнения кода не всегда эффективно и быстро, а сделать эту работу параллельной помогают различные фреймворки или ETL инструменты.
Читать статью про фреймворки Python для параллельной обработки данных
Часто на практике возникает потребность обрабатывать большие объемы данных, либо работать с большим набором запросов к сервису. Делать это в один поток выполнения кода не всегда эффективно и быстро, а сделать эту работу параллельной помогают различные фреймворки или ETL инструменты.
Читать статью про фреймворки Python для параллельной обработки данных
Хабр
Быстрее, больше, сильнее: фреймворки Python с параллельной обработкой данных
Многие разработчики любят Python за простоту и удобство, но вот быстротой обработки данных этот язык программирования никогда не отличался. Во многом эти ограничения скорости связаны с его эталонной...
👍4🔥4❤1
Оконные функции простым языком - Фреймы (часть 2)
Спустя 2 года после написания первой части статьи наконец дошли руки до второй части.
🚨 Материал исключительно для новичков в SQL и применении оконок, опытные SQLисты проходите мимо. А то там в комментариях уже начали накидывать сложные кейсы, что я их в статье не указал, и вообще не расписал учебник вместо статьи со всей теорией и практикой в одном месте 😅
Читать статью
Спустя 2 года после написания первой части статьи наконец дошли руки до второй части.
Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍12❤5
Временные таблицы в базах данных
В ETL процессах часто возникает необходимость в промежуточном хранении данных. Одним из эффективных решений для этой задачи являются временные таблицы.
🔎 Временная таблица — это специальный тип таблицы в базе данных, которая существует только в течение сессии пользователя или до конца транзакции. Она создается для временного хранения данных и автоматически удаляется после завершения работы.
Чем они отличаются от обычных таблиц?
1️⃣ Временность: Временные таблицы существуют только в течение сессии или транзакции, тогда как обычные таблицы сохраняются в базе данных до тех пор, пока их не удалят вручную.
2️⃣ Изоляция: Временные таблицы видны только в пределах текущей сессии или транзакции, что обеспечивает изоляцию данных между разными пользователями или процессами.
3️⃣ Производительность: Временные таблицы часто хранятся в оперативной памяти, что позволяет значительно ускорить операции с данными.
Эти особенности и дают плюсы использования временных таблиц для оптимизации ETL
Пример создания временной таблицы в SQL из результата SELECT запроса:
Также хочу отметить, что временные таблицы позволяют оптимизировать выполнение запросов, если вам нужно преобразовывать и извлекать данные из множества разных таблиц в базе. Например, если из таблицы с продажами за все время вам нужны продажи только за последний месяц для разных видов расчетом, сохраните продажи за последний месяц во временную таблицу и обращайтесь к ней для ваших расчетов, чтобы не делать несколько тяжелых запросов к таблице всех продаж.
В ETL процессах часто возникает необходимость в промежуточном хранении данных. Одним из эффективных решений для этой задачи являются временные таблицы.
🔎 Временная таблица — это специальный тип таблицы в базе данных, которая существует только в течение сессии пользователя или до конца транзакции. Она создается для временного хранения данных и автоматически удаляется после завершения работы.
Чем они отличаются от обычных таблиц?
1️⃣ Временность: Временные таблицы существуют только в течение сессии или транзакции, тогда как обычные таблицы сохраняются в базе данных до тех пор, пока их не удалят вручную.
2️⃣ Изоляция: Временные таблицы видны только в пределах текущей сессии или транзакции, что обеспечивает изоляцию данных между разными пользователями или процессами.
3️⃣ Производительность: Временные таблицы часто хранятся в оперативной памяти, что позволяет значительно ускорить операции с данными.
Эти особенности и дают плюсы использования временных таблиц для оптимизации ETL
Пример создания временной таблицы в SQL из результата SELECT запроса:
CREATE TEMPORARY TABLE temp_table (
id INT,
name VARCHAR(50),
value DECIMAL(10, 2)
);
--либо создание из результата SELECT запроса
CREATE TEMPORARY TABLE temp_table AS
SELECT
id
, name
, value
FROM table
;
Также хочу отметить, что временные таблицы позволяют оптимизировать выполнение запросов, если вам нужно преобразовывать и извлекать данные из множества разных таблиц в базе. Например, если из таблицы с продажами за все время вам нужны продажи только за последний месяц для разных видов расчетом, сохраните продажи за последний месяц во временную таблицу и обращайтесь к ней для ваших расчетов, чтобы не делать несколько тяжелых запросов к таблице всех продаж.
👍22
Data Mesh - вид организации аналитических хранилищ
В современном мире данных, где объемы информации растут экспоненциально, традиционные подходы к организации аналитических хранилищ могут оказаться недостаточно гибкими и масштабируемыми. Одним из инновационных решений этой проблемы является концепция Data Mesh.
🔎 Data Mesh — это архитектурный подход к управлению данными, который децентрализует ответственность за данные и их качество. Вместо централизованного хранилища данных, Data Mesh предполагает создание сети децентрализованных доменов данных, каждый из которых управляется отдельной командой. Эти домены данных предоставляют данные как продукты, которые могут быть использованы другими командами и системами.
В чем его особенность от других типов хранилищ?
📍Децентрализация: В отличие от традиционных централизованных хранилищ данных, Data Mesh распределяет ответственность за данные между различными командами, что позволяет более гибко и оперативно управлять данными.
📍 Данные как продукты: В Data Mesh данные рассматриваются как продукты, которые имеют своих владельцев, потребителей и стандарты качества. Это способствует более высокому качеству данных и их лучшей доступности.
📍 Автономность команд: Каждая команда, ответственная за свой домен данных, имеет полную автономию в управлении этими данными, что позволяет быстрее реагировать на изменения и потребности бизнеса.
Какие плюсы есть в такой организации хранилища?
➕ Масштабируемость: Data Mesh позволяет легко масштабировать управление данными, так как каждая команда управляет своим доменом данных независимо от других.
➕ Гибкость: Децентрализованная архитектура Data Mesh обеспечивает высокую гибкость в управлении данными, что позволяет быстрее адаптироваться к изменениям и новым требованиям.
➕ Повышение качества данных: Рассмотрение данных как продуктов и назначение ответственных за их качество способствует повышению общего качества данных в организации.
➕ Ускорение инноваций: Автономность команд и децентрализованное управление данными позволяют быстрее внедрять инновации и новые решения.
Потенциальные минусы подхода Data Mesh
➖Сложность управления: Децентрализация ответственности может привести к сложностям в координации между командами, особенно в крупных организациях.
➖ Риск дублирования данных: В условиях децентрализованного управления данными возрастает риск дублирования данных и возникновения несогласованностей.
➖ Необходимость в стандартах и соглашениях: Для успешного функционирования Data Mesh необходимо разработать и поддерживать общие стандарты и соглашения по управлению данными, что может потребовать значительных усилий.
➖ Зависимость от культуры организации: Успешное внедрение Data Mesh требует определенной культуры и менталитета в организации, что может быть сложно достичь в организациях с незрелой Data-культурой.
🔗 Полезные ссылки про Data Mesh
🔗 Data Mesh Architecture
🔗 Статья про Data Mesh на Habr
🔗 Сравнение подходов Data Fabric и Data Mesh
В современном мире данных, где объемы информации растут экспоненциально, традиционные подходы к организации аналитических хранилищ могут оказаться недостаточно гибкими и масштабируемыми. Одним из инновационных решений этой проблемы является концепция Data Mesh.
🔎 Data Mesh — это архитектурный подход к управлению данными, который децентрализует ответственность за данные и их качество. Вместо централизованного хранилища данных, Data Mesh предполагает создание сети децентрализованных доменов данных, каждый из которых управляется отдельной командой. Эти домены данных предоставляют данные как продукты, которые могут быть использованы другими командами и системами.
В чем его особенность от других типов хранилищ?
📍Децентрализация: В отличие от традиционных централизованных хранилищ данных, Data Mesh распределяет ответственность за данные между различными командами, что позволяет более гибко и оперативно управлять данными.
📍 Данные как продукты: В Data Mesh данные рассматриваются как продукты, которые имеют своих владельцев, потребителей и стандарты качества. Это способствует более высокому качеству данных и их лучшей доступности.
📍 Автономность команд: Каждая команда, ответственная за свой домен данных, имеет полную автономию в управлении этими данными, что позволяет быстрее реагировать на изменения и потребности бизнеса.
Какие плюсы есть в такой организации хранилища?
➕ Масштабируемость: Data Mesh позволяет легко масштабировать управление данными, так как каждая команда управляет своим доменом данных независимо от других.
➕ Гибкость: Децентрализованная архитектура Data Mesh обеспечивает высокую гибкость в управлении данными, что позволяет быстрее адаптироваться к изменениям и новым требованиям.
➕ Повышение качества данных: Рассмотрение данных как продуктов и назначение ответственных за их качество способствует повышению общего качества данных в организации.
➕ Ускорение инноваций: Автономность команд и децентрализованное управление данными позволяют быстрее внедрять инновации и новые решения.
Потенциальные минусы подхода Data Mesh
➖Сложность управления: Децентрализация ответственности может привести к сложностям в координации между командами, особенно в крупных организациях.
➖ Риск дублирования данных: В условиях децентрализованного управления данными возрастает риск дублирования данных и возникновения несогласованностей.
➖ Необходимость в стандартах и соглашениях: Для успешного функционирования Data Mesh необходимо разработать и поддерживать общие стандарты и соглашения по управлению данными, что может потребовать значительных усилий.
➖ Зависимость от культуры организации: Успешное внедрение Data Mesh требует определенной культуры и менталитета в организации, что может быть сложно достичь в организациях с незрелой Data-культурой.
🔗 Полезные ссылки про Data Mesh
🔗 Data Mesh Architecture
🔗 Статья про Data Mesh на Habr
🔗 Сравнение подходов Data Fabric и Data Mesh
👍12🔥3
Увидел сегодня вакансию с пометкой о количестве активных пользователей и количестве дашбордов 1200+
Аж мурашки от таких цифр побежали😨
В таких кейсах всегда интересно как компания реализовывает интеграцию такого количества отчетов в удобное пользование, есть ли data-каталоги, либо системы data governance/management. Иначе потеряется качество данных, одни и те же метрики будут считать на разных отчетах по разному, да и пользователям вообще может быть сложно найти нужный им отчет в таком количестве.
📍Кстати, в публикации вакансий я реализовал пересказ полного описания вакансии с помощью LLM, чтобы посты были более лаконичными. Получилось очень неплохо если сравнивать пересказ с полным описанием)
Data вакансии - https://t.iss.one/data_vacancy
Аж мурашки от таких цифр побежали
В таких кейсах всегда интересно как компания реализовывает интеграцию такого количества отчетов в удобное пользование, есть ли data-каталоги, либо системы data governance/management. Иначе потеряется качество данных, одни и те же метрики будут считать на разных отчетах по разному, да и пользователям вообще может быть сложно найти нужный им отчет в таком количестве.
📍Кстати, в публикации вакансий я реализовал пересказ полного описания вакансии с помощью LLM, чтобы посты были более лаконичными. Получилось очень неплохо если сравнивать пересказ с полным описанием)
Data вакансии - https://t.iss.one/data_vacancy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3