Data Engineering / reposts & drafts

The Gitlab Handbook/Data Team Platform У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными. Handbook включает в себя следующие гайды: - Data Infrastructure - Data pipelines - Data CI job - Dbt guide - Python…

https://discourse.getdbt.com/t/is-kimball-dimensional-modeling-still-relevant-in-a-modern-data-warehouse/225/7

dbt Community Forum

Is Kimball dimensional modeling still relevant in a modern data warehouse?

Is Kimball dimensional modeling still relevant in a modern data warehouse? We see this discussion a lot on dbt Slack, so I’d love to move it to a Discourse post! Comment below with your thoughts!

1 view22:15

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

Fundamentals of data engineering

Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.

Redpanda позиционирует себя, как полная замена Apache Kafka, в 10 раз быстрее и обеспечивает 6-кратную экономию относительно Kafka.

1 view13:00

Data Engineering / reposts & drafts

Forwarded from data будни (Sasha Mikhailov)

⚾ Andy Pavlo

меня покусал библиотекарь, поэтому перед тем как ввести новое действующее лицо, дам ссылку на общеизвестный факт.

имя Andy Pavlo у меня прочно ассоциируется с базами данных: Andy = databases, databases = Andy

у него есть открытый каталог всех баз данных, где уже есть ссылки на 998 (!) штук
https://dbdb.io/

ещё у него ~~есть~~ был стартап, который помогает тюнить клиентские базы данных с помощью мл: моделька на основе метаданных подкручивает настройки вашего постгреса в цикле с обратной связью. сами данные она не видит.
https://ottertune.com/

и, видимо, для души (и будущих клиентов и сотрудников), он ведёт курс по базам данных в университете CMU

несмотря на то, что курс офлайн в обычном кирпичном университете, все лекции записываются и доступны на ютубе (а ещё иногда в начале играет настоящий диджей!)

вот записи с последнего потока — 2024 год

1 view13:00

Data Engineering / reposts & drafts

Forwarded from Yandex DataLens

📏 Делимся новостями DataLens Open Source:

– В конце июня у нас появилась аутентификация
– В июле добавили базовую авторизацию: вертикальные роли datalens.viewer и datalens.editor на пользователя, которые распространяются сразу на все объекты экземпляра DataLens.

Эти возможности уже включены в стандартные образы, доступные для самостоятельного разворачивания.

Полноценную авторизацию (с разграничением прав на воркбуки, RLS, группами пользователей) и многие другие корпоративные возможности мы планируем предоставлять в рамках коммерческого on-premise продукта, превью-версию которого ожидаем в августе. Эта версия уже не будет распространяться открыто, т.к. включает закрытые расширения. При этом открытое ядро продукта мы продолжим развивать для всех.

Если вам интересен пилотный проект коммерческой on-premise версии DataLens – оставляйте заявку

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views13:00

Data Engineering / reposts & drafts

Forwarded from Nikolay Markov

а кто-нибудь в реальной жизни использовал https://www.hydra.so/ ? Как альтернатива гринпламу оно вряд ли катит, наверное?

www.hydra.so

Hydra - Serverless Analytics on Postgres

2 views16:40

Data Engineering / reposts & drafts

Forwarded from Алексей Пятов (Data&AI)

Спасибо за напоминание!

Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять).

В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload, все всегда забывают про очень важную вещь, которая в старых немодных DWH есть, а в новых модных lakehouse-ах еще пока не очень - это блок Security. Чтобы кто надо брал данные оттуда, откуда надо, а кто не надо - не брал. Я 4 конечностями «за» лейкхаус и инновации вообще, но важно не терять старые наработки в этом движении вперед. Особенно если говорить про промышленное применение за пределами простых MVP, где секьюрностью зачастую можно пренебречь (и пренебрегают).

2 views03:41

Data Engineering / reposts & drafts

https://t.iss.one/rockyourdata/4718
#databook #book

Инжиниринг Данных

А вот и книжка!

3 views03:41

Data Engineering / reposts & drafts

Forwarded from Алексей Пятов (Data&AI)

Apache Iceberg: The Definitive Guide

2 views03:41

Data Engineering / reposts & drafts

Forwarded from Dmitry

Алексей Пятов (Data&AI)

Databricks и unity catalog нормально все делают для security, но для snowflake Lakehouse им далеко, но там закрытый формат

2 views03:41

Data Engineering / reposts & drafts

https://spider2-v.github.io/

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Igor Iakubovskii

Дмитрий, пользуясь случаем, что я хорошо выпил, хочу передать вам, что вы очень хороший человек и ваши мысли всегда очень конкретны, по делу и актуальны.

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Dmitry

Igor Iakubovskii

Игорь спасибо! Я бы с вами тоже выпил! Хорошо отдохнуть!

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Maksim

Data Engineering / reposts & drafts

Игорь спасибо! Я бы с вами тоже выпил! Хорошо отдохнуть!

Дмитрий, можешь сбросить в канал интересный проект - бенчмарк по оценке, когда llm смогут нашу Data работу делать. Пока можно не сильно беспокоиться, но видимо не долго 😂

https://spider2-v.github.io/

3 views03:48

Data Engineering / reposts & drafts

Forwarded from Dmitry

Data Engineering / reposts & drafts

Шляпа какая то

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Maksim

Data Engineering / reposts & drafts

Шляпа какая то

Нет, не шляпа. Потом опубликуешь, когда начнут в линкединах про это писать или когда gpt5 выйдет.

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Dmitry

Data Engineering / reposts & drafts

Нет, не шляпа. Потом опубликуешь, когда начнут в линкединах про это писать или когда gpt5 выйдет.

Ок босс!

1 view03:48

Data Engineering / reposts & drafts

Forwarded from Сиолошная

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Хорошие бенчмарки для ИИ-агентов — это нам надо обязательно (особенно в преддверии GPT-5 / Gemini-2). Есть отдельное направление бенчмарков, которые симулируют работу с привычными нам инструментами — с сайтами или приложениями, которыми специалисты пользуются в работе каждый день (WorkArena, WebArena, OSWorld).

В данной работе, созданной в коллаборации нескольких компаний и учебных заведений (преимущественно, китайских), создается бенчмарк для оценки ИИ-агентов в дата-инженерии и дата-саенс (джуны-вкатыватели напряглись). Покрыт полный цикл, разделённый на 5 компонент (в скобках — поддерживаемые инструменты):
— Data Warehousing (Snowflake, BigQuery)
— Data Ingestion (Airbyte, никогда не пользовался)
— Data Transformation (dbt)
— Data Visualization (Superset, Metabase)
— Data Orchestration (Airflow, Dagster)
(а ещё есть эксели, куда без них, 😥)

В общем, если вы касались дата-инженерии, то понимаете, что набор увесистый, и хоть и не покрывает всего зоопарка решений, которые встречаются на местах. Но самое интересное тут — принцип сбора данных. Суммарно 10 разметчиков подготовили 494 задачи, в среднем на одну уходило 4 часа. В самом начале процесса они искали и изучали учебные курсы/туториалы (больше 200 ссылок для доп. информации).

Из этих туториалов создавались задачи, но требовалось, чтобы как минимум 2 ключевых аспекта задачи были изменены. На практике это означает, что скорее всего используются те же инструменты, что и в туториале, но с немного другой целью / условиями и ограничениями по данным — всё это помогает предотвратить переобученность LLM под задачи. Например, в задаче оркестрации скриптов один проект для запуска меняется на другой, а также добавляется условие запуска ежедневно в 10 утра (в оригинальном уроке этого условия вообще не было).

Также каждая задача сопровождается некоторым количеством вспомогательного кода, который позволяет развернуть среду и запустить нужные приложения, то есть как бы имитировать рабочее пространство в момент времени начала решения. После окончания работы над задачей она независимо проверяется ещё двумя разметчиками, что они могут сами взять и повторить решение, и что всё работает. Так что потолок метрики доли решенных задач тут 100%.

В среднем, каждая задача требует обращения к 2.5 разным приложениям (включая терминал и IDE для написания кода). Все таски разделены на простые (не более 5 шагов для решения, где шаг — это нажатие на кнопку или этап написания кода) - 20%, средние (6-16 шагов) - 63%, и 17% сложных задач с более чем 15 шагами.

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view07:11

Data Engineering / reposts & drafts

Forwarded from Сиолошная

Примеры пары простых задачек:

1. Закинуть данные из папки в Google Drive в таблицу в BigQuery
2. Выгрузить топ-20 драматических фильмов из IMDB-таблички в Snowflake в csv доп. требованиями

Обе задачи решаются только кликами в UI и написанием простого кода запросов (тоже в браузере).

Больше примеров можно посмотреть вот тут — там прямо целые видео того, как GPT-4o справляется с задачами (больше 30 примеров)

1 view07:11

Data Engineering / reposts & drafts

Forwarded from Сиолошная

Выводы и результаты такие:
— для открытых LLM использовалось текстовое описание происходящего на экране, без картинок. Потому качество сильно хуже и его даже рассматривать не будем
— для фронтир VLM (GPT-4o, Claude-3) подаются картинки с экрана, а также ещё пара трюков: дополнительная информация в контекст (RAG над документацией) + Set-of-Mark (когда кнопки/текст на экране распознают и выделяют на картинке для модели)
— глобально решается 14% задач, что очень мало, но тут можно сделать много срезов
— например, простых задач решается уже 40% (сложных — 1.2%)
— также решается 20% задач, требующих только работу с графическим интерфейсом, без консоли или IDE
— (см. картинку) GPT-4V решает 25% задач на визуализацию, GPT-4o 24% на Data Ingestion
— GPT сильно превосходит модели Google и Anthropic

Так что пока живём, джунов не заменит. Но очень хочется, чтобы при релизе GPT-5 и Claude-3.5-Opus прям сразу рассказали про метрики на этом и схожих бенчмарках — чтобы понимать, какую долю работу мы скоро потеряем...

1 view07:11

Data Engineering / reposts & drafts

Forwarded from Сиолошная

Сиолошная

Понятно ли вам примерно, как именно «простая LLM которая генерирует следующее слово» решает эти задачи?

Anonymous Poll

15%

Да, прекрасно понимаю функционал агента

49%

Нууу очень примерно, плюс минус

37%

Нет, вообще не понимаю, модель же просто текст генерирует?

3.1K voters1 view07:11

Data Engineering / reposts & drafts

Forwarded from DE

📌Познавательная статья про фича-флаги.

Оказывается есть стандарт OpenFeature с которым фича-флаги выглядят ещё более удобными и привлекательными при разработке.

⏩

openfeature.dev
⏩OpenFeature GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view18:13

About

Blog

Apps

Platform