Data Engineering / reposts & drafts

Forwarded from Алексей Пятов (Data&AI)

Apache Iceberg: The Definitive Guide

2 views03:41

Data Engineering / reposts & drafts

Forwarded from Dmitry

Алексей Пятов (Data&AI)

Спасибо за напоминание! Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять). В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload…

Databricks и unity catalog нормально все делают для security, но для snowflake Lakehouse им далеко, но там закрытый формат

2 views03:41

Data Engineering / reposts & drafts

https://spider2-v.github.io/

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Igor Iakubovskii

Дмитрий, пользуясь случаем, что я хорошо выпил, хочу передать вам, что вы очень хороший человек и ваши мысли всегда очень конкретны, по делу и актуальны.

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Dmitry

Igor Iakubovskii

Игорь спасибо! Я бы с вами тоже выпил! Хорошо отдохнуть!

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Maksim

Data Engineering / reposts & drafts

Игорь спасибо! Я бы с вами тоже выпил! Хорошо отдохнуть!

Дмитрий, можешь сбросить в канал интересный проект - бенчмарк по оценке, когда llm смогут нашу Data работу делать. Пока можно не сильно беспокоиться, но видимо не долго 😂

https://spider2-v.github.io/

3 views03:48

Data Engineering / reposts & drafts

Forwarded from Dmitry

Data Engineering / reposts & drafts

Шляпа какая то

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Maksim

Data Engineering / reposts & drafts

Шляпа какая то

Нет, не шляпа. Потом опубликуешь, когда начнут в линкединах про это писать или когда gpt5 выйдет.

2 views03:48

Data Engineering / reposts & drafts

Forwarded from Dmitry

Data Engineering / reposts & drafts

Нет, не шляпа. Потом опубликуешь, когда начнут в линкединах про это писать или когда gpt5 выйдет.

Ок босс!

1 view03:48

Data Engineering / reposts & drafts

Forwarded from Сиолошная

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Хорошие бенчмарки для ИИ-агентов — это нам надо обязательно (особенно в преддверии GPT-5 / Gemini-2). Есть отдельное направление бенчмарков, которые симулируют работу с привычными нам инструментами — с сайтами или приложениями, которыми специалисты пользуются в работе каждый день (WorkArena, WebArena, OSWorld).

В данной работе, созданной в коллаборации нескольких компаний и учебных заведений (преимущественно, китайских), создается бенчмарк для оценки ИИ-агентов в дата-инженерии и дата-саенс (джуны-вкатыватели напряглись). Покрыт полный цикл, разделённый на 5 компонент (в скобках — поддерживаемые инструменты):
— Data Warehousing (Snowflake, BigQuery)
— Data Ingestion (Airbyte, никогда не пользовался)
— Data Transformation (dbt)
— Data Visualization (Superset, Metabase)
— Data Orchestration (Airflow, Dagster)
(а ещё есть эксели, куда без них, 😥)

В общем, если вы касались дата-инженерии, то понимаете, что набор увесистый, и хоть и не покрывает всего зоопарка решений, которые встречаются на местах. Но самое интересное тут — принцип сбора данных. Суммарно 10 разметчиков подготовили 494 задачи, в среднем на одну уходило 4 часа. В самом начале процесса они искали и изучали учебные курсы/туториалы (больше 200 ссылок для доп. информации).

Из этих туториалов создавались задачи, но требовалось, чтобы как минимум 2 ключевых аспекта задачи были изменены. На практике это означает, что скорее всего используются те же инструменты, что и в туториале, но с немного другой целью / условиями и ограничениями по данным — всё это помогает предотвратить переобученность LLM под задачи. Например, в задаче оркестрации скриптов один проект для запуска меняется на другой, а также добавляется условие запуска ежедневно в 10 утра (в оригинальном уроке этого условия вообще не было).

Также каждая задача сопровождается некоторым количеством вспомогательного кода, который позволяет развернуть среду и запустить нужные приложения, то есть как бы имитировать рабочее пространство в момент времени начала решения. После окончания работы над задачей она независимо проверяется ещё двумя разметчиками, что они могут сами взять и повторить решение, и что всё работает. Так что потолок метрики доли решенных задач тут 100%.

В среднем, каждая задача требует обращения к 2.5 разным приложениям (включая терминал и IDE для написания кода). Все таски разделены на простые (не более 5 шагов для решения, где шаг — это нажатие на кнопку или этап написания кода) - 20%, средние (6-16 шагов) - 63%, и 17% сложных задач с более чем 15 шагами.

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view07:11

Data Engineering / reposts & drafts

Forwarded from Сиолошная

Примеры пары простых задачек:

1. Закинуть данные из папки в Google Drive в таблицу в BigQuery
2. Выгрузить топ-20 драматических фильмов из IMDB-таблички в Snowflake в csv доп. требованиями

Обе задачи решаются только кликами в UI и написанием простого кода запросов (тоже в браузере).

Больше примеров можно посмотреть вот тут — там прямо целые видео того, как GPT-4o справляется с задачами (больше 30 примеров)

1 view07:11

Data Engineering / reposts & drafts

Forwarded from Сиолошная

Выводы и результаты такие:
— для открытых LLM использовалось текстовое описание происходящего на экране, без картинок. Потому качество сильно хуже и его даже рассматривать не будем
— для фронтир VLM (GPT-4o, Claude-3) подаются картинки с экрана, а также ещё пара трюков: дополнительная информация в контекст (RAG над документацией) + Set-of-Mark (когда кнопки/текст на экране распознают и выделяют на картинке для модели)
— глобально решается 14% задач, что очень мало, но тут можно сделать много срезов
— например, простых задач решается уже 40% (сложных — 1.2%)
— также решается 20% задач, требующих только работу с графическим интерфейсом, без консоли или IDE
— (см. картинку) GPT-4V решает 25% задач на визуализацию, GPT-4o 24% на Data Ingestion
— GPT сильно превосходит модели Google и Anthropic

Так что пока живём, джунов не заменит. Но очень хочется, чтобы при релизе GPT-5 и Claude-3.5-Opus прям сразу рассказали про метрики на этом и схожих бенчмарках — чтобы понимать, какую долю работу мы скоро потеряем...

1 view07:11

Data Engineering / reposts & drafts

Forwarded from Сиолошная

Сиолошная

Понятно ли вам примерно, как именно «простая LLM которая генерирует следующее слово» решает эти задачи?

Anonymous Poll

15%

Да, прекрасно понимаю функционал агента

49%

Нууу очень примерно, плюс минус

37%

Нет, вообще не понимаю, модель же просто текст генерирует?

3.1K voters1 view07:11

Data Engineering / reposts & drafts

Forwarded from DE

📌Познавательная статья про фича-флаги.

Оказывается есть стандарт OpenFeature с которым фича-флаги выглядят ещё более удобными и привлекательными при разработке.

⏩

openfeature.dev
⏩OpenFeature GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view18:13

Data Engineering / reposts & drafts

Forwarded from DE

📌Познавательная статья про фича-флаги. Оказывается есть стандарт OpenFeature с которым фича-флаги выглядят ещё более удобными и привлекательными при разработке. ⏩openfeature.dev ⏩OpenFeature GitHub

Feature flags (или флаги функций) важный инструмент в современном программировании. Они позволяют тебе включать и выключать определённые функции в коде без необходимости вносить изменения в основной код базы. Это особенно полезно при разработке и тестировании новых функций.

✔️

Преимущества использования feature flags

1️⃣

Контроль над функциями:
Можно безопасно тестировать новые функции на ограниченной группе пользователей.

2️⃣

Ускорение разработки:
Новые функции могут быть внедрены быстрее, так как их можно включать или выключать без релиза новой версии приложения.

3️⃣

Уменьшение риска:
Если новая функция вызывает проблемы, её можно быстро отключить, минимизируя влияние на пользователей.

4️⃣

Персонализация:
Различные пользователи могут видеть разные наборы функций в зависимости от своих предпочтений, групп или политик безопасности.

✅

Влияние feature flags на кодовые базы

1️⃣

Усложнение кода:
При неправильном использовании количество условий в коде (многообразие if-elif, которые ты так любишь 🙃) может увеличиться, что сделает его сложнее для чтения и сопровождения.

2️⃣

Тестирование:
Необходимо тестировать каждую комбинацию включённых и выключенных флагов, что может увеличить объём работы тестировщиков.

3️⃣

Технический долг:
Если feature flags не удаляются после стабилизации функции, они могут накопить технический долг, усложняя кодовую базу.

📎

Заключение

Feature flags являются мощным инструментом при правильном использовании, помогая управлять развитием продукта и уменьшать риски. Однако важно следить за их количеством и своевременно удалять неиспользуемые флаги, чтобы поддерживать кодовую базу в чистоте.

#dev #featureflags #if

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views18:13

Data Engineering / reposts & drafts

https://www.datanami.com/2024/07/08/dont-believe-the-big-database-hype-stonebraker-warns/

YandexGPT
краткий пересказ статьи от нейросети

Не верьте шумихе вокруг базы данных, предупреждает Стоунбрейкер

Кратко

Подробно
◦ Обзор состояния баз данных
◦ • Реляционные базы данных (RM) доминируют, но их будущее под вопросом.
◦ • Новые технологии, такие как NoSQL, не смогли заменить RM.
◦ • Некоторые технологии, такие как Hadoop и MapReduce, устарели.
•
◦ Тенденции в базах данных
◦ • Хранилища ключей и значений и хранилища документов эволюционировали, но не вытеснили RM.
◦ • Столбчатые базы данных и векторные базы данных имеют ограниченное будущее.
◦ • Базы данных Graph и облачные базы данных стали популярными.
•
◦ Архитектура баз данных
◦ • Хранилища данных в столбцах и облачные базы данных доминируют на рынке.
◦ • Хранилища данных / Lakehouses предлагают гибкость для обработки данных не-SQL.
◦ • Системы NewSQL не получили широкого распространения.
◦ • Аппаратные ускорители баз данных не оправдали затрат.
•
◦ Базы данных блокчейна
◦ • Базы данных блокчейна не нашли широкого применения за пределами Даркнета.
•
◦ Будущее разработки баз данных
◦ • Сообщество баз данных должно стремиться к стандартизации и открытому исходному коду.
◦ • Необходимо извлекать уроки из истории и стремиться к постоянному развитию.
•
◦ Сопутствующие товары и поставщики
◦ • Статья содержит ссылки на дополнительные материалы и продукты от различных поставщиков.
•
◦ Теги
◦ • В статье используются различные теги для описания различных аспектов баз данных.
•

Datanami

Don’t Believe the Big Database Hype, Stonebraker Warns

How we store and serve data are critical factors in what we can do with data, and today we want to do oh-so much. That big data necessity is the mother of

5 viewsedited 21:14

Data Engineering / reposts & drafts

Forwarded from Alex. Seconds.

10:07

Media is too big

VIEW IN TELEGRAM

📈Weekly Data Stand-Up — 📆22.07.2024

Текущие задачи/планы:
• CrowdStrike наносит удар, но не по нам
• Snowflake UDTF все-таки заработала
• Grafana Alerts по метрикам (или их отсутствию) из Airflow
• нехватка open source коннекторов, но смотрим на Airbyte
• планы добавить линтеры и форматеры для SQL/dbt (SQLfluff) и HCL (tflint)

Предложения/вопросы из чата:
• передача метрик GitHub через OpenTelemetry

Спасибо всем, кто забежал поучаствовать ранним утром понедельника💙

P.S.: кстати, если кто-то хочет поучаствовать в таком формате #weeklydatastandup и рассказать о своих текущих задачах/сложностях/успехах, пишите мне и присоединяйтесь в роли спикера!

3 views07:10

Data Engineering / reposts & drafts

Forwarded from Data1984

DataFrames at Scale Comparison: TPC-H

https://docs.coiled.io/blog/tpch.html

3 views13:46

Data Engineering / reposts & drafts

Forwarded from Руслан

Всем привет. Посоветуйте пожалуйста пару курсов или статей по проектированию хранилищ данных, построение правильных молей данных ( слои, интеграции, олап кубы)?

3 views11:59

Data Engineering / reposts & drafts

Forwarded from Andre

Руслан

А что значит правильные модели?

3 views11:59

Data Engineering / reposts & drafts

Forwarded from Vadim

Руслан

Литературы очень мало, причем, понятия различаются.
Попробуй начать с этого ресурса
https://dataengineering.wiki/Concepts/Concepts

Data Engineering Wiki

Concepts - Data Engineering Wiki