Как выстроить разметку для паноптической сегментации правильно?
Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?
Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.
Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!
Читать: https://habr.com/ru/companies/data_light/articles/884726/
#ru
@big_data_analysis | Другие наши каналы
Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?
Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.
Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!
Читать: https://habr.com/ru/companies/data_light/articles/884726/
#ru
@big_data_analysis | Другие наши каналы
Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос
Объяснили, как эффективно оптимизировать работу с большими данными, что такое проекции и как они помогают улучшить производительность запросов, особенно когда объем данных постоянно растет.
Реальные кейсы и полезные советы — в этой статье.
Объяснили, как эффективно оптимизировать работу с большими данными, что такое проекции и как они помогают улучшить производительность запросов, особенно когда объем данных постоянно растет.
Реальные кейсы и полезные советы — в этой статье.
В ClickHouse одна плоская таблица лучше, чем несколько соединенных таблиц
Данная статья о том, что в системе ClickHouse использование одной плоской таблицы (включая денормализованные таблицы) вместо нескольких таблиц, объединённых с помощью JOIN-операций, значительно повышает скорость выполнения запросов
Читать: https://habr.com/ru/articles/884932/
#ru
@big_data_analysis | Другие наши каналы
Данная статья о том, что в системе ClickHouse использование одной плоской таблицы (включая денормализованные таблицы) вместо нескольких таблиц, объединённых с помощью JOIN-операций, значительно повышает скорость выполнения запросов
Читать: https://habr.com/ru/articles/884932/
#ru
@big_data_analysis | Другие наши каналы
Работа над «DAX Fiddle» в виде Telegram бота
Для многих языков есть свои online песочницы, например, для POSTGRES есть условный PostgreSQL Fiddle, также и для аналитического языка DAX хотелось бы побольше подобных инструментов. Существующий dax.do позволяет выполнять запросы условно только на стандартной схеме Contoso, и в век AI хотелось бы иметь инструмент для быстрого выполнения DAX запросов для произвольной схемы данных. Также генерация самой схемы и заполнение её данными также являются трудоемкими, и хотелось бы отдать это всё AI.
Кроме того, сейчас популярны Telegram боты, в связи с этим появилась идея создания Telegram бота для выполнения DAX (и построения простейшего дашборда-таблицы) на произвольной схеме данных, с автоматически сгенерированными данными, своего рода DAX Fiddle. Интересующимся DAX Fiddle — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/885080/
#ru
@big_data_analysis | Другие наши каналы
Для многих языков есть свои online песочницы, например, для POSTGRES есть условный PostgreSQL Fiddle, также и для аналитического языка DAX хотелось бы побольше подобных инструментов. Существующий dax.do позволяет выполнять запросы условно только на стандартной схеме Contoso, и в век AI хотелось бы иметь инструмент для быстрого выполнения DAX запросов для произвольной схемы данных. Также генерация самой схемы и заполнение её данными также являются трудоемкими, и хотелось бы отдать это всё AI.
Кроме того, сейчас популярны Telegram боты, в связи с этим появилась идея создания Telegram бота для выполнения DAX (и построения простейшего дашборда-таблицы) на произвольной схеме данных, с автоматически сгенерированными данными, своего рода DAX Fiddle. Интересующимся DAX Fiddle — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/885080/
#ru
@big_data_analysis | Другие наши каналы
25 бесплатных курсов для начинающих аналитиков
Привет Хабр Меня зовут Алёна, я middle‑продуктовый аналитик. Мне нравится то, чем я занимаюсь, поэтому в свободное время я пишу полезные статьи и веду свой пока небольшой tg-канал про продуктовую аналитику.
Все мидлы и сеньоры когда-то были новичками, поэтому понимаю, тех, кто не знает с чего начать свой путь в аналитику. В этой статье делюсь полезными ссылками для тех, кто хочет с разных сторон пощупать эту профессию!
Читать: https://habr.com/ru/articles/885084/
#ru
@big_data_analysis | Другие наши каналы
Привет Хабр Меня зовут Алёна, я middle‑продуктовый аналитик. Мне нравится то, чем я занимаюсь, поэтому в свободное время я пишу полезные статьи и веду свой пока небольшой tg-канал про продуктовую аналитику.
Все мидлы и сеньоры когда-то были новичками, поэтому понимаю, тех, кто не знает с чего начать свой путь в аналитику. В этой статье делюсь полезными ссылками для тех, кто хочет с разных сторон пощупать эту профессию!
Читать: https://habr.com/ru/articles/885084/
#ru
@big_data_analysis | Другие наши каналы
YTsaurus SPYT: как мы перешли от форка Apache Spark к использованию оригинальной версии
Всем привет! Меня зовут Александр Токарев, я работаю в Yandex Infrastructure и занимаюсь интеграцией Apache Spark (далее просто Spark) с YTsaurus. В этой статье я расскажу про то, как мы сначала форкнули и пропатчили Spark, а потом вернулись к использованию оригинальной версии и поддержали совместимость с множеством других версий.
YTsaurus — это разработанная Яндексом система для хранения и обработки больших объёмов данных. Она активно развивается с 2010 года, а в 2023 году была выложена в опенсорс. Подробнее почитать про историю создания и выход YTsaurus в опенсорс можно в статье Максима Бабенко.
В какой‑то момент мы решили подружить YTsaurus и Spark. Так и родился проект SPYT powered by Apache Spark (далее просто SPYT), который активно развивается с 2019 года. Основательница проекта Саша Белоусова уже рассказывала, как были реализованы SPI Spark для работы со структурами данных YTsaurus — это набор классов, интерфейсов, методов, которые мы расширяем или реализуем. Во многом эта статья и моё выступление на HighLoad++ 2024 являются продолжением её доклада.
Читать: https://habr.com/ru/companies/yandex/articles/884442/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Александр Токарев, я работаю в Yandex Infrastructure и занимаюсь интеграцией Apache Spark (далее просто Spark) с YTsaurus. В этой статье я расскажу про то, как мы сначала форкнули и пропатчили Spark, а потом вернулись к использованию оригинальной версии и поддержали совместимость с множеством других версий.
YTsaurus — это разработанная Яндексом система для хранения и обработки больших объёмов данных. Она активно развивается с 2010 года, а в 2023 году была выложена в опенсорс. Подробнее почитать про историю создания и выход YTsaurus в опенсорс можно в статье Максима Бабенко.
В какой‑то момент мы решили подружить YTsaurus и Spark. Так и родился проект SPYT powered by Apache Spark (далее просто SPYT), который активно развивается с 2019 года. Основательница проекта Саша Белоусова уже рассказывала, как были реализованы SPI Spark для работы со структурами данных YTsaurus — это набор классов, интерфейсов, методов, которые мы расширяем или реализуем. Во многом эта статья и моё выступление на HighLoad++ 2024 являются продолжением её доклада.
Читать: https://habr.com/ru/companies/yandex/articles/884442/
#ru
@big_data_analysis | Другие наши каналы
Куда расти Data Scientist и какие навыки для этого нужны
Привет! Меня зовут Никита Зелинский, я Chief Data Scientist МТС, руководитель центра компетенций Data Science и ML-платформ МТС Big Data. На конференциях я часто слышу один и тот же вопрос от начинающих дата-сайентистов: как развиваться в своей сфере и прийти к успеху? Тут сразу напрашивается одно сравнение — рост в профессии напоминает тренировки в качалке. Чтобы добиться результата, нужен четкий план: что конкретно и когда прокачивать. Вот и в работе важно понимать, какие навыки развивать и как составить стратегию роста — от стажера до ведущего специалиста или Chief Data Scientist.
Сегодня будем разбираться, как выстроить этот путь. Расскажу, как работа дата-сайентистов устроена в МТС и какие есть направления развития для DS в целом. А еще поделюсь своим видением роли дата-сайентиста — оно не во всем совпадает с общепринятым, так что можете поспорить со мной в комментариях. Поехали!
Читать: https://habr.com/ru/companies/ru_mts/articles/885082/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Никита Зелинский, я Chief Data Scientist МТС, руководитель центра компетенций Data Science и ML-платформ МТС Big Data. На конференциях я часто слышу один и тот же вопрос от начинающих дата-сайентистов: как развиваться в своей сфере и прийти к успеху? Тут сразу напрашивается одно сравнение — рост в профессии напоминает тренировки в качалке. Чтобы добиться результата, нужен четкий план: что конкретно и когда прокачивать. Вот и в работе важно понимать, какие навыки развивать и как составить стратегию роста — от стажера до ведущего специалиста или Chief Data Scientist.
Сегодня будем разбираться, как выстроить этот путь. Расскажу, как работа дата-сайентистов устроена в МТС и какие есть направления развития для DS в целом. А еще поделюсь своим видением роли дата-сайентиста — оно не во всем совпадает с общепринятым, так что можете поспорить со мной в комментариях. Поехали!
Читать: https://habr.com/ru/companies/ru_mts/articles/885082/
#ru
@big_data_analysis | Другие наши каналы
Туториал об организации процесса разметки данных
Привет! Меня зовут Сизов Виктор, я занимаюсь данными, их сбором, анализом и разметкой последние 5 лет. Сейчас отвечаю за разметку в Альфа-Банке. Эту статьи мы писали всей командой и старались осветить подробно детали того, как устроены процессы разметки с технической и административной стороны. В статье мы рассмотрели:
— работу команды разметки, её взаимодействие с Заказчиком и Продуктом;
— отдельно разобрали аналитику, которая позволяет повышать качество разметки;
— рассмотрим поведение людей (разметчиков), паттерны их работы, а также использования генеративных моделей для решения части задач.
Читать: https://habr.com/ru/companies/alfa/articles/883822/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Сизов Виктор, я занимаюсь данными, их сбором, анализом и разметкой последние 5 лет. Сейчас отвечаю за разметку в Альфа-Банке. Эту статьи мы писали всей командой и старались осветить подробно детали того, как устроены процессы разметки с технической и административной стороны. В статье мы рассмотрели:
— работу команды разметки, её взаимодействие с Заказчиком и Продуктом;
— отдельно разобрали аналитику, которая позволяет повышать качество разметки;
— рассмотрим поведение людей (разметчиков), паттерны их работы, а также использования генеративных моделей для решения части задач.
Читать: https://habr.com/ru/companies/alfa/articles/883822/
#ru
@big_data_analysis | Другие наши каналы
👍2
Data Engineering — это не Software Engineering
Это мой вольный перевод статьи "Data Engineering is Not Software Engineering", с рядом моих правок, дополнений, а так же сокращений (так как автор склонен повторять одно и то же, но иными словами или излишне "разжевывать" очевидные вещи). Мне кажется, автор действительно поднял очень важную тему, которую я "чувствовал" по своей практике, но не мог сформулировать так точно, как это сделал он.
Мало кто задумывается, что дата-инженерия и разработка ПО имеют значительные различия. Поэтому распространено мнение, что некое отставание дата-инженерии в части внедрения современных методов разработки, таких как Agile, Test Driving Development и т.д. обусловлено лишь отставанием в освоении этих передовых практик.
На самом деле этот взгляд ошибочен. Хотя дата-инженерия и разработка ПО действительно имеют много общего, между ними существуют значительные различия. Игнорирование этих различий и управление командой дата-инженеров по тем же принципам, что и командой разработчиков ПО, является ошибкой. Особенно этим грешат относительно молодые менеджеры, или те, кто никогда не работал с "датой". Собственно, этим зачастую и вызваны ошибки в пименении "в лоб" соврмененых методой разработки. Дата-инженерия — как томат: технически это фрукт, но это не значит, что его стоит добавлять в фруктовый салат.
Читать: https://habr.com/ru/articles/883026/
#ru
@big_data_analysis | Другие наши каналы
Это мой вольный перевод статьи "Data Engineering is Not Software Engineering", с рядом моих правок, дополнений, а так же сокращений (так как автор склонен повторять одно и то же, но иными словами или излишне "разжевывать" очевидные вещи). Мне кажется, автор действительно поднял очень важную тему, которую я "чувствовал" по своей практике, но не мог сформулировать так точно, как это сделал он.
Мало кто задумывается, что дата-инженерия и разработка ПО имеют значительные различия. Поэтому распространено мнение, что некое отставание дата-инженерии в части внедрения современных методов разработки, таких как Agile, Test Driving Development и т.д. обусловлено лишь отставанием в освоении этих передовых практик.
На самом деле этот взгляд ошибочен. Хотя дата-инженерия и разработка ПО действительно имеют много общего, между ними существуют значительные различия. Игнорирование этих различий и управление командой дата-инженеров по тем же принципам, что и командой разработчиков ПО, является ошибкой. Особенно этим грешат относительно молодые менеджеры, или те, кто никогда не работал с "датой". Собственно, этим зачастую и вызваны ошибки в пименении "в лоб" соврмененых методой разработки. Дата-инженерия — как томат: технически это фрукт, но это не значит, что его стоит добавлять в фруктовый салат.
Читать: https://habr.com/ru/articles/883026/
#ru
@big_data_analysis | Другие наши каналы
Мама, у меня RAG: пути к улучшению, когда он «наивный»
В последние пару лет RAG (retrieval-augmented generation) стал одной из самых обсуждаемых технологий в области обработки текстов и поисковых систем. Его идея проста: объединить поиск (retrieval) и генерацию (generation), чтобы быстрее находить нужную информацию и создавать более точные тексты.
Рост объёмов данных и информационного шума привёл к тому, что классические методы поиска и генерации уже не всегда справляются с новыми задачами. Например, большие языковые модели без доступа к актуальной информации могут искажать факты, а традиционные поисковики при запросах на естественном языке дают слишком общий результат. RAG решает эти проблемы, добавляя дополнительный "слой знаний" за счёт внешних баз данных, что особенно полезно для чат-ботов, систем вопрос-ответ, рекомендательных сервисов и многих других приложений.
Целью данной статьи является погружение читателя в технологию RAG, а также ознакомление с основными критериями и методами его улучшения. В этой статье мы обсудим, как именно устроен RAG, как правильно оценивать его эффективность и какие существуют техники улучшения – от уже известных методов до совершенно новых решений.
Читать: https://habr.com/ru/articles/885770/
#ru
@big_data_analysis | Другие наши каналы
В последние пару лет RAG (retrieval-augmented generation) стал одной из самых обсуждаемых технологий в области обработки текстов и поисковых систем. Его идея проста: объединить поиск (retrieval) и генерацию (generation), чтобы быстрее находить нужную информацию и создавать более точные тексты.
Рост объёмов данных и информационного шума привёл к тому, что классические методы поиска и генерации уже не всегда справляются с новыми задачами. Например, большие языковые модели без доступа к актуальной информации могут искажать факты, а традиционные поисковики при запросах на естественном языке дают слишком общий результат. RAG решает эти проблемы, добавляя дополнительный "слой знаний" за счёт внешних баз данных, что особенно полезно для чат-ботов, систем вопрос-ответ, рекомендательных сервисов и многих других приложений.
Целью данной статьи является погружение читателя в технологию RAG, а также ознакомление с основными критериями и методами его улучшения. В этой статье мы обсудим, как именно устроен RAG, как правильно оценивать его эффективность и какие существуют техники улучшения – от уже известных методов до совершенно новых решений.
Читать: https://habr.com/ru/articles/885770/
#ru
@big_data_analysis | Другие наши каналы
Preprocessing pandas dataframes. Предварительная обработка данных в пандас датафреймах
Обработка датафреймов: ключевые аспекты и инструменты
Датафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами.
Читать: https://habr.com/ru/articles/885828/
#ru
@big_data_analysis | Другие наши каналы
Обработка датафреймов: ключевые аспекты и инструменты
Датафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами.
Читать: https://habr.com/ru/articles/885828/
#ru
@big_data_analysis | Другие наши каналы
Безопасность личных данных в Oracle
Пост: Как Oracle защищает личные данные? Информация, такая как имя, адрес, телефон и социальный номер, считается чувствительной и требует особой защиты. Узнайте, как Oracle обеспечивает безопасность ваших данных в своих приложениях и базах данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Как Oracle защищает личные данные? Информация, такая как имя, адрес, телефон и социальный номер, считается чувствительной и требует особой защиты. Узнайте, как Oracle обеспечивает безопасность ваших данных в своих приложениях и базах данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Oracle Analytics and Personal Identifiable Information
Oracle Personal Identifiable Information (PII) refers to any piece of data that can be used to uniquely identify a person, such as their name, address, phone number, email address, or social security number, when stored within Oracle systems. It's any information…
Защита PII данных в системах Oracle
Личные идентификационные данные (PII), такие как имя, адрес, телефон, email и номер соцстрахования, требуют особой защиты в системах Oracle. Эти данные могут использоваться для идентификации или связи с человеком, и их безопасность в приложениях Oracle является приоритетом.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Личные идентификационные данные (PII), такие как имя, адрес, телефон, email и номер соцстрахования, требуют особой защиты в системах Oracle. Эти данные могут использоваться для идентификации или связи с человеком, и их безопасность в приложениях Oracle является приоритетом.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Oracle Analytics and Personal Identifiable Information
Oracle Personal Identifiable Information (PII) refers to any piece of data that can be used to uniquely identify a person, such as their name, address, phone number, email address, or social security number, when stored within Oracle systems. It's any information…
Возможности комбинаторов в ClickHouse
Что делать с запросами к СУБД, выполнение которых затягивается на десятки минут, как можно оптимизировать вложенные операторы, чтобы получить нужные данные за секунды? За счет чего подобные операции выполняются в Visiology автоматически? Ответы на эти вопросы мы попробуем дать сегодня на примере небольшого синтетического теста со сложным SQL-запросом, и разберемся при чем тут комбинаторы в ClickHouse. Эта статья будет полезна тем, кто интересуется SQL-оптимизаторами, а также всем существующим и будущим пользователям Visiology, кто хочет заглянуть под капот системы. Если вы из их числа, добро пожаловать под кат :)
Читать: https://habr.com/ru/companies/visiology/articles/885928/
#ru
@big_data_analysis | Другие наши каналы
Что делать с запросами к СУБД, выполнение которых затягивается на десятки минут, как можно оптимизировать вложенные операторы, чтобы получить нужные данные за секунды? За счет чего подобные операции выполняются в Visiology автоматически? Ответы на эти вопросы мы попробуем дать сегодня на примере небольшого синтетического теста со сложным SQL-запросом, и разберемся при чем тут комбинаторы в ClickHouse. Эта статья будет полезна тем, кто интересуется SQL-оптимизаторами, а также всем существующим и будущим пользователям Visiology, кто хочет заглянуть под капот системы. Если вы из их числа, добро пожаловать под кат :)
Читать: https://habr.com/ru/companies/visiology/articles/885928/
#ru
@big_data_analysis | Другие наши каналы
Байесовская оценка А/Б-тестов
Описана механика А/Б-тестов. Рассмотрены примеры байесовского моделирования. Байесовская оценка применена к сравнению конверсий, средних с помощью центральной предельной теоремы, выручки на пользователя, заказов на посетителя.
Читать
Читать: https://habr.com/ru/articles/885936/
#ru
@big_data_analysis | Другие наши каналы
Описана механика А/Б-тестов. Рассмотрены примеры байесовского моделирования. Байесовская оценка применена к сравнению конверсий, средних с помощью центральной предельной теоремы, выручки на пользователя, заказов на посетителя.
Читать
Читать: https://habr.com/ru/articles/885936/
#ru
@big_data_analysis | Другие наши каналы
ИИ в ЭДО: история одного кейса для хакатона от МТС
Привет, Хабр! Меня зовут Константин Архипов, я scrum-мастер продукта «Среда ЭДО» в МТС. Осенью 2024 года Университет Иннополис пригласил нас поделиться кейсом для хакатона INNOGLOBALHACK. Со стороны кажется, что это достаточно простая задача: даем студентам датасет от компании, описываем требования и смотрим их решения. Но на практике нужно сформулировать гипотезу, учесть кучу факторов и проверить, что задачу вообще можно решить. В этом посте я расскажу, как мы готовили свой кейс и что получилось у студентов по нашему датасету.
Читать: https://habr.com/ru/companies/ru_mts/articles/886038/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Константин Архипов, я scrum-мастер продукта «Среда ЭДО» в МТС. Осенью 2024 года Университет Иннополис пригласил нас поделиться кейсом для хакатона INNOGLOBALHACK. Со стороны кажется, что это достаточно простая задача: даем студентам датасет от компании, описываем требования и смотрим их решения. Но на практике нужно сформулировать гипотезу, учесть кучу факторов и проверить, что задачу вообще можно решить. В этом посте я расскажу, как мы готовили свой кейс и что получилось у студентов по нашему датасету.
Читать: https://habr.com/ru/companies/ru_mts/articles/886038/
#ru
@big_data_analysis | Другие наши каналы
Airflow. Основы airflow. Работа с дагами. Dags example
Apache Airflow — открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных. 1
Изначально разработан в Airbnb в октябре 2014 года. В марте 2016 года стал проектом Apache Incubator, в январе 2019 года — проектом верхнего уровня Apache Software Foundation. 1
Airflow подходит не только для ETL-процессов, но и для автоматизации других задач, например, создания и отправки отчётов, управления инфраструктурой. 2
Некоторые области применения Airflow:
Инженерам данных — для проектирования, разработки и обслуживания систем обработки данных. 2
Аналитикам и специалистам по Data Science— для построения витрин данных, отчётов и подготовки данных для машинного обучения. 2
Разработчикам — для автоматизации загрузки данных для тестирования приложения, настройки обмена информацией между базами данных или с внешними системами. 2
Менеджерам проектов — для планирования и мониторинга процессов обработки данных.
Читать: https://habr.com/ru/articles/886250/
#ru
@big_data_analysis | Другие наши каналы
Apache Airflow — открытое программное обеспечение для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных. 1
Изначально разработан в Airbnb в октябре 2014 года. В марте 2016 года стал проектом Apache Incubator, в январе 2019 года — проектом верхнего уровня Apache Software Foundation. 1
Airflow подходит не только для ETL-процессов, но и для автоматизации других задач, например, создания и отправки отчётов, управления инфраструктурой. 2
Некоторые области применения Airflow:
Инженерам данных — для проектирования, разработки и обслуживания систем обработки данных. 2
Аналитикам и специалистам по Data Science— для построения витрин данных, отчётов и подготовки данных для машинного обучения. 2
Разработчикам — для автоматизации загрузки данных для тестирования приложения, настройки обмена информацией между базами данных или с внешними системами. 2
Менеджерам проектов — для планирования и мониторинга процессов обработки данных.
Читать: https://habr.com/ru/articles/886250/
#ru
@big_data_analysis | Другие наши каналы
Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse
Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.
Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.
Всплыть
Читать: https://habr.com/ru/companies/arenadata/articles/885722/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Алексей Струченко, я работаю архитектором информационных систем в Arenadata. Сегодня хотелось бы поговорить о хранилищах данных — их видах, ключевых особенностях и о том, как выбрать подходящее решение. В эпоху цифровой трансформации данные стали одним из самых ценных активов для компаний любого масштаба и сферы деятельности. Эффективное хранение, обработка и анализ больших объёмов данных помогают организациям принимать обоснованные решения, повышать операционную эффективность и создавать конкурентные преимущества.
Однако с ростом объёмов данных и усложнением их структуры традиционные методы хранения сталкиваются с ограничениями. В этой статье мы подробно рассмотрим подходы к хранению данных: Data Warehouse (DWH), Data Lake и относительно новую концепцию Lakehouse. Разберем их особенности, различия, преимущества и недостатки, а также предложим рекомендации по выбору каждого подхода.
Всплыть
Читать: https://habr.com/ru/companies/arenadata/articles/885722/
#ru
@big_data_analysis | Другие наши каналы
❤2
Бенчмаркинг AI-агентов: оценка производительности в реальных задачах
AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов.
Чтобы AI-система была надежной и последовательной, важно понимать типы AI-агентов и уметь их правильно оценивать. Для этого используются продвинутые методики и проверенные фреймворки оценки AI-агентов.
В этой статье мы рассмотрим ключевые метрики, лучшие практики и основные вызовы, с которыми сталкиваются компании при оценке AI-агентов в корпоративных средах.
Читать: https://habr.com/ru/articles/886198/
#ru
@big_data_analysis | Другие наши каналы
AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов.
Чтобы AI-система была надежной и последовательной, важно понимать типы AI-агентов и уметь их правильно оценивать. Для этого используются продвинутые методики и проверенные фреймворки оценки AI-агентов.
В этой статье мы рассмотрим ключевые метрики, лучшие практики и основные вызовы, с которыми сталкиваются компании при оценке AI-агентов в корпоративных средах.
Читать: https://habr.com/ru/articles/886198/
#ru
@big_data_analysis | Другие наши каналы
🎯 Лучшие расширения VSCode для дата-инженеров
Ищете готовую настройку Visual Studio Code для дата-инженеров? В статье представлены топовые расширения, такие как Gitlens, SQL Tools и Jupyter Notebook. Они помогут ускорить вашу работу и улучшить продуктивность. Узнайте, как настроить и поделиться своими средами разработки!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Ищете готовую настройку Visual Studio Code для дата-инженеров? В статье представлены топовые расширения, такие как Gitlens, SQL Tools и Jupyter Notebook. Они помогут ускорить вашу работу и улучшить продуктивность. Узнайте, как настроить и поделиться своими средами разработки!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы