Улучшите ваши дашборды в Oracle Analytics!
Пост: Хотите создавать динамичные заголовки и описания в Oracle Analytics? Используйте параметры для усиления повествовательного эффекта ваших дашбордов. Узнайте, как сделать данные более привлекательными и информативными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Хотите создавать динамичные заголовки и описания в Oracle Analytics? Используйте параметры для усиления повествовательного эффекта ваших дашбордов. Узнайте, как сделать данные более привлекательными и информативными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Dynamic Text Boxes in Oracle Analytics
Impactful titles and descriptions in dashboards help users quickly grasp key insights.
In Oracle Analytics, storytelling can be enhanced by integrating dynamic measures and attributes into text boxes using parameters. With parameters, SQL queries can be…
In Oracle Analytics, storytelling can be enhanced by integrating dynamic measures and attributes into text boxes using parameters. With parameters, SQL queries can be…
«Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию
xAI представила Grok 3 — «умнейший ИИ в истории», который превзошёл ChatGPT в анализе данных, генерации кода и поиске информации
Читать: ««Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию»
#ru
@big_data_analysis | Другие наши каналы
xAI представила Grok 3 — «умнейший ИИ в истории», который превзошёл ChatGPT в анализе данных, генерации кода и поиске информации
Читать: ««Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию»
#ru
@big_data_analysis | Другие наши каналы
Дружим GX и Impala
Подробные шаги и полезные советы, которые помогут всем, кто хочет улучшить качество обработки данных в своих проектах. Читайте и проверяйте на практике: https://tprg.ru/tpKD
Подробные шаги и полезные советы, которые помогут всем, кто хочет улучшить качество обработки данных в своих проектах. Читайте и проверяйте на практике: https://tprg.ru/tpKD
Dagster: новый стандарт для ETL в 2025?
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
Читать: https://habr.com/ru/articles/883700/
#ru
@big_data_analysis | Другие наши каналы
Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:
Читать: https://habr.com/ru/articles/883700/
#ru
@big_data_analysis | Другие наши каналы
Функции или классы: что выбрать для Python data pipelines?
В статье рассматривается, как конструкции Python — функции и объектно-ориентированное программирование (ООП) — применимы в data pipelines. Функции облегчают создание понятного и тестируемого кода для преобразования данных. ООП удобно для поддержания состояния, текущих соединений и конфигураций. Комбинация подходов может упростить разработку и сопровождение сложных проектов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассматривается, как конструкции Python — функции и объектно-ориентированное программирование (ООП) — применимы в data pipelines. Функции облегчают создание понятного и тестируемого кода для преобразования данных. ООП удобно для поддержания состояния, текущих соединений и конфигураций. Комбинация подходов может упростить разработку и сопровождение сложных проектов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Модульный подход к поддержке SQL скриптов
Как превратить 1000 строк запутанного SQL-кода в легко поддерживаемый и модульный пайплайн данных? В статье рассказывается о разбиении SQL на функции с юнит-тестами, что упрощает его поддержку и модификацию, делая работу с данными проще и быстрее.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как превратить 1000 строк запутанного SQL-кода в легко поддерживаемый и модульный пайплайн данных? В статье рассказывается о разбиении SQL на функции с юнит-тестами, что упрощает его поддержку и модификацию, делая работу с данными проще и быстрее.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как избежать несоответствий в метриках данных
Ищете способы обеспечения консистентности метрик в вашем дата-центре? Статья рассказывает о двух подходах: использование семантического слоя для гибких запросов и предагрегированных таблиц для простых случаев. Узнайте, как выбрать оптимальный метод для вашей команды.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Ищете способы обеспечения консистентности метрик в вашем дата-центре? Статья рассказывает о двух подходах: использование семантического слоя для гибких запросов и предагрегированных таблиц для простых случаев. Узнайте, как выбрать оптимальный метод для вашей команды.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как пройти собеседование по проектированию систем в Data Engineering?
Собираетесь на собеседование по проектированию систем в Data Engineering? Узнайте, как шаг за шагом провести интервьюера через анализ требований, проектирование моделей данных, создание и обеспечение качества данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Собираетесь на собеседование по проектированию систем в Data Engineering? Узнайте, как шаг за шагом провести интервьюера через анализ требований, проектирование моделей данных, создание и обеспечение качества данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как использовать seed данные из другого dbt проекта?
У вашей компании несколько dbt проектов, и вы хотите использовать seed данные из одного проекта в другом? Эта статья от Start Data Engineering рассказывает о том, как настроить dbt-пакеты для повторного использования данных и моделей между проектами. Узнайте, как правильно организовать кросс-проектные зависимости в dbt.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
У вашей компании несколько dbt проектов, и вы хотите использовать seed данные из одного проекта в другом? Эта статья от Start Data Engineering рассказывает о том, как настроить dbt-пакеты для повторного использования данных и моделей между проектами. Узнайте, как правильно организовать кросс-проектные зависимости в dbt.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов
Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом.
Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных.
Читать: https://habr.com/ru/companies/cdek_blog/articles/881618/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом.
Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных.
Читать: https://habr.com/ru/companies/cdek_blog/articles/881618/
#ru
@big_data_analysis | Другие наши каналы
Код устареет, принципы — останутся: подборка книг для мидлов и сеньоров в Data Science
Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.
Это вторая часть книжной подборки — в первой книги для джунов.
Читать: https://habr.com/ru/companies/ozonbank/articles/884310/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.
Это вторая часть книжной подборки — в первой книги для джунов.
Читать: https://habr.com/ru/companies/ozonbank/articles/884310/
#ru
@big_data_analysis | Другие наши каналы
👍2
MapReduce: гид для начинающих
Разберем роль модели MapReduce в составе Hadoop, а также расскажем, как использовать его отдельно и насколько это эффективно.
Читать: https://habr.com/ru/companies/skillfactory/articles/882328/
#ru
@big_data_analysis | Другие наши каналы
Разберем роль модели MapReduce в составе Hadoop, а также расскажем, как использовать его отдельно и насколько это эффективно.
Читать: https://habr.com/ru/companies/skillfactory/articles/882328/
#ru
@big_data_analysis | Другие наши каналы
От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков
Максим Коновалов расскажет, как стал Data Scientist в МТС, пройдя школу аналитиков данных МТС и стажировку.
Читать: «От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков»
#ru
@big_data_analysis | Другие наши каналы
Максим Коновалов расскажет, как стал Data Scientist в МТС, пройдя школу аналитиков данных МТС и стажировку.
Читать: «От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков»
#ru
@big_data_analysis | Другие наши каналы
Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа
Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.
Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.
Читать дальше
Читать: https://habr.com/ru/companies/mpstats/articles/884344/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.
Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.
Читать дальше
Читать: https://habr.com/ru/companies/mpstats/articles/884344/
#ru
@big_data_analysis | Другие наши каналы
Как выстроить разметку для паноптической сегментации правильно?
Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?
Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.
Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!
Читать: https://habr.com/ru/companies/data_light/articles/884726/
#ru
@big_data_analysis | Другие наши каналы
Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?
Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.
Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!
Читать: https://habr.com/ru/companies/data_light/articles/884726/
#ru
@big_data_analysis | Другие наши каналы
Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос
Объяснили, как эффективно оптимизировать работу с большими данными, что такое проекции и как они помогают улучшить производительность запросов, особенно когда объем данных постоянно растет.
Реальные кейсы и полезные советы — в этой статье.
Объяснили, как эффективно оптимизировать работу с большими данными, что такое проекции и как они помогают улучшить производительность запросов, особенно когда объем данных постоянно растет.
Реальные кейсы и полезные советы — в этой статье.
В ClickHouse одна плоская таблица лучше, чем несколько соединенных таблиц
Данная статья о том, что в системе ClickHouse использование одной плоской таблицы (включая денормализованные таблицы) вместо нескольких таблиц, объединённых с помощью JOIN-операций, значительно повышает скорость выполнения запросов
Читать: https://habr.com/ru/articles/884932/
#ru
@big_data_analysis | Другие наши каналы
Данная статья о том, что в системе ClickHouse использование одной плоской таблицы (включая денормализованные таблицы) вместо нескольких таблиц, объединённых с помощью JOIN-операций, значительно повышает скорость выполнения запросов
Читать: https://habr.com/ru/articles/884932/
#ru
@big_data_analysis | Другие наши каналы
Работа над «DAX Fiddle» в виде Telegram бота
Для многих языков есть свои online песочницы, например, для POSTGRES есть условный PostgreSQL Fiddle, также и для аналитического языка DAX хотелось бы побольше подобных инструментов. Существующий dax.do позволяет выполнять запросы условно только на стандартной схеме Contoso, и в век AI хотелось бы иметь инструмент для быстрого выполнения DAX запросов для произвольной схемы данных. Также генерация самой схемы и заполнение её данными также являются трудоемкими, и хотелось бы отдать это всё AI.
Кроме того, сейчас популярны Telegram боты, в связи с этим появилась идея создания Telegram бота для выполнения DAX (и построения простейшего дашборда-таблицы) на произвольной схеме данных, с автоматически сгенерированными данными, своего рода DAX Fiddle. Интересующимся DAX Fiddle — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/885080/
#ru
@big_data_analysis | Другие наши каналы
Для многих языков есть свои online песочницы, например, для POSTGRES есть условный PostgreSQL Fiddle, также и для аналитического языка DAX хотелось бы побольше подобных инструментов. Существующий dax.do позволяет выполнять запросы условно только на стандартной схеме Contoso, и в век AI хотелось бы иметь инструмент для быстрого выполнения DAX запросов для произвольной схемы данных. Также генерация самой схемы и заполнение её данными также являются трудоемкими, и хотелось бы отдать это всё AI.
Кроме того, сейчас популярны Telegram боты, в связи с этим появилась идея создания Telegram бота для выполнения DAX (и построения простейшего дашборда-таблицы) на произвольной схеме данных, с автоматически сгенерированными данными, своего рода DAX Fiddle. Интересующимся DAX Fiddle — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/885080/
#ru
@big_data_analysis | Другие наши каналы
25 бесплатных курсов для начинающих аналитиков
Привет Хабр Меня зовут Алёна, я middle‑продуктовый аналитик. Мне нравится то, чем я занимаюсь, поэтому в свободное время я пишу полезные статьи и веду свой пока небольшой tg-канал про продуктовую аналитику.
Все мидлы и сеньоры когда-то были новичками, поэтому понимаю, тех, кто не знает с чего начать свой путь в аналитику. В этой статье делюсь полезными ссылками для тех, кто хочет с разных сторон пощупать эту профессию!
Читать: https://habr.com/ru/articles/885084/
#ru
@big_data_analysis | Другие наши каналы
Привет Хабр Меня зовут Алёна, я middle‑продуктовый аналитик. Мне нравится то, чем я занимаюсь, поэтому в свободное время я пишу полезные статьи и веду свой пока небольшой tg-канал про продуктовую аналитику.
Все мидлы и сеньоры когда-то были новичками, поэтому понимаю, тех, кто не знает с чего начать свой путь в аналитику. В этой статье делюсь полезными ссылками для тех, кто хочет с разных сторон пощупать эту профессию!
Читать: https://habr.com/ru/articles/885084/
#ru
@big_data_analysis | Другие наши каналы
YTsaurus SPYT: как мы перешли от форка Apache Spark к использованию оригинальной версии
Всем привет! Меня зовут Александр Токарев, я работаю в Yandex Infrastructure и занимаюсь интеграцией Apache Spark (далее просто Spark) с YTsaurus. В этой статье я расскажу про то, как мы сначала форкнули и пропатчили Spark, а потом вернулись к использованию оригинальной версии и поддержали совместимость с множеством других версий.
YTsaurus — это разработанная Яндексом система для хранения и обработки больших объёмов данных. Она активно развивается с 2010 года, а в 2023 году была выложена в опенсорс. Подробнее почитать про историю создания и выход YTsaurus в опенсорс можно в статье Максима Бабенко.
В какой‑то момент мы решили подружить YTsaurus и Spark. Так и родился проект SPYT powered by Apache Spark (далее просто SPYT), который активно развивается с 2019 года. Основательница проекта Саша Белоусова уже рассказывала, как были реализованы SPI Spark для работы со структурами данных YTsaurus — это набор классов, интерфейсов, методов, которые мы расширяем или реализуем. Во многом эта статья и моё выступление на HighLoad++ 2024 являются продолжением её доклада.
Читать: https://habr.com/ru/companies/yandex/articles/884442/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Александр Токарев, я работаю в Yandex Infrastructure и занимаюсь интеграцией Apache Spark (далее просто Spark) с YTsaurus. В этой статье я расскажу про то, как мы сначала форкнули и пропатчили Spark, а потом вернулись к использованию оригинальной версии и поддержали совместимость с множеством других версий.
YTsaurus — это разработанная Яндексом система для хранения и обработки больших объёмов данных. Она активно развивается с 2010 года, а в 2023 году была выложена в опенсорс. Подробнее почитать про историю создания и выход YTsaurus в опенсорс можно в статье Максима Бабенко.
В какой‑то момент мы решили подружить YTsaurus и Spark. Так и родился проект SPYT powered by Apache Spark (далее просто SPYT), который активно развивается с 2019 года. Основательница проекта Саша Белоусова уже рассказывала, как были реализованы SPI Spark для работы со структурами данных YTsaurus — это набор классов, интерфейсов, методов, которые мы расширяем или реализуем. Во многом эта статья и моё выступление на HighLoad++ 2024 являются продолжением её доклада.
Читать: https://habr.com/ru/companies/yandex/articles/884442/
#ru
@big_data_analysis | Другие наши каналы