Функции или ООП: как строить data pipelines на Python
В статье Start Data Engineering обсуждаются плюсы и минусы использования функционального и объектно-ориентированного подходов при построении дата-пайплайнов на Python. Функции обеспечивают простоту и удобство отладки, а ООП позволяет управлять состоянием и конфигурациями. Узнайте, как эффективно сочетать эти методы для улучшения качества и поддержки вашего кода.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье Start Data Engineering обсуждаются плюсы и минусы использования функционального и объектно-ориентированного подходов при построении дата-пайплайнов на Python. Функции обеспечивают простоту и удобство отладки, а ООП позволяет управлять состоянием и конфигурациями. Узнайте, как эффективно сочетать эти методы для улучшения качества и поддержки вашего кода.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как превратить хаотичный SQL в удобный код
Столкнулись с длинным SQL-кодом, который сложно поддерживать? Узнайте, как сделать его легким и модульным! Разбейте код на функции, протестируйте их и наслаждайтесь легко обновляемыми данными. Секреты структурирования качественного SQL ждут вас!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Столкнулись с длинным SQL-кодом, который сложно поддерживать? Узнайте, как сделать его легким и модульным! Разбейте код на функции, протестируйте их и наслаждайтесь легко обновляемыми данными. Секреты структурирования качественного SQL ждут вас!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как обеспечить стабильность метрик в вашем хранилище данных
Проблема несогласованности метрик мешает аналитике. Решение: централизовать метрики в коде. Возможны два подхода: семантический слой для гибкости и своевременности или сразу подготовленные таблицы для простоты. Каждый метод имеет свои плюсы и минусы.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Проблема несогласованности метрик мешает аналитике. Решение: централизовать метрики в коде. Возможны два подхода: семантический слой для гибкости и своевременности или сразу подготовленные таблицы для простоты. Каждый метод имеет свои плюсы и минусы.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Секреты Интервью по Системному Дизайну для Инженеров Данных
Статья предлагает пошаговый подход к системному дизайну на собеседовании для инженеров данных. Узнайте, как эффективно собирать требования, проектировать модели данных, создавать конвейеры обработки данных и проверять качество данных. Подсказки помогут вам стать уверенным кандидатом на собеседованиях. Как избежать ошибок в обработке данных: советы и инструменты
Статья рассказывает о передовых методах организации хранения данных и рекомендациях по эффективности работы пайплайнов. Важные темы включают в себя управление бэкафиллами, обеспечение пригодности данных и интеграцию CI/CD для предотвращения ошибок. Идеальные инструменты: Amundsen и DataHub.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья предлагает пошаговый подход к системному дизайну на собеседовании для инженеров данных. Узнайте, как эффективно собирать требования, проектировать модели данных, создавать конвейеры обработки данных и проверять качество данных. Подсказки помогут вам стать уверенным кандидатом на собеседованиях. Как избежать ошибок в обработке данных: советы и инструменты
Статья рассказывает о передовых методах организации хранения данных и рекомендациях по эффективности работы пайплайнов. Важные темы включают в себя управление бэкафиллами, обеспечение пригодности данных и интеграцию CI/CD для предотвращения ошибок. Идеальные инструменты: Amundsen и DataHub.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
От африканских саванн до индийских мегаполисов: как мы собрали уникальный датасет для обработки данных
Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры – легкий проект, который можно закрыть за пару недель.
Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы.
Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье.
Читать: https://habr.com/ru/companies/data_light/articles/886788/
#ru
@big_data_analysis | Другие наши каналы
Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры – легкий проект, который можно закрыть за пару недель.
Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы.
Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье.
Читать: https://habr.com/ru/companies/data_light/articles/886788/
#ru
@big_data_analysis | Другие наши каналы
Как медленно меняющиеся измерения помогают сохранить контекст изменений в данных
В мире данных изменения — это неизбежность. Но как отслеживать и сохранять историю изменений, чтобы аналитика оставалась точной и релевантной? В нашей новой статье мы подробно разбираем концепцию медленно меняющихся измерений (Slowly Changing Dimensions, SCD) — ключевого инструмента для работы с изменяющимися данными в хранилищах и аналитических системах.
Вы узнаете, что такое медленно меняющиеся измерения и зачем они нужны, а также познакомитесь с разными типами SCD, такими как Type 1, Type 2 и Type 3. Мы рассмотрим их ключевые различия и приведем практические примеры использования: от простого обновления данных до сохранения полной истории изменений. Вы поймете, как выбрать подходящий тип SCD для ваших задач и избежать типичных ошибок.
Статья будет полезна аналитикам, разработчикам и всем, кто работает с данными и стремится сделать их управление более эффективным. Погрузитесь в мир SCD и узнайте, как превратить изменения данных в мощный инструмент для анализа!
Читать: https://habr.com/ru/articles/886918/
#ru
@big_data_analysis | Другие наши каналы
В мире данных изменения — это неизбежность. Но как отслеживать и сохранять историю изменений, чтобы аналитика оставалась точной и релевантной? В нашей новой статье мы подробно разбираем концепцию медленно меняющихся измерений (Slowly Changing Dimensions, SCD) — ключевого инструмента для работы с изменяющимися данными в хранилищах и аналитических системах.
Вы узнаете, что такое медленно меняющиеся измерения и зачем они нужны, а также познакомитесь с разными типами SCD, такими как Type 1, Type 2 и Type 3. Мы рассмотрим их ключевые различия и приведем практические примеры использования: от простого обновления данных до сохранения полной истории изменений. Вы поймете, как выбрать подходящий тип SCD для ваших задач и избежать типичных ошибок.
Статья будет полезна аналитикам, разработчикам и всем, кто работает с данными и стремится сделать их управление более эффективным. Погрузитесь в мир SCD и узнайте, как превратить изменения данных в мощный инструмент для анализа!
Читать: https://habr.com/ru/articles/886918/
#ru
@big_data_analysis | Другие наши каналы
Использование dax.do для произвольной схемы данных на основе перевода DAX в Contoso через Telegram бот
Привет, Хабр! В работе Business Intelligence аналитика могут встречаться задачи проверки DAX запроса на произвольной схеме, к которой может не быть доступа. Перевод DAX запроса из исходной схемы в схему, к которой есть доступ и есть возможность выполнения DAX запроса, может занимать некоторое время и требовать определенных усилий. В век AI, безусловно, хочется делать перевод в схему автоматически, при помощи AI. Кроме того, ресурс dax.do является достаточно удобной песочницей для Contoso схемы данных, поэтому такое впечатление, что одним из быстрых решений для анализа и запуска DAX без схемы данных является перевод произвольного DAX в dax.do (например, автоматически при помощи Telegram бота), что позволяет уже дальше смотреть полученный DAX в песочнице dax.do на схеме Contoso без каких-то ограничений. Это позволяет проверить работоспособность DAX на незнакомой схеме за секунды. Интересующимся новыми возможностями DAX песочниц — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/887186/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! В работе Business Intelligence аналитика могут встречаться задачи проверки DAX запроса на произвольной схеме, к которой может не быть доступа. Перевод DAX запроса из исходной схемы в схему, к которой есть доступ и есть возможность выполнения DAX запроса, может занимать некоторое время и требовать определенных усилий. В век AI, безусловно, хочется делать перевод в схему автоматически, при помощи AI. Кроме того, ресурс dax.do является достаточно удобной песочницей для Contoso схемы данных, поэтому такое впечатление, что одним из быстрых решений для анализа и запуска DAX без схемы данных является перевод произвольного DAX в dax.do (например, автоматически при помощи Telegram бота), что позволяет уже дальше смотреть полученный DAX в песочнице dax.do на схеме Contoso без каких-то ограничений. Это позволяет проверить работоспособность DAX на незнакомой схеме за секунды. Интересующимся новыми возможностями DAX песочниц — добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/887186/
#ru
@big_data_analysis | Другие наши каналы
Зачем мы разбрасывали мусор в офисах, или как мы сделали систему для управления гибкими пространствами
Привет, Хабр! Меня зовут Вадим, я работаю техническим директором молодой ИТ-компании BPA.
Эта статья — о том, как мы с командой создавали систему автоматического распознавания мусора в офисах и коворкингах. В процессе реализации мы встретились с кучей технических трудностей, от отсутствия готовых датасетов до тонкой настройки нейронных сетей под наши задачи. Ну и, конечно, пришлось пару дней разбрасывать мусор в офисах. Но обо всем по порядку.
Читать: https://habr.com/ru/articles/887422/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Вадим, я работаю техническим директором молодой ИТ-компании BPA.
Эта статья — о том, как мы с командой создавали систему автоматического распознавания мусора в офисах и коворкингах. В процессе реализации мы встретились с кучей технических трудностей, от отсутствия готовых датасетов до тонкой настройки нейронных сетей под наши задачи. Ну и, конечно, пришлось пару дней разбрасывать мусор в офисах. Но обо всем по порядку.
Читать: https://habr.com/ru/articles/887422/
#ru
@big_data_analysis | Другие наши каналы
Оценка больших языковых моделей в 2025 году: пять методов
Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку:
* Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации.
* После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий.
Таким образом, необходимо определить:
* Оптимальные методы оценки моделей
* Подходящий тип данных для обучения и тестирования моделей
Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.
Читать: https://habr.com/ru/articles/887290/
#ru
@big_data_analysis | Другие наши каналы
Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку:
* Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации.
* После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий.
Таким образом, необходимо определить:
* Оптимальные методы оценки моделей
* Подходящий тип данных для обучения и тестирования моделей
Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.
Читать: https://habr.com/ru/articles/887290/
#ru
@big_data_analysis | Другие наши каналы
Бегущий по лезвию ИИ — 2025: сезон футурологии на Хабре
В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами.
Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза.
Узнать об условиях и призах
Читать: https://habr.com/ru/specials/887398/
#ru
@big_data_analysis | Другие наши каналы
В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами.
Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза.
Узнать об условиях и призах
Читать: https://habr.com/ru/specials/887398/
#ru
@big_data_analysis | Другие наши каналы
❤1
Интеграция данных: Oracle и Salesforce объединяют усилия
Oracle предлагает интеграцию данных из Salesforce CRM с Eloqua Marketing и Fusion продуктами, предоставляя организациям возможность глубже анализировать взаимодействие с клиентами и операционные метрики.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle предлагает интеграцию данных из Salesforce CRM с Eloqua Marketing и Fusion продуктами, предоставляя организациям возможность глубже анализировать взаимодействие с клиентами и операционные метрики.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Настройка Панели Грамматики в Визуализации Данных
Пост: Узнайте, как настроить Панель Грамматики в пользовательских расширениях визуализации данных. Статья расскажет о ключевых шагах конфигурации и поможет улучшить отображение ваших данных. Воплотите информацию в понятные графические формы.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: Узнайте, как настроить Панель Грамматики в пользовательских расширениях визуализации данных. Статья расскажет о ключевых шагах конфигурации и поможет улучшить отображение ваших данных. Воплотите информацию в понятные графические формы.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Unlocking Custom Visualizations in Oracle Analytics: Configuring the Grammar Panel – Part 3
This article focuses on configuring the Grammar Panel of a data visualization custom extension.
Код, который дышит: создание виртуальной вселенной на NestJS и своим AI на Tensorflow.js
Представьте мир, где каждый персонаж живёт своей жизнью: принимает решения, взаимодействует с окружающей средой и даже эволюционирует. Где почва, растения и ресурсы подчиняются сложным алгоритмам, а нейронные сети управляют поведением тысяч существ. Это не сценарий для нового блокбастера — это проект, над которым я работаю.
В этой статье я расскажу, как с помощью NestJS, TypeORM и Tensorflow.js создаю виртуальную вселенную, которая “дышит” и развивается. Мы разберём:
Это что, фантазия автора?!
Читать: https://habr.com/ru/articles/888226/
#ru
@big_data_analysis | Другие наши каналы
Представьте мир, где каждый персонаж живёт своей жизнью: принимает решения, взаимодействует с окружающей средой и даже эволюционирует. Где почва, растения и ресурсы подчиняются сложным алгоритмам, а нейронные сети управляют поведением тысяч существ. Это не сценарий для нового блокбастера — это проект, над которым я работаю.
В этой статье я расскажу, как с помощью NestJS, TypeORM и Tensorflow.js создаю виртуальную вселенную, которая “дышит” и развивается. Мы разберём:
Это что, фантазия автора?!
Читать: https://habr.com/ru/articles/888226/
#ru
@big_data_analysis | Другие наши каналы
Эпилог. Создание ботов для торговли криптовалютами и акциями (часть третья, заключительная)
Предыдущий пост: https://habr.com/ru/articles/677290/
Ильф и Петров оживили Остапа, и по их примеру, оказавшись в определенной точке своей жизни, я решил написать продолжение своих заметок. Спойлер для тех кому лень читать дальше - у меня нет яхты, я ищу работу на заводе, и если повезет, то это будет завод по выращиванию медицинского каннабиса.
В этой статье не будет технических решений или алгоритмов, я хочу рассказать о своем опыте, который приобрел с момента опубликования предыдущего текста и перемещения меня в другую жизнь.
Читать: https://habr.com/ru/articles/888320/
#ru
@big_data_analysis | Другие наши каналы
Предыдущий пост: https://habr.com/ru/articles/677290/
Ильф и Петров оживили Остапа, и по их примеру, оказавшись в определенной точке своей жизни, я решил написать продолжение своих заметок. Спойлер для тех кому лень читать дальше - у меня нет яхты, я ищу работу на заводе, и если повезет, то это будет завод по выращиванию медицинского каннабиса.
В этой статье не будет технических решений или алгоритмов, я хочу рассказать о своем опыте, который приобрел с момента опубликования предыдущего текста и перемещения меня в другую жизнь.
Читать: https://habr.com/ru/articles/888320/
#ru
@big_data_analysis | Другие наши каналы
🔍 Лучшие расширения VSCode для дата-инженеров
Если вы хотите улучшить свой рабочий процесс в Visual Studio Code как дата-инженер, эта статья вам поможет. Разберем ключевые расширения, которые добавят функционал: от Gitlens и Python тестов до Jupyter Notebook и SQL Tools. Узнайте, как оптимально настроить рабочее пространство и делиться им с коллегами!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Если вы хотите улучшить свой рабочий процесс в Visual Studio Code как дата-инженер, эта статья вам поможет. Разберем ключевые расширения, которые добавят функционал: от Gitlens и Python тестов до Jupyter Notebook и SQL Tools. Узнайте, как оптимально настроить рабочее пространство и делиться им с коллегами!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Оптимизация пайплайнов данных в Python
Функции или ООП в создании пайплайнов данных в Python? Статья обсуждает, как использовать комбинацию функционального и объектно-ориентированного подхода для упрощения разработки и поддержки. Функции упрощают трансформации, тогда как объекты помогают отслеживать состояние системы и прогресс. Узнайте, как выбрать подходящее решение в зависимости от задачи!
Создание и поддержка ETL-пайплайнов: ключевые принципы
В статье рассматриваются основы создания и поддержки ETL-пайплайнов. Авторы объясняют, как использовать классы и объекты для управления состоянием и логикой, а также как внедрить зависимые объекты через функции для повышения читабельности и простоты в сопровождении кода.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Функции или ООП в создании пайплайнов данных в Python? Статья обсуждает, как использовать комбинацию функционального и объектно-ориентированного подхода для упрощения разработки и поддержки. Функции упрощают трансформации, тогда как объекты помогают отслеживать состояние системы и прогресс. Узнайте, как выбрать подходящее решение в зависимости от задачи!
Создание и поддержка ETL-пайплайнов: ключевые принципы
В статье рассматриваются основы создания и поддержки ETL-пайплайнов. Авторы объясняют, как использовать классы и объекты для управления состоянием и логикой, а также как внедрить зависимые объекты через функции для повышения читабельности и простоты в сопровождении кода.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как превратить 1000 строк SQL в модульный код?
В статье описывается, как переписать громоздкие SQL-скрипты в модульную структуру, которая легко тестируется и поддерживается. Рекомендуется разделять запросы на функции, проводить валидацию и писать юнит-тесты для каждого модуля. Это облегчает модификацию и тестирование кода в будущем.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье описывается, как переписать громоздкие SQL-скрипты в модульную структуру, которая легко тестируется и поддерживается. Рекомендуется разделять запросы на функции, проводить валидацию и писать юнит-тесты для каждого модуля. Это облегчает модификацию и тестирование кода в будущем.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как обеспечить консистентные метрики в вашем хранилище данных
Для предотвращения расхождений в метриках статьи предлагают централизацию их определений. Использование семантических слоев обеспечивает гибкость и актуальность, в то время как предагрегированные таблицы проще, но менее масштабируемы. Выбор подхода зависит от ваших потребностей и ресурсов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Для предотвращения расхождений в метриках статьи предлагают централизацию их определений. Использование семантических слоев обеспечивает гибкость и актуальность, в то время как предагрегированные таблицы проще, но менее масштабируемы. Выбор подхода зависит от ваших потребностей и ресурсов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Готовитесь к системному проектированию для data engineering? Новая статья предлагает структурированное руководство для успешного прохождения интервью. Узнайте, какие требования и данные учитывать, как моделировать данные и строить пайплайны, а также почему важен контроль качества данных. Всё для уверенности на интервью. Эффективное управление данными: ключевые аспекты
Как оптимизировать работу с данными? В статье обсуждаются важные техники, такие как оптимизация партиционирования и использования форматов таблиц, стратегии перезапуска данных и способы улучшения их наблюдаемости. Узнайте, как обеспечить качественный опыт для конечных пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как оптимизировать работу с данными? В статье обсуждаются важные техники, такие как оптимизация партиционирования и использования форматов таблиц, стратегии перезапуска данных и способы улучшения их наблюдаемости. Узнайте, как обеспечить качественный опыт для конечных пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
От данных к действиям: как мы создавали рекомендации на главной странице Uzum Market
Меня зовут Фарит, я ML-инженер в команде рекомендаций Uzum Market. Сегодня я расскажу, как мы с нуля разработали персональные рекомендации для главной страницы нашего маркетплейса. Мы разберем архитектуру системы, используемые алгоритмы и способы измерения успеха проекта.
Читать: https://habr.com/ru/companies/uzum/articles/884328/
#ru
@big_data_analysis | Другие наши каналы
Меня зовут Фарит, я ML-инженер в команде рекомендаций Uzum Market. Сегодня я расскажу, как мы с нуля разработали персональные рекомендации для главной страницы нашего маркетплейса. Мы разберем архитектуру системы, используемые алгоритмы и способы измерения успеха проекта.
Читать: https://habr.com/ru/companies/uzum/articles/884328/
#ru
@big_data_analysis | Другие наши каналы
Карьера в Data Engineering: взгляд на образование и зарплату
Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.
Читать: https://habr.com/ru/articles/888536/
#ru
@big_data_analysis | Другие наши каналы
Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.
Читать: https://habr.com/ru/articles/888536/
#ru
@big_data_analysis | Другие наши каналы