Data Analysis / Big Data

Функции или ООП: как строить data pipelines на Python

В статье Start Data Engineering обсуждаются плюсы и минусы использования функционального и объектно-ориентированного подходов при построении дата-пайплайнов на Python. Функции обеспечивают простоту и удобство отладки, а ООП позволяет управлять состоянием и конфигурациями. Узнайте, как эффективно сочетать эти методы для улучшения качества и поддержки вашего кода.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

3.88K viewsedited 16:25

Как превратить хаотичный SQL в удобный код

Столкнулись с длинным SQL-кодом, который сложно поддерживать? Узнайте, как сделать его легким и модульным! Разбейте код на функции, протестируйте их и наслаждайтесь легко обновляемыми данными. Секреты структурирования качественного SQL ждут вас!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

328 views16:25

Data Analysis / Big Data

Как обеспечить стабильность метрик в вашем хранилище данных

Проблема несогласованности метрик мешает аналитике. Решение: централизовать метрики в коде. Возможны два подхода: семантический слой для гибкости и своевременности или сразу подготовленные таблицы для простоты. Каждый метод имеет свои плюсы и минусы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

339 views16:25

Data Analysis / Big Data

Секреты Интервью по Системному Дизайну для Инженеров Данных

Статья предлагает пошаговый подход к системному дизайну на собеседовании для инженеров данных. Узнайте, как эффективно собирать требования, проектировать модели данных, создавать конвейеры обработки данных и проверять качество данных. Подсказки помогут вам стать уверенным кандидатом на собеседованиях. Как избежать ошибок в обработке данных: советы и инструменты

Статья рассказывает о передовых методах организации хранения данных и рекомендациях по эффективности работы пайплайнов. Важные темы включают в себя управление бэкафиллами, обеспечение пригодности данных и интеграцию CI/CD для предотвращения ошибок. Идеальные инструменты: Amundsen и DataHub.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

366 views16:25

Data Analysis / Big Data

От африканских саванн до индийских мегаполисов: как мы собрали уникальный датасет для обработки данных

Казалось бы, стандартная задача: через крауд-платформу собрать фотографии и видео, где люди произносят цифры – легкий проект, который можно закрыть за пару недель.

Но все это вылилось в десятки часов на чистку «мусорных» данных, видео, снятые в полной темноте, случайные TikTok-ролики вместо заданий и ситуации, где инструкции, кажется, читают единицы.

Как мы превратили хаос в структурированный датасет? Какие решения помогли преодолеть барьеры (как культурные, так и технические)? Расскажем в этой статье.

Читать: https://habr.com/ru/companies/data_light/articles/886788/

#ru

@big_data_analysis | Другие наши каналы

325 views13:56

Data Analysis / Big Data

Как медленно меняющиеся измерения помогают сохранить контекст изменений в данных

В мире данных изменения — это неизбежность. Но как отслеживать и сохранять историю изменений, чтобы аналитика оставалась точной и релевантной? В нашей новой статье мы подробно разбираем концепцию медленно меняющихся измерений (Slowly Changing Dimensions, SCD) — ключевого инструмента для работы с изменяющимися данными в хранилищах и аналитических системах.

Вы узнаете, что такое медленно меняющиеся измерения и зачем они нужны, а также познакомитесь с разными типами SCD, такими как Type 1, Type 2 и Type 3. Мы рассмотрим их ключевые различия и приведем практические примеры использования: от простого обновления данных до сохранения полной истории изменений. Вы поймете, как выбрать подходящий тип SCD для ваших задач и избежать типичных ошибок.

Статья будет полезна аналитикам, разработчикам и всем, кто работает с данными и стремится сделать их управление более эффективным. Погрузитесь в мир SCD и узнайте, как превратить изменения данных в мощный инструмент для анализа!

Читать: https://habr.com/ru/articles/886918/

#ru

@big_data_analysis | Другие наши каналы

357 views21:22

Data Analysis / Big Data

Использование dax.do для произвольной схемы данных на основе перевода DAX в Contoso через Telegram бот

Привет, Хабр! В работе Business Intelligence аналитика могут встречаться задачи проверки DAX запроса на произвольной схеме, к которой может не быть доступа. Перевод DAX запроса из исходной схемы в схему, к которой есть доступ и есть возможность выполнения DAX запроса, может занимать некоторое время и требовать определенных усилий. В век AI, безусловно, хочется делать перевод в схему автоматически, при помощи AI. Кроме того, ресурс dax.do является достаточно удобной песочницей для Contoso схемы данных, поэтому такое впечатление, что одним из быстрых решений для анализа и запуска DAX без схемы данных является перевод произвольного DAX в dax.do (например, автоматически при помощи Telegram бота), что позволяет уже дальше смотреть полученный DAX в песочнице dax.do на схеме Contoso без каких-то ограничений. Это позволяет проверить работоспособность DAX на незнакомой схеме за секунды. Интересующимся новыми возможностями DAX песочниц — добро пожаловать под кат :)

Читать: https://habr.com/ru/articles/887186/

#ru

@big_data_analysis | Другие наши каналы

330 views13:38

Data Analysis / Big Data

Зачем мы разбрасывали мусор в офисах, или как мы сделали систему для управления гибкими пространствами

Привет, Хабр! Меня зовут Вадим, я работаю техническим директором молодой ИТ-компании BPA.

Эта статья — о том, как мы с командой создавали систему автоматического распознавания мусора в офисах и коворкингах. В процессе реализации мы встретились с кучей технических трудностей, от отсутствия готовых датасетов до тонкой настройки нейронных сетей под наши задачи. Ну и, конечно, пришлось пару дней разбрасывать мусор в офисах. Но обо всем по порядку.

Читать: https://habr.com/ru/articles/887422/

#ru

@big_data_analysis | Другие наши каналы

328 views11:14

Data Analysis / Big Data

Оценка больших языковых моделей в 2025 году: пять методов

Большие языковые модели (LLM) в последнее время стремительно развиваются и несут в себе потенциал для кардинального преобразования ИИ. Точная оценка моделей LLM крайне важна, поскольку:

* Компании должны выбирать генеративные AI-модели для внедрения в работу. Базовых моделей LLM сейчас множество, и для каждой есть различные их модификации.

* После выбора модели будет проходить fine-tuning. И если производительность модели не измерена с достаточной точностью, пользователи не смогут оценить эффективность своих усилий.

Таким образом, необходимо определить:

* Оптимальные методы оценки моделей

* Подходящий тип данных для обучения и тестирования моделей

Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.

Читать: https://habr.com/ru/articles/887290/

#ru

@big_data_analysis | Другие наши каналы

349 views11:31

Data Analysis / Big Data

Бегущий по лезвию ИИ — 2025: сезон футурологии на Хабре

В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами.

Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза.
Узнать об условиях и призах

Читать: https://habr.com/ru/specials/887398/

#ru

@big_data_analysis | Другие наши каналы

❤1

381 views14:13

Data Analysis / Big Data

Интеграция данных: Oracle и Salesforce объединяют усилия

Oracle предлагает интеграцию данных из Salesforce CRM с Eloqua Marketing и Fusion продуктами, предоставляя организациям возможность глубже анализировать взаимодействие с клиентами и операционные метрики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

330 views14:21

Data Analysis / Big Data

Настройка Панели Грамматики в Визуализации Данных

Пост: Узнайте, как настроить Панель Грамматики в пользовательских расширениях визуализации данных. Статья расскажет о ключевых шагах конфигурации и поможет улучшить отображение ваших данных. Воплотите информацию в понятные графические формы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Unlocking Custom Visualizations in Oracle Analytics: Configuring the Grammar Panel – Part 3

This article focuses on configuring the Grammar Panel of a data visualization custom extension.

370 views14:21

Data Analysis / Big Data

Код, который дышит: создание виртуальной вселенной на NestJS и своим AI на Tensorflow.js

Представьте мир, где каждый персонаж живёт своей жизнью: принимает решения, взаимодействует с окружающей средой и даже эволюционирует. Где почва, растения и ресурсы подчиняются сложным алгоритмам, а нейронные сети управляют поведением тысяч существ. Это не сценарий для нового блокбастера — это проект, над которым я работаю.

В этой статье я расскажу, как с помощью NestJS, TypeORM и Tensorflow.js создаю виртуальную вселенную, которая “дышит” и развивается. Мы разберём:
Это что, фантазия автора?!

Читать: https://habr.com/ru/articles/888226/

#ru

@big_data_analysis | Другие наши каналы

347 views14:23

Data Analysis / Big Data

Эпилог. Создание ботов для торговли криптовалютами и акциями (часть третья, заключительная)

Предыдущий пост: https://habr.com/ru/articles/677290/

Ильф и Петров оживили Остапа, и по их примеру, оказавшись в определенной точке своей жизни, я решил написать продолжение своих заметок. Спойлер для тех кому лень читать дальше - у меня нет яхты, я ищу работу на заводе, и если повезет, то это будет завод по выращиванию медицинского каннабиса.

В этой статье не будет технических решений или алгоритмов, я хочу рассказать о своем опыте, который приобрел с момента опубликования предыдущего текста и перемещения меня в другую жизнь.

Читать: https://habr.com/ru/articles/888320/

#ru

@big_data_analysis | Другие наши каналы

335 views22:22

Data Analysis / Big Data

🔍 Лучшие расширения VSCode для дата-инженеров

Если вы хотите улучшить свой рабочий процесс в Visual Studio Code как дата-инженер, эта статья вам поможет. Разберем ключевые расширения, которые добавят функционал: от Gitlens и Python тестов до Jupyter Notebook и SQL Tools. Узнайте, как оптимально настроить рабочее пространство и делиться им с коллегами!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

270 views07:00

Data Analysis / Big Data

Оптимизация пайплайнов данных в Python

Функции или ООП в создании пайплайнов данных в Python? Статья обсуждает, как использовать комбинацию функционального и объектно-ориентированного подхода для упрощения разработки и поддержки. Функции упрощают трансформации, тогда как объекты помогают отслеживать состояние системы и прогресс. Узнайте, как выбрать подходящее решение в зависимости от задачи!

Создание и поддержка ETL-пайплайнов: ключевые принципы

В статье рассматриваются основы создания и поддержки ETL-пайплайнов. Авторы объясняют, как использовать классы и объекты для управления состоянием и логикой, а также как внедрить зависимые объекты через функции для повышения читабельности и простоты в сопровождении кода.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

262 views07:00

Data Analysis / Big Data

Как превратить 1000 строк SQL в модульный код?

В статье описывается, как переписать громоздкие SQL-скрипты в модульную структуру, которая легко тестируется и поддерживается. Рекомендуется разделять запросы на функции, проводить валидацию и писать юнит-тесты для каждого модуля. Это облегчает модификацию и тестирование кода в будущем.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

278 views07:00

Data Analysis / Big Data

Как обеспечить консистентные метрики в вашем хранилище данных

Для предотвращения расхождений в метриках статьи предлагают централизацию их определений. Использование семантических слоев обеспечивает гибкость и актуальность, в то время как предагрегированные таблицы проще, но менее масштабируемы. Выбор подхода зависит от ваших потребностей и ресурсов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

279 views07:00

Data Analysis / Big Data

Готовитесь к системному проектированию для data engineering? Новая статья предлагает структурированное руководство для успешного прохождения интервью. Узнайте, какие требования и данные учитывать, как моделировать данные и строить пайплайны, а также почему важен контроль качества данных. Всё для уверенности на интервью. Эффективное управление данными: ключевые аспекты

Как оптимизировать работу с данными? В статье обсуждаются важные техники, такие как оптимизация партиционирования и использования форматов таблиц, стратегии перезапуска данных и способы улучшения их наблюдаемости. Узнайте, как обеспечить качественный опыт для конечных пользователей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

296 views07:00

Data Analysis / Big Data

От данных к действиям: как мы создавали рекомендации на главной странице Uzum Market

Меня зовут Фарит, я ML-инженер в команде рекомендаций Uzum Market. Сегодня я расскажу, как мы с нуля разработали персональные рекомендации для главной страницы нашего маркетплейса. Мы разберем архитектуру системы, используемые алгоритмы и способы измерения успеха проекта.

Читать: https://habr.com/ru/companies/uzum/articles/884328/

#ru

@big_data_analysis | Другие наши каналы

366 views08:01

Data Analysis / Big Data

Карьера в Data Engineering: взгляд на образование и зарплату

Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.

Читать: https://habr.com/ru/articles/888536/

#ru

@big_data_analysis | Другие наши каналы

726 views11:58

About

Blog

Apps

Platform