Оптимизация пайплайнов данных в Python
Функции или ООП в создании пайплайнов данных в Python? Статья обсуждает, как использовать комбинацию функционального и объектно-ориентированного подхода для упрощения разработки и поддержки. Функции упрощают трансформации, тогда как объекты помогают отслеживать состояние системы и прогресс. Узнайте, как выбрать подходящее решение в зависимости от задачи!
Создание и поддержка ETL-пайплайнов: ключевые принципы
В статье рассматриваются основы создания и поддержки ETL-пайплайнов. Авторы объясняют, как использовать классы и объекты для управления состоянием и логикой, а также как внедрить зависимые объекты через функции для повышения читабельности и простоты в сопровождении кода.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Функции или ООП в создании пайплайнов данных в Python? Статья обсуждает, как использовать комбинацию функционального и объектно-ориентированного подхода для упрощения разработки и поддержки. Функции упрощают трансформации, тогда как объекты помогают отслеживать состояние системы и прогресс. Узнайте, как выбрать подходящее решение в зависимости от задачи!
Создание и поддержка ETL-пайплайнов: ключевые принципы
В статье рассматриваются основы создания и поддержки ETL-пайплайнов. Авторы объясняют, как использовать классы и объекты для управления состоянием и логикой, а также как внедрить зависимые объекты через функции для повышения читабельности и простоты в сопровождении кода.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как превратить 1000 строк SQL в модульный код?
В статье описывается, как переписать громоздкие SQL-скрипты в модульную структуру, которая легко тестируется и поддерживается. Рекомендуется разделять запросы на функции, проводить валидацию и писать юнит-тесты для каждого модуля. Это облегчает модификацию и тестирование кода в будущем.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье описывается, как переписать громоздкие SQL-скрипты в модульную структуру, которая легко тестируется и поддерживается. Рекомендуется разделять запросы на функции, проводить валидацию и писать юнит-тесты для каждого модуля. Это облегчает модификацию и тестирование кода в будущем.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как обеспечить консистентные метрики в вашем хранилище данных
Для предотвращения расхождений в метриках статьи предлагают централизацию их определений. Использование семантических слоев обеспечивает гибкость и актуальность, в то время как предагрегированные таблицы проще, но менее масштабируемы. Выбор подхода зависит от ваших потребностей и ресурсов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Для предотвращения расхождений в метриках статьи предлагают централизацию их определений. Использование семантических слоев обеспечивает гибкость и актуальность, в то время как предагрегированные таблицы проще, но менее масштабируемы. Выбор подхода зависит от ваших потребностей и ресурсов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Готовитесь к системному проектированию для data engineering? Новая статья предлагает структурированное руководство для успешного прохождения интервью. Узнайте, какие требования и данные учитывать, как моделировать данные и строить пайплайны, а также почему важен контроль качества данных. Всё для уверенности на интервью. Эффективное управление данными: ключевые аспекты
Как оптимизировать работу с данными? В статье обсуждаются важные техники, такие как оптимизация партиционирования и использования форматов таблиц, стратегии перезапуска данных и способы улучшения их наблюдаемости. Узнайте, как обеспечить качественный опыт для конечных пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как оптимизировать работу с данными? В статье обсуждаются важные техники, такие как оптимизация партиционирования и использования форматов таблиц, стратегии перезапуска данных и способы улучшения их наблюдаемости. Узнайте, как обеспечить качественный опыт для конечных пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
От данных к действиям: как мы создавали рекомендации на главной странице Uzum Market
Меня зовут Фарит, я ML-инженер в команде рекомендаций Uzum Market. Сегодня я расскажу, как мы с нуля разработали персональные рекомендации для главной страницы нашего маркетплейса. Мы разберем архитектуру системы, используемые алгоритмы и способы измерения успеха проекта.
Читать: https://habr.com/ru/companies/uzum/articles/884328/
#ru
@big_data_analysis | Другие наши каналы
Меня зовут Фарит, я ML-инженер в команде рекомендаций Uzum Market. Сегодня я расскажу, как мы с нуля разработали персональные рекомендации для главной страницы нашего маркетплейса. Мы разберем архитектуру системы, используемые алгоритмы и способы измерения успеха проекта.
Читать: https://habr.com/ru/companies/uzum/articles/884328/
#ru
@big_data_analysis | Другие наши каналы
Карьера в Data Engineering: взгляд на образование и зарплату
Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.
Читать: https://habr.com/ru/articles/888536/
#ru
@big_data_analysis | Другие наши каналы
Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.
Читать: https://habr.com/ru/articles/888536/
#ru
@big_data_analysis | Другие наши каналы
Геоинтерполяция от А до Я: как создать карту покрытия сети
Привет, Хабр! Меня зовут Даулет Курмантаев, я дата-сайентист в крупной казахстанской телеком-компании. Работаю в отделе Customer Experience Management. Мы анализируем качество связи и автоматизируем решения по строительству и модернизации базовых станций.
В этой статье расскажу, как мы использовали геоаналитику и интерполяцию для создания карты покрытия сети. Поделюсь методами, с которыми работали; проблемами, с которыми столкнулись; и результатами, которых добились.
Читать: https://habr.com/ru/articles/888910/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Даулет Курмантаев, я дата-сайентист в крупной казахстанской телеком-компании. Работаю в отделе Customer Experience Management. Мы анализируем качество связи и автоматизируем решения по строительству и модернизации базовых станций.
В этой статье расскажу, как мы использовали геоаналитику и интерполяцию для создания карты покрытия сети. Поделюсь методами, с которыми работали; проблемами, с которыми столкнулись; и результатами, которых добились.
Читать: https://habr.com/ru/articles/888910/
#ru
@big_data_analysis | Другие наши каналы
Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?
Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.
К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.
Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.
Читать: https://habr.com/ru/articles/888952/
#ru
@big_data_analysis | Другие наши каналы
Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.
К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.
Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.
Читать: https://habr.com/ru/articles/888952/
#ru
@big_data_analysis | Другие наши каналы
👍1
Цифровая карта аварийности: как технологии помогают сделать дороги безопаснее
Привет, Хабр! Буквально недавно в ИЦ прошло ежегодное мероприятие “Инновационная столица-2024”, где мой коллега, руководитель отдела цифровых сервисов, продемонстрировал обновленный АИС “Мониторинг аварийности”.
Цифровая карта ДТП не имеет аналогов в России, поэтому в этой статье я бы хотел рассказать, чем так уникален продукт, и как он помогает снижать количество ДТП в городе.
Читать: https://habr.com/ru/articles/889052/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Буквально недавно в ИЦ прошло ежегодное мероприятие “Инновационная столица-2024”, где мой коллега, руководитель отдела цифровых сервисов, продемонстрировал обновленный АИС “Мониторинг аварийности”.
Цифровая карта ДТП не имеет аналогов в России, поэтому в этой статье я бы хотел рассказать, чем так уникален продукт, и как он помогает снижать количество ДТП в городе.
Читать: https://habr.com/ru/articles/889052/
#ru
@big_data_analysis | Другие наши каналы
Защита Oracle Big Data c Zero Trust
Текст: Узнайте, как реализовать безопасность для Oracle Big Data Service с помощью технологии Zero Trust Packet Routing (ZPR). Эта методология позволяет минимизировать риски и защитить данные от несанкционированного доступа.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Текст: Узнайте, как реализовать безопасность для Oracle Big Data Service с помощью технологии Zero Trust Packet Routing (ZPR). Эта методология позволяет минимизировать риски и защитить данные от несанкционированного доступа.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Secure Oracle Big Data Service using Zero Trust Packet Routing
Защита Oracle Data Intelligence с Zero Trust
Узнайте, как применить концепцию маршрутизации Zero Trust для усиления безопасности платформы Oracle Data Intelligence. Представляем обзор ключевых методик и стратегий для предотвращения несанкционированного доступа к данным и их защиты.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Узнайте, как применить концепцию маршрутизации Zero Trust для усиления безопасности платформы Oracle Data Intelligence. Представляем обзор ключевых методик и стратегий для предотвращения несанкционированного доступа к данным и их защиты.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Series Overview: Securing Oracle Data Services Platform with Zero Trust Packet Routing
Series Overview for Securing Oracle Data Services Platform with Zero Trust Packet Routing
Защита Oracle Data с помощью Zero Trust
Пост: В статье рассказывается о подготовке компонентов Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Data Intelligence Platform Services. Узнайте, как ZPR обеспечивает защиту и контроль данных в современных корпоративных сетях.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Пост: В статье рассказывается о подготовке компонентов Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Data Intelligence Platform Services. Узнайте, как ZPR обеспечивает защиту и контроль данных в современных корпоративных сетях.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Prepare Zero Trust Packet Routing Components for Securing Oracle Data Intelligence Platform Services
Защита Oracle Cloud: новый подход
Статья раскрывает использование Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Cloud Infrastructure Data Flow. Узнайте, как эта технология позволяет создать более защищенную и надежную облачную среду.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья раскрывает использование Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Cloud Infrastructure Data Flow. Узнайте, как эта технология позволяет создать более защищенную и надежную облачную среду.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Secure Oracle Cloud Infrastructure Data Flow using Zero Trust Packet Routing
Работа с библиотеками, которые не установлены в Airflow
Данные библиотеки можно использовать при работе со SparkOperator:
1. Создание виртуального окружения с необходимыми библиотеками
2. Создание задачи в даге и установка окружения в SparkSubmit
Читать: https://habr.com/ru/articles/889394/
#ru
@big_data_analysis | Другие наши каналы
Данные библиотеки можно использовать при работе со SparkOperator:
1. Создание виртуального окружения с необходимыми библиотеками
2. Создание задачи в даге и установка окружения в SparkSubmit
Читать: https://habr.com/ru/articles/889394/
#ru
@big_data_analysis | Другие наши каналы
Forwarded from Типичный программист
Поэтому я милостиво отдаю её вам. В этом чит-листе всё, что вам может пригодится: подключение к серверу, управление содержимым БД, создание и изменение таблиц, SQL-команды (SELECT, INSERT, UPDATE, DELETE), а также функции для работы с текстом, числами, NULL и датами.
А для тех, кто не дружит с английским, оставляю ссылку на сайт — там расписано по пунктам, так что легко перевести при необходимости. Ну и файлик без сжатия положил в комменты.
#postgresql #шпаргалка
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Python vs C++: какой язык быстрее найдет все простые числа до миллиарда
Рассказываем, какие есть алгоритмы для поиска простых чисел и реализуем наиболее популярный и простой на Python и C++.
Читать: «Python vs C++: какой язык быстрее найдет все простые числа до миллиарда»
#ru
@big_data_analysis | Другие наши каналы
Рассказываем, какие есть алгоритмы для поиска простых чисел и реализуем наиболее популярный и простой на Python и C++.
Читать: «Python vs C++: какой язык быстрее найдет все простые числа до миллиарда»
#ru
@big_data_analysis | Другие наши каналы
Новые возможности Oracle Analytics Server 2025
Oracle выпустила обновлённую платформу Oracle Analytics Server 2025 — наследника OBIEE. Она позволяет реализовать аналитику как на своих серверах, так и в облаке. Платформа поддерживает интеграцию с AI и ML, упрощая работу с данными и их визуализацию.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle выпустила обновлённую платформу Oracle Analytics Server 2025 — наследника OBIEE. Она позволяет реализовать аналитику как на своих серверах, так и в облаке. Платформа поддерживает интеграцию с AI и ML, упрощая работу с данными и их визуализацию.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Telegram
Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Новые возможности в Oracle Analytics Cloud
Oracle выпустила мартовское обновление 2025 для Oracle Analytics Cloud, добавив расширенные функции AI-ассистента, улучшенное обогащение данных для бизнеса, новые опции визуализации, такие как диаграммы-датчики, улучшенную настройку книг и более широкую интеграцию с частными сетями.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle выпустила мартовское обновление 2025 для Oracle Analytics Cloud, добавив расширенные функции AI-ассистента, улучшенное обогащение данных для бизнеса, новые опции визуализации, такие как диаграммы-датчики, улучшенную настройку книг и более широкую интеграцию с частными сетями.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Telegram
Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
❤1
Чужое открытое ПО внутри BI-систем: проблемы лицензирования, о которых не все задумываются
Для быстрого создания какого-то продукта часто используют различные open source решения. Но применение открытого ПО несёт в себе определённые риски: от финансовых до юридических. Потому что разработка на базе ПО с открытым исходным кодом не означает бесконтрольное использование созданных на этом коде продуктов из-за действия соответствующей лицензии: BSD, GNU, MIT, LGPL, AGPL, BSPL, SSPL, Demoware License, Apache License 2.0, RSAL и других. А в соответствии со статьями 1252 и 1301 ГК РФ иски о нарушении лицензионного права предъявляются к юридическому лицу, использующему указанное программное обеспечение.
Меня зовут Алексей Розанов, я руководитель пресейл-направления и работы с партнёрами ГК Luxms, и в этой статье я хочу рассмотреть несколько примеров использования open source решений на рынке BI-аналитики и подсветить юридические риски для компаний, которые используют BI-системы на их основе.
Читать: https://habr.com/ru/companies/luxms_bi/articles/890568/
#ru
@big_data_analysis | Другие наши каналы
Для быстрого создания какого-то продукта часто используют различные open source решения. Но применение открытого ПО несёт в себе определённые риски: от финансовых до юридических. Потому что разработка на базе ПО с открытым исходным кодом не означает бесконтрольное использование созданных на этом коде продуктов из-за действия соответствующей лицензии: BSD, GNU, MIT, LGPL, AGPL, BSPL, SSPL, Demoware License, Apache License 2.0, RSAL и других. А в соответствии со статьями 1252 и 1301 ГК РФ иски о нарушении лицензионного права предъявляются к юридическому лицу, использующему указанное программное обеспечение.
Меня зовут Алексей Розанов, я руководитель пресейл-направления и работы с партнёрами ГК Luxms, и в этой статье я хочу рассмотреть несколько примеров использования open source решений на рынке BI-аналитики и подсветить юридические риски для компаний, которые используют BI-системы на их основе.
Читать: https://habr.com/ru/companies/luxms_bi/articles/890568/
#ru
@big_data_analysis | Другие наши каналы
GigaChat 2.0 в API
Салют, Хабр! Время летит незаметно. Будто совсем недавно мы знакомили вас с GigaChat MAX, но мы не стоим на месте и сегодня готовы представить вам обещанный апгрейд. За полгода мы значительно улучшили обучающие данные, поработали над инфраструктурой обучения моделей, а также уделили особое внимание всему процессу Alignment-а, в том числе RLHF.
Представляем вам GigaChat 2 — полностью обновлённую линейку моделей в версиях Lite, Pro и Max. Все модели серьёзно улучшены: мы обновили pretrain’ы, улучшили большинство метрик по сравнению с предыдущими версиями, добавили поддержку контекста в 128 тысяч токенов, улучшили вызовы функций, и в целом повысили понимание инструкций.
GigaChat 2 — не просто сухие числа и технические улучшения. Теперь это надёжный помощник в повседневных задачах. Например, он легко оформит отчёт для работы, напишет чистый и эффективный код, поздравит с днём рождения или даст мудрый совет. Мы уверены: с ним вы сможете делать больше, быстрее и лучше как на работе, так и в жизни. Попробуйте GigaChat 2 уже сейчас в Playground — пользовательском интерфейсе для продвинутой работы с промптами!
GigaChat 2
Читать: https://habr.com/ru/companies/sberdevices/articles/890552/
#ru
@big_data_analysis | Другие наши каналы
Салют, Хабр! Время летит незаметно. Будто совсем недавно мы знакомили вас с GigaChat MAX, но мы не стоим на месте и сегодня готовы представить вам обещанный апгрейд. За полгода мы значительно улучшили обучающие данные, поработали над инфраструктурой обучения моделей, а также уделили особое внимание всему процессу Alignment-а, в том числе RLHF.
Представляем вам GigaChat 2 — полностью обновлённую линейку моделей в версиях Lite, Pro и Max. Все модели серьёзно улучшены: мы обновили pretrain’ы, улучшили большинство метрик по сравнению с предыдущими версиями, добавили поддержку контекста в 128 тысяч токенов, улучшили вызовы функций, и в целом повысили понимание инструкций.
GigaChat 2 — не просто сухие числа и технические улучшения. Теперь это надёжный помощник в повседневных задачах. Например, он легко оформит отчёт для работы, напишет чистый и эффективный код, поздравит с днём рождения или даст мудрый совет. Мы уверены: с ним вы сможете делать больше, быстрее и лучше как на работе, так и в жизни. Попробуйте GigaChat 2 уже сейчас в Playground — пользовательском интерфейсе для продвинутой работы с промптами!
GigaChat 2
Читать: https://habr.com/ru/companies/sberdevices/articles/890552/
#ru
@big_data_analysis | Другие наши каналы