Data Analysis / Big Data
2.84K subscribers
557 photos
3 videos
2 files
2.63K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Карьера в Data Engineering: взгляд на образование и зарплату

Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.


Читать: https://habr.com/ru/articles/888536/

#ru

@big_data_analysis | Другие наши каналы
Геоинтерполяция от А до Я: как создать карту покрытия сети

Привет, Хабр! Меня зовут Даулет Курмантаев, я дата-сайентист в крупной казахстанской телеком-компании. Работаю в отделе Customer Experience Management. Мы анализируем качество связи и автоматизируем решения по строительству и модернизации базовых станций.

В этой статье расскажу, как мы использовали геоаналитику и интерполяцию для создания карты покрытия сети. Поделюсь методами, с которыми работали; проблемами, с которыми столкнулись; и результатами, которых добились.


Читать: https://habr.com/ru/articles/888910/

#ru

@big_data_analysis | Другие наши каналы
Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?

Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.

К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.

Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.


Читать: https://habr.com/ru/articles/888952/

#ru

@big_data_analysis | Другие наши каналы
👍1
Цифровая карта аварийности: как технологии помогают сделать дороги безопаснее

Привет, Хабр! Буквально недавно в ИЦ прошло ежегодное мероприятие “Инновационная столица-2024”, где мой коллега, руководитель отдела цифровых сервисов, продемонстрировал обновленный АИС “Мониторинг аварийности”.

Цифровая карта ДТП не имеет аналогов в России, поэтому в этой статье я бы хотел рассказать, чем так уникален продукт, и как он помогает снижать количество ДТП в городе.


Читать: https://habr.com/ru/articles/889052/

#ru

@big_data_analysis | Другие наши каналы
Защита Oracle Big Data c Zero Trust

Текст: Узнайте, как реализовать безопасность для Oracle Big Data Service с помощью технологии Zero Trust Packet Routing (ZPR). Эта методология позволяет минимизировать риски и защитить данные от несанкционированного доступа.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Защита Oracle Data Intelligence с Zero Trust

Узнайте, как применить концепцию маршрутизации Zero Trust для усиления безопасности платформы Oracle Data Intelligence. Представляем обзор ключевых методик и стратегий для предотвращения несанкционированного доступа к данным и их защиты.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Защита Oracle Data с помощью Zero Trust

Пост: В статье рассказывается о подготовке компонентов Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Data Intelligence Platform Services. Узнайте, как ZPR обеспечивает защиту и контроль данных в современных корпоративных сетях.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Защита Oracle Cloud: новый подход

Статья раскрывает использование Zero Trust Packet Routing (ZPR) для повышения безопасности Oracle Cloud Infrastructure Data Flow. Узнайте, как эта технология позволяет создать более защищенную и надежную облачную среду.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Работа с библиотеками, которые не установлены в Airflow

Данные библиотеки можно использовать при работе со SparkOperator:

1. Создание виртуального окружения с необходимыми библиотеками

2. Создание задачи в даге и установка окружения в SparkSubmit


Читать: https://habr.com/ru/articles/889394/

#ru

@big_data_analysis | Другие наши каналы
Forwarded from Типичный программист
👍 Как говорил мой дед: хороший админ не будет жмотить шпаргалку по PostgreSQL подписчикам

Поэтому я милостиво отдаю её вам. В этом чит-листе всё, что вам может пригодится: подключение к серверу, управление содержимым БД, создание и изменение таблиц, SQL-команды (SELECT, INSERT, UPDATE, DELETE), а также функции для работы с текстом, числами, NULL и датами.

А для тех, кто не дружит с английским, оставляю ссылку на сайт — там расписано по пунктам, так что легко перевести при необходимости. Ну и файлик без сжатия положил в комменты.

#postgresql #шпаргалка
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Python vs C++: какой язык быстрее найдет все простые числа до миллиарда

Рассказываем, какие есть алгоритмы для поиска простых чисел и реализуем наиболее популярный и простой на Python и C++.

Читать: «Python vs C++: какой язык быстрее найдет все простые числа до миллиарда»

#ru

@big_data_analysis | Другие наши каналы
Новые возможности Oracle Analytics Server 2025

Oracle выпустила обновлённую платформу Oracle Analytics Server 2025 — наследника OBIEE. Она позволяет реализовать аналитику как на своих серверах, так и в облаке. Платформа поддерживает интеграцию с AI и ML, упрощая работу с данными и их визуализацию.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые возможности в Oracle Analytics Cloud

Oracle выпустила мартовское обновление 2025 для Oracle Analytics Cloud, добавив расширенные функции AI-ассистента, улучшенное обогащение данных для бизнеса, новые опции визуализации, такие как диаграммы-датчики, улучшенную настройку книг и более широкую интеграцию с частными сетями.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
1
Чужое открытое ПО внутри BI-систем: проблемы лицензирования, о которых не все задумываются

Для быстрого создания какого-то продукта часто используют различные open source решения. Но применение открытого ПО несёт в себе определённые риски: от финансовых до юридических. Потому что разработка на базе ПО с открытым исходным кодом не означает бесконтрольное использование созданных на этом коде продуктов из-за действия соответствующей лицензии: BSD, GNU, MIT, LGPL, AGPL, BSPL, SSPL, Demoware License, Apache License 2.0, RSAL и других. А в соответствии со статьями 1252 и 1301 ГК РФ иски о нарушении лицензионного права предъявляются к юридическому лицу, использующему указанное программное обеспечение.

Меня зовут Алексей Розанов, я руководитель пресейл-направления и работы с партнёрами ГК Luxms, и в этой статье я хочу рассмотреть несколько примеров использования open source решений на рынке BI-аналитики и подсветить юридические риски для компаний, которые используют BI-системы на их основе.


Читать: https://habr.com/ru/companies/luxms_bi/articles/890568/

#ru

@big_data_analysis | Другие наши каналы
GigaChat 2.0 в API

Салют, Хабр! Время летит незаметно. Будто совсем недавно мы знакомили вас с GigaChat MAX, но мы не стоим на месте и сегодня готовы представить вам обещанный апгрейд. За полгода мы значительно улучшили обучающие данные, поработали над инфраструктурой обучения моделей, а также уделили особое внимание всему процессу Alignment-а, в том числе RLHF.

Представляем вам GigaChat 2 — полностью обновлённую линейку моделей в версиях Lite, Pro и Max. Все модели серьёзно улучшены: мы обновили pretrain’ы, улучшили большинство метрик по сравнению с предыдущими версиями, добавили поддержку контекста в 128 тысяч токенов, улучшили вызовы функций, и в целом повысили понимание инструкций.

GigaChat 2 — не просто сухие числа и технические улучшения. Теперь это надёжный помощник в повседневных задачах. Например, он легко оформит отчёт для работы, напишет чистый и эффективный код, поздравит с днём рождения или даст мудрый совет. Мы уверены: с ним вы сможете делать больше, быстрее и лучше как на работе, так и в жизни. Попробуйте GigaChat 2 уже сейчас в Playground — пользовательском интерфейсе для продвинутой работы с промптами!
GigaChat 2

Читать: https://habr.com/ru/companies/sberdevices/articles/890552/

#ru

@big_data_analysis | Другие наши каналы
Как OSA превращает пустые полки в полные корзины?

Вы когда-нибудь сталкивались с разочарованием перед пустой полкой, где должен быть ваш любимый майонез? А что если я вам скажу, что майонез в магазине есть. Помимо разочарования, это приводит еще и к потере выручке магазина.

Понять, почему товар числится в магазине, но не покупается посетителям, практически детективная задача. Так что наша команда занимается настоящими расследованиями: данные – наши улики, с помощью которых необходимо понять, почему вы не можете купить свой любимый майонез в ближайшем магазине. Именно здесь выходит на сцену команда проекта OSA. Присаживайтесь, погружу вас в детали работы нашего детективного бюро.


Читать: https://habr.com/ru/companies/magnit/articles/889658/

#ru

@big_data_analysis | Другие наши каналы
Анатомия данных: как устроено управление информацией

Объем информации растет, но без системного подхода данные превращаются в шум. Разбираемся, как в компаниях структурируют, анализируют и защищают данные, чтобы они работали на бизнес, а не создавали хаос.

Читать: «Анатомия данных: как устроено управление информацией»

#ru

@big_data_analysis | Другие наши каналы
Новая функция в Oracle Analytics Cloud

В Oracle Analytics Cloud появилась функция создания кастомных папок в рабочих тетрадях. Это позволит авторам эффективно работать с разными источниками данных, даже в условиях их объединения или разобщенности. Узнайте больше о возможностях этой обновленной функции!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
BI-Ассистент для создания аналитических дашбордов и автоматизированного анализа данных

BI-Ассистент для создания аналитических дашбордов и автоматизированного анализа данных

Привет, Habr! На связи Александр Сулейкин, Founder DUC Technologies и наша LLM-команда – Роман Бабенко и Александра Деведерова, а также Бутнев Даниил — аналитик, бывший сотрудник компании, являющейся центром компетенций по качеству и метрологии. Мы подготовили статью по возможному применению и созданию BI-ассистентов на базе LLM моделей для создания аналитических дашбордов. Данная сфера пока еще находится в зачаточном состоянии, развитие LLM для BI-решений только набирает популярность. В данной статье мы описали возможный кейс совмещения BI и LLM на примере реального Use Case в сфере метрологии.

1. Введение

Создание аналитических дашбордов и проведение комплексного анализа данных являются важными аспектами работы организаций. Однако этот процесс часто требует глубоких технических знаний, что делает его труднодоступным для пользователей без специальной подготовки. Особенно актуальной становится проблема, когда речь идет о небольших компаниях или отделах, где ресурсы ограничены, а необходимость в оперативном анализе данных высока. Это создает барьер между бизнесом и информацией, которую можно было бы использовать для принятия взвешенных решений.

Цель данной статьи - представить разработку BI-Ассистента, виртуального помощника, предназначенного для автоматизации процесса создания аналитических дашбордов и выполнения аналитических запросов. Этот инструмент направлен на упрощение взаимодействия с данными и снижение порога входа для пользователей, не обладающих технической подготовкой.


Читать: https://habr.com/ru/articles/891420/

#ru

@big_data_analysis | Другие наши каналы