Data Analysis / Big Data
2.82K subscribers
568 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Использование API в FineBI

Привет, Хабр! На связи Business Intelligence GlowByte.

В данной статье разберем основы интеграции FineBI c внешними системами. С помощью публичных методов API можно использовать интерфейс, управлять системой удаленно и автоматизировать бизнес-процессы. Существует несколько способов интеграции публичных API в FineBI, и в зависимости от поставленных задач разработчики должны выбрать, какой способ им более подходит, или комбинировать их между собой. Далее рассмотрим доступные варианты, разберем их отличия и особенности и протестируем некоторые методы в http-клиенте Postman.


Читать: https://habr.com/ru/companies/glowbyte/articles/842842/

#ru

@big_data_analysis | Другие наши каналы
Создание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)

В статье обсуждается процесс интеграции Apache Spark с Apache Atlas для визуализации выполнения ETL-процессов на основе построения связей между операциями в Spark. Автор описывает создание пользовательских сущностей в Apache Atlas, таких как Process и DataSet, которые необходимы для отражения трансформаций данных.

Основной фокус статьи заключается в построении графа lineage (происхождения данных) для операций в Spark. Автор выделяет ограничения архитектуры Apache Atlas, например, необходимость наследования от стандартных типов Process и DataSet для корректного отображения lineage. Также описывается создание и отправка новых типов сущностей в Apache Atlas с использованием REST API, а также проблемы, возникающие при попытках обновления сущностей.


Читать: https://habr.com/ru/articles/842718/

#ru

@big_data_analysis | Другие наши каналы
Инновация от Oracle: Intelligent Data Lake

Oracle представила Intelligent Data Lake, который объединяет услуги OCI Data Lake, OCI Data Catalog и другие в единую среду. Это позволит создавать озёра данных, улучшать аналитические приложения в режиме реального времени и трансформировать данные для комплексной оркестрации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые возможности в Oracle Analytics Cloud

Обновление Oracle Analytics Cloud от сентября 2024 года привнесло ряд новых функций и улучшений. Узнайте, как эти изменения могут улучшить ваш опыт работы с аналитикой и повысить эффективность.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые возможности AI в Oracle Analytics

Oracle представила новые функции с поддержкой AI в Oracle Analytics, включая AI Assistant. Эти нововведения помогут как рядовым пользователям, так и аналитикам повысить продуктивность при создании и модификации аналитических проектов. Узнайте больше о современных AI возможностях в Oracle.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые возможности Fusion Data Intelligence

Текст поста: Ознакомьтесь с обновлениями Fusion Data Intelligence: новые интеллектуальные приложения, расширенные отчеты и помощник разработчика. Эти улучшения расширяют возможности аналитики и делают работу с данными еще более эффективной.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новое сообщество Oracle Analytics: больше возможностей для пользователей

Появилось сообщество Oracle Analytics, где пользователи могут найти различные ресурсы: лабораторию идей, карьерный центр, форумы, новости и аналитические материалы. Доступ к этим материалам можно получить в любое время для получения помощи и советов от экспертов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как работает парламентский график?

Парламентский график – это наглядное и интуитивное представление результатов выборов. Он показывает распределение мест между политическими партиями, упрощая восприятие информации о составе парламента. Узнайте больше о ключевом инструменте для анализа выборов!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как растут компании

В прошлой статье мы обсудили кто такой дата-инженер. Давайте теперь обсудим на каком этапе жизненного цикла компании он появляется в команде/компании.

В этой статье вы узнаете как могут развиваться компании и какие роли бывают в ней, и как они влияют на её развитие.


Читать: https://habr.com/ru/articles/841244/

#ru

@big_data_analysis | Другие наши каналы
Кто такой и чем занимается дата-инженер

Хабр, привет! Меня зовут Саша Сайков, я дата-инженер в PepsiCo и старший ревьюер на курсах «Инженер данных» и «Инженер машинного обучения» в Яндекс Практикуме. Я хочу рассказать, чем занимаются дата-инженеры, в каких компаниях мы работаем и чем отличается наша работа от работы других специалистов по данным.


Читать: https://habr.com/ru/companies/yandex_praktikum/articles/841402/

#ru

@big_data_analysis | Другие наши каналы
Преимущества DAX на примере коэффициента проникновения

Привет, Хабр! В рамках Business Intelligence для расчета KPI и других статистических характеристик могут использоваться различные средства. Универсальным и мощным инструментом является язык DAX, в этой статье я хочу показать его преимущества на примере популярной задачи расчета коэффициента проникновения в Power BI.

Если интересна аналитика с DAX - то добро пожаловать !)


Читать: https://habr.com/ru/articles/843628/

#ru

@big_data_analysis | Другие наши каналы
1
Как нам удалось в 100 раз ускорить решение оптимизационной задачи NBO в Альфа-Банке

В данной статье мы расскажем, как нам удалось найти решение задачи NBO на open source солвере CBC примерно в 100 раз и добиться повышения оптимального значения целевой функции на 0.5%.


Читать: https://habr.com/ru/companies/glowbyte/articles/838410/

#ru

@big_data_analysis | Другие наши каналы
Garak: инструмент Red-Team для поиска уязвимостей в LLM

«ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах фишинга!». — Эти новостные заголовки раскрывают нам тёмную сторону больших языковых моделей. Да, они генерируют за нас контент и анализируют данные, но помимо удобства, приносят новые виды атак и уязвимостей, с которыми надо уметь бороться.

Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории LLM Security AI Talent Hub и хочу поделиться нюансами настройки и использования инструмента для выявления угроз в системах на основе LLM.


Читать: https://habr.com/ru/companies/oleg-bunin/articles/843644/

#ru

@big_data_analysis | Другие наши каналы
Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join.

Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.


Читать: https://habr.com/ru/companies/cedrusdata/articles/843882/

#ru

@big_data_analysis | Другие наши каналы
Из лингвиста в дата-сайентисты: личный опыт и детальный трек

Освоить новую профессию и начать работать в сфере ИТ сейчас хотят многие. Моя история доказывает, что переквалифицироваться реально, хотя и очень сложно. Расскажу о своем входе в сферу Data Science с несколько нестандартной исходной точки. Шесть лет учёбы филологии, преподавания языков и разработки игр привели к тому, что к тридцати годам я поняла, что хочу всё поменять, и отныне моё призвание – Data Science. В этой статье в блоге ЛАНИТ - подробно о том, какой путь мне пришлось пройти и чему я училась на каждом из этапов. Все пароли-явки курсов и полезных учебных материалов вы найдете под катом.


Читать: https://habr.com/ru/companies/lanit/articles/842136/

#ru

@big_data_analysis | Другие наши каналы
2
Как создать проект по работе с данными: пошаговая инструкция

Статья предоставляет пошаговое руководство по созданию проекта обработки данных с нуля. Она охватывает все этапы — от установки необходимого ПО и настройки окружения до структурирования кода и проверки его качества. Узнайте, как выбрать инструменты для обработки данных и построить архитектуру данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Начало работы с Oracle Analytics и AI

Текст поста: Узнайте, как быстро освоить Oracle Analytics с поддержкой искусственного интеллекта. В статье описаны три простых шага для начала работы. Легко и доступно для пользователей любого уровня.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как сделать так, чтобы ваши открытые данные были никому не интересны

Публикация открытых данных — благородное занятие, которое стимулирует исследования, инновации и прозрачность. В то же время заниматься этим бывает утомительно, а пользователи могут делать с вашими данными все, что им угодно. Такая утеря контроля над данными может быть нежелательной, но в некоторых случаях закон обязывает публиковать их именно под открытой лицензией.

Единственный выход в подобных случаях — опубликовать формально открытые данные, но сделать так, чтобы они никому не были интересны. Специально для таких сценариев я составил перечень стратегий, которые помогут избежать нежеланного внимания пользователей, заинтересованных в работе с вашими данными.


Читать: https://habr.com/ru/companies/magnus-tech/articles/842232/

#ru

@big_data_analysis | Другие наши каналы
Не потеряться в данных: оптимизируем аналитику с помощью DataHub

Как не потеряться в данных для аналитики?

Когда количество их источников ограничено, а аналитикой занимается пара человек, в целом всё понятно: обеспечить прозрачность вполне можно на уровне ведения документации (если заниматься этим ответственно).

Но что, если данных в компании много, они отличаются сложной структурой и поступают из разных источников? Едут и из MongoDB, и из PostgresSQL, и из MS SQL; при этом постоянно появляются новые продукты и направления, данных становится ещё больше. Документация по ним устаревает примерно в тот момент, когда заканчиваешь её писать.

Попутно растёт команда аналитиков — новым людям нужно рассказывать, что где лежит, откуда прилетает, какие есть особенности.

Упростить жизнь в такой ситуации призван Data Catalog, и в Сравни мы выбрали популярный вариант — DataHub. Под катом рассказываем, как меняется работа с данными для аналитики, когда в твоей жизни появляется визуализация потоков данных.


Читать: https://habr.com/ru/companies/sravni/articles/844016/

#ru

@big_data_analysis | Другие наши каналы
Pet-проекты и данные для Data-Engineer

При изучении дата-инжиниринга часто возникает вопрос: "откуда брать данные?"

В данной статье вы узнаете про крутые инструменты, которые позволят вам создавать свои pet-проекты c использованием разнообразных данных.


Читать: https://habr.com/ru/articles/841940/

#ru

@big_data_analysis | Другие наши каналы