Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
В ногу со временем: введение в многомерный анализ и OLAP-технологии

В любой компании важно принимать корректные и целесообразные управленческие решения, а для этого необходимо обладать нужной информацией. Поэтому требуется собрать данные из всех информационных систем, привести их к общему виду и после этого проводить анализ. Давай разберемся?


Читать: https://habr.com/ru/articles/775042/
What is an Open Table Format? & Why to use one?

Read: https://www.startdataengineering.com/post/what_why_table_format/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за середину осени

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.

Итак, а теперь сам дайджест:


Читать: https://habr.com/ru/articles/775502/
Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform

Привет, Хабр! С прошлого дайджеста произошло много событий в мире MLOps и дата-аналитики. Например, Microsoft анонсировал свой AI-чип, Databricks стал скупать «игроков поменьше», а рынку аналитических решений прогнозируют рост на 40% каждый год. Подробнее об этом рассказываем в статье. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/775418/
1
Выбор СУБД: шпаргалка, чтобы не запутаться

Вопрос выбора СУБД для российской компании или госоргана – вопрос не праздный, тем более сейчас – когда с момента ухода с рынка западных вендоров прошло уже полтора года и пора что-то решать. Но как не запутаться в номенклатуре СУБД и выбрать ту, которая лучше всего подходит? Без ложной скромности скажу: мы в «Кругах Громова» уже немного поднаторели в систематизации, поэтому надеемся, что наша шпаргалка для тех, кто хочет выбрать СУБД, окажется полезной.

Начнем с классики. СУБД делятся на несколько типов. Не будем описывать их подробно, остановимся только на их основном предназначении.


Читать: https://habr.com/ru/articles/775574/
Как использовать Spring в качестве фреймворка для Flink-приложений

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Недавно мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в наши продукты в цикле статей. В предыдущей части я рассказывал про основные концепции потоковой обработки данных. А ещё затронул архитектуру и главные механизмы Apache Flink.

В этой статье начнем разработку Flink-приложения с использованием фреймворка Spring. Изучим структуру приложения, основные плагины и полезные настройки. Развернем Flink-кластер в Docker и попробуем запустить первое Flink-задание. Структура приложения будет постепенно развиваться в последующих статьях.


Читать: https://habr.com/ru/companies/ru_mts/articles/775970/
Большие языковые модели (LLM) в задачах

Сейчас в мире довольно много разговор о том, что LLM оставят всех нас без работы. Чтобы понять о чем речь рассмотрим на практических примерах какие задачи из коробки могут решать современные большие языковые модели (large language models, LLM).

Читать: https://habr.com/ru/articles/775870/
2
FineBI: Обработка данных для начинающих пользователей

Хабр, привет!

На связи команда Business Intelligence GlowByte. Да-да, те самые неугомонные, которые создали самое крупное русскоязычное сообщество FineBI, проводят обучения, собирают дайджесты и ежегодно организуют масштабные конференции.

Меня зовут Александр, я руководитель центра поддержки и обучения BI-решений в GlowByte, и сегодня хочу поделиться с вами небольшим гайдом по обработке данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам.

Данная статья состоит из четырех уроков, которые помогут вам ближе познакомиться с функциями редактирования данных в FineBI.


Читать: https://habr.com/ru/companies/glowbyte/articles/776648/
Лексикографический симлекс-метод

Лексикографический симлекс-метод.

Решение задачи линейного программирование симлекс-методом и лексикографическим симлекс-методом на Python!


Читать: https://habr.com/ru/articles/776694/
Внутренние данные: топливо успеха в банковской индустрии, или Тайны загрузки данных, формирующих будущее инноваций

Внутренний источник данных в банке – это любой источник информации, который находится внутри банковской организации и генерирует данные самостоятельно. Эти данные хранятся исключительно внутри банка. Они выделяются уникальностью, бесплатностью (сформированы внутри банка или куплены ранее), и высоким качеством, и хранятся в структурированном виде. При всем при этом они могут приносить бизнесу пользу, если придумать как можно применить их в новых задачах. Подключение таких источников позволяет обогащать имеющиеся базы, улучшать качество существующих моделей машинного обучения и создавать новые.

Как их искать, зачем и куда подключать, как они могут быть полезны и какую подготовительную работу мы проводим, прежде чем подключить, расскажем в статье.


Читать: https://habr.com/ru/companies/alfa/articles/776744/
New AI capabilities with Oracle Analytics

Discover the power of Oracle Analytics with AI capabilities

Read: https://blogs.oracle.com/analytics/post/discover-the-power-of-oracle-analytics-with-ai
Building a Marimekko chart in Oracle Analytics

Marimekko chart is a powerful data visualization because it captures multiple dimensions in one chart. This article explains the Marimekko chart and the steps to build one in Oracle Analytics.

Read: https://blogs.oracle.com/analytics/post/building-marimekko-charts-in-oracle-analytics
Extracting key values with Oracle Analytics and OCI AI Document Understanding

Extract and analyze key values within documents, including PDF and images, with Oracle Analytics and OCI AI Document Understanding

Read: https://blogs.oracle.com/analytics/post/innovate-with-oracle-analytics-and-ai-document-understanding
Apache Spark… Это База

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.


Читать: https://habr.com/ru/articles/777294/
ЧТО ОБЩЕГО МЕЖДУ РАКОМ КРОВИ, ЛАЗЕРАМИ И НЕЙРОННЫМИ СЕТЯМИ?

Доброго времени суток, дорогой Habr, надеюсь вы успели заскучать после 3-х месяцев паузы (ссылка на прошлую статью). На связи снова Николай Иванов и сегодня вы узнаете, что общего между раком крови, лазерами и машинным обучением. В этой статье мы поговорим с вами о методе проточной цитофлуориметрии, как он работает и как врачи определяют рак костного мозга и крови. Далее обсудим причём тут машинное обучение, как его можно использовать для ускорения работы врачей, а также чего мы достигли и есть ли смысл этим вообще заниматься? Рассказ я буду вести именно в том порядке, в котором мы двигались, при решении данной задачи. Приятного чтения!

Начнём с проточной цитофлуориметрии


Читать: https://habr.com/ru/articles/777476/
Выбор информационной системы для автоматизации вашей бизнес-задачи – разбираемся вместе с GlowByte

Вопрос автоматизации бизнес-процессов всегда был актуален для большого количества современных компаний, и в последние несколько лет тренд на автоматизацию набирает всё большие обороты.

Информационные системы (ИС) позволяют повысить качество бизнес-процессов компании, в том числе связанных со стратегическим планированием, прогнозированием и оценкой эффективности бизнеса в целом.

На рынке существует множество ИС, которые позиционируют себя как продукты, способные решить подобные задачи. В аббревиатурах вообще можно запутаться (BI, ERP, CRM, CPM, EPM, BPM и т. д.). Все эти аббревиатуры, на самом деле, представляют очень разные типы информационных систем, и надо бы разобраться, какой из них подходит под вашу конкретную задачу. При этом внутри каждого типа существует большой выбор различных вендоров, и вопрос выбора становится ещё менее очевидным: не погружённому в специфику продуктов пользователю далеко не всегда понятно, сможет ли конкретная система полностью удовлетворить запрос именно его компании.

Мы – направление FI (Financial Intelligence) компании GlowByte, специализируемся на внедрении информационных систем, знаем особенности, плюсы и минусы каждой. Этой статьёй мы начинаем цикл публикаций о том, как сделать автоматизацию бизнес-процессов эффективной, безболезненной и успешной. Всё, о чём мы будем писать, основано на личном опыте внедрения. Специалисты нашей команды имеют опыт внедрений в различных отраслях и спецификах, а также являются обладателями сертификатов DipIFR и CIMA, поэтому нам легко понять язык заказчика, прочувствовать все его “боли” и оценить, какой из существующих на рынке продуктов лучше всего подойдёт в каждом конкретном случае.


Читать: https://habr.com/ru/companies/glowbyte/articles/777496/
👍2
Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

В данной статье мы рассмотрим ключевые аспекты различных типов хранилищ данных, которые помогут оптимизировать процессы управления данными в вашей компании.
Подробнее

Читать: https://habr.com/ru/articles/778034/
❤‍🔥3🌚1
FineBI-g brother is still watching: как мы усовершенствовали мониторинг

Привет, Хабр! На связи BI-команда Tele2. Ранее мы уже рассказывали о нашем опыте перехода на Fine BI и подходе к анализу действий пользователей на платформе.

В нашем случае мониторинг пользователей и объектов на платформе – вопрос жизненной необходимости. Fine BI пользуется популярностью у бизнес-пользователей, также мы активно развиваем подход self-service: лицензия Сreator предоставлена 300 сотрудникам, всего опубликовано около 400 дашбордов, а неопубликованных пользовательских ad-hoc дашбордов насчитывается несколько тысяч, доступ к платформе есть более чем у 2,5 тыс человек, а MAU стремится к 2000 пользователей.

Под катом про то, как мы усовершенствовали объединение таблиц из FineDB и LogDB в один датасет, решили проблему потери логов из-за замены уже опубликованных дашбордов и углубили возможности мониторинга действий пользователей и взаимосвязей пользовательских действий с объектами.


Читать: https://habr.com/ru/companies/tele2/articles/778520/
3
Prepare Network Components for Internet Access to Oracle Analytics Service Endpoints

This article describes how to prepare basic network components for internet access to Oracle Analytics service endpoints. It describes architectures, components and deployments with links to reference material.

Read: https://blogs.oracle.com/analytics/post/prepare-network-components-for-private-internet-access-to-oracle-analytics-services
Выбор BI системы для селф-сервис

Всем привет! Я - Никита Колганов из группы компаний “АСНА”. Группа компаний "АСНА" – это современная экосистема сервисов и решений для фармацевтического рынка, позволяющая нам развиваться самим и способствовать развитию партнеров.

Зачем мы вообще внедряли BI-систему?

В компании ежедневно делается множество отчетов, значительная часть которых  - средствами Excel. Помимо того, что ручной сбор отчетов занимает массу времени, так и сам Excel, как контейнер доставки отчетности, обладает рядом недостатков. Это, как минимум:

Проблема централизации - в каждом Excel может быть как свой набор исходных данных, так и свои методики расчета;

Проблема доставки - расшарить файл на большое количество участников бывает проблематично. Особенно, если он большой и не пролезает в почту;

Проблема безопасности - непросто ограничить доступ к Excel-файлу для определенного круга лиц

Отсутствие автоматизации алертов - на уровне Excel сложно настраивать оповещения в почту или корпоративные мессенджеры в случае изменения того или иного показателя.

Изначально в качестве BI-системы мы хотели использовать Tableau и даже успели сделать несколько дашбордов, но случился февраль 2022 года, и Tableau стал недоступен. Вместе с тем, в компании назрела необходимость BI в концепции self-service.


Читать: https://habr.com/ru/articles/779238/