Data Analysis / Big Data
2.84K subscribers
557 photos
3 videos
2 files
2.63K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Работа с библиотеками, которые не установлены в Airflow

Данные библиотеки можно использовать при работе со SparkOperator:

1. Создание виртуального окружения с необходимыми библиотеками

2. Создание задачи в даге и установка окружения в SparkSubmit


Читать: https://habr.com/ru/articles/889394/

#ru

@big_data_analysis | Другие наши каналы
Forwarded from Типичный программист
👍 Как говорил мой дед: хороший админ не будет жмотить шпаргалку по PostgreSQL подписчикам

Поэтому я милостиво отдаю её вам. В этом чит-листе всё, что вам может пригодится: подключение к серверу, управление содержимым БД, создание и изменение таблиц, SQL-команды (SELECT, INSERT, UPDATE, DELETE), а также функции для работы с текстом, числами, NULL и датами.

А для тех, кто не дружит с английским, оставляю ссылку на сайт — там расписано по пунктам, так что легко перевести при необходимости. Ну и файлик без сжатия положил в комменты.

#postgresql #шпаргалка
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Python vs C++: какой язык быстрее найдет все простые числа до миллиарда

Рассказываем, какие есть алгоритмы для поиска простых чисел и реализуем наиболее популярный и простой на Python и C++.

Читать: «Python vs C++: какой язык быстрее найдет все простые числа до миллиарда»

#ru

@big_data_analysis | Другие наши каналы
Новые возможности Oracle Analytics Server 2025

Oracle выпустила обновлённую платформу Oracle Analytics Server 2025 — наследника OBIEE. Она позволяет реализовать аналитику как на своих серверах, так и в облаке. Платформа поддерживает интеграцию с AI и ML, упрощая работу с данными и их визуализацию.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новые возможности в Oracle Analytics Cloud

Oracle выпустила мартовское обновление 2025 для Oracle Analytics Cloud, добавив расширенные функции AI-ассистента, улучшенное обогащение данных для бизнеса, новые опции визуализации, такие как диаграммы-датчики, улучшенную настройку книг и более широкую интеграцию с частными сетями.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
1
Чужое открытое ПО внутри BI-систем: проблемы лицензирования, о которых не все задумываются

Для быстрого создания какого-то продукта часто используют различные open source решения. Но применение открытого ПО несёт в себе определённые риски: от финансовых до юридических. Потому что разработка на базе ПО с открытым исходным кодом не означает бесконтрольное использование созданных на этом коде продуктов из-за действия соответствующей лицензии: BSD, GNU, MIT, LGPL, AGPL, BSPL, SSPL, Demoware License, Apache License 2.0, RSAL и других. А в соответствии со статьями 1252 и 1301 ГК РФ иски о нарушении лицензионного права предъявляются к юридическому лицу, использующему указанное программное обеспечение.

Меня зовут Алексей Розанов, я руководитель пресейл-направления и работы с партнёрами ГК Luxms, и в этой статье я хочу рассмотреть несколько примеров использования open source решений на рынке BI-аналитики и подсветить юридические риски для компаний, которые используют BI-системы на их основе.


Читать: https://habr.com/ru/companies/luxms_bi/articles/890568/

#ru

@big_data_analysis | Другие наши каналы
GigaChat 2.0 в API

Салют, Хабр! Время летит незаметно. Будто совсем недавно мы знакомили вас с GigaChat MAX, но мы не стоим на месте и сегодня готовы представить вам обещанный апгрейд. За полгода мы значительно улучшили обучающие данные, поработали над инфраструктурой обучения моделей, а также уделили особое внимание всему процессу Alignment-а, в том числе RLHF.

Представляем вам GigaChat 2 — полностью обновлённую линейку моделей в версиях Lite, Pro и Max. Все модели серьёзно улучшены: мы обновили pretrain’ы, улучшили большинство метрик по сравнению с предыдущими версиями, добавили поддержку контекста в 128 тысяч токенов, улучшили вызовы функций, и в целом повысили понимание инструкций.

GigaChat 2 — не просто сухие числа и технические улучшения. Теперь это надёжный помощник в повседневных задачах. Например, он легко оформит отчёт для работы, напишет чистый и эффективный код, поздравит с днём рождения или даст мудрый совет. Мы уверены: с ним вы сможете делать больше, быстрее и лучше как на работе, так и в жизни. Попробуйте GigaChat 2 уже сейчас в Playground — пользовательском интерфейсе для продвинутой работы с промптами!
GigaChat 2

Читать: https://habr.com/ru/companies/sberdevices/articles/890552/

#ru

@big_data_analysis | Другие наши каналы
Как OSA превращает пустые полки в полные корзины?

Вы когда-нибудь сталкивались с разочарованием перед пустой полкой, где должен быть ваш любимый майонез? А что если я вам скажу, что майонез в магазине есть. Помимо разочарования, это приводит еще и к потере выручке магазина.

Понять, почему товар числится в магазине, но не покупается посетителям, практически детективная задача. Так что наша команда занимается настоящими расследованиями: данные – наши улики, с помощью которых необходимо понять, почему вы не можете купить свой любимый майонез в ближайшем магазине. Именно здесь выходит на сцену команда проекта OSA. Присаживайтесь, погружу вас в детали работы нашего детективного бюро.


Читать: https://habr.com/ru/companies/magnit/articles/889658/

#ru

@big_data_analysis | Другие наши каналы
Анатомия данных: как устроено управление информацией

Объем информации растет, но без системного подхода данные превращаются в шум. Разбираемся, как в компаниях структурируют, анализируют и защищают данные, чтобы они работали на бизнес, а не создавали хаос.

Читать: «Анатомия данных: как устроено управление информацией»

#ru

@big_data_analysis | Другие наши каналы
Новая функция в Oracle Analytics Cloud

В Oracle Analytics Cloud появилась функция создания кастомных папок в рабочих тетрадях. Это позволит авторам эффективно работать с разными источниками данных, даже в условиях их объединения или разобщенности. Узнайте больше о возможностях этой обновленной функции!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
BI-Ассистент для создания аналитических дашбордов и автоматизированного анализа данных

BI-Ассистент для создания аналитических дашбордов и автоматизированного анализа данных

Привет, Habr! На связи Александр Сулейкин, Founder DUC Technologies и наша LLM-команда – Роман Бабенко и Александра Деведерова, а также Бутнев Даниил — аналитик, бывший сотрудник компании, являющейся центром компетенций по качеству и метрологии. Мы подготовили статью по возможному применению и созданию BI-ассистентов на базе LLM моделей для создания аналитических дашбордов. Данная сфера пока еще находится в зачаточном состоянии, развитие LLM для BI-решений только набирает популярность. В данной статье мы описали возможный кейс совмещения BI и LLM на примере реального Use Case в сфере метрологии.

1. Введение

Создание аналитических дашбордов и проведение комплексного анализа данных являются важными аспектами работы организаций. Однако этот процесс часто требует глубоких технических знаний, что делает его труднодоступным для пользователей без специальной подготовки. Особенно актуальной становится проблема, когда речь идет о небольших компаниях или отделах, где ресурсы ограничены, а необходимость в оперативном анализе данных высока. Это создает барьер между бизнесом и информацией, которую можно было бы использовать для принятия взвешенных решений.

Цель данной статьи - представить разработку BI-Ассистента, виртуального помощника, предназначенного для автоматизации процесса создания аналитических дашбордов и выполнения аналитических запросов. Этот инструмент направлен на упрощение взаимодействия с данными и снижение порога входа для пользователей, не обладающих технической подготовкой.


Читать: https://habr.com/ru/articles/891420/

#ru

@big_data_analysis | Другие наши каналы
Повышение эффективности аналитических баз данных: кейс «Комус» и Arenadata

Хабр, привет! Современные высоконагруженные системы требуют точной настройки и регулярного мониторинга, чтобы обеспечить стабильную производительность в условиях постоянно растущих объёмов данных. Когда речь идёт о крупной аналитической базе данных, развёрнутой в облачной среде, оптимизация её работы становится критически важной задачей. В прошлой статье мы уже рассказывали о типичных ошибках при работе с Arenadata DB (ADB), о том, как их избежать и значительно повысить производительность кластера. Сегодня же поделимся реальным опытом на примере компании «Комус» — лидера в области B2B-ритейла, которая обратилась к Arenadata за проведением комплексного аудита своего кластера ADB.

В этой статье мы детально разобрали, как с помощью анализа и оптимизации удалось выявить точки роста, подготовить кластер к текущим и будущим нагрузкам и предложить план улучшений. Мы рассмотрим технические детали аудита, проблемы, с которыми пришлось столкнуться, и эффективные практики, позволившие повысить производительность аналитической базы данных.
Что там с нагрузкой на кластер?

Читать: https://habr.com/ru/companies/arenadata/articles/887792/

#ru

@big_data_analysis | Другие наши каналы
Как мы искали должников при помощи Pandas

Петербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.

Я занимаюсь анализом данных и дата-журналистикой в газете "Деловой Петербург". Расскажу о том, как объединяли информацию из множества локальных html-таблиц и приведу примеры кода на "Питоне".


Читать: https://habr.com/ru/articles/891704/

#ru

@big_data_analysis | Другие наши каналы
❤‍🔥1
Программный код в Big data и Power law

В статье приводятся оригинальные модули Python и даётся пояснение по их применению в задачах распределённой децентрализованной сети по типу блокчейн или, другими словами, в процессах самоорганизованной критичности (SOC). В научных публикациях чаще встречается физический термин SOC в качестве концепции, включающей процессы турбулентности, детонации, землетрясения, нейросети, фондовая волатильность, социальный рейтинг и другие.

Для процессов SOC характерно отсутствие управляющих параметров и масштабная инвариантность. Универсальность сложных процессов SOC со степенным законом Power law имеет тот же характер, как и универсальность простых линейных систем, не обладающих масштабной инвариантностью, по отношению к закону нормального распределения вероятности.

Зависимость от масштаба возникает при аналого-цифровом преобразовании битов в позиционную систему счисления и проявляется в законе нормального распределения вероятности в виде дисперсии и математического ожидания. Потеря масштабной инвариантности в позиционной системе счисления компенсируется приобретением принципа причинности. Например, в Древнем Риме, где была принята непозиционная система счисления, вычисляли, что «после того - не вследствие того» и сильно удивились бы истории с падающим на Ньютона яблоком.

Значительные достижения в анализе Big data заставляют предположить связь с распределением вероятности Пуассона: чем больше данных, тем чаще должны встречаться пуассоновские события и вопрос лишь в поиске подходящей метрики и системы счисления.


Читать: https://habr.com/ru/articles/891278/

#ru

@big_data_analysis | Другие наши каналы
Три необсуждаемых вопроса о параллельной распределённой обработке данных — чтобы жить стало легче

Воркшоп для тех, кто впервые сталкивается с распределёнными системами.

В этой статье на примере решения несложного архитектурного кейса я покажу, что ответов только на 3 вопроса при проектировании систем распределённой параллельной обработки данных будет достаточно для обеспечения жёстких нефункциональных требований.


Читать: https://habr.com/ru/articles/891744/

#ru

@big_data_analysis | Другие наши каналы
«Ошибка на миллиард» в ИИ: боремся с галлюцинациями в LLM по аналогии с NullPointerException

Привет! Меня зовут Денис Березуцкий, я старший инженер по разработке ПО искусственного интеллекта в YADRO. В ML-команде мы разрабатываем системы, которые облегчают работу нашим заказчикам с помощью текстовых генеративных нейросетей: реализуем RAG, создаем чат-ботов, агентные системы и другие решения.

Как и многие в индустрии, мы сталкиваемся с проблемами галлюцинаций LLM, которые портят ответы виртуальным ассистентам и способны подорвать доверие к ним. В статье я расскажу об одном не совсем стандартном методе, перенесенном из «классического» программирования, который мы применяем для борьбы с галлюцинациями и улучшения поисковой выдачи.


Читать: https://habr.com/ru/companies/yadro/articles/890826/

#ru

@big_data_analysis | Другие наши каналы
Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями

Всем привет! Это DS-ы Павел Парфенов и Максим Шаланкин из команды Финтеха Big Data МТС. Мы и наши коллеги Data Scientists и Data Analysts ежедневно обрабатываем огромные массивы информации, строим модели и выделяем целевые сегменты, чтобы принимать обоснованные решения. Наши рутинные задачи — предварительный анализ данных (EDA), обучение ML-моделей и сегментация аудитории — часто отнимают кучу времени и ресурсов.

Для себя и коллег с другими компетенциями мы решили сделать инструмент, который сэкономит время на рутинных задачах. В этой публикации мы подробно расскажем, что именно оптимизировали с помощью автоматизации и на каких этапах рабочего процесса применяем нашу командную платформу. Используя этот опыт, вы сможете освободиться от монотонных действий при работе с данными и сосредоточиться на по-настоящему важных вещах.


Читать: https://habr.com/ru/companies/ru_mts/articles/891498/

#ru

@big_data_analysis | Другие наши каналы
Что подразумевают под Data Governance?

Если говорить про Data Governance, то это, в первую очередь, не продукты, а огромная методология управления жизненным циклом данных, и только потом – технологии. Близко к идеалу считается методология DAMA-DMBOK, и у любого специалиста по данным это должна быть настольная книга. К сожалению, в подавляющем большинстве случаев, когда люди начинают задумываться про управление данных, она попросту неприменима, так как она показывает «правильное» управление данными больших предприятий, до неё еще надо «дорасти», при этом точечно применяя сначала простые приемы, с возможностью расширения методик управления данными как «вширь», на другие отделы, так в «вглубь» на все процессы, связанные с управлением данными (Data Management): получением («добычей»), обработкой, хранением, извлечением и использованием информации. Без подобного управления жизненным циклом данных получим картину как в последнем исследовании Makves, что 40% данных никогда не используется: к ним не зафиксировано ни одного обращения за 5 лет.
Найти «Ценность в данных» становится искусством, так как на предприятии растут «Кладбища данных» вместо «Хранилищ данных».

Сейчас зачастую под Data Governance имеют в виду две части, это Data Quality – управление качеством данных, и Data Linage – «понять, откуда пришли данные, как они изменялись и можно ли им доверять». Если данные методологии использовать «в лоб», то это очень сильно замедлит разработку и перегрузит команду по управлению данными.


Читать: https://habr.com/ru/articles/892302/

#ru

@big_data_analysis | Другие наши каналы
Precision и recall для каждого от кофаундера Технолиума

Всем привет, решил сделать небольшой цикл статей о простых вещах из программирования и математики от кофаундера Технолиум. Здесь небольшая статья о подборе порога в бинарной классификации.


Читать: https://habr.com/ru/articles/892456/

#ru

@big_data_analysis | Другие наши каналы