Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Объединяем фреймы данных в pandas: две самые распространённые операции

Предположим, что проводится большое исследование основных биохимических показателей крови у пациентов, проходивших обследование в нескольких клиниках. Все пациенты должны отказаться в одном наборе данных — но исходно каждая клиника поставляет свой датасет. Индексом в каждом из них будет номер паспорта пациента, а параметры будут сходны — для всех пациентов, помимо имени и даты рождения, будут доступны концентрации альфа-амилазы, креатинина, общего белка и т.п. Они будут представлять собой столбцы таблиц — но в каждой таблице они будут расположены в разном порядке, потому что у разных лабораторий были разные бланки.

Объединять такие таблицы, например, в Excel, ужасно долго и муторно. К счастью, если их удалось загрузить в pandas в виде фреймов данных, есть решение одной командой. Если вы импортировали pandas как pd, то команда объединения будет выглядеть так:


Читать: https://habr.com/ru/articles/860412/

#ru

@big_data_analysis | Другие наши каналы
Python и SQL: что изучать в первую очередь для анализа данных

Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье.

Читать: «Python и SQL: что изучать в первую очередь для анализа данных»

#ru

@big_data_analysis | Другие наши каналы
Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Меня зовут Мария, я работаю в Альфа-Банке на позиции Middle Data Scientist, и сейчас я вам про этот нюанс расскажу — почему же эта задача не такая тривиальная, как кажется на первый взгляд.


Читать: https://habr.com/ru/companies/alfa/articles/859940/

#ru

@big_data_analysis | Другие наши каналы
Саммаризация — Как Data Light помогает пользователям находить идеальный товар быстрее

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.


Читать: https://habr.com/ru/companies/data_light/articles/860602/

#ru

@big_data_analysis | Другие наши каналы
Анализ временных рядов: полное руководство для начинающих

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым.


Читать: https://habr.com/ru/companies/skillfactory/articles/860660/

#ru

@big_data_analysis | Другие наши каналы
Полное руководство по оценке компонентов системы RAG: что необходимо знать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».


Читать: https://habr.com/ru/articles/860390/

#ru

@big_data_analysis | Другие наши каналы
Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).


Читать: https://habr.com/ru/articles/860900/

#ru

@big_data_analysis | Другие наши каналы
Участвуй в Oracle Analytics Data Visualization Challenge 2025!

Oracle приглашает начинающих специалистов по визуализации данных продемонстрировать свои таланты в новом конкурсе 2025 года. Это отличная возможность проявить себя в мире данных и, возможно, стать лидером в этой области. Не упустите шанс стать лучшим!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
1
Настройте модели в OCI для точной обработки документов

Статья рассказывает о создании кастомных моделей в OCI Document Understanding. Узнайте, как адаптировать извлечение данных из документов под уникальные требования клиентов, используя возможности Oracle Cloud Infrastructure.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как загрузить свою модель в Oracle Analytics Cloud

В статье рассказывается о способах интеграции кастомных моделей для понимания документов в Oracle Analytics Cloud. Пошаговое руководство поможет эффективно зарегистрировать и использовать обученные модели для анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Защити свой Oracle Analytics Cloud

Пост: Узнайте, как обеспечить безопасность вашего Oracle Analytics Cloud с помощью методологии Zero Trust Packet Routing. Эта технология позволяет минимизировать риски, связанные с доступом к данным, за счет недоверия ко всем внешним и внутренним источникам.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создайте уникальный плагин с нуля

Хотите научиться создавать собственные плагины? Новая серия статей предлагает пошаговое руководство, которое поможет вам разработать инновационный и функциональный плагин. Идеально для тех, кто хочет освоить процесс разработки с первого шага.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Безопасность Oracle Analytics Server: Руководство по Zero Trust

Пост: Откройте для себя, как усилить защиту Oracle Analytics Server с помощью Zero Trust Packet Routing. Узнайте о новых подходах к безопасности, которые помогут предотвратить угрозы и обеспечить надежность ваших данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Генерация данных с помощью Python: зачем это нужно и как применять

Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры Tproger

Читать: «Генерация данных с помощью Python: зачем это нужно и как применять»

#ru

@big_data_analysis | Другие наши каналы
От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.


Читать: https://habr.com/ru/companies/ingos_it/articles/862030/

#ru

@big_data_analysis | Другие наши каналы
Модели BERT для машинного обучения: гайд для начинающих

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.


Читать: https://habr.com/ru/companies/skillfactory/articles/862130/

#ru

@big_data_analysis | Другие наши каналы
Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда-нибудь задавали себе вопрос, в чём главное отличие дата инженера от "обычного" аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом?Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него - уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.


Читать: https://habr.com/ru/articles/860322/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer форматы файлов

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.


Читать: https://habr.com/ru/articles/859968/

#ru

@big_data_analysis | Другие наши каналы
В поисках потерянных данных: переход со StreamSets на Data Boring

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.


Читать: https://habr.com/ru/companies/luxms_bi/articles/862364/

#ru

@big_data_analysis | Другие наши каналы
Как организовать разметку данных для ML? Советы от Data Light

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:

Дмитрий Рогальский, Special Projects Group Manager в Data Light

Алексей Корнилов, Moderation Group Manager в Data Light


Читать: https://habr.com/ru/companies/data_light/articles/862464/

#ru

@big_data_analysis | Другие наши каналы