Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Генерация данных с помощью Python: зачем это нужно и как применять

Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры Tproger

Читать: «Генерация данных с помощью Python: зачем это нужно и как применять»

#ru

@big_data_analysis | Другие наши каналы
От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.


Читать: https://habr.com/ru/companies/ingos_it/articles/862030/

#ru

@big_data_analysis | Другие наши каналы
Модели BERT для машинного обучения: гайд для начинающих

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.


Читать: https://habr.com/ru/companies/skillfactory/articles/862130/

#ru

@big_data_analysis | Другие наши каналы
Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда-нибудь задавали себе вопрос, в чём главное отличие дата инженера от "обычного" аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом?Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него - уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.


Читать: https://habr.com/ru/articles/860322/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer форматы файлов

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.


Читать: https://habr.com/ru/articles/859968/

#ru

@big_data_analysis | Другие наши каналы
В поисках потерянных данных: переход со StreamSets на Data Boring

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.


Читать: https://habr.com/ru/companies/luxms_bi/articles/862364/

#ru

@big_data_analysis | Другие наши каналы
Как организовать разметку данных для ML? Советы от Data Light

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:

Дмитрий Рогальский, Special Projects Group Manager в Data Light

Алексей Корнилов, Moderation Group Manager в Data Light


Читать: https://habr.com/ru/companies/data_light/articles/862464/

#ru

@big_data_analysis | Другие наши каналы
Миф о чистых данных: почему ваш аналитик похож на сапёра

Миф о чистых данных: почему ваш аналитик похож на сапёра.

Как бороться с самым частым убеждением при работе с данными.


Читать: https://habr.com/ru/articles/862772/

#ru

@big_data_analysis | Другие наши каналы
Что за распределение у выборочных квантилей?

Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?

В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.


Читать: https://habr.com/ru/articles/862874/

#ru

@big_data_analysis | Другие наши каналы
Генерация дополненного извлечения (RAG): от теории к реализации LangChain

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain


Читать: https://habr.com/ru/articles/862870/

#ru

@big_data_analysis | Другие наши каналы
Создайте бар-чарт с D3.js!

В статье рассказано, как использовать D3.js для создания простой визуализации данных с помощью HTML-бар-чарта. Узнайте, как отобразить связь между числовыми и категориальными данными на основе примера с жестко закодированными данными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создание пользовательских объектов в Fusion Applications

Хотите узнать, как создавать пользовательские объекты в Fusion Applications и улучшать их с помощью FDI? В статье подробно описан пошаговый процесс и приведён пример из реальной практики, показывающий, как применить эти знания на практике.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Интеграция Salesforce с Fusion Data Integration

Текст поста: Узнайте, как интегрировать Salesforce с Fusion Data Integration для доступа к данным аналитики кампаний и CRM. В статье описаны этапы настройки, тестирования и активации соединения, а также конфигурации параметров и проверки данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Суперсилы Виталика: на что способен ViTalk GPT

Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей.

AI помогает делать многое, но при работе с современными сервисами часто возникают технические трудности — платная подписка, необходимость подключать VPN, потребность постоянно напоминать AI контекст предметной области и т.д. К счастью, для аналитики в DAX доступен бесплатный чат-бот ViTalk, который способен решать множество важных задач без лишних танцев с бубном.


Читать: https://habr.com/ru/companies/visiology/articles/863144/

#ru

@big_data_analysis | Другие наши каналы
Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке

📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.


Читать: https://habr.com/ru/articles/863168/

#ru

@big_data_analysis | Другие наши каналы
Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025

Python в Data Science. Показываем основные библиотеки и фреймворки, которые будут популярны в 2025. Рассматриваем преимущества и недостатки Tproger

Читать: «Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025»

#ru

@big_data_analysis | Другие наши каналы
Оценка приложений RAG с помощью RAGA

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.


Читать: https://habr.com/ru/articles/861792/

#ru

@big_data_analysis | Другие наши каналы
Сравнение платформ для аналитики данных

Что общего у Snowflake, Databricks, Redshift и BigQuery? Эти платформы позволяют обрабатывать и хранить большие объемы данных, предлагая уникальные преимущества и различные уровни поддержки языков программирования. Как выбрать подходящую платформу и что нужно учитывать? Основные аспекты их сравнения помогут вам понять, какая из них лучше соответствует вашим задачам и требованиям. Платформы для аналитики данных: что выбрать?

Основываясь на статье, обсуждаются различия между платформами для аналитики данных, такими как Snowflake и Spark. Отмечается, что такие системы, как Snowflake, легче настроить, но Spark предлагает больше контроля. Выбор зависит от требований к функциям и не должен основываться только на маркетинге.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Neural OCR как способ использования нейронных сетей при распознавании рукописных символов

Прогресс в машинном обучении и компьютерном зрении изменил подходы к оптическому распознаванию символов (OCR), обеспечив высокую точность оцифровки документов. Однако современные сверточные нейронные сети (CNN), используемые в большинстве OCR‑систем, сталкиваются с нехваткой качественных тренировочных данных. Эта проблема особенно затрагивает языки с ограниченными ресурсами, что создает трудности в разработке надежных систем распознавания текста. Ограниченные обучающие наборы часто снижают точность и устойчивость моделей при работе с различными форматами документов, нестандартными шрифтами и изображениями низкого качества.

Поэтому необходимо разрабатывать новые модели OCR, которые могут эффективно распознавать текст даже при недостатке данных. Такие модели должны быть гибкими и адаптивными, чтобы успешно обрабатывать документы разных стилей и форматов, а также оставаться устойчивыми к шумам и искажениям. Важно найти методы, которые обеспечат высокую точность распознавания независимо от объема обучающей выборки, что откроет возможности для применения OCR в многоязычных и многоформатных контекстах.

Исследования по улучшению эффективности и универсальности систем OCR имеют большое значение для повышения качества распознавания текста в разных условиях. В таких работах рассматриваются перспективные подходы, такие как аугментация данных, трансферное обучение и специализированные архитектуры нейронных сетей, адаптированные для работы с ограниченными данными. Эти исследования могут привести к созданию более совершенных и доступных систем OCR, что расширит их практическое применение. Улучшение качества распознавания текста позволит автоматизировать процессы обработки информации в бизнесе, образовании, архивировании, научных исследованиях и других областях, способствуя более эффективному взаимодействию с текстовыми данными в цифровую эпоху.


Читать: https://habr.com/ru/articles/863644/

#ru

@big_data_analysis | Другие наши каналы
Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.


Читать: https://habr.com/ru/companies/cedrusdata/articles/863600/

#ru

@big_data_analysis | Другие наши каналы