Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Настройте модели в OCI для точной обработки документов

Статья рассказывает о создании кастомных моделей в OCI Document Understanding. Узнайте, как адаптировать извлечение данных из документов под уникальные требования клиентов, используя возможности Oracle Cloud Infrastructure.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как загрузить свою модель в Oracle Analytics Cloud

В статье рассказывается о способах интеграции кастомных моделей для понимания документов в Oracle Analytics Cloud. Пошаговое руководство поможет эффективно зарегистрировать и использовать обученные модели для анализа данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Защити свой Oracle Analytics Cloud

Пост: Узнайте, как обеспечить безопасность вашего Oracle Analytics Cloud с помощью методологии Zero Trust Packet Routing. Эта технология позволяет минимизировать риски, связанные с доступом к данным, за счет недоверия ко всем внешним и внутренним источникам.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создайте уникальный плагин с нуля

Хотите научиться создавать собственные плагины? Новая серия статей предлагает пошаговое руководство, которое поможет вам разработать инновационный и функциональный плагин. Идеально для тех, кто хочет освоить процесс разработки с первого шага.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Безопасность Oracle Analytics Server: Руководство по Zero Trust

Пост: Откройте для себя, как усилить защиту Oracle Analytics Server с помощью Zero Trust Packet Routing. Узнайте о новых подходах к безопасности, которые помогут предотвратить угрозы и обеспечить надежность ваших данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Генерация данных с помощью Python: зачем это нужно и как применять

Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры Tproger

Читать: «Генерация данных с помощью Python: зачем это нужно и как применять»

#ru

@big_data_analysis | Другие наши каналы
От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.


Читать: https://habr.com/ru/companies/ingos_it/articles/862030/

#ru

@big_data_analysis | Другие наши каналы
Модели BERT для машинного обучения: гайд для начинающих

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.


Читать: https://habr.com/ru/companies/skillfactory/articles/862130/

#ru

@big_data_analysis | Другие наши каналы
Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда-нибудь задавали себе вопрос, в чём главное отличие дата инженера от "обычного" аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом?Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него - уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.


Читать: https://habr.com/ru/articles/860322/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer форматы файлов

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.


Читать: https://habr.com/ru/articles/859968/

#ru

@big_data_analysis | Другие наши каналы
В поисках потерянных данных: переход со StreamSets на Data Boring

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.


Читать: https://habr.com/ru/companies/luxms_bi/articles/862364/

#ru

@big_data_analysis | Другие наши каналы
Как организовать разметку данных для ML? Советы от Data Light

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:

Дмитрий Рогальский, Special Projects Group Manager в Data Light

Алексей Корнилов, Moderation Group Manager в Data Light


Читать: https://habr.com/ru/companies/data_light/articles/862464/

#ru

@big_data_analysis | Другие наши каналы
Миф о чистых данных: почему ваш аналитик похож на сапёра

Миф о чистых данных: почему ваш аналитик похож на сапёра.

Как бороться с самым частым убеждением при работе с данными.


Читать: https://habr.com/ru/articles/862772/

#ru

@big_data_analysis | Другие наши каналы
Что за распределение у выборочных квантилей?

Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?

В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.


Читать: https://habr.com/ru/articles/862874/

#ru

@big_data_analysis | Другие наши каналы
Генерация дополненного извлечения (RAG): от теории к реализации LangChain

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain


Читать: https://habr.com/ru/articles/862870/

#ru

@big_data_analysis | Другие наши каналы
Создайте бар-чарт с D3.js!

В статье рассказано, как использовать D3.js для создания простой визуализации данных с помощью HTML-бар-чарта. Узнайте, как отобразить связь между числовыми и категориальными данными на основе примера с жестко закодированными данными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создание пользовательских объектов в Fusion Applications

Хотите узнать, как создавать пользовательские объекты в Fusion Applications и улучшать их с помощью FDI? В статье подробно описан пошаговый процесс и приведён пример из реальной практики, показывающий, как применить эти знания на практике.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Интеграция Salesforce с Fusion Data Integration

Текст поста: Узнайте, как интегрировать Salesforce с Fusion Data Integration для доступа к данным аналитики кампаний и CRM. В статье описаны этапы настройки, тестирования и активации соединения, а также конфигурации параметров и проверки данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Суперсилы Виталика: на что способен ViTalk GPT

Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей.

AI помогает делать многое, но при работе с современными сервисами часто возникают технические трудности — платная подписка, необходимость подключать VPN, потребность постоянно напоминать AI контекст предметной области и т.д. К счастью, для аналитики в DAX доступен бесплатный чат-бот ViTalk, который способен решать множество важных задач без лишних танцев с бубном.


Читать: https://habr.com/ru/companies/visiology/articles/863144/

#ru

@big_data_analysis | Другие наши каналы
Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке

📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.


Читать: https://habr.com/ru/articles/863168/

#ru

@big_data_analysis | Другие наши каналы