Генерация данных с помощью Python: зачем это нужно и как применять
Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры ✔ Tproger
Читать: «Генерация данных с помощью Python: зачем это нужно и как применять»
#ru
@big_data_analysis | Другие наши каналы
Генерация данных с помощью Python. Зачем это нужно и как применять. Рассматриваем основные библиотеки и примеры ✔ Tproger
Читать: «Генерация данных с помощью Python: зачем это нужно и как применять»
#ru
@big_data_analysis | Другие наши каналы
От слов к делу: Практические кейсы применения NLP в Ингосстрахе
Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.
Мы рассмотрим варианты решения типовых задач в страховании и не только.
Читать: https://habr.com/ru/companies/ingos_it/articles/862030/
#ru
@big_data_analysis | Другие наши каналы
Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.
Мы рассмотрим варианты решения типовых задач в страховании и не только.
Читать: https://habr.com/ru/companies/ingos_it/articles/862030/
#ru
@big_data_analysis | Другие наши каналы
Модели BERT для машинного обучения: гайд для начинающих
BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.
Читать: https://habr.com/ru/companies/skillfactory/articles/862130/
#ru
@big_data_analysis | Другие наши каналы
BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.
Читать: https://habr.com/ru/companies/skillfactory/articles/862130/
#ru
@big_data_analysis | Другие наши каналы
Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»
Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда-нибудь задавали себе вопрос, в чём главное отличие дата инженера от "обычного" аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом?Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?
На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него - уже пройденный этап.
Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.
Читать: https://habr.com/ru/articles/860322/
#ru
@big_data_analysis | Другие наши каналы
Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда-нибудь задавали себе вопрос, в чём главное отличие дата инженера от "обычного" аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом?Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?
На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него - уже пройденный этап.
Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.
Читать: https://habr.com/ru/articles/860322/
#ru
@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer форматы файлов
В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.
Читать: https://habr.com/ru/articles/859968/
#ru
@big_data_analysis | Другие наши каналы
В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.
Читать: https://habr.com/ru/articles/859968/
#ru
@big_data_analysis | Другие наши каналы
В поисках потерянных данных: переход со StreamSets на Data Boring
Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.
В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.
Читать: https://habr.com/ru/companies/luxms_bi/articles/862364/
#ru
@big_data_analysis | Другие наши каналы
Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.
В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.
Читать: https://habr.com/ru/companies/luxms_bi/articles/862364/
#ru
@big_data_analysis | Другие наши каналы
Как организовать разметку данных для ML? Советы от Data Light
За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.
Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:
Дмитрий Рогальский, Special Projects Group Manager в Data Light
Алексей Корнилов, Moderation Group Manager в Data Light
Читать: https://habr.com/ru/companies/data_light/articles/862464/
#ru
@big_data_analysis | Другие наши каналы
За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.
Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:
Дмитрий Рогальский, Special Projects Group Manager в Data Light
Алексей Корнилов, Moderation Group Manager в Data Light
Читать: https://habr.com/ru/companies/data_light/articles/862464/
#ru
@big_data_analysis | Другие наши каналы
Миф о чистых данных: почему ваш аналитик похож на сапёра
Миф о чистых данных: почему ваш аналитик похож на сапёра.
Как бороться с самым частым убеждением при работе с данными.
Читать: https://habr.com/ru/articles/862772/
#ru
@big_data_analysis | Другие наши каналы
Миф о чистых данных: почему ваш аналитик похож на сапёра.
Как бороться с самым частым убеждением при работе с данными.
Читать: https://habr.com/ru/articles/862772/
#ru
@big_data_analysis | Другие наши каналы
Что за распределение у выборочных квантилей?
Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?
В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.
Читать: https://habr.com/ru/articles/862874/
#ru
@big_data_analysis | Другие наши каналы
Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?
В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.
Читать: https://habr.com/ru/articles/862874/
#ru
@big_data_analysis | Другие наши каналы
Генерация дополненного извлечения (RAG): от теории к реализации LangChain
От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain
Читать: https://habr.com/ru/articles/862870/
#ru
@big_data_analysis | Другие наши каналы
От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain
Читать: https://habr.com/ru/articles/862870/
#ru
@big_data_analysis | Другие наши каналы
Создайте бар-чарт с D3.js!
В статье рассказано, как использовать D3.js для создания простой визуализации данных с помощью HTML-бар-чарта. Узнайте, как отобразить связь между числовыми и категориальными данными на основе примера с жестко закодированными данными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассказано, как использовать D3.js для создания простой визуализации данных с помощью HTML-бар-чарта. Узнайте, как отобразить связь между числовыми и категориальными данными на основе примера с жестко закодированными данными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Unlocking Custom Visualizations in Oracle Analytics: Implementing Core Logic for Bar Charts - Part 2
In this post, you’ll learn how to enhance the plug-in to render a basic HTML-based bar chart visualization using D3.js. The chart illustrates the relationship between a numerical and a categorical variable, using hard-coded data for simplicity.
Создание пользовательских объектов в Fusion Applications
Хотите узнать, как создавать пользовательские объекты в Fusion Applications и улучшать их с помощью FDI? В статье подробно описан пошаговый процесс и приведён пример из реальной практики, показывающий, как применить эти знания на практике.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Хотите узнать, как создавать пользовательские объекты в Fusion Applications и улучшать их с помощью FDI? В статье подробно описан пошаговый процесс и приведён пример из реальной практики, показывающий, как применить эти знания на практике.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Augmenting Custom Objects in Oracle Fusion with FDI
This blog explains the step-by-step process to create custom objects in Fusion Applications and augment them with FDI. It includes a generic use case that demonstrates how this process can be applied in real-world scenarios.
Интеграция Salesforce с Fusion Data Integration
Текст поста: Узнайте, как интегрировать Salesforce с Fusion Data Integration для доступа к данным аналитики кампаний и CRM. В статье описаны этапы настройки, тестирования и активации соединения, а также конфигурации параметров и проверки данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Текст поста: Узнайте, как интегрировать Salesforce с Fusion Data Integration для доступа к данным аналитики кампаний и CRM. В статье описаны этапы настройки, тестирования и активации соединения, а также конфигурации параметров и проверки данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Seamless Salesforce Integration with FDI for Enhanced Data Analytics
Learn how to seamlessly integrate Salesforce with Fusion Data Integration (FDI) to access Campaign Analytics and CRM pipeline data. This guide covers the setup, testing, and activation of the Salesforce connection, along with steps to configure pipeline parameters…
Суперсилы Виталика: на что способен ViTalk GPT
Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей.
AI помогает делать многое, но при работе с современными сервисами часто возникают технические трудности — платная подписка, необходимость подключать VPN, потребность постоянно напоминать AI контекст предметной области и т.д. К счастью, для аналитики в DAX доступен бесплатный чат-бот ViTalk, который способен решать множество важных задач без лишних танцев с бубном.
Читать: https://habr.com/ru/companies/visiology/articles/863144/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей.
AI помогает делать многое, но при работе с современными сервисами часто возникают технические трудности — платная подписка, необходимость подключать VPN, потребность постоянно напоминать AI контекст предметной области и т.д. К счастью, для аналитики в DAX доступен бесплатный чат-бот ViTalk, который способен решать множество важных задач без лишних танцев с бубном.
Читать: https://habr.com/ru/companies/visiology/articles/863144/
#ru
@big_data_analysis | Другие наши каналы
Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке
📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.
Читать: https://habr.com/ru/articles/863168/
#ru
@big_data_analysis | Другие наши каналы
📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.
Читать: https://habr.com/ru/articles/863168/
#ru
@big_data_analysis | Другие наши каналы
Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025
Python в Data Science. Показываем основные библиотеки и фреймворки, которые будут популярны в 2025. Рассматриваем преимущества и недостатки ✔ Tproger
Читать: «Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025»
#ru
@big_data_analysis | Другие наши каналы
Python в Data Science. Показываем основные библиотеки и фреймворки, которые будут популярны в 2025. Рассматриваем преимущества и недостатки ✔ Tproger
Читать: «Python в Data Science: топовые библиотеки и фреймворки, которые будут популярны в 2025»
#ru
@big_data_analysis | Другие наши каналы
Оценка приложений RAG с помощью RAGA
Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.
Читать: https://habr.com/ru/articles/861792/
#ru
@big_data_analysis | Другие наши каналы
Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.
Читать: https://habr.com/ru/articles/861792/
#ru
@big_data_analysis | Другие наши каналы
Сравнение платформ для аналитики данных
Что общего у Snowflake, Databricks, Redshift и BigQuery? Эти платформы позволяют обрабатывать и хранить большие объемы данных, предлагая уникальные преимущества и различные уровни поддержки языков программирования. Как выбрать подходящую платформу и что нужно учитывать? Основные аспекты их сравнения помогут вам понять, какая из них лучше соответствует вашим задачам и требованиям. Платформы для аналитики данных: что выбрать?
Основываясь на статье, обсуждаются различия между платформами для аналитики данных, такими как Snowflake и Spark. Отмечается, что такие системы, как Snowflake, легче настроить, но Spark предлагает больше контроля. Выбор зависит от требований к функциям и не должен основываться только на маркетинге.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Что общего у Snowflake, Databricks, Redshift и BigQuery? Эти платформы позволяют обрабатывать и хранить большие объемы данных, предлагая уникальные преимущества и различные уровни поддержки языков программирования. Как выбрать подходящую платформу и что нужно учитывать? Основные аспекты их сравнения помогут вам понять, какая из них лучше соответствует вашим задачам и требованиям. Платформы для аналитики данных: что выбрать?
Основываясь на статье, обсуждаются различия между платформами для аналитики данных, такими как Snowflake и Spark. Отмечается, что такие системы, как Snowflake, легче настроить, но Spark предлагает больше контроля. Выбор зависит от требований к функциям и не должен основываться только на маркетинге.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Neural OCR как способ использования нейронных сетей при распознавании рукописных символов
Прогресс в машинном обучении и компьютерном зрении изменил подходы к оптическому распознаванию символов (OCR), обеспечив высокую точность оцифровки документов. Однако современные сверточные нейронные сети (CNN), используемые в большинстве OCR‑систем, сталкиваются с нехваткой качественных тренировочных данных. Эта проблема особенно затрагивает языки с ограниченными ресурсами, что создает трудности в разработке надежных систем распознавания текста. Ограниченные обучающие наборы часто снижают точность и устойчивость моделей при работе с различными форматами документов, нестандартными шрифтами и изображениями низкого качества.
Поэтому необходимо разрабатывать новые модели OCR, которые могут эффективно распознавать текст даже при недостатке данных. Такие модели должны быть гибкими и адаптивными, чтобы успешно обрабатывать документы разных стилей и форматов, а также оставаться устойчивыми к шумам и искажениям. Важно найти методы, которые обеспечат высокую точность распознавания независимо от объема обучающей выборки, что откроет возможности для применения OCR в многоязычных и многоформатных контекстах.
Исследования по улучшению эффективности и универсальности систем OCR имеют большое значение для повышения качества распознавания текста в разных условиях. В таких работах рассматриваются перспективные подходы, такие как аугментация данных, трансферное обучение и специализированные архитектуры нейронных сетей, адаптированные для работы с ограниченными данными. Эти исследования могут привести к созданию более совершенных и доступных систем OCR, что расширит их практическое применение. Улучшение качества распознавания текста позволит автоматизировать процессы обработки информации в бизнесе, образовании, архивировании, научных исследованиях и других областях, способствуя более эффективному взаимодействию с текстовыми данными в цифровую эпоху.
Читать: https://habr.com/ru/articles/863644/
#ru
@big_data_analysis | Другие наши каналы
Прогресс в машинном обучении и компьютерном зрении изменил подходы к оптическому распознаванию символов (OCR), обеспечив высокую точность оцифровки документов. Однако современные сверточные нейронные сети (CNN), используемые в большинстве OCR‑систем, сталкиваются с нехваткой качественных тренировочных данных. Эта проблема особенно затрагивает языки с ограниченными ресурсами, что создает трудности в разработке надежных систем распознавания текста. Ограниченные обучающие наборы часто снижают точность и устойчивость моделей при работе с различными форматами документов, нестандартными шрифтами и изображениями низкого качества.
Поэтому необходимо разрабатывать новые модели OCR, которые могут эффективно распознавать текст даже при недостатке данных. Такие модели должны быть гибкими и адаптивными, чтобы успешно обрабатывать документы разных стилей и форматов, а также оставаться устойчивыми к шумам и искажениям. Важно найти методы, которые обеспечат высокую точность распознавания независимо от объема обучающей выборки, что откроет возможности для применения OCR в многоязычных и многоформатных контекстах.
Исследования по улучшению эффективности и универсальности систем OCR имеют большое значение для повышения качества распознавания текста в разных условиях. В таких работах рассматриваются перспективные подходы, такие как аугментация данных, трансферное обучение и специализированные архитектуры нейронных сетей, адаптированные для работы с ограниченными данными. Эти исследования могут привести к созданию более совершенных и доступных систем OCR, что расширит их практическое применение. Улучшение качества распознавания текста позволит автоматизировать процессы обработки информации в бизнесе, образовании, архивировании, научных исследованиях и других областях, способствуя более эффективному взаимодействию с текстовыми данными в цифровую эпоху.
Читать: https://habr.com/ru/articles/863644/
#ru
@big_data_analysis | Другие наши каналы
Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте
"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.
В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.
Читать: https://habr.com/ru/companies/cedrusdata/articles/863600/
#ru
@big_data_analysis | Другие наши каналы
"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.
В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.
Читать: https://habr.com/ru/companies/cedrusdata/articles/863600/
#ru
@big_data_analysis | Другие наши каналы