Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.83K subscribers

568 photos

4 videos

2 files

2.86K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.83K subscribers

Data Analysis / Big Data

Распознавание именованных сущностей: механизм, методики, сценарии использования и реализация

Естественные языки сложны. А когда на горизонте появляется контекст, они становятся ещё сложнее. Возьмём для примера фамилию Линкольн. Некоторые сразу подумают о шестнадцатом президенте США, выдающейся исторической фигуре. Однако для других это производитель автомобилей с тем же названием. Одно простое слово имеет разные значения.

Мы, люди, без проблем различаем значения и категории. Это свидетельствует о нашем интуитивном понимании окружающего мира. Но когда дело касается компьютеров, эта, казалось бы, простая задача превращается в неоднозначную проблему. Подобные трудности подчёркивают необходимость надёжного распознавания именованных сущностей (named entity recognition, NER) — механизма, при помощи которого мы учим машины понимать различные лингвистические нюансы.

В этой статье мы расскажем о том, что такое NER, о его принципах работы и о том, как оно используется в реальной жизни. Также в ней мы прольём свет на различные методики NER и способы реализации модели NER.

Читать: https://habr.com/ru/articles/776774/

@big_data_analysis

498 views07:11

Data Analysis / Big Data

СТОП фейковым отзывам и рейтингам. Применение машинного обучения в борьбе с фродом рейтинга и отзывов товаров в ритейле

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), продолжаем рассказывать о насущных проблемах ML-разработки, делимся подходами к их решению и рассуждаем на актуальные темы.

В данной статье мы рассмотрим технические методы применения ML для борьбы с фродом в рейтингах и отзывах товаров в ритейле.

Читать: https://habr.com/ru/companies/automacon/articles/816363/

@big_data_analysis

2.59K views15:04

Data Analysis / Big Data

Managing Access Control for Catalog Items Programmatically in Oracle Analytics Cloud

Analytics users interact with various types of assets such as workbooks, datasets, connections, and more. These assets are stored in the catalog. The administrator is responsible for ensuring the right users and roles have the right level of access to these assets. This article explores how the catalog REST API can help the administrator review and maintain access control.

Read: https://blogs.oracle.com/analytics/post/managing-oracle-analytics-cloud-access-controls-programatically

@big_data_analysis

Managing Oracle Analytics Cloud Access Controls Programatically

Analytics users interact with various types of assets such as workbooks, datasets, connections and more. These assets are hosted in the catalog. The service administrator is responsible for ensuring the right users and roles have the right level of access…

444 views16:21

Data Analysis / Big Data

Mastering Approaches to Integrate Machine Learning Models in Oracle Analytics Cloud

Oracle Analytics Cloud (OAC) provides various approaches to integrate machine learning models, ensuring flexibility and efficiency in your data analysis processes

Read: https://blogs.oracle.com/analytics/post/approaches-to-integrate-machine-learning-models-in-oracle-analytics-cloud

@big_data_analysis

378 views07:36

Data Analysis / Big Data

How to Set Up Kubernetes Horizontal Pod Autoscaler in Oracle Cloud Infrastructure with Nginx

You can use Kubernetes Horizontal Pod Autoscaling (HPA) to automatically scale the number of pods in a deployment.

Read: https://blogs.oracle.com/undefined/post/how-to-set-up-kubernetes-horizontal-pod-autoscaler-in-oracle-cloud-infrastructure-with-nginx

@big_data_analysis

361 views07:36

Data Analysis / Big Data

How to Set Up Kubernetes Vertical Pod Autoscaler in Oracle Cloud Infrastructure with Nginx

Vertical Pod Autoscaler (VPA) automates the adjustment of resource requests and limits for containers running in pods on a cluster you've created using Container Engine for Kubernetes (OKE).

Read: https://blogs.oracle.com/undefined/post/how-to-set-up-kubernetes-vertical-pod-autoscaler-in-oracle-cloud-infrastructure-with-nginx

@big_data_analysis

412 views07:36

Data Analysis / Big Data

Load Data from Oracle Enterprise Planning and Budgeting Cloud Service (EPBCS) into Oracle Fusion Analytics

This post demonstrates augmenting Fusion Analytics data using an Enterprise Performance Management (EPM) functional module planning and Budgeting (PBCS) connector.

Read: https://blogs.oracle.com/analytics/post/load-data-from-oracle-enterprise-planning-and-budgeting-cloud-service-epbcs-into-oracle-fusion-analytics

@big_data_analysis

Load Data from Oracle Enterprise Planning and Budgeting Cloud Service (EPBCS) into Oracle Fusion Analytics

This blog demonstrates augmenting Fusion Analytics data using an Enterprise Performance Management (EPM) functional module planning and Budgeting (PBCS) connector.

437 views07:36

Data Analysis / Big Data

Вопросы и задачи по SQL на собеседованиях 2024: готовьтесь эффективно

В 2024 году вопросы и тестовые задания на собеседованиях не потеряли своей актуальности и продолжают вызывать огромный интерес у соискателей. Если вы сейчас погружены в процесс прохождения интервью, то наверняка сталкиваетесь с множеством непростых, но захватывающих задач.

Давайте вместе рассмотрим некоторые из новых вопросов и задач, которые реально задаются на собеседованиях в различных командах. Эти примеры основаны на моем собственном опыте и актуальны на сегодняшний день. Новые вопросы и задачи будут публиковаться по мере их поступления и прохождения собеседований.

Читать: https://habr.com/ru/articles/816537/

@big_data_analysis

543 views09:20

Data Analysis / Big Data

Машинное обучение: мост между бизнесом и Data Science

Если последние несколько лет вы не жили на далёком острове без электричества и связи, то, вероятно, слышали о машинном обучении. Этот тренд было сложно не заметить. Каждый раз, когда мы говорим о беспилотных автомобилях, чат-ботах, AlphaGo или предиктивной аналитике, упоминается та или иная реализация машинного обучения. Хотя недостатка в историях и евангелистах нет, машинное обучение пока не стало в глазах бизнеса абсолютной необходимостью. В общественном восприятии применяемые в ML алгоритмы близки к научной фантастике, а подготовка конкретного плана внедрения ML по-прежнему остаётся высоким барьером.

Цель этой статьи — практические ответы, а не подготовка видения или продвижение тренда. Мы поговорим о зонтичном термине data science, о взаимосвязи его отраслей, основных задачах, которые может решать машинное обучение, а также о том, как эти задачи можно перевести на язык бизнеса. Также мы обсудим основные решения, которые нужно принять при найме специалистов, и выделим сложности, которые нужно учесть заранее

Читать: https://habr.com/ru/articles/773660/

@big_data_analysis

536 views14:37

Data Analysis / Big Data

Enable stakeholder data access with Text-to-SQL RAGs

Read: https://www.startdataengineering.com/post/data-democratize-llm/

@big_data_analysis

530 views19:03

Data Analysis / Big Data

Миграция Big Data на практике: как мы готовили напильники

Всем привет, меня зовут Алексей Марьин, я IT-лидер стрима «Озеро данных» в ВТБ. До 2019 года мы активно и вполне успешно использовали для анализа и обработки больших данных продукт Oracle Big Data Appliance с Cloudera Hadoop Distribution внутри. И всё было хорошо, пока Oracle не решил прекратить развивать это направление бизнеса. Тогда пришлось задуматься об альтернативе, и мы обратились к Arenadata Hadoop. По пути мы столкнулись с некоторыми, так скажем, особенностями: пришлось кое-что допиливать напильником.

Сейчас многие сталкиваются с похожими проблемами импортозамещения продуктов. Так что мы с коллегой, директором проектов службы развития больших данных Дмитрием Власовым, решили написать эту статью, чтобы подсказать решения и предупредить о трудностях.

Читать: https://habr.com/ru/companies/vtb/articles/816325/

@big_data_analysis

573 views08:31

Data Analysis / Big Data

Ландшафт Open Source Data Engineering в 2024 году: место России и мировые тенденции

Недавно на Practical Data Engineering Substack вышла статья, посвященная общемировому развитию Open Source дата-инжиниринга, которая может оказаться полезной и для российских специалистов. Мы перевели статью, в полном виде она опубликована здесь (ссылка). А в этом посте мы предлагаем вам наше осмысление результатов этой статьи и State of Data Engineering вместе с собранными нами данными непосредственно по России.

Предыстория

2023 год был примечателен не только всплеском активности в области генеративного ИИ и вокруг продуктов, подобных ChatGPT, но и значительным влиянием на сферу инженерии данных. Появление новейших инструментов и фреймворков открыло перед дата-инженерами целый спектр новых возможностей. Надо уметь выбрать инструмент для решения задачи и этот навык является ключевым для дата-инженера.

Многие известные отчеты, вроде MAD Landscape или State of Data Engineering, предлагают обширный обзор инструментов и сервисов в этой области. Однако основной фокус данного обзора – open-source инструменты, используемые для работы с данными на всех этапах жизненного цикла data-engineering.

Ниже представлены данные об экосистеме data engineering по состоянию на начало на 2024 года:

Читать: https://habr.com/ru/articles/809427/

@big_data_analysis

477 views07:37

Data Analysis / Big Data

High Availability Configuration for SAML 2.0 and Kerberos Single Sign-On in Oracle Analytics Server using Docker Container

High availability configuration for SAML 2.0 and Kerberos Single Sign-On in Oracle Analytics Server using Docker container

Read: https://blogs.oracle.com/analytics/post/oas-ha-saml-kerb-sso-docker

@big_data_analysis

High Availability Configuration for SAML 2.0 and Kerberos Single Sign-On of Oracle Analytics Server using Docker Container

402 views15:09

Data Analysis / Big Data

Configuring Multiple Docker Containers for SAML and Kerberos SSO on a Single Host to Support Multiple OAS Environments

Configuring Multiple Docker Containers for SAML and Kerberos SSO on a Single Host to Support Multiple OAS Environments

Read: https://blogs.oracle.com/analytics/post/oas-saml-kerb-docker-host-scalability

@big_data_analysis

Configuring Multiple Docker Containers for SAML and Kerberos SSO on a Single Host to Support Multiple OAS Environments

397 views15:09

Data Analysis / Big Data

Automation to Configure SAML Single Sign-On for Oracle Analytics Server using Oracle HTTP Server and Shibboleth-SP

Automation to Configure SAML Single Sign-On for Oracle Analytics Server using Oracle HTTP Server and Shibboleth-SP

Read: https://blogs.oracle.com/analytics/post/oas-saml-sso-ohs-shibd-sp

@big_data_analysis

Automation to Configure SAML Single Sign-On for Oracle Analytics Server using Oracle HTTP Server and Shibboleth-SP

416 views15:10

Data Analysis / Big Data

Migrating Initialization Block Security Models used in OBIEE 12c to Fusion Middleware Security Models for Oracle Analytics Server

This post describes how to migrate the Initialization Block Security Model used in OBIEE 12c to Fusion Middleware Security Model for Oracle Analytics Server

Read: https://blogs.oracle.com/analytics/post/oas-init-block-security-to-fmw-security-model

@big_data_analysis

445 views15:10

Data Analysis / Big Data

A Pepsi Challenge for Analytics & BI? Gartner’s 2024 Analytics & BI Bake-Off

Find out why Oracle Analytics Cloud got such a positive reaction from Gartner BI Bake-off attendees in Orlando and London.

Read: https://blogs.oracle.com/analytics/post/a-pepsi-challenge-for-analytics-bi-gartners-2024-analytics-bi-bakeoff

@big_data_analysis

A Pepsi Challenge for Analytics & BI? Gartner’s 2024 Analytics & BI Bake-Off

Find out why Oracle Analytics Cloud got such a positive reaction from Gartner BI Bake-off attendees in Orlando and London.

👍1

473 views15:11

Data Analysis / Big Data

Кто такой Head of Profession и зачем он нужен компании

Head of Profession — это суперквалифицированный инженер. У него достаточно знаний по теме, большой опыт, есть определённые успехи, он уже запускал какие-то крупные продукты. И что важно — готов и умеет делиться опытом и знаниями с другими.

Если вы обладаете вышеописанными качествами и вас интересует такой трек развития, рекомендуем ознакомиться с этой статьёй. Там детально разобрали его роль и навыки. А также показали на примере команды системных аналитиков, насколько появление такого специалиста повлияло на рабочие процессы.

#советы

👍1

460 views07:09

Data Analysis / Big Data

Оптимизация настроек Kafka кластера. Часть 1. Механизмы управления пропускной способностью

Привет, Хабр! Представляю вам перевод технического документа от Confluent, который посвящен тому, как определить, что именно нужно оптимизировать (пропускная способность, задержка, надежность или доступность), как настроить развертывание Kafka в соответствии с этими целями и убедиться в их достижении с помощью мониторинга. Сегодня я выкладываю первую часть, в которой обсуждается, как определить цели оптимизации и улучшить пропускную способность Kafka. Последующие статьи будут посвящены задержке, надежности, доступности, мониторингу и бенчмаркингу.

Читать: https://habr.com/ru/articles/818007/

@big_data_analysis
___
Другие наши проекты

502 views10:51

Data Analysis / Big Data

Midjourney и пиксельные арты

Привет, чемпионы!

Часто ли вы обращаетесь к Midjourney или Stable Diffusion, чтобы нарисовать фантастический арт? Я да - нравится позалипать пару минут на фантастический арт. Давайте сегодня учиться генерировать подобные пикчи за пару кликов:
Посмотреть промпты

Читать: https://habr.com/ru/articles/818345/

@big_data_analysis
___
Другие наши проекты

494 views12:37