Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели.

В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.


Читать: https://habr.com/ru/companies/sibur_official/articles/855310/

#ru

@big_data_analysis | Другие наши каналы
Семантическая сегментация: самый полный гайд 2024

Что общего между автономными автомобилями, медицинскими диагностическими системами и спутниковыми снимками Земли?

Ответ прост: все они зависят от способности машин «видеть» и понимать окружающий мир. Чтобы компьютер мог распознать объекты на изображении и отличить небо от дороги, человека от автомобиля или лес от здания, необходимо использовать технологии сегментации изображений. Но как именно машины учатся такому зрению и как использовать эту технологию для бизнеса? Давайте поговорим о семантической сегментации.


Читать: https://habr.com/ru/companies/data_light/articles/855336/

#ru

@big_data_analysis | Другие наши каналы
👍2
Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.


Читать: https://habr.com/ru/articles/855478/

#ru

@big_data_analysis | Другие наши каналы
Работа с большими данными: введение в Apache Hadoop и Spark

Работа с большими данными. Рассказываем об основах Apache Hadoop и Spark. Рассматриваем пошаговую инструкцию по внедрению распределенной системы Tproger

Читать: «Работа с большими данными: введение в Apache Hadoop и Spark»

#ru

@big_data_analysis | Другие наши каналы
GigaChat MAX — новая, сильная модель GigaChat

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat‑Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat-Max!
GigaChat-Max

Читать: https://habr.com/ru/companies/sberdevices/articles/855368/

#ru

@big_data_analysis | Другие наши каналы
GigaChat MAX — новая, сильная модель GigaChat

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat MAX!
GigaChat MAX

Читать: https://habr.com/ru/companies/sberbank/articles/855368/

#ru

@big_data_analysis | Другие наши каналы
Смещение значения таймстемпа UUIDv7

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.


Читать: https://habr.com/ru/articles/855832/

#ru

@big_data_analysis | Другие наши каналы
Ноябрьские обновления Oracle Analytics Cloud
Узнайте о новых возможностях, представленных в ноябрьском обновлении 2024 для Oracle Analytics Cloud. Эти улучшения призваны повысить эффективность анализа данных, упростить работу пользователей и расширить функциональность платформы. Не пропустите важные изменения!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Приватный доступ к Oracle Analytics

Узнайте, как обезопасить свои данные, получая доступ к публичным сервисам Oracle Analytics через приватные каналы. В статье описаны шаги и методы, которые помогут минимизировать риски и обеспечить конфиденциальность вашей аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создание организационных диаграмм в Oracle Analytics

Пост: Хотите научиться визуализировать структуру вашей компании? Изучите, как с помощью расширения Org Chart в Oracle Analytics преобразовать плоские данные в иерархию родитель-дитя, используя наборы данных и потоки данных. Узнайте, как эффективно отображать организационные структуры!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Открытый датасет TelecomX

Всем привет! Хочу поделиться с теми, кто интересуется большими данными, своей работой. Дело в том, что довольно часто, когда мы читаем какую-либо статью или техдоку по этой предметной области, приводимые примеры опираются на крохотные наборы данных. И это не даёт понимания и погружения в специфику — напоминает обучение вождению на Need for speed. Более того, я не смог найти более-менее крупные наборы реальных бизнесовых данных или те, что были хотя бы похожи на реальные. Ну и как это часто бывает, пришлось сделать самому. Если вас интересует эта тематика, проследуйте под кат.


Читать: https://habr.com/ru/companies/arenadata/articles/856366/

#ru

@big_data_analysis | Другие наши каналы
Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.


Читать: https://habr.com/ru/articles/855644/

#ru

@big_data_analysis | Другие наши каналы
Apache Flink: Сериализация и JacksonStateSerializer

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты.

В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer.

По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.


Читать: https://habr.com/ru/companies/ru_mts/articles/856774/

#ru

@big_data_analysis | Другие наши каналы
Что такое Data Driven подход

В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.

В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.


Читать: https://habr.com/ru/articles/856920/

#ru

@big_data_analysis | Другие наши каналы
Как разметить данные для классификации изображений: руководство с примерами

Представьте, что вам нужно научить машину "видеть" и понимать мир вокруг. Нет, не просто распознавать лица или выделять дороги на фотографиях – а по-настоящему разбираться, что изображено на любом снимке, будь то лес, чашка кофе или картина. Классификация изображений – это ключ к машинному зрению. Но как этому научить модель?

В этой статье мы поговорим о том, как классификация может использоваться в бизнесе, какие этапы подготовки таких данных существуют, а также разберемся, как выполнить аннотацию для этой задачи.


Читать: https://habr.com/ru/companies/data_light/articles/856886/

#ru

@big_data_analysis | Другие наши каналы
Как мы в билайне боремся со спам-звонками с помощью машинного обучения, часть 1

Всем привет! Меня зовут Наталья Багрова, сегодня расскажу, какие есть возможности у крупного телеком-оператора для борьбы с таким неприятным явлением как голосовой спам; какие логические и технические трудности ждали нас на этом пути, как мы их решали и к чему пришли. Мы сконцентрируемся в первую очередь на том, как мы строили модель с нуля до первого жизнеспособного прототипа.

Давайте начнем с краткого обзора рынка антиспам-услуг.

Очень условно всех поставщиков антиспам услуг можно разделить на две категории: те, кто видят трафик (телеком-операторы) и те, кто видят отзывы (приложения Яндекса, Тинькофф или Kaspersky, которые собирают отзывы с абонентов). Если посмотреть на то, как устроен дизайн услуги, то это либо блокировки, когда спам-звонок в принципе не доводится до абонента или же уводится на голосового ассистента, а затем присылается текстовая расшифровка, либо же просто подсвечивается, кто сейчас звонит, и всю ответственность за решение, разговаривать сейчас или нет, несет сам клиент. Если мы говорим о билайне, то мы себя относим в первую очередь к тем, кто видит трафик, и идем путем голосового ассистента.

Плюсы и минусы

Какие у нас есть сильные стороны?


Читать: https://habr.com/ru/companies/beeline_tech/articles/857082/

#ru

@big_data_analysis | Другие наши каналы
Определяем доли и коэффициенты проникновения с помощью DAX

Привет, Хабр! Одной из важных задач в аналитических запросах является расчет долей, который позволяет узнать, какая часть записей из общего количества по всей таблице соответствует какому-либо критерию. Также нередко полезными оказываются коэффициенты проникновения (в общем-то тоже являющиеся долями). Они позволяют оценить продажи, найти взаимосвязи признаков и сделать много еще чего полезного. Чтобы проводить такого рода расчеты идеально подходит язык DAX. Если Вам интересно, насколько это удобно и как именно сделать это в DAX — добро пожаловать под кат :)


Читать: https://habr.com/ru/companies/visiology/articles/857102/

#ru

@big_data_analysis | Другие наши каналы
Как создать датасет для машинного обучения за 6 шагов

Устали искать идеальный набор данных для обучения ваших моделей машинного обучения? Часто в таких случаях оптимальное решение — это создать его самостоятельно.

Сегодня мы обсудим шесть шагов для создания наборов данных, которые идеально подойдут под ваши задачи, и разберем их на примере датасета, который мы собрали в Data Light.


Читать: https://habr.com/ru/companies/data_light/articles/857142/

#ru

@big_data_analysis | Другие наши каналы
Support Vector Machine: +1 алгоритм машинного обучения для начинающих

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.


Читать: https://habr.com/ru/articles/857162/

#ru

@big_data_analysis | Другие наши каналы
Support Vector Machine: +1 алгоритм машинного обучения для начинающих

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.


Читать: https://habr.com/ru/companies/skillfactory/articles/857162/

#ru

@big_data_analysis | Другие наши каналы