Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Point-in-time Recovery. Как уменьшить RPO для базы данных

Падение любой информационной системы — это по умолчанию больно и неприятно. На Хабре вы найдете много статей о том, как этого избежать. Но что делать, если все-таки случилась одна из тех историй, которыми пугают джунов? Уборщица разлила ведро воды в ЦОДе или злосчастный экскаватор перерубил оптоволокно?

Меня зовут Андрей Белый, я старший разработчик VK Cloud в команде DBaaS. В этой статье мы на примере PostgreSQL разберем принципы работы баз данных и поговорим о том, как минимизировать последствия инцидентов с помощью оптимизации RPO (Recovery point objective).

Материал подготовлен по мотивам моего выступления на VK Databases Meetup «Point-in-time Recovery. Как уменьшить RPO для базы данных».

Читать: https://habr.com/ru/companies/vk/articles/755922/
Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером

Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.

В статье сначала опишем паттерны построения распределённых хранилищ, чтобы понимать, через какие процессы проходят данные. А после поговорим о задачах специалистов по работе с данными и необходимых для каждой позиции навыках.


Читать: https://habr.com/ru/companies/southbridge/articles/756652/
MLOps от Gucci и оценка уровня Data Driven’ности в компании

Привет, Хабр! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/756644/
Опыт PT: BI на страже кибербезопасности

Привет, Хабр! Сегодня мне хотелось бы поговорить о том, как можно применить BI, а также оценить роль, которую BI играет в цифровой трансформации компании. Ответы на эти вопросы мы получили на своем опыте, когда начали внедрять новую аналитическую платформу и обнаружили интерес к ней со стороны многих департаментов компании. Под катом — история, как мы перевели BI в Positive Technologies на единую платформу.
Узнать больше про этот кейс

Читать: https://habr.com/ru/articles/756758/
Oracle Analytics Cloud - How to Setup and Configure the Oracle Analytics Cloud Environment on OCI

You are just a few steps away from joining the Oracle Analytics world. Please use this quick guide to create and setup Oracle Analytics Cloud on Oracle Cloud Infrastructure.

Read: https://blogs.oracle.com/coretec/post/oracle-analytics-cloud-a-quick-guide-to-setup-oracle-analytics-cloud-environment
«Я пропагандирую коллегам переход на Rust». В статье — 6 основных причин

Мы побеседовали с руководителем направления системного программирования в «Криптоните» Александром Авраменко о карьерном пути Rust-разработчика, особенностях языка Rust и его применении к моделям машинного обучения в высоконагруженных системах.


Читать: https://habr.com/ru/companies/kryptonite/articles/757362/
Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend

Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.

Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
Книги о машинном обучении для новичков

Сделали для новичков в Machine Learning подборку из четырех книг, которые помогут обогатить и упростить ваше обучение.

Читать: «Книги о машинном обучении для новичков»
Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend

Рассказываем о ещё одной прикладной стороне машинного обучения: как оно помогает оценивать заёмщиков и снижать риски для инвесторов.

Читать: «Как машинное обучение помогает пользователям на примере инвестиционной платформы JetLend»
Apache Spark для Data Engineering

Apache Spark — платформа обработки больших данных с открытым исходным кодом. Она популярна среди инженеров данных благодаря своей скорости, возможностях масштабируемости и простоте использования. Spark предназначен для работы с огромными наборами данных в распределенной вычислительной среде, что позволяет разработчикам создавать высокопроизводительные конвейеры данных, способные быстро обрабатывать огромные объемы данных.

Делимся переводом обзорной статьи о том, что такое Apache Spark и как он может помочь в data-engineering.


Читать: https://habr.com/ru/companies/southbridge/articles/757724/
Как подружить Spark и S3 для обработки файлов

Всем привет!

В этой статье мы расскажем, как нам удалось настроить взаимодействие Apache Spark и S3 для обработки больших файлов: с какими проблемами пришлось столкнуться и как нам удалось их решить.


Читать: https://habr.com/ru/companies/neoflex/articles/757794/
Путь 11 страданий: это не ДЗЕН и не ДАО — это выбор российского BI

Привет, Хабр! Мне, наконец, есть чем поделиться с вами. И это результаты практически годового процесса выбора BI-системы из числа российских разработок на замену одной из западных платформ. За это время мне стало очевидно, что примерно 50% действий, которые мы сделали, можно было и не делать, а 20% не стоило делать вовсе. В итоге получилась практически инструкция “как не надо” выбирать себе BI-систему, если вы хотите, чтобы она действительно начала приносить вам пользу ASAP. Под катом — также мои мысли о том, как надо было бы. Желающих обсудить, прошу присоединяться.
Хочу научиться на чужих ошибках...

Читать: https://habr.com/ru/articles/757954/
Data Engineering Best Practices - #1. Data flow & Code

Read: https://www.startdataengineering.com/post/de_best_practices/
Строим удобные автомобильные маршруты

Хороший автомобильный маршрут из точки А в точку Б должен, с одной стороны, быть кратчайшим, а с другой — удобным для водителя. Как правильно вычислить время в пути мы уже рассказали, теперь — об удобстве маршрутов: что это такое, как его измерить и как мы его повышали.


Читать: https://habr.com/ru/companies/2gis/articles/758688/
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться.


Читать: https://habr.com/ru/companies/itsumma/articles/758996/
8 инструментов для аннотирования изображений в 2023 году

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.
Что такое аннотирование изображений?

После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.
Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.


Читать: https://habr.com/ru/articles/754900/
🔥1
Руководство по масштабированию MLOps

Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.

Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?

AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.


Читать: https://habr.com/ru/articles/749178/