Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как маскировка данных спасает вашу приватность

Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности.

Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят.

Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.


Читать: https://habr.com/ru/companies/neoflex/articles/820333/

@big_data_analysis
___
Другие наши проекты
OCI AI Vision Facial Detection in Oracle Analytics Cloud

This post explores the OCI service AI Vision Facial Detection exposed directly in Oracle Analytics. With prebuilt models available, developers can easily build image recognition and text recognition into their applications without machine learning (ML) expertise. This post will walk users through registering their AI Vision Face Detection model, uploading images, running their dataflow, and analyzing the output.

Read: https://blogs.oracle.com/analytics/post/ai-vision-facial-detection-in-oac

@big_data_analysis
___
Другие наши проекты
Open source GreenPlum: а что дальше?

Наверняка, многие уже слышали, что новый правообладатель GreenPlum – компания Broadcom – перевела репозитории с открытым исходным кодом на GitHub в архивный статус.

Новые версии оригинального ядра, вероятнее всего, уже не будут выкладываться в публичный доступ, а начнут появляться только в коммерческой версии продукта. Это касается и 6-й, и 7-й версии.

Версии ядра, которые были выложены в open source на момент закрытия репозитория, остались под лицензией Apache 2.0, и их можно легально использовать. Но в оригинальном репозитории не осталось веток, тегов и дистрибутивов.

Мы – ГК “ГлоуБайт” – уже больше двух лет развиваем инструменты над open source GreenPlum 6 и выкладываем их в открытый доступ под лицензией Apache 2.0. Об это мы писали статью, в которой прикладывали ссылки на все наши open source репозитории.

Для сборки исходных кодов GreenPlum и дополнительных утилит мы использовали свои пайплайны и зеркала оригинального репозитория GreenPlum.

Сегодня мы решили перевести эти репозитории в открытый доступ на нашем GitLab.


Читать: https://habr.com/ru/companies/glowbyte/articles/821001/

@big_data_analysis
___
Другие наши проекты
MCD-rPPG: на одной волне с телемедициной

Современные методы бесконтактной оценки медицинских параметров позволяют по видеопотоку с камеры определять, какой у человека пульс. Для решения таких задач методами машинного обучения нужны данные, и коллеги из СамГМУ подготовили уникальный датасет MCD-rPPG, который содержит видеозаписи людей и их фотоплетизмограммы, а также сопутствующую информацию медицинского характера. Я подробно расскажу про эти данные и покажу первые результаты простых моделей, которые были получены в рамках моей стажировки в центре медицины Sber AI Lab.

Надеюсь, что всем ML-исследователям, и особенно тем, кто увлекается компьютерным зрением, будет интересно поэкспериментировать с этим датасетом и сравнить результаты с нашими бейзлайнами.


Читать: https://habr.com/ru/articles/821015/

@big_data_analysis
___
Другие наши проекты
Decision-making Apps to Help You Decrease Noise and Bias

Although noise and bias in decision-making can’t be avoided completely, they can be effectively minimized with the help of mobile apps.

Read: https://www.scnsoft.com/software-development/decreasing-noise-and-bias-in-business-decision-making-with-a-mobile-app

@big_data_analysis
___
Другие наши проекты
Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma

В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной массивно-параллельной базой данных Greenplum.

Текст будет полезен для разработчиков, решающих схожие задачи по интеграции распределенных фреймворков обработки с реляционными БД, использующих параллельные вычисления.

Коротко о чем статья:


Читать: https://habr.com/ru/companies/itsumma/articles/821377/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды

Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в команде Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени.

Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов?


Читать: https://habr.com/ru/companies/uchi_ru/articles/821463/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Простая документация с dbt: Упрощение документирования хранилищ данных

Когда вы в последний раз впервые смотрели на хранилище данных? Помните то чувство фрустрации, когда вы не знали, что содержат таблицы orders_final_v1? Или как отличить user_uuid от user_id? Любой специалист по данным может понять эти ощущения.

К счастью, dbt (Data Build Tool) значительно упростил задачу документирования хранилищ данных. Все, что нужно сделать, это включить описание наших таблиц и колонок в YAML-файл схемы. Затем вся информация собирается в аккуратный HTML-файл.

Данная статья это перевод с английского с некоторыми адаптациями. Перевод сделан НЕшколой для инженеров Inzhenerka.Tech совместно с автором симулятора по DWH на dbt Павлом Рословцом. Больше материала в нашем сообществе


Читать: https://habr.com/ru/articles/821503/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
👍1
Автопереобучение моделей в Production

Модели машинного обучения становятся критически важными для бизнеса, помогая оптимизировать процессы и принимать более обоснованные решения. Однако их актуальность и точность могут быстро снижаться из-за изменения данных. Автоматическое переобучение моделей в продакшене решает эту проблему, обеспечивая обновление и улучшение моделей без значительных временных затрат.

В этой статье мы рассмотрим процесс автоматического переобучения моделей ML в продакшене, используя инструменты MLOps. Обсудим интеграцию таких инструментов, как AirFlow и Spark, с CI/CD пайплайнами, а также создание конфигурационного модуля, позволяющего разработчикам сосредоточиться на моделях, не углубляясь в инфраструктурные детали.


Читать: https://habr.com/ru/companies/alfa/articles/821447/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Лучшие библиотеки Python для Data Science в 2024 году

Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных задач в области науки о данных, включая машинное обучение, предварительную обработку данных, анализ данных и их визуализацию.

Новичку в этой области может быть сложно понять, с чего начать, особенно при таком обилии ресурсов — в Python имеется более 100 000 встроенных библиотек, и выучить их все просто невозможно. Именно поэтому в этой статье мы рассмотрим 8 самых полезных библиотек Python для Data Science.


Читать: https://habr.com/ru/companies/productstar/articles/821847/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
OCI AI Vision Facial Detection in Oracle Analytics Cloud

This post explores the OCI service AI Vision Facial Detection exposed directly in Oracle Analytics. With prebuilt models available, developers can easily build image recognition and text recognition into their applications without machine learning (ML) expertise. This post will walk users through registering their AI Vision Face Detection model, uploading images, running their dataflow, and analyzing the output.

Read: https://blogs.oracle.com/analytics/post/ai-vision-facial-detection-in-oac

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Краеугольные камни ClickHouse

Привет, Хабр! Меня зовут Артемий Кравцов, я работаю инженером в Wildberries. Сегодня расскажу про то, что люблю – про ClickHouse. Моя цель – осветить некоторые ключевые особенности в архитектуре ClickHouse и в том, как он хранит данные.

Что такое куски и слияния? Как быть с частыми вставками? Как обновлять значения в строках? Что не так с точечными чтениями? Как сделать тяжёлый JOIN?

Статья рассчитана на тех, кто только знакомится с ClickHouse.


Читать: https://habr.com/ru/companies/wildberries/articles/821865/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Интеграция LLM в корпоративное хранилище данных

В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.

Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.

Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.


Читать: https://habr.com/ru/articles/822771/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных
Повышаем Data Quality: щепотка Soda для ваших данных

Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.


Читать: https://habr.com/ru/companies/banki/articles/822601/

@big_data_analysis
___
Другие наши проекты | Чата аналитиков данных