Data Analysis / Big Data
2.84K subscribers
559 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst

Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом

Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»

#ru

@big_data_analysis | Другие наши каналы
Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst

Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом

Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»

#ru

@big_data_analysis | Другие наши каналы
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Предварительная обработка текстовых данных: ключевые этапы и методы

Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.


Читать: https://habr.com/ru/articles/881998/

#ru

@big_data_analysis | Другие наши каналы
Первичный анализ производительности запросов в Arenadata DB 6.27 и Cloudberry Database 1.6

Некоторое время назад руководитель задал мне вопрос: «Какой MPP-кластер лучше с точки зрения разработчика: Arenadata 6 или Cloudberry?» Я рассказал про версии PostgreSQL, лежащие в основе этих кластеров, - 9 и 14 соответственно. Еще сказал, что для детального анализа производительности желательно развернуть кластеры на серверах, заполнить их данными и выполнить побольше разных запросов.

Мой ответ руководителю не понравился, пришлось выдумывать методику первичного анализа производительности кластеров «на берегу», до разворачивания на серверах. Оказалось, что интересные данные о производительности кластеров можно получить и на персональном компьютере.


Читать: https://habr.com/ru/articles/882082/

#ru

@big_data_analysis | Другие наши каналы
Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности, таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента. В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.


Читать: https://habr.com/ru/articles/880234/

#ru

@big_data_analysis | Другие наши каналы
Кем стать: дата-сайентистом, аналитиком, инженером данных или ML

Чем занимаются и сколько зарабатывают специалисты Data Science — дата-сайентист, аналитик, дата-инженер и инжнер машинного обучения.

Читать: «Кем стать: дата-сайентистом, аналитиком, инженером данных или ML»

#ru

@big_data_analysis | Другие наши каналы
Отслеживание изменений размеров таблиц Arenadata DB

История, связанная с этой задачей, началась для нас в мае 2024 года. Один из крупных пользователей Greenplum/Arenadata DB обратился к нам с запросом реализовать возможность отслеживания изменения размеров файлов данных таблиц. Эта функциональность стала бы составной частью, источником событий для системы мониторинга пользовательских кластеров. Задача показалась нам крайне интересной и перспективной. Однако пользователю, как это часто бывает, решение требовалось уже вчера.

С одной стороны, мы осознавали всю сложность этой задачи в полнофункциональной реализации для всех пользователей нашего продукта (и как следствие, адекватно оценивали предполагаемые трудозатраты). С другой стороны, затачивать решение под конкретного пользователя, но в то же время и поставлять эту реализацию как часть общего решения мы сочли неправильным. По итогу команда разработки продолжила работу в своём темпе и в соответствии со своим представлением о реализации.


Читать: https://habr.com/ru/companies/arenadata/articles/881808/

#ru

@big_data_analysis | Другие наши каналы
Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания

Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.

Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.

В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.

Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.


Читать: https://habr.com/ru/articles/882092/

#ru

@big_data_analysis | Другие наши каналы
2
EDA of dataset Python

Привет, Хабр!

Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.

Очищать грязные данные можно c Pandas. Рассмотрим основные методы.


Читать: https://habr.com/ru/articles/882588/

#ru

@big_data_analysis | Другие наши каналы
Эффективное управление доступом в FDI

Fusion Data Intelligence предлагает учетную запись OAX_USER для работы с таблицами хранилища данных. Однако совместное использование этих данных между администраторами может вызвать проблемы с безопасностью. В статье рассматривается создание пользовательской схемы для финансовых пользователей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Улучшите ваши дашборды в Oracle Analytics!

Пост: Хотите создавать динамичные заголовки и описания в Oracle Analytics? Используйте параметры для усиления повествовательного эффекта ваших дашбордов. Узнайте, как сделать данные более привлекательными и информативными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
«Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию

xAI представила Grok 3 — «умнейший ИИ в истории», который превзошёл ChatGPT в анализе данных, генерации кода и поиске информации

Читать: ««Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию»

#ru

@big_data_analysis | Другие наши каналы
Дружим GX и Impala

Подробные шаги и полезные советы, которые помогут всем, кто хочет улучшить качество обработки данных в своих проектах. Читайте и проверяйте на практике: https://tprg.ru/tpKD
Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:


Читать: https://habr.com/ru/articles/883700/

#ru

@big_data_analysis | Другие наши каналы
Функции или классы: что выбрать для Python data pipelines?

В статье рассматривается, как конструкции Python — функции и объектно-ориентированное программирование (ООП) — применимы в data pipelines. Функции облегчают создание понятного и тестируемого кода для преобразования данных. ООП удобно для поддержания состояния, текущих соединений и конфигураций. Комбинация подходов может упростить разработку и сопровождение сложных проектов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Модульный подход к поддержке SQL скриптов

Как превратить 1000 строк запутанного SQL-кода в легко поддерживаемый и модульный пайплайн данных? В статье рассказывается о разбиении SQL на функции с юнит-тестами, что упрощает его поддержку и модификацию, делая работу с данными проще и быстрее.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как избежать несоответствий в метриках данных

Ищете способы обеспечения консистентности метрик в вашем дата-центре? Статья рассказывает о двух подходах: использование семантического слоя для гибких запросов и предагрегированных таблиц для простых случаев. Узнайте, как выбрать оптимальный метод для вашей команды.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как пройти собеседование по проектированию систем в Data Engineering?

Собираетесь на собеседование по проектированию систем в Data Engineering? Узнайте, как шаг за шагом провести интервьюера через анализ требований, проектирование моделей данных, создание и обеспечение качества данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как использовать seed данные из другого dbt проекта?

У вашей компании несколько dbt проектов, и вы хотите использовать seed данные из одного проекта в другом? Эта статья от Start Data Engineering рассказывает о том, как настроить dbt-пакеты для повторного использования данных и моделей между проектами. Узнайте, как правильно организовать кросс-проектные зависимости в dbt.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом.

Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных.


Читать: https://habr.com/ru/companies/cdek_blog/articles/881618/

#ru

@big_data_analysis | Другие наши каналы