Data Analysis / Big Data

Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst

Лучшие курсы для аналитика данных: рейтинг актуальных обучающих программ. Подборка онлайн-обучения профессии Data Analyst с нуля и для специалистов с опытом

Читать: «Лучшие курсы по анализу данных для начинающих с нуля — онлайн обучение Data Analyst»

#ru

@big_data_analysis | Другие наши каналы

359 views17:00

329 views17:04

Data Analysis / Big Data

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Предварительная обработка текстовых данных: ключевые этапы и методы

Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

Читать: https://habr.com/ru/articles/881998/

#ru

@big_data_analysis | Другие наши каналы

339 views05:18

Data Analysis / Big Data

Первичный анализ производительности запросов в Arenadata DB 6.27 и Cloudberry Database 1.6

Некоторое время назад руководитель задал мне вопрос: «Какой MPP-кластер лучше с точки зрения разработчика: Arenadata 6 или Cloudberry?» Я рассказал про версии PostgreSQL, лежащие в основе этих кластеров, - 9 и 14 соответственно. Еще сказал, что для детального анализа производительности желательно развернуть кластеры на серверах, заполнить их данными и выполнить побольше разных запросов.

Мой ответ руководителю не понравился, пришлось выдумывать методику первичного анализа производительности кластеров «на берегу», до разворачивания на серверах. Оказалось, что интересные данные о производительности кластеров можно получить и на персональном компьютере.

Читать: https://habr.com/ru/articles/882082/

#ru

@big_data_analysis | Другие наши каналы

306 views08:42

Data Analysis / Big Data

Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности, таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента. В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

Читать: https://habr.com/ru/articles/880234/

#ru

@big_data_analysis | Другие наши каналы

298 views09:31

Data Analysis / Big Data

Кем стать: дата-сайентистом, аналитиком, инженером данных или ML

Чем занимаются и сколько зарабатывают специалисты Data Science — дата-сайентист, аналитик, дата-инженер и инжнер машинного обучения.

Читать: «Кем стать: дата-сайентистом, аналитиком, инженером данных или ML»

#ru

@big_data_analysis | Другие наши каналы

301 views10:04

Data Analysis / Big Data

Отслеживание изменений размеров таблиц Arenadata DB

История, связанная с этой задачей, началась для нас в мае 2024 года. Один из крупных пользователей Greenplum/Arenadata DB обратился к нам с запросом реализовать возможность отслеживания изменения размеров файлов данных таблиц. Эта функциональность стала бы составной частью, источником событий для системы мониторинга пользовательских кластеров. Задача показалась нам крайне интересной и перспективной. Однако пользователю, как это часто бывает, решение требовалось уже вчера.

С одной стороны, мы осознавали всю сложность этой задачи в полнофункциональной реализации для всех пользователей нашего продукта (и как следствие, адекватно оценивали предполагаемые трудозатраты). С другой стороны, затачивать решение под конкретного пользователя, но в то же время и поставлять эту реализацию как часть общего решения мы сочли неправильным. По итогу команда разработки продолжила работу в своём темпе и в соответствии со своим представлением о реализации.

Читать: https://habr.com/ru/companies/arenadata/articles/881808/

#ru

@big_data_analysis | Другие наши каналы

360 views10:11

Data Analysis / Big Data

Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания

Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.

Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.

В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.

Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.

Читать: https://habr.com/ru/articles/882092/

#ru

@big_data_analysis | Другие наши каналы

❤2

383 views09:30

Data Analysis / Big Data

EDA of dataset Python

Привет, Хабр!

Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.

Очищать грязные данные можно c Pandas. Рассмотрим основные методы.

Читать: https://habr.com/ru/articles/882588/

#ru

@big_data_analysis | Другие наши каналы

438 views11:27

Data Analysis / Big Data

Эффективное управление доступом в FDI

Fusion Data Intelligence предлагает учетную запись OAX_USER для работы с таблицами хранилища данных. Однако совместное использование этих данных между администраторами может вызвать проблемы с безопасностью. В статье рассматривается создание пользовательской схемы для финансовых пользователей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

FDI: Create Custom Schemas for Finance Users in a Multipillar Subscription

Fusion Data Intelligence (FDI) provides a database schema user account, OAX_USER, with access to all the data warehouse tables. Sharing OAX_USER credentials with multiple administrators is a security concern. Similarily splitting the access in case of a multi…

368 views09:57

Data Analysis / Big Data

Улучшите ваши дашборды в Oracle Analytics!

Пост: Хотите создавать динамичные заголовки и описания в Oracle Analytics? Используйте параметры для усиления повествовательного эффекта ваших дашбордов. Узнайте, как сделать данные более привлекательными и информативными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle

Dynamic Text Boxes in Oracle Analytics

Impactful titles and descriptions in dashboards help users quickly grasp key insights.
In Oracle Analytics, storytelling can be enhanced by integrating dynamic measures and attributes into text boxes using parameters. With parameters, SQL queries can be…

393 views09:57

Data Analysis / Big Data

«Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию

xAI представила Grok 3 — «умнейший ИИ в истории», который превзошёл ChatGPT в анализе данных, генерации кода и поиске информации

Читать: ««Умнейший ИИ в истории» Grok 3 представлен официально — Маск обещает революцию»

#ru

@big_data_analysis | Другие наши каналы

379 views05:33

Data Analysis / Big Data

Дружим GX и Impala

Подробные шаги и полезные советы, которые помогут всем, кто хочет улучшить качество обработки данных в своих проектах. Читайте и проверяйте на практике: https://tprg.ru/tpKD

344 views12:00

Data Analysis / Big Data

Dagster: новый стандарт для ETL в 2025?

Мы живем в век данных и data-driven подхода. Есть продуктовые компании, где даже минимальные изменения в продукте обязаны пройти A/B-тест перед релизом (который из-за этого может и не состояться). С бумом данных и AI произошел и бум ETL (Extract, Transform, Load) инструментов. Сейчас, в 2024 году, выбор действительно впечатляет, даже если ограничиться только open source-решениями:

Читать: https://habr.com/ru/articles/883700/

#ru

@big_data_analysis | Другие наши каналы

364 views16:13

Data Analysis / Big Data

Функции или классы: что выбрать для Python data pipelines?

В статье рассматривается, как конструкции Python — функции и объектно-ориентированное программирование (ООП) — применимы в data pipelines. Функции облегчают создание понятного и тестируемого кода для преобразования данных. ООП удобно для поддержания состояния, текущих соединений и конфигураций. Комбинация подходов может упростить разработку и сопровождение сложных проектов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

309 viewsedited 21:14

Data Analysis / Big Data

Модульный подход к поддержке SQL скриптов

Как превратить 1000 строк запутанного SQL-кода в легко поддерживаемый и модульный пайплайн данных? В статье рассказывается о разбиении SQL на функции с юнит-тестами, что упрощает его поддержку и модификацию, делая работу с данными проще и быстрее.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

309 views21:14

Data Analysis / Big Data

Как избежать несоответствий в метриках данных

Ищете способы обеспечения консистентности метрик в вашем дата-центре? Статья рассказывает о двух подходах: использование семантического слоя для гибких запросов и предагрегированных таблиц для простых случаев. Узнайте, как выбрать оптимальный метод для вашей команды.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

297 views21:14

Data Analysis / Big Data

Как пройти собеседование по проектированию систем в Data Engineering?

Собираетесь на собеседование по проектированию систем в Data Engineering? Узнайте, как шаг за шагом провести интервьюера через анализ требований, проектирование моделей данных, создание и обеспечение качества данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

310 viewsedited 21:15

Data Analysis / Big Data

Как использовать seed данные из другого dbt проекта?

У вашей компании несколько dbt проектов, и вы хотите использовать seed данные из одного проекта в другом? Эта статья от Start Data Engineering рассказывает о том, как настроить dbt-пакеты для повторного использования данных и моделей между проектами. Узнайте, как правильно организовать кросс-проектные зависимости в dbt.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

357 views21:15

Data Analysis / Big Data

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом.

Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных.

Читать: https://habr.com/ru/companies/cdek_blog/articles/881618/

#ru

@big_data_analysis | Другие наши каналы

380 views13:38

About

Blog

Apps

Platform