Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.82K subscribers

573 photos

4 videos

2 files

2.7K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.82K subscribers

Data Analysis / Big Data

Как избежать несоответствий в метриках данных

Ищете способы обеспечения консистентности метрик в вашем дата-центре? Статья рассказывает о двух подходах: использование семантического слоя для гибких запросов и предагрегированных таблиц для простых случаев. Узнайте, как выбрать оптимальный метод для вашей команды.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

297 views21:14

Data Analysis / Big Data

Как пройти собеседование по проектированию систем в Data Engineering?

Собираетесь на собеседование по проектированию систем в Data Engineering? Узнайте, как шаг за шагом провести интервьюера через анализ требований, проектирование моделей данных, создание и обеспечение качества данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

310 viewsedited 21:15

Data Analysis / Big Data

Как использовать seed данные из другого dbt проекта?

У вашей компании несколько dbt проектов, и вы хотите использовать seed данные из одного проекта в другом? Эта статья от Start Data Engineering рассказывает о том, как настроить dbt-пакеты для повторного использования данных и моделей между проектами. Узнайте, как правильно организовать кросс-проектные зависимости в dbt.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

357 views21:15

Data Analysis / Big Data

Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

Привет, Хабр! Меня зовут Наталья Горлова, я архитектор данных. Несколько лет назад мы в CDEK поняли, что продукты, на которых работало хранилище, перестали нас устраивать: не устраивала гибкость разработки и скорость поставки данных. C тех пор произошло множество изменений, которыми хочется поделиться с сообществом.

Расскажу, как платформа данных развивалась, и к чему мы пришли на конец 2024 года. Эта статья — ретроспектива моей почти шестилетней работы и текущих реалий нашей платформы данных.

Читать: https://habr.com/ru/companies/cdek_blog/articles/881618/

#ru

@big_data_analysis | Другие наши каналы

381 views13:38

Data Analysis / Big Data

Код устареет, принципы — останутся: подборка книг для мидлов и сеньоров в Data Science

Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.

Это вторая часть книжной подборки — в первой книги для джунов.

Читать: https://habr.com/ru/companies/ozonbank/articles/884310/

#ru

@big_data_analysis | Другие наши каналы

👍2

415 views11:27

Data Analysis / Big Data

MapReduce: гид для начинающих

Разберем роль модели MapReduce в составе Hadoop, а также расскажем, как использовать его отдельно и насколько это эффективно.

Читать: https://habr.com/ru/companies/skillfactory/articles/882328/

#ru

@big_data_analysis | Другие наши каналы

382 views13:21

Data Analysis / Big Data

От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков

Максим Коновалов расскажет, как стал Data Scientist в МТС, пройдя школу аналитиков данных МТС и стажировку.

Читать: «От университета к дата-сайенс в МТС за год: как я проходил обучение в Школе аналитиков»

#ru

@big_data_analysis | Другие наши каналы

365 views14:52

Data Analysis / Big Data

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.

Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.
Читать дальше

Читать: https://habr.com/ru/companies/mpstats/articles/884344/

#ru

@big_data_analysis | Другие наши каналы

439 views06:02

Data Analysis / Big Data

Как выстроить разметку для паноптической сегментации правильно?

Представьте себе задачу, в которой необходимо не просто понять, что изображено на картинке, но и точно определить границы каждого объекта, даже если они частично перекрывают друг друга. Семантическая сегментация отлично справляется с категоризацией пикселей, инстанс-сегментация позволяет различать отдельные объекты одного класса, но что, если нам нужно сразу и то, и другое?

Паноптическая сегментация объединяет оба этих подхода. При нем каждый пиксель получает как классовую принадлежность, так и уникальный ID объекта. Однако ее разметка — одна из самых сложных задач в области компьютерного зрения: аннотаторам приходится учитывать перекрытия, сложные границы объектов и баланс между двумя типами масок.

Как добиться высокой точности в разметке паноптической сегментации? Какие ошибки наиболее критичны при аннотировании? И почему этот метод так важен для беспилотных технологий, медицинской визуализации и AR-приложений? Разбираем подробнее в статье!

Читать: https://habr.com/ru/companies/data_light/articles/884726/

#ru

@big_data_analysis | Другие наши каналы

363 views12:59

Data Analysis / Big Data

Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос

Объяснили, как эффективно оптимизировать работу с большими данными, что такое проекции и как они помогают улучшить производительность запросов, особенно когда объем данных постоянно растет.

Реальные кейсы и полезные советы — в этой статье.

397 views14:29

Data Analysis / Big Data

В ClickHouse одна плоская таблица лучше, чем несколько соединенных таблиц

Данная статья о том, что в системе ClickHouse использование одной плоской таблицы (включая денормализованные таблицы) вместо нескольких таблиц, объединённых с помощью JOIN-операций, значительно повышает скорость выполнения запросов

Читать: https://habr.com/ru/articles/884932/

#ru

@big_data_analysis | Другие наши каналы

409 views19:09

Data Analysis / Big Data

Работа над «DAX Fiddle» в виде Telegram бота

Для многих языков есть свои online песочницы, например, для POSTGRES есть условный PostgreSQL Fiddle, также и для аналитического языка DAX хотелось бы побольше подобных инструментов. Существующий dax.do позволяет выполнять запросы условно только на стандартной схеме Contoso, и в век AI хотелось бы иметь инструмент для быстрого выполнения DAX запросов для произвольной схемы данных. Также генерация самой схемы и заполнение её данными также являются трудоемкими, и хотелось бы отдать это всё AI.

Кроме того, сейчас популярны Telegram боты, в связи с этим появилась идея создания Telegram бота для выполнения DAX (и построения простейшего дашборда-таблицы) на произвольной схеме данных, с автоматически сгенерированными данными, своего рода DAX Fiddle. Интересующимся DAX Fiddle — добро пожаловать под кат :)

Читать: https://habr.com/ru/articles/885080/

#ru

@big_data_analysis | Другие наши каналы

378 views20:38

Data Analysis / Big Data

25 бесплатных курсов для начинающих аналитиков

Привет Хабр Меня зовут Алёна, я middle‑продуктовый аналитик. Мне нравится то, чем я занимаюсь, поэтому в свободное время я пишу полезные статьи и веду свой пока небольшой tg-канал про продуктовую аналитику.

Все мидлы и сеньоры когда-то были новичками, поэтому понимаю, тех, кто не знает с чего начать свой путь в аналитику. В этой статье делюсь полезными ссылками для тех, кто хочет с разных сторон пощупать эту профессию!

Читать: https://habr.com/ru/articles/885084/

#ru

@big_data_analysis | Другие наши каналы

402 views21:02

Data Analysis / Big Data

YTsaurus SPYT: как мы перешли от форка Apache Spark к использованию оригинальной версии

Всем привет! Меня зовут Александр Токарев, я работаю в Yandex Infrastructure и занимаюсь интеграцией Apache Spark (далее просто Spark) с YTsaurus. В этой статье я расскажу про то, как мы сначала форкнули и пропатчили Spark, а потом вернулись к использованию оригинальной версии и поддержали совместимость с множеством других версий.

YTsaurus — это разработанная Яндексом система для хранения и обработки больших объёмов данных. Она активно развивается с 2010 года, а в 2023 году была выложена в опенсорс. Подробнее почитать про историю создания и выход YTsaurus в опенсорс можно в статье Максима Бабенко.

В какой‑то момент мы решили подружить YTsaurus и Spark. Так и родился проект SPYT powered by Apache Spark (далее просто SPYT), который активно развивается с 2019 года. Основательница проекта Саша Белоусова уже рассказывала, как были реализованы SPI Spark для работы со структурами данных YTsaurus — это набор классов, интерфейсов, методов, которые мы расширяем или реализуем. Во многом эта статья и моё выступление на HighLoad++ 2024 являются продолжением её доклада.

Читать: https://habr.com/ru/companies/yandex/articles/884442/

#ru

@big_data_analysis | Другие наши каналы

359 views08:01

Data Analysis / Big Data

Куда расти Data Scientist и какие навыки для этого нужны

Привет! Меня зовут Никита Зелинский, я Chief Data Scientist МТС, руководитель центра компетенций Data Science и ML-платформ МТС Big Data. На конференциях я часто слышу один и тот же вопрос от начинающих дата-сайентистов: как развиваться в своей сфере и прийти к успеху? Тут сразу напрашивается одно сравнение — рост в профессии напоминает тренировки в качалке. Чтобы добиться результата, нужен четкий план: что конкретно и когда прокачивать. Вот и в работе важно понимать, какие навыки развивать и как составить стратегию роста — от стажера до ведущего специалиста или Chief Data Scientist.

Сегодня будем разбираться, как выстроить этот путь. Расскажу, как работа дата-сайентистов устроена в МТС и какие есть направления развития для DS в целом. А еще поделюсь своим видением роли дата-сайентиста — оно не во всем совпадает с общепринятым, так что можете поспорить со мной в комментариях. Поехали!

Читать: https://habr.com/ru/companies/ru_mts/articles/885082/

#ru

@big_data_analysis | Другие наши каналы

340 views12:06

Data Analysis / Big Data

Туториал об организации процесса разметки данных

Привет! Меня зовут Сизов Виктор, я занимаюсь данными, их сбором, анализом и разметкой последние 5 лет. Сейчас отвечаю за разметку в Альфа-Банке. Эту статьи мы писали всей командой и старались осветить подробно детали того, как устроены процессы разметки с технической и административной стороны. В статье мы рассмотрели:

— работу команды разметки, её взаимодействие с Заказчиком и Продуктом;
— отдельно разобрали аналитику, которая позволяет повышать качество разметки;
— рассмотрим поведение людей (разметчиков), паттерны их работы, а также использования генеративных моделей для решения части задач.

Читать: https://habr.com/ru/companies/alfa/articles/883822/

#ru

@big_data_analysis | Другие наши каналы

👍2

354 views13:02

Data Analysis / Big Data

Data Engineering — это не Software Engineering

Это мой вольный перевод статьи "Data Engineering is Not Software Engineering", с рядом моих правок, дополнений, а так же сокращений (так как автор склонен повторять одно и то же, но иными словами или излишне "разжевывать" очевидные вещи). Мне кажется, автор действительно поднял очень важную тему, которую я "чувствовал" по своей практике, но не мог сформулировать так точно, как это сделал он.

Мало кто задумывается, что дата-инженерия и разработка ПО имеют значительные различия. Поэтому распространено мнение, что некое отставание дата-инженерии в части внедрения современных методов разработки, таких как Agile, Test Driving Development и т.д. обусловлено лишь отставанием в освоении этих передовых практик.

На самом деле этот взгляд ошибочен. Хотя дата-инженерия и разработка ПО действительно имеют много общего, между ними существуют значительные различия. Игнорирование этих различий и управление командой дата-инженеров по тем же принципам, что и командой разработчиков ПО, является ошибкой. Особенно этим грешат относительно молодые менеджеры, или те, кто никогда не работал с "датой". Собственно, этим зачастую и вызваны ошибки в пименении "в лоб" соврмененых методой разработки. Дата-инженерия — как томат: технически это фрукт, но это не значит, что его стоит добавлять в фруктовый салат.

Читать: https://habr.com/ru/articles/883026/

#ru

@big_data_analysis | Другие наши каналы

353 views08:09

Data Analysis / Big Data

Мама, у меня RAG: пути к улучшению, когда он «наивный»

В последние пару лет RAG (retrieval-augmented generation) стал одной из самых обсуждаемых технологий в области обработки текстов и поисковых систем. Его идея проста: объединить поиск (retrieval) и генерацию (generation), чтобы быстрее находить нужную информацию и создавать более точные тексты.

Рост объёмов данных и информационного шума привёл к тому, что классические методы поиска и генерации уже не всегда справляются с новыми задачами. Например, большие языковые модели без доступа к актуальной информации могут искажать факты, а традиционные поисковики при запросах на естественном языке дают слишком общий результат. RAG решает эти проблемы, добавляя дополнительный "слой знаний" за счёт внешних баз данных, что особенно полезно для чат-ботов, систем вопрос-ответ, рекомендательных сервисов и многих других приложений.

Целью данной статьи является погружение читателя в технологию RAG, а также ознакомление с основными критериями и методами его улучшения. В этой статье мы обсудим, как именно устроен RAG, как правильно оценивать его эффективность и какие существуют техники улучшения – от уже известных методов до совершенно новых решений.

Читать: https://habr.com/ru/articles/885770/

#ru

@big_data_analysis | Другие наши каналы

347 views18:50

Data Analysis / Big Data

Preprocessing pandas dataframes. Предварительная обработка данных в пандас датафреймах

Обработка датафреймов: ключевые аспекты и инструменты

Датафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами.

Читать: https://habr.com/ru/articles/885828/

#ru

@big_data_analysis | Другие наши каналы

327 views05:07

Data Analysis / Big Data

Безопасность личных данных в Oracle

Пост: Как Oracle защищает личные данные? Информация, такая как имя, адрес, телефон и социальный номер, считается чувствительной и требует особой защиты. Узнайте, как Oracle обеспечивает безопасность ваших данных в своих приложениях и базах данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle Analytics and Personal Identifiable Information

Oracle Personal Identifiable Information (PII) refers to any piece of data that can be used to uniquely identify a person, such as their name, address, phone number, email address, or social security number, when stored within Oracle systems. It's any information…

281 views06:49

Data Analysis / Big Data

Защита PII данных в системах Oracle

Личные идентификационные данные (PII), такие как имя, адрес, телефон, email и номер соцстрахования, требуют особой защиты в системах Oracle. Эти данные могут использоваться для идентификации или связи с человеком, и их безопасность в приложениях Oracle является приоритетом.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Oracle Analytics and Personal Identifiable Information

Oracle Personal Identifiable Information (PII) refers to any piece of data that can be used to uniquely identify a person, such as their name, address, phone number, email address, or social security number, when stored within Oracle systems. It's any information…

293 views06:49