Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как мы внедрили CockroachDB на DBaaS в компанию классических СУБД

Привет! Меня зовут Полина Кудрявцева, я инженер DBA в Авито. В этой статье я расскажу о том, как мы внедрили CockroachDB на DBaaS в компанию классических СУБД, а также опишу его плюсы, минусы и особенности работы.


Читать: https://habr.com/ru/companies/avito/articles/854732/

#ru

@big_data_analysis | Другие наши каналы
Как управлять большими командами? 3 совета для менеджера

Когда я начинал свою карьеру в разметке данных, я и представить не мог, что через несколько лет продолжу работать в индустрии и буду управлять целым направлением.

Я прошел путь от разметчика до позиции Head of Moderation & Head of Special Projects в Data Light. Теперь под моим руководством работает 465 человек, параллельно за раз моя команда ведет до 64 проектов.

Сейчас я понимаю, что для успеха в этой сфере критически важны три вещи: постоянное обучение, систематизация и навыки коммуникации. В этой статье я хочу поделиться главными советами для начинающих менеджеров.


Читать: https://habr.com/ru/companies/data_light/articles/854882/

#ru

@big_data_analysis | Другие наши каналы
Ужасный код: если бы злодеи хорроров стали программистами

Мы погрузились в мрачный мир фантазий и представили, какие языки программирования и роли могли бы выбрать самые известные злодеи хоррор-фильмов, если бы они ворвались в IT.

Читать: «Ужасный код: если бы злодеи хорроров стали программистами»

#ru

@big_data_analysis | Другие наши каналы
👍2
Работа с календарями в BI — с DAX и без него

Привет, Хабр! При работе с Business Intelligence и дашбордами практически в любой предметной области встречаются даты и календари, поэтому от выбора представления дат и их составных частей (день, месяц, квартал, полугодие, год и т.д.), ключей дат и таблицы с датами зависит производительность всех дашбордов. В этой статье я расскажу о том, как можно оптимизировать работу с датами в Visiology — с использованием DAX и без него. Интересно? Добро пожаловать под кат! :)


Читать: https://habr.com/ru/companies/visiology/articles/855178/

#ru

@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer DBT

dbt является мощным фреймворком, который включает в себя два популярных языка: SQL + Python.

При помощи dbt можно создавать разные "слои" данных или выделить dbt только под один слой, к примеру dm.

При помощи понятного и всем известного SQL интерфейса можно создавать разные модели для вашего DWH или Data Lake.


Читать: https://habr.com/ru/articles/854990/

#ru

@big_data_analysis | Другие наши каналы
Необычные вкусы покупателей: что такое товарные пары и как их исследовать

Привет, Хабр! На связи команда продуктовой аналитики.

Подбор и обновление ассортимента товаров — постоянная головная боль для любого ритейлера. Это трудоемкий процесс, где каждая ошибка стоит реальных денег. В ecom.tech мы стараемся сделать его проще при помощи автоматизации, а заодно изучаем предпочтения покупателей. На этот раз мы искали, что обычно покупают в паре – так называемые комплементарные товары.

В этой статье расскажем:
- с чем обычно покупают лапшу быстрого приготовления, а с чем — детское питание;
- как география, время суток и другие факторы влияют на выбор покупателей;
- как все эти полученные знания можно применить в ассортиментных матрицах дарксторов и бизнес-процессах ритейла.


Читать: https://habr.com/ru/companies/ecom_tech/articles/854036/

#ru

@big_data_analysis | Другие наши каналы
Система сквозного логирования с передачей единого идентификатора между независимыми задачами Airflow

Привет! Меня зовут Никита Хилов, я работаю в билайне уже более десяти лет. Начинал я работать с поддержкой систем фиксированного фиксированного биллинга, впоследствии я отвечал за разработку и поддержку различных расчетов по системам управленческой или корпоративной отчетности. А сейчас я работаю в роли тимлида дата-инженеров в блоке по архитектуре и инфраструктуре данных и отвечаю за управление разработкой и сопровождением программных продуктов компании по различным точкам бизнес-приложения.

Итак, какие же вопросы мы обсудим в этой серии постов. Сегодня я хочу осветить вопросы касаемо того, как же нам организовывать, компоновать и в принципе заставить работу систему журналирования наших расчетов для таких случаев, когда наш общепринятый ключ периодики, на котором мы обычно строим свои расчеты, перестает быть однозначным идентификатором той итерации процесса подготовки данных, на которую мы сейчас смотрим, и от которых мы ждем результаты.

Мы обсудим, например, когда такое происходит и что для этого является катализатором. Рассмотрим механики и механизмы, которые дают возможность связывать независимые процессы и цепочки подготовки данных в единое целое.

И в дополнение расскажу, как мы эту проблему решали в своем продукте.

Но прежде всего давайте определим для чего нам это, в принципе, нужно.


Читать: https://habr.com/ru/companies/beeline_tech/articles/855274/

#ru

@big_data_analysis | Другие наши каналы
Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели.

В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.


Читать: https://habr.com/ru/companies/sibur_official/articles/855310/

#ru

@big_data_analysis | Другие наши каналы
Семантическая сегментация: самый полный гайд 2024

Что общего между автономными автомобилями, медицинскими диагностическими системами и спутниковыми снимками Земли?

Ответ прост: все они зависят от способности машин «видеть» и понимать окружающий мир. Чтобы компьютер мог распознать объекты на изображении и отличить небо от дороги, человека от автомобиля или лес от здания, необходимо использовать технологии сегментации изображений. Но как именно машины учатся такому зрению и как использовать эту технологию для бизнеса? Давайте поговорим о семантической сегментации.


Читать: https://habr.com/ru/companies/data_light/articles/855336/

#ru

@big_data_analysis | Другие наши каналы
👍2
Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.


Читать: https://habr.com/ru/articles/855478/

#ru

@big_data_analysis | Другие наши каналы
Работа с большими данными: введение в Apache Hadoop и Spark

Работа с большими данными. Рассказываем об основах Apache Hadoop и Spark. Рассматриваем пошаговую инструкцию по внедрению распределенной системы Tproger

Читать: «Работа с большими данными: введение в Apache Hadoop и Spark»

#ru

@big_data_analysis | Другие наши каналы
GigaChat MAX — новая, сильная модель GigaChat

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat‑Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat-Max!
GigaChat-Max

Читать: https://habr.com/ru/companies/sberdevices/articles/855368/

#ru

@big_data_analysis | Другие наши каналы
GigaChat MAX — новая, сильная модель GigaChat

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat MAX!
GigaChat MAX

Читать: https://habr.com/ru/companies/sberbank/articles/855368/

#ru

@big_data_analysis | Другие наши каналы
Смещение значения таймстемпа UUIDv7

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.


Читать: https://habr.com/ru/articles/855832/

#ru

@big_data_analysis | Другие наши каналы
Ноябрьские обновления Oracle Analytics Cloud
Узнайте о новых возможностях, представленных в ноябрьском обновлении 2024 для Oracle Analytics Cloud. Эти улучшения призваны повысить эффективность анализа данных, упростить работу пользователей и расширить функциональность платформы. Не пропустите важные изменения!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Приватный доступ к Oracle Analytics

Узнайте, как обезопасить свои данные, получая доступ к публичным сервисам Oracle Analytics через приватные каналы. В статье описаны шаги и методы, которые помогут минимизировать риски и обеспечить конфиденциальность вашей аналитики.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Создание организационных диаграмм в Oracle Analytics

Пост: Хотите научиться визуализировать структуру вашей компании? Изучите, как с помощью расширения Org Chart в Oracle Analytics преобразовать плоские данные в иерархию родитель-дитя, используя наборы данных и потоки данных. Узнайте, как эффективно отображать организационные структуры!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Открытый датасет TelecomX

Всем привет! Хочу поделиться с теми, кто интересуется большими данными, своей работой. Дело в том, что довольно часто, когда мы читаем какую-либо статью или техдоку по этой предметной области, приводимые примеры опираются на крохотные наборы данных. И это не даёт понимания и погружения в специфику — напоминает обучение вождению на Need for speed. Более того, я не смог найти более-менее крупные наборы реальных бизнесовых данных или те, что были хотя бы похожи на реальные. Ну и как это часто бывает, пришлось сделать самому. Если вас интересует эта тематика, проследуйте под кат.


Читать: https://habr.com/ru/companies/arenadata/articles/856366/

#ru

@big_data_analysis | Другие наши каналы
Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.


Читать: https://habr.com/ru/articles/855644/

#ru

@big_data_analysis | Другие наши каналы
Apache Flink: Сериализация и JacksonStateSerializer

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты.

В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer.

По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.


Читать: https://habr.com/ru/companies/ru_mts/articles/856774/

#ru

@big_data_analysis | Другие наши каналы
Что такое Data Driven подход

В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.

В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.


Читать: https://habr.com/ru/articles/856920/

#ru

@big_data_analysis | Другие наши каналы