Data Analysis / Big Data
2.84K subscribers
559 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию

Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!


Читать: https://habr.com/ru/articles/896054/

#ru

@big_data_analysis | Другие наши каналы
Как нам удалось упростить жизнь инженера-сметчика и сократить время на разработку сметы в 20 раз

Если вы инженер-сметчик, то наверняка знаете, что такое ежедневная работа с огромными таблицами и бесконечными спецификациями. Кто-то, возможно, уже смирился с монотонностью, а кто-то разработал свои лайфхаки для ускорения обработки данных. Но сегодня расскажем о новом подходе, который помог нам упростить процесс составления сметы на монтаж системы вентиляции.

С чего все начиналось: с типичного дня сметчика

Однажды мне поставили задачу — подготовить сметы для нового объекта, включая раздел вентиляции. Как многие сметчики знают, вентиляция — это один из самых трудоемких разделов.


Читать: https://habr.com/ru/articles/896046/

#ru

@big_data_analysis | Другие наши каналы
Руководство по созданию датасета для машинного обучения

Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.

В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.


Читать: https://habr.com/ru/companies/data_light/articles/896108/

#ru

@big_data_analysis | Другие наши каналы
2
Машина может быть живой?

Если искусственный интеллект однажды обретет сознание, научится чувствовать и заявит: «Я существую!» — сможем ли мы отказать ему в праве называться живым? Сегодня СИИ лишь имитирует разум, но если он начнет ставить цели, страдать от одиночества или бороться за свои права, граница между «живым» и «неживым» рухнет. Эта статья про рассуждение над вопросами о том, когда СИИ станет живым и станет ли он живым вообще?


Читать: https://habr.com/ru/articles/896220/

#ru

@big_data_analysis | Другие наши каналы
Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства.

Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов.

Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем.

В статье расскажу, как мы решаем эту задачу.


Читать: https://habr.com/ru/companies/hflabs/articles/896436/

#ru

@big_data_analysis | Другие наши каналы
Как Apache Spark читает файлы: механизмы, оптимизации

Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Многие недооценивают важность правильного выбора форматов данных и тонкой настройки процессов чтения, а потом удивляются, почему их Spark-джобы работают медленно и потребляют слишком много ресурсов. Читаем далее что бы разобраться в теме ->


Читать: https://habr.com/ru/articles/896492/

#ru

@big_data_analysis | Другие наши каналы
В Garage Eight наступила неделя оптимизации. Число ad hoc задач сократилось в 3 раза

Привет, Хабр! Меня зовут Константин, я лидирую аналитику партнерских программ в компании Garage Eight. Еще год назад ad hoc были для нас настоящим бедствием: мы достаточно долго существовали в реалиях 60–70 таких задач в месяц. Но в какой-то момент решили, что пора завязывать, и за несколько шагов сократили их до 20–25.

Рассказываем, как справились (и продолжаем справляться) с ad hoc задачами, и немного о том, почему в постоянно развивающемся бизнесе невозможно жить совсем без них.


Читать: https://habr.com/ru/companies/garage8/articles/896502/

#ru

@big_data_analysis | Другие наши каналы
Шардированный кластер ClickHouse

Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.


Читать: https://habr.com/ru/companies/wildberries/articles/896060/

#ru

@big_data_analysis | Другие наши каналы
Интеллектуальный фотофиниш

Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.

Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.

Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.

Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.


Читать: https://habr.com/ru/articles/896704/

#ru

@big_data_analysis | Другие наши каналы
Как создать инструмент для DQ только на Python и Airflow?

Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка.

В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.


Читать: https://habr.com/ru/companies/gazprombank/articles/896814/

#ru

@big_data_analysis | Другие наши каналы
2
Цифровые двойники: превращаем данные в деньги с помощью матмоделирования

Сегодня Digital Twin — это не просто модное словосочетание, а ключевой инструмент оптимизации производства. От нефтегазовых предприятий и химических производств до птицефабрик — цифровые двойники внедряются в самые разные отрасли. В этой статье мы разберемся, какие технологии стоят за этим подходом, какие специалисты нужны для работы с цифровыми двойниками и как они применяются на реальных производственных объектах.

Привет, Хабр, я Руслан Залевских, старший аналитик группы Data Science отдела цифрового моделирования IBS, и сегодня поговорим о цифровых двойниках — технологии, с которой я работаю уже несколько лет. Расскажу о том, что такое Digital Twins и приведу примеры их использования на некоторых наших проектах.


Читать: https://habr.com/ru/companies/ibs/articles/897072/

#ru

@big_data_analysis | Другие наши каналы
Автоматизация задач без кодинга: единый реестр, система управления проектами и таск-трекер на основе MWS Tables

Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables.

Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов.

Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом.


Читать: https://habr.com/ru/companies/ru_mts/articles/897068/

#ru

@big_data_analysis | Другие наши каналы
Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF!

22 апреля пройдет конференеция Газпромбанк.Тех для разработчиков и инженеров.

Читать: «Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF!»

#ru

@big_data_analysis | Другие наши каналы
Как обеспечить безопасность данных в FDI

Статья объясняет, как с помощью профиля безопасности в Fusion HCM защитить персональные данные. Рассматриваются два подхода: использование настраиваемых критериев или логики SQL-запроса, что позволяет гибко подходить к задачам безопасности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Интеграция Google Analytics с Oracle Analytics Cloud

В современном мире данных важно иметь доступ к веб-аналитике для принятия бизнес-решений. Oracle Analytics Cloud позволяет подключаться к таким источникам, как Google Analytics, для анализа посещаемости сайтов и эффективности маркетинга. Статья описывает процесс интеграции этих платформ.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Будущее здесь: как градостроители применяют искусственный интеллект для регулирования среды жизнедеятельности

Научно‑фантастический рассказ о работе градостроителя в будущем. Если через 15 лет этот текст найдут в архивах — пусть проверят, сбылось ли.

Пролог. 2040 год. Москва, территориальное подразделений Цифрового центра «Град-ИНФО-ИИ. Россия».


Читать: https://habr.com/ru/articles/898144/

#ru

@big_data_analysis | Другие наши каналы
FineBi Динамическая фильтрация данных

Привет Хабр! Меня зовут Белков Евгений, я руководитель направления разработки Siebel CRM в Московском кредитном банке.

В последнее время стал все больше разрабатывать дашборды на Fine Bi и все больше неординарных требований к визуализации вынуждают танцевать с бубном. Сегодня я хочу поделиться опытом работы с Динамической фильтрацией данных на апплете в зависимости от выбранных значений фильтра.


Читать: https://habr.com/ru/companies/mkb/articles/898222/

#ru

@big_data_analysis | Другие наши каналы
Data Governance и Бизнес: как найти общий язык

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!»

«Нам нужны качественные данные, а вы все про свои процессы!»

«Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!»

Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы.

Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе:

1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу.

2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу.

3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как  бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня.

Как же выстроить эффективный диалог между DG и бизнесом?


Читать: https://habr.com/ru/articles/899080/

#ru

@big_data_analysis | Другие наши каналы
Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?

Pandas, Polars или PySpark — что выбрать для работы с данными? Вместе с Никитой Егоровым, ведущим аналитиком в МТС Диджитал, разбираем отличия, плюсы и минусы каждого инструмента.

Читать: «Сравниваем Pandas, Polars и PySpark: что выбрать аналитику?»

#ru

@big_data_analysis | Другие наши каналы
🔍 Подключение Oracle Analytics Cloud к Private ADW

Узнайте, как эффективно подключить Oracle Analytics Cloud к приватной базе данных Autonomous Data Warehouse с публичным доступом. Статья подробно рассказывает о необходимых шагах и настройках для обеспечения безопасного и стабильного соединения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы