Промежуточные витрины в SQL
Привет, Хабр!
Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).
Читать: https://habr.com/ru/companies/otus/articles/894850/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).
Читать: https://habr.com/ru/companies/otus/articles/894850/
#ru
@big_data_analysis | Другие наши каналы
Курсы по Big Data, включая онлайн-обучение для аналитиков больших данных
Самые лучшие курсы по Big Data. В предложенной подборке актуальные варианты обучения от проверенных школ, а так же рейтинги и цены на курсы для аналитиков Big Data
Читать: «Курсы по Big Data, включая онлайн-обучение для аналитиков больших данных»
#ru
@big_data_analysis | Другие наши каналы
Самые лучшие курсы по Big Data. В предложенной подборке актуальные варианты обучения от проверенных школ, а так же рейтинги и цены на курсы для аналитиков Big Data
Читать: «Курсы по Big Data, включая онлайн-обучение для аналитиков больших данных»
#ru
@big_data_analysis | Другие наши каналы
Кардинальность при оптимизации DAX запросов в ClickHouse
Привет, Хабр! Мы уже неоднократно поднимали вопросы оптимизации запросов к СУБД ClickHouse, которую все чаще используют как универсальное высокопроизводительное хранилище для аналитических задач. В случае с Visiology этот вопрос приобретает двойную ценность, так как мы используем оптимизацию для эффективного выполнения запросов в языке DAX.
Сегодня мы поговорим о применении группировок
Читать: https://habr.com/ru/companies/visiology/articles/895850/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Мы уже неоднократно поднимали вопросы оптимизации запросов к СУБД ClickHouse, которую все чаще используют как универсальное высокопроизводительное хранилище для аналитических задач. В случае с Visiology этот вопрос приобретает двойную ценность, так как мы используем оптимизацию для эффективного выполнения запросов в языке DAX.
Сегодня мы поговорим о применении группировок
GROUP BY
с учетом их производительности для относительно больших таблиц, например, с миллионами записей. Таким образом, речь пойдет об оценке кардинальности одного или нескольких столбцов. Эта задача, кстати, является достаточно нетривиальной. Но если Вы можете ее решить, появляется возможность для эффективных оптимизаций SQL. О них мы и поговорим сегодня.Читать: https://habr.com/ru/companies/visiology/articles/895850/
#ru
@big_data_analysis | Другие наши каналы
Управление отчетностью в Oracle Analytics
Как эффективно использовать плагин Oracle Analytics Governance для получения отчетов об артефактах и объектах в аналитической системе Oracle? Статья раскрывает детали и процесс использования этого инструмента для улучшения управления данными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как эффективно использовать плагин Oracle Analytics Governance для получения отчетов об артефактах и объектах в аналитической системе Oracle? Статья раскрывает детали и процесс использования этого инструмента для улучшения управления данными.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Oracle Analytics Governance Plugin
This article explains how to invoke Oracle Analytics Governance Plugin to fetch reports of various artifacts and objects in the Oracle Analytics instance.
Эффективная цифровая трансформация
Узнайте, как одна мировая организация сократила время обработки данных на 25% и сэкономила $600,000, модернизировав свои системы с помощью Oracle Cloud. Подробности этой впечатляющей истории читайте в нашей статье!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Узнайте, как одна мировая организация сократила время обработки данных на 25% и сэкономила $600,000, модернизировав свои системы с помощью Oracle Cloud. Подробности этой впечатляющей истории читайте в нашей статье!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Modernizing HR Analytics with Oracle Cloud: A Success Story
Struggling with slow, costly legacy systems? Discover how one global organization slashed ETL times by 25% and saved $600,000 by modernizing with Oracle Cloud. Read the full transformation story in our article!
Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию
Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!
Читать: https://habr.com/ru/articles/896054/
#ru
@big_data_analysis | Другие наши каналы
Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!
Читать: https://habr.com/ru/articles/896054/
#ru
@big_data_analysis | Другие наши каналы
Как нам удалось упростить жизнь инженера-сметчика и сократить время на разработку сметы в 20 раз
Если вы инженер-сметчик, то наверняка знаете, что такое ежедневная работа с огромными таблицами и бесконечными спецификациями. Кто-то, возможно, уже смирился с монотонностью, а кто-то разработал свои лайфхаки для ускорения обработки данных. Но сегодня расскажем о новом подходе, который помог нам упростить процесс составления сметы на монтаж системы вентиляции.
С чего все начиналось: с типичного дня сметчика
Однажды мне поставили задачу — подготовить сметы для нового объекта, включая раздел вентиляции. Как многие сметчики знают, вентиляция — это один из самых трудоемких разделов.
Читать: https://habr.com/ru/articles/896046/
#ru
@big_data_analysis | Другие наши каналы
Если вы инженер-сметчик, то наверняка знаете, что такое ежедневная работа с огромными таблицами и бесконечными спецификациями. Кто-то, возможно, уже смирился с монотонностью, а кто-то разработал свои лайфхаки для ускорения обработки данных. Но сегодня расскажем о новом подходе, который помог нам упростить процесс составления сметы на монтаж системы вентиляции.
С чего все начиналось: с типичного дня сметчика
Однажды мне поставили задачу — подготовить сметы для нового объекта, включая раздел вентиляции. Как многие сметчики знают, вентиляция — это один из самых трудоемких разделов.
Читать: https://habr.com/ru/articles/896046/
#ru
@big_data_analysis | Другие наши каналы
Руководство по созданию датасета для машинного обучения
Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.
В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.
Читать: https://habr.com/ru/companies/data_light/articles/896108/
#ru
@big_data_analysis | Другие наши каналы
Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.
В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.
Читать: https://habr.com/ru/companies/data_light/articles/896108/
#ru
@big_data_analysis | Другие наши каналы
❤2
Машина может быть живой?
Если искусственный интеллект однажды обретет сознание, научится чувствовать и заявит: «Я существую!» — сможем ли мы отказать ему в праве называться живым? Сегодня СИИ лишь имитирует разум, но если он начнет ставить цели, страдать от одиночества или бороться за свои права, граница между «живым» и «неживым» рухнет. Эта статья про рассуждение над вопросами о том, когда СИИ станет живым и станет ли он живым вообще?
Читать: https://habr.com/ru/articles/896220/
#ru
@big_data_analysis | Другие наши каналы
Если искусственный интеллект однажды обретет сознание, научится чувствовать и заявит: «Я существую!» — сможем ли мы отказать ему в праве называться живым? Сегодня СИИ лишь имитирует разум, но если он начнет ставить цели, страдать от одиночества или бороться за свои права, граница между «живым» и «неживым» рухнет. Эта статья про рассуждение над вопросами о том, когда СИИ станет живым и станет ли он живым вообще?
Читать: https://habr.com/ru/articles/896220/
#ru
@big_data_analysis | Другие наши каналы
Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО
Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства.
Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов.
Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем.
В статье расскажу, как мы решаем эту задачу.
Читать: https://habr.com/ru/companies/hflabs/articles/896436/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства.
Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов.
Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем.
В статье расскажу, как мы решаем эту задачу.
Читать: https://habr.com/ru/companies/hflabs/articles/896436/
#ru
@big_data_analysis | Другие наши каналы
Как Apache Spark читает файлы: механизмы, оптимизации
Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Многие недооценивают важность правильного выбора форматов данных и тонкой настройки процессов чтения, а потом удивляются, почему их Spark-джобы работают медленно и потребляют слишком много ресурсов. Читаем далее что бы разобраться в теме ->
Читать: https://habr.com/ru/articles/896492/
#ru
@big_data_analysis | Другие наши каналы
Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Многие недооценивают важность правильного выбора форматов данных и тонкой настройки процессов чтения, а потом удивляются, почему их Spark-джобы работают медленно и потребляют слишком много ресурсов. Читаем далее что бы разобраться в теме ->
Читать: https://habr.com/ru/articles/896492/
#ru
@big_data_analysis | Другие наши каналы
В Garage Eight наступила неделя оптимизации. Число ad hoc задач сократилось в 3 раза
Привет, Хабр! Меня зовут Константин, я лидирую аналитику партнерских программ в компании Garage Eight. Еще год назад ad hoc были для нас настоящим бедствием: мы достаточно долго существовали в реалиях 60–70 таких задач в месяц. Но в какой-то момент решили, что пора завязывать, и за несколько шагов сократили их до 20–25.
Рассказываем, как справились (и продолжаем справляться) с ad hoc задачами, и немного о том, почему в постоянно развивающемся бизнесе невозможно жить совсем без них.
Читать: https://habr.com/ru/companies/garage8/articles/896502/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Константин, я лидирую аналитику партнерских программ в компании Garage Eight. Еще год назад ad hoc были для нас настоящим бедствием: мы достаточно долго существовали в реалиях 60–70 таких задач в месяц. Но в какой-то момент решили, что пора завязывать, и за несколько шагов сократили их до 20–25.
Рассказываем, как справились (и продолжаем справляться) с ad hoc задачами, и немного о том, почему в постоянно развивающемся бизнесе невозможно жить совсем без них.
Читать: https://habr.com/ru/companies/garage8/articles/896502/
#ru
@big_data_analysis | Другие наши каналы
Шардированный кластер ClickHouse
Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.
Читать: https://habr.com/ru/companies/wildberries/articles/896060/
#ru
@big_data_analysis | Другие наши каналы
Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.
Читать: https://habr.com/ru/companies/wildberries/articles/896060/
#ru
@big_data_analysis | Другие наши каналы
Интеллектуальный фотофиниш
Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.
Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.
Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.
Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.
Читать: https://habr.com/ru/articles/896704/
#ru
@big_data_analysis | Другие наши каналы
Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.
Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.
Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.
Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.
Читать: https://habr.com/ru/articles/896704/
#ru
@big_data_analysis | Другие наши каналы
Как создать инструмент для DQ только на Python и Airflow?
Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка.
В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.
Читать: https://habr.com/ru/companies/gazprombank/articles/896814/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка.
В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.
Читать: https://habr.com/ru/companies/gazprombank/articles/896814/
#ru
@big_data_analysis | Другие наши каналы
❤2
Цифровые двойники: превращаем данные в деньги с помощью матмоделирования
Сегодня Digital Twin — это не просто модное словосочетание, а ключевой инструмент оптимизации производства. От нефтегазовых предприятий и химических производств до птицефабрик — цифровые двойники внедряются в самые разные отрасли. В этой статье мы разберемся, какие технологии стоят за этим подходом, какие специалисты нужны для работы с цифровыми двойниками и как они применяются на реальных производственных объектах.
Привет, Хабр, я Руслан Залевских, старший аналитик группы Data Science отдела цифрового моделирования IBS, и сегодня поговорим о цифровых двойниках — технологии, с которой я работаю уже несколько лет. Расскажу о том, что такое Digital Twins и приведу примеры их использования на некоторых наших проектах.
Читать: https://habr.com/ru/companies/ibs/articles/897072/
#ru
@big_data_analysis | Другие наши каналы
Сегодня Digital Twin — это не просто модное словосочетание, а ключевой инструмент оптимизации производства. От нефтегазовых предприятий и химических производств до птицефабрик — цифровые двойники внедряются в самые разные отрасли. В этой статье мы разберемся, какие технологии стоят за этим подходом, какие специалисты нужны для работы с цифровыми двойниками и как они применяются на реальных производственных объектах.
Привет, Хабр, я Руслан Залевских, старший аналитик группы Data Science отдела цифрового моделирования IBS, и сегодня поговорим о цифровых двойниках — технологии, с которой я работаю уже несколько лет. Расскажу о том, что такое Digital Twins и приведу примеры их использования на некоторых наших проектах.
Читать: https://habr.com/ru/companies/ibs/articles/897072/
#ru
@big_data_analysis | Другие наши каналы
Автоматизация задач без кодинга: единый реестр, система управления проектами и таск-трекер на основе MWS Tables
Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables.
Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов.
Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом.
Читать: https://habr.com/ru/companies/ru_mts/articles/897068/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables.
Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов.
Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом.
Читать: https://habr.com/ru/companies/ru_mts/articles/897068/
#ru
@big_data_analysis | Другие наши каналы
Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF!
22 апреля пройдет конференеция Газпромбанк.Тех для разработчиков и инженеров.
Читать: «Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF!»
#ru
@big_data_analysis | Другие наши каналы
22 апреля пройдет конференеция Газпромбанк.Тех для разработчиков и инженеров.
Читать: «Что значит быть инженером в новых реалиях? И какой смысл мы вкладываем в эти слова — расскажем на GPB CONF!»
#ru
@big_data_analysis | Другие наши каналы
Как обеспечить безопасность данных в FDI
Статья объясняет, как с помощью профиля безопасности в Fusion HCM защитить персональные данные. Рассматриваются два подхода: использование настраиваемых критериев или логики SQL-запроса, что позволяет гибко подходить к задачам безопасности.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья объясняет, как с помощью профиля безопасности в Fusion HCM защитить персональные данные. Рассматриваются два подхода: использование настраиваемых критериев или логики SQL-запроса, что позволяет гибко подходить к задачам безопасности.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
FDI Data Security: Implementation of Fusion HCM Person Security Profile Custom Criteria in FDI
This article demonstrates a method to implement data security in FDI, where Fusion HCM person records are secured using a Person Security Profile with custom criteria or SQL query logic.
Интеграция Google Analytics с Oracle Analytics Cloud
В современном мире данных важно иметь доступ к веб-аналитике для принятия бизнес-решений. Oracle Analytics Cloud позволяет подключаться к таким источникам, как Google Analytics, для анализа посещаемости сайтов и эффективности маркетинга. Статья описывает процесс интеграции этих платформ.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В современном мире данных важно иметь доступ к веб-аналитике для принятия бизнес-решений. Oracle Analytics Cloud позволяет подключаться к таким источникам, как Google Analytics, для анализа посещаемости сайтов и эффективности маркетинга. Статья описывает процесс интеграции этих платформ.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Connecting Google Analytics with Oracle Analytics Cloud (OAC)
In today's data-driven world, organizations need seamless access to web analytics data to make informed business decisions. Oracle Analytics Cloud (OAC) allows users to connect to various data sources, including Google Analytics, to analyze website traffic…