Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.83K subscribers

567 photos

3 videos

2 files

2.83K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.83K subscribers

Data Analysis / Big Data

ETL и ELT: ключевые различия, о которых должен знать каждый

ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.

В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.

Читать: https://habr.com/ru/post/695546/

892 views09:10

Data Analysis / Big Data

Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census

Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.

В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:

— Место reverse ETL в схеме потоков данных

— Потребность в решении задач операционной аналитики

— Различные способы организации reverse ETL

— Кейс: Census для синхронизации данных в Pipedrive CRM

Читать: https://habr.com/ru/post/700910/

👍2

858 views14:58

Data Analysis / Big Data

Собрать за 60 секунд: кейс автоматизации получения данных из десятков подразделений

Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня.

Читать: https://habr.com/ru/post/700900/

837 views07:24

Data Analysis / Big Data

ClickHouse: как обрабатывать big data в 800 раз быстрее

Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов.

Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»

936 views11:48

Data Analysis / Big Data

Ambrosia – Open Source-библиотека для работы с A/B-тестами

Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.

Читать: https://habr.com/ru/post/700992/

844 views06:15

Data Analysis / Big Data

Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech

Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.

Читать: https://habr.com/ru/post/701442/

👍3

1.03K views16:10

Data Analysis / Big Data

Парсинг Яндекс Карт или как найти целевую аудиторию

Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории

Читать: https://habr.com/ru/post/701478/

🔥1

1.05K views20:01

Data Analysis / Big Data

Структура команды Data Science: ключевые модели и роли

Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.

Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.

В этот раз мы поговорим о структуре команд data science и их сложности.

Читать: https://habr.com/ru/post/697630/

1.03K views11:25

Data Analysis / Big Data

Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.

Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?

Читать: https://habr.com/ru/post/701794/

1K views10:38

Data Analysis / Big Data

Data Engineering Weekly #109

Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-109

👍1

868 views03:13

Data Analysis / Big Data

Поиск инновационных приложений для работы с большими данными. Кейс Банка Даляня

Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.

Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи

Читать: https://habr.com/ru/post/702182/

👍1

911 views06:17

Data Analysis / Big Data

Дельта BI глазами (и руками) разработчика Tableau

Уже больше полгода назад крупнейшие BI вендоры прекратили работу в России. Мы в компании Vizuators, имея многолетний опыт разработки и консалтинга в Tableau, столкнулись с необходимостью тестировать альтернативные инструменты, которые подошли бы нашим клиентам.

Одним из наиболее привлекательных для нас вариантов стала платформа визуальной аналитики Дельта BI. Под катом мы говорим о том, что получит и потеряет «таблошник», перейдя на Дельта BI.

Читать: https://habr.com/ru/post/702660/

838 views16:05

Data Analysis / Big Data

Top 5 Tips for Optimal Oracle Database Performance of Data Warehouse Queries

Achieving optimal performance of data warehouse queries takes planning. This article provides the top 5 tips to achieve the consistent, reliable performance of your Oracle Analytics reports that you desire.

Read: https://blogs.oracle.com/analytics/post/top-5-tips-for-optimal-oracle-database-performance-of-data-warehouse-queries

Top 5 Tips for Optimal Oracle Database Performance of Data Warehouse Queries

Achieving optimal performance of data warehouse queries doesn’t happen by accident. In this blog, I will provide the top 5 tips to achieve the consistent, reliable performance of your Oracle Analytics reports that you desire.

781 views23:10

Data Analysis / Big Data

Five new features in the Dataset Editor to improve your data preparation productivity!

This post covers five new features in the Oracle Analytics Dataset Editor that help you spend less time preparing your data and more time analyzing and finding insights.

Read: https://blogs.oracle.com/analytics/post/five-new-features-in-dataset-editor-to-improve-your-data-preparation-productivity

👍1

773 views23:11

Data Analysis / Big Data

Query your OAC semantic model from an OCI Data Science environment

Use your semantic model in Oracle Analytics Cloud as a metrics store to query verified measures from a data science notebook session in Oracle Cloud Infrastructure.

Read: https://blogs.oracle.com/analytics/post/query-your-oac-semantic-model-from-oci-data-science-environment

Query your OAC semantic model from OCI Data Science environment

Use your OAC semantic model as a metrics store to query verified measures from a data science notebook session.

804 views23:14

Data Analysis / Big Data

Выбросьте блокноты, или почему заниматься Data Science нужно так, будто вы разработчик

Большинство дата-сайентистов использовали или до сих пор используют notebooks. В чем-то это здорово, но кажется, что дата-сайентисты должны действовать как разработчики. И поэтому с notebooks надо переходить на скрипты, разрабатываемые в IDE.

Читать: https://habr.com/ru/post/702798/

797 views07:24

Data Analysis / Big Data

НЕЙРОННАЯ СЕТЬ ДЛЯ РАСПОЗНАВАНИЯ ОБРАЗОВ С TENSORFLOW: КАК С НЕЙ РАБОТАТЬ

Привет, Хабр! В сегодняшней статье хотим поделиться опытом, как можно начать использовать TensorFlow в целях распознавания образов. Напомним, что TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигающая качества человеческого восприятия.

Цель статьи — привлечь этот инструмент для распознавания боковых зубов (маляров) на рентгеновских снимках с использованием нейронной сети. Для того чтобы этого достичь, нужно выполнить несколько важных этапов, о чём и поговорим под катом.

Читать: https://habr.com/ru/post/703130/

854 views11:10

Data Analysis / Big Data

Beneath the surface of recent Google, Elon, FCC news

Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/12/beneath-the-surface-of-recent-google-elon-fcc-news-.html

763 views14:37

Data Analysis / Big Data

Эффективная работа со строками в JavaScript

Хочу предложить вашему вниманию перевод своей статьи на dev.to об эффективной работе со строками в Javascript. Все что отображает браузер кроме картинок и видео это строки, поэтому грамотная работа с ними может значительно увеличить скорость работы веб-приложений как на стороне клиента так и на стороне сервера. Итак, начнем.

Что нужно знать о строках с позиции эффективности их использования? Во первых, строки относятся к примитивным типам данных. Во вторых, значения примитивных (простых) типов данных, в отличии от составных, таких как массивы и структуры не изменяемы. Это значит, что если вы присвоили значение переменной строкового типа один раз, то в дальнейшем эту строку изменить невозможно. Однако такое утверждение может удивить. Что это значит на практике? Если, например, выполнить этот код...

Читать: https://habr.com/ru/post/703238/

862 views19:11

Data Analysis / Big Data

Прогнозирование продаж Python. Как находить и сглаживать выбросы с помощью фильтра Хэмплея

Те, кто работает с временными рядами, часто сталкивается с двумя проблемами. Первая – нет полных данных. Вторая – битые данные, когда встречается много выбросов, шума и пропусков. Редко встречаются случаи, когда всё было бы идеально. И данных много, и можно легко найти нужные. Такое встретишь крайне редко или почти никогда.

Возникает вопрос - как решить эту проблему? Я нашёл решение. Давайте расскажу вам, как я решаю проблему битых данных, выбросов, пропусков. Какие я использовал методы, в чем их отличия, преимущества и какие я считаю самыми лучшими.

Начнём мы с первого метода – фильтра Хэмплея. В этой статье речь пойдёт именно о нём. Я постараюсь как можно проще рассказать о его особенностях и показать всё на наглядных примерах. Приступим.

Читать: https://habr.com/ru/post/703246/

👍2

960 views22:00

Data Analysis / Big Data

Как я писал трекинг парковочных мест

Рассказываю, как я делал трекинг свободных парковочных мест руками новичка. Получилось интересно :)

Читать: https://habr.com/ru/post/703276/

848 views10:41