Data Analysis / Big Data
2.83K subscribers
567 photos
3 videos
2 files
2.83K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
ETL и ELT: ключевые различия, о которых должен знать каждый

ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.

В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.


Читать: https://habr.com/ru/post/695546/
Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census

Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.

В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:

— Место reverse ETL в схеме потоков данных

— Потребность в решении задач операционной аналитики

— Различные способы организации reverse ETL

— Кейс: Census для синхронизации данных в Pipedrive CRM


Читать: https://habr.com/ru/post/700910/
👍2
Собрать за 60 секунд: кейс автоматизации получения данных из десятков подразделений

Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня.


Читать: https://habr.com/ru/post/700900/
ClickHouse: как обрабатывать big data в 800 раз быстрее

Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов.

Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»
Ambrosia – Open Source-библиотека для работы с A/B-тестами

Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.


Читать: https://habr.com/ru/post/700992/
Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech

Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.


Читать: https://habr.com/ru/post/701442/
👍3
Парсинг Яндекс Карт или как найти целевую аудиторию

Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории


Читать: https://habr.com/ru/post/701478/
🔥1
Структура команды Data Science: ключевые модели и роли

Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.

Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.

В этот раз мы поговорим о структуре команд data science и их сложности.


Читать: https://habr.com/ru/post/697630/
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse

BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.

Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?


Читать: https://habr.com/ru/post/701794/
Поиск инновационных приложений для работы с большими данными. Кейс Банка Даляня

Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.

Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи

Читать: https://habr.com/ru/post/702182/
👍1
Дельта BI глазами (и руками) разработчика Tableau

Уже больше полгода назад крупнейшие BI вендоры прекратили работу в России. Мы в компании Vizuators, имея многолетний опыт разработки и консалтинга в Tableau, столкнулись с необходимостью тестировать альтернативные инструменты, которые подошли бы нашим клиентам.

Одним из наиболее привлекательных для нас вариантов стала платформа визуальной аналитики Дельта BI. Под катом мы говорим о том, что получит и потеряет «таблошник», перейдя на Дельта BI.


Читать: https://habr.com/ru/post/702660/
Five new features in the Dataset Editor to improve your data preparation productivity!

This post covers five new features in the Oracle Analytics Dataset Editor that help you spend less time preparing your data and more time analyzing and finding insights.

Read: https://blogs.oracle.com/analytics/post/five-new-features-in-dataset-editor-to-improve-your-data-preparation-productivity
👍1
Query your OAC semantic model from an OCI Data Science environment

Use your semantic model in Oracle Analytics Cloud as a metrics store to query verified measures from a data science notebook session in Oracle Cloud Infrastructure.

Read: https://blogs.oracle.com/analytics/post/query-your-oac-semantic-model-from-oci-data-science-environment
Выбросьте блокноты, или почему заниматься Data Science нужно так, будто вы разработчик

Большинство дата-сайентистов использовали или до сих пор используют notebooks. В чем-то это здорово, но кажется, что дата-сайентисты должны действовать как разработчики. И поэтому с notebooks надо переходить на скрипты, разрабатываемые в IDE.


Читать: https://habr.com/ru/post/702798/
НЕЙРОННАЯ СЕТЬ ДЛЯ РАСПОЗНАВАНИЯ ОБРАЗОВ С TENSORFLOW: КАК С НЕЙ РАБОТАТЬ

Привет, Хабр! В сегодняшней статье хотим поделиться опытом, как можно начать использовать TensorFlow в целях распознавания образов. Напомним, что TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигающая качества человеческого восприятия.

Цель статьи — привлечь этот инструмент для распознавания боковых зубов (маляров) на рентгеновских снимках с использованием нейронной сети. Для того чтобы этого достичь, нужно выполнить несколько важных этапов, о чём и поговорим под катом.


Читать: https://habr.com/ru/post/703130/
Эффективная работа со строками в JavaScript

Хочу предложить вашему вниманию перевод своей статьи на dev.to об эффективной работе со строками в Javascript. Все что отображает браузер кроме картинок и видео это строки, поэтому грамотная работа с ними может значительно увеличить скорость работы веб-приложений как на стороне клиента так и на стороне сервера. Итак, начнем.

Что нужно знать о строках с позиции эффективности их использования? Во первых, строки относятся к примитивным типам данных. Во вторых, значения примитивных (простых) типов данных, в отличии от составных, таких как массивы и структуры не изменяемы. Это значит, что если вы присвоили значение переменной строкового типа один раз, то в дальнейшем эту строку изменить невозможно. Однако такое утверждение может удивить. Что это значит на практике? Если, например, выполнить этот код...


Читать: https://habr.com/ru/post/703238/