Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Когда одной ARIMA мало. Прогнозирование временных рядов нейросетями

Привет, Хабр! Меня зовут Никита, я работаю в Мегафоне аналитиком больших данных. В этой статье я хочу поговорить про временные ряды, а если конкретнее, про использование нейросетей для их прогнозирования.

В статье мы не только разберем две актуальные архитектуры для прогнозирования, но и применим их на реальных данных. В дополнение к статье вас ждет код, с помощью которого вы легко сможете запустить сетки и применить их для решения своих задач!


Читать: https://habr.com/ru/companies/megafon/articles/767820/
1👍1
Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Публикуем перевод гайда по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.


Читать: https://habr.com/ru/companies/slurm/articles/771036/
👍1
Выбор платформы и подрядчика для замены иностранного BI. На что нужно обратить внимание

Вопрос о замене «умирающего» западного BI решения в своей организации на отечественную платформу становится с каждым месяцем все более актуальным. Мы уже писали раннее, что 2024 год будет бумом больших проектов по переходу на софт из реестра. Сейчас гонка вендоров по наращиванию количества фичей в самом разгаре. Такой бурный рост обязательно скажется на качестве самих продуктов и весь 2024 год еще придется лечить «детские» и «подростковые» болезни, поскольку багов будет много. Видимо в цене будут хорошие тестировщики и качественная оперативная техническая поддержка, которая должна будет взять весь этот гнев избалованных западными решениями пользователей на себя. Конечно ко всему этому нужно добавить задачи повышения производительности самих платформ, особенно интересно это будет увидеть на отечественных серверах и процессорах. Пока что много красивых картинок в презентациях и не понятно на чем основанных рекомендациях по сайзингу. Публичный документ с данными о нагрузке выкладывают единицы, как правило это тесты на своих серверах. Исходя из нашего понимания (конечно же это субъективное мнение группы людей, оно может не совпадать с Вашим), как будет развиваться рынок в следующем году, мы подготовили рекомендации. На что нужно обратить внимание при выборе платформы и подрядчика:


Читать: https://habr.com/ru/articles/771258/
Lego набор, который я всегда хотел

Все уже в курсе, что искусственный интеллект может многое. В этой статье я дам возможность ИИ собрать интересные наборы LEGO, которые я бы с удовольствие сам пособирал и в конце статьи, поделюсь инфо, как именно можно сгенерировать такие наборы своей мечты самостоятельно.

Меня зовут Рушан, и я автор Telegram-канала Нейрон. Итак, давайте смотреть, что удалось сгенерировать:


Читать: https://habr.com/ru/articles/771396/
Managing Permissions in Oracle Analytics Cloud

In a world of self-service analytics, everyone is an author, but often it's better to limit the scope of the types of content certain users can create.

Read: https://blogs.oracle.com/undefined/post/managing-permissions-in-oracle-analytics-cloud
Жук, нумерология, хеш или ничо? Оптимизация работы с путями

Привет, Хабр! Меня зовут Евгений Кузьмин, я Java-разработчик в CDEK. Надеюсь, все знают, что это за компания и чем она занимается. Давайте представим, что вам нужно отправить посылку с гостинцами родственнику в Москву из Новосибирска. Вы приходите в ближайший пункт приёма посылок и оформляете услугу доставки. Что же происходит дальше? Казалось бы, всё очевидно: посылка сразу летит или едет из Новосибирска в Москву. Но всё не так просто... Думаю, все согласятся, что не рационально гнать отдельную фуру с одной коробочкой для каждого заказа. Наша  задача выстроить логистику таким образом, чтобы по пути загрузить и выгрузить как можно больше посылок и поехать дальше. В этой статье я поделюсь с вами своим опытом оптимизации задачи по редактированию и поддержке в актуальном состоянии огромного количества данных типа "куда направить товар". Классическая задача программирования на практике логистики. При этом мы не будем выходить за рамки стандартного стека Java Springboot и Postgres. Статья будет интересна разработчикам (от джуна до сеньора), которым будет интересно погрузиться в трудовые будни разработчика в сфере транспортной логистики.


Читать: https://habr.com/ru/companies/cdek_blog/articles/771372/
Optimize Oracle Analytics Cloud Performance with Akamai Content Delivery Network

The Internet is far more complex than we perceive with data centers, peering points, public clouds, private clouds, and competing networks. These complexities impact the performance of reports for the end user. By configuring Oracle Analytics Cloud (OAC) with Akamai Content Delivery Network (CDN), organizations can take advantage of the benefits it provides and ensure analytics content is delivered quickly and securely assigns the request to the optimal edge server in the network.

Read: https://blogs.oracle.com/undefined/post/optimizing-oracle-analytics-cloud-performance-with-akamai-cdn
Что такое обучение без учителя? И нет, мы сейчас не про домашнее образование

Это один из методов в Machine Learning, при котором мы запускаем модель в «комнату» и она самостоятельно изучает какие объекты в ней есть. В статье разбираемся для каких задач этот метод подойдет и как он работает.
Как расширить компетенции аналитиков при работе с Big Data

В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием.


Читать: https://habr.com/ru/companies/neoflex/articles/771788/
6 Steps to Avoid Messy Data in Your Warehouse

Read: https://www.startdataengineering.com/post/n-steps-avoid-messy-dw/
🔥1
Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.


Читать: https://habr.com/ru/companies/alfa/articles/772224/
Attention: OCI Support - The Service Request (SR) Creation Process for 'Account Provisioning, Billing, Termination and Abuse and Cloud Account Administration' has changed

OCI Support - The Service Request (SR) Creation Process for 'Account Provisioning, Billing, Termination and Abuse and Cloud Account Administration' has changed (Doc ID 2976838.1)

Read: https://blogs.oracle.com/proactivesupportepm/post/attention-oci-support-the-service-request-sr-creation-process-for-account-provisioning-billing-termination-and-abuse-and-cloud-account-administration-has-changed
What Problem Type Should Be Chosen When Creating a Service Request for 'Oracle Analytics Cloud - BI'

What Problem Type Should Be Chosen During Oracle Analytics Cloud - BI SR Creation

Read: https://blogs.oracle.com/proactivesupportepm/post/what-problem-type-should-be-chosen-during-oracle-analytics-cloud-bi-sr-creation
Data Mesh – ячеистые топологии для работы с данными

Из каких соображений можно хранить данные в виде ячеистой сети
Во всех организациях, где мне доводилось работать, всегда понимали важность данных. Поэтому я видел, что руководство либо заинтересовано, либо прямо планирует создать платформу нового поколения для обращения с этими данными. Как правило, ставится цель перейти от сильно связанных интерфейсов и вариабельных потоков данных к целостной архитектуре, которая позволяла бы аккуратно связать всю экосистему. Речь идёт о распределённой облачной ячеистой топологии (data mesh), где данные можно группировать в зависимости от их предметной области, трактовать “данные как продукт,” организуя в каждой предметной области конвейерную обработку собственных данных. Такой подход отличается от перекачки данных (data plumbing), практикуемой на традиционных (монолитных) платформах, которые, как правило, отличаются сильной связанностью данных. Из-за этого зачастую замедляется поглощение, хранение, преобразование и потребление данных из централизованного озера или хаба.

Такая смена парадигмы в распределённой архитектуре данных сопряжена с некоторыми нюансами и требует учитывать факторы, которые связаны в основном со зрелостью организации, имеющимися навыками, структурой организации, предрасположенностью к риску, размерами организации и динамикой её развития. С учётом всех этих нюансов и соображений могут использоваться различные варианты ячеистой топологии.

Читать: https://habr.com/ru/companies/timeweb/articles/772680/
Проблема множественного тестирования на практике

Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.

Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.


Читать: https://habr.com/ru/articles/772940/
RecTools – OpenSource библиотека для рекомендательных систем

Если вы когда-либо работали с рекомендательными системами, то знаете, что все необходимые и самые часто используемые инструменты разбросаны по разным библиотекам. Более того, каждая из таких библиотек имеет много уникальных особенностей, к которым нужно приноровиться (например, разные форматы данных на вход).

Выходит, что чтобы просто протестировать на своей задаче базовый пул подходов, нужно немало помучиться. Получается довольно грустно.

К такому же выводу, видимо, пришли ребята из МТС – и выкатили в опенсурс RecTools. Это библиотека, где собраны самые часто используемые модели для рекомендательных систем. Также с её помощью можно максимально просто и быстро оценивать необходимые метрики.

Давайте же посмотрим, что RecTools умеет, и как с этим работать.


Читать: https://habr.com/ru/articles/773126/
Дежурный data-инженер: рабочие хроники

Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в процессе работы, и о том, как команда работы с данными их устраняет.


Читать: https://habr.com/ru/companies/vk/articles/772468/
💊2👍1
Unlocking Formula 1 Insights: How List Aggregation Transforms Data Preparation

Learn how to use the list aggregate function in OAC data flows for creating text-based lists through a Formula 1 racing use case.

Read: https://blogs.oracle.com/analytics/post/unlocking-formula-1-insights-how-list-aggregate-transforms-data-preparation