Data Analysis / Big Data
2.82K subscribers
570 photos
4 videos
2 files
2.68K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Create Oracle Analytics Cloud custom plug-ins for your dashboard

Oracle Analytics Cloud custom plug-ins are a great way to extend the functionalities of your dashboard. This article aims to get you excited about creating your own plug-ins.

Read: https://blogs.oracle.com/analytics/post/create-oracle-analytics-custom-plugins-for-your-dashboard
Медленно меняющиеся измерения (SCDs) в эпоху облачного хранилища данных

Как работать с медленно меняющимися измерениями при использовании облачного хранилища данных?

В этом вопросе скрывается довольно много ответов, поэтому давайте сделаем паузу.


Читать: https://habr.com/ru/companies/southbridge/articles/743962/
Переизобретаем сжатие в распределенной базе данных

В используемой нами базе данных уже была эффективная функциональность сжатия, которая обеспечивала хранение объемной информации.

Но рост объема хранимых данных — не единственный возможный выигрыш от применения сжатия, поэтому мы задумались о разработке собственного решения.

В этой статье расскажу, как мы изменили подход к сжатию данных, чем пришлось пожертвовать и почему менее эффективное «на бумаге» решение в результате превзошло наши ожидания.


Читать: https://habr.com/ru/companies/sberbank/articles/741894/
👏1
Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

Привет, Хабр!

Меня зовут Серов Александр, я участник профессионального сообщества NTA.

Параллелизм играет важную роль в задачах Data Science, так как может значительно ускорить вычисления и обработку больших объемов данных. В посте расскажу  о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.
Узнать больше

Читать: https://habr.com/ru/articles/744066/
2
Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 2

В первой части статьи мы подключили DataHub к базе данных Oracle, во второй части рассмотрим подключение Great Expectations к DBMS Oracle, сделаем ряд проверок качества данных, а также отправим результаты проверок в DataHub.


Читать: https://habr.com/ru/companies/neoflex/articles/744388/
Ускорение sql запросов к большим таблицам. Оптимизация пагинации

При  умеренных объёмах базы данных в использовании offset нет ничего плохого, но со временем база данных растёт и запросы начинают «тормозить». Становится актуальным ускорение запросов.

Очевидно, если причина в росте объёмов базы данных, то используя главный принцип дзюдо «падающего - толкни, нападающего - тяни»,  следует ещё увеличить объём, в данном случае путём добавления нового поля в таблицы для последующей сортировки по нему.


Читать: https://habr.com/ru/articles/744814/
👍1
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любой аналитической системы. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.
И как же он устроен?

Читать: https://habr.com/ru/companies/cedrusdata/articles/744934/
Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook

Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python.

Читать: «Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook»
FineBI 6.0: Укрощение строптивого

Всем привет! Сегодня у нас интересный кейс от нашего друга @ialavrikov.

Илья – старший аналитик "Альфа-Лизинга" и активный участник сообщества FineBI GlowByte. Он был одним из первых, кто протестировал масштабное обновление китайской платформы бизнес-аналитики FineBI, прочувствовав все тонкости во время миграции с другого технологического решения. Под катом дальше – история о его пути сквозь тернии к звездам.
Читать статью Ильи Лаврикова

Читать: https://habr.com/ru/companies/glowbyte/articles/745562/
Без Tableau — как в МКБ выбирали новое BI-решение для работы

Меня зовут Александр Дорофеев, я директор по данным в МКБ. В этом посте я еще раз затрону тему импортозамещения софта на примере программ для визуализации данных. Раньше мы (думаю, как и многие из вас) использовали Tableau, но так как компания покинула российский рынок, мы вынуждены были выбрать новое решение.

О том, какие у нас были критерии выбора и что же мы в итоге выбрали — под катом. Возможно, вам пригодится наш опыт, если вы тоже стоит перед выбором нового BI-софта.


Читать: https://habr.com/ru/companies/mkb/articles/745740/
💩1
Нейронные сети не могут обобщать периодические зависимости. Как это исправить?

Изучая нейронные сети все глубже, сталкиваешься с тем, что не ко всем задачам применимы полносвязные глубокие нейронные сети с классическими слоями Linear и слоями активации Relu, Sigmoid, Than и их вариации. Почему не используют остальные функции в качестве активации, например, периодические?
В целом, периодические функции являются одними из основных функций, важными для человеческого общества и естествознания: суточные и годовые циклы в мире диктуются периодическими движениями солнечной системы, графики изменения погоды, показателей мировой экономики также включают периодическую компоненту.


Читать: https://habr.com/ru/articles/745768/
Книга «Python для data science»

Привет, Хаброжители!

Python — идеальный выбор для манипулирования и извлечения информации из данных всех видов. «Python для data science» познакомит программистов с питоническим миром анализа данных. Вы научитесь писать код на Python, применяя самые современные методы, для получения, преобразования и анализа данных в управлении бизнесом, маркетинге и поддержке принятия решений.

Познакомьтесь с богатым набором встроенных структур данных Python для выполнения основных операций, а также о надежной экосистемы библиотек с открытым исходным кодом для data science, включая NumPy, pandas, scikit-learn, matplotlib и другие. Научитесь загружать данные в различных форматах, упорядочивать, группировать и агрегировать датасеты, а также создавать графики, карты и другие визуализации. На подробных примерах стройте реальные приложения, в том числе: службу такси, использующую геолокацию, анализ корзины для определения товаров, которые обычно покупаются вместе, а также модель машинного обучения для прогнозирования цен на акции.


Читать: https://habr.com/ru/companies/piter/articles/745860/
What is a self-serve data platform & how to build one

Read: https://www.startdataengineering.com/post/self-serve-data-platform/
Сложности MVP или как мы смотрели 40000 видео

MVP, он же Minimal Viable Product, представляет собой базовую (ванильную) версию продукта и содержит только самый необходимый функционал. По сути это пробник, который служит для оценки рисков и оправданности вложений в полноразмерный продукт. MVP может иметь разный вид: пробный образец, тестовая партия, или уже готовый продукт, но с урезанным функционалом.

MVP - это отдельный вид искусства, где нужно за короткое время доказать, что ты можешь предложить бизнесу решение, которое поможет достичь поставленных продуктовых целей, за оправданную цену. Это своего рода спидран большого проекта. Про такой MVP как раз и пойдет наш разговор.


Читать: https://habr.com/ru/articles/746006/
Как сделать быстрый дашборд по таблице из 150 млн строк с помощью Yandex DataLens и ClickHouse

Привет! Меня зовут Роман Бунин, я BI-евангелист Yandex DataLens. При росте объёма данных, что неизбежно для любой компании, загрузка дашбордов может замедляться до десятков секунд. И чем больше появляется данных, тем медленнее становятся дашборды, особенно если вы хотите строить их по детализированным таблицам.Связка базы данных ClickHouse и BI-системы Yandex DataLens — популярное решение для анализа данных: эти инструменты нативно интегрируются и быстро работают вместе. В этой статье вместе с моим коллегой, архитектором Yandex Cloud Игорем Путятиным, покажем, как на основе таблицы из 150 миллионов строк построить максимально быстрый дашборд, и расскажем о технических ограничениях.


Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/746022/
🤪1
Data science курсы. Топ 7, которые работают в 2023

Топ 7 школ предлагающих Data Science курсы, рассмотрим и покритикуем их детально. Если верить тому что вещает весь ютуб (не только связанный с программированием, а вообще весь), то наряду с нуль кодингом, и оперированием нейронными сетями — Data science захватит мир. И они будут им управлять, а мы им прислуживать. Причем чем глупее саентолог, тем агрессивней он! Ну что-же, значит настало время разобраться в том, что такое Data science курсы, и почему их продвижение стало таким прибыльным.


Читать: https://habr.com/ru/articles/746196/