Data Analysis / Big Data
2.82K subscribers
569 photos
4 videos
2 files
2.67K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook

Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python.

Читать: «Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook»
FineBI 6.0: Укрощение строптивого

Всем привет! Сегодня у нас интересный кейс от нашего друга @ialavrikov.

Илья – старший аналитик "Альфа-Лизинга" и активный участник сообщества FineBI GlowByte. Он был одним из первых, кто протестировал масштабное обновление китайской платформы бизнес-аналитики FineBI, прочувствовав все тонкости во время миграции с другого технологического решения. Под катом дальше – история о его пути сквозь тернии к звездам.
Читать статью Ильи Лаврикова

Читать: https://habr.com/ru/companies/glowbyte/articles/745562/
Без Tableau — как в МКБ выбирали новое BI-решение для работы

Меня зовут Александр Дорофеев, я директор по данным в МКБ. В этом посте я еще раз затрону тему импортозамещения софта на примере программ для визуализации данных. Раньше мы (думаю, как и многие из вас) использовали Tableau, но так как компания покинула российский рынок, мы вынуждены были выбрать новое решение.

О том, какие у нас были критерии выбора и что же мы в итоге выбрали — под катом. Возможно, вам пригодится наш опыт, если вы тоже стоит перед выбором нового BI-софта.


Читать: https://habr.com/ru/companies/mkb/articles/745740/
💩1
Нейронные сети не могут обобщать периодические зависимости. Как это исправить?

Изучая нейронные сети все глубже, сталкиваешься с тем, что не ко всем задачам применимы полносвязные глубокие нейронные сети с классическими слоями Linear и слоями активации Relu, Sigmoid, Than и их вариации. Почему не используют остальные функции в качестве активации, например, периодические?
В целом, периодические функции являются одними из основных функций, важными для человеческого общества и естествознания: суточные и годовые циклы в мире диктуются периодическими движениями солнечной системы, графики изменения погоды, показателей мировой экономики также включают периодическую компоненту.


Читать: https://habr.com/ru/articles/745768/
Книга «Python для data science»

Привет, Хаброжители!

Python — идеальный выбор для манипулирования и извлечения информации из данных всех видов. «Python для data science» познакомит программистов с питоническим миром анализа данных. Вы научитесь писать код на Python, применяя самые современные методы, для получения, преобразования и анализа данных в управлении бизнесом, маркетинге и поддержке принятия решений.

Познакомьтесь с богатым набором встроенных структур данных Python для выполнения основных операций, а также о надежной экосистемы библиотек с открытым исходным кодом для data science, включая NumPy, pandas, scikit-learn, matplotlib и другие. Научитесь загружать данные в различных форматах, упорядочивать, группировать и агрегировать датасеты, а также создавать графики, карты и другие визуализации. На подробных примерах стройте реальные приложения, в том числе: службу такси, использующую геолокацию, анализ корзины для определения товаров, которые обычно покупаются вместе, а также модель машинного обучения для прогнозирования цен на акции.


Читать: https://habr.com/ru/companies/piter/articles/745860/
What is a self-serve data platform & how to build one

Read: https://www.startdataengineering.com/post/self-serve-data-platform/
Сложности MVP или как мы смотрели 40000 видео

MVP, он же Minimal Viable Product, представляет собой базовую (ванильную) версию продукта и содержит только самый необходимый функционал. По сути это пробник, который служит для оценки рисков и оправданности вложений в полноразмерный продукт. MVP может иметь разный вид: пробный образец, тестовая партия, или уже готовый продукт, но с урезанным функционалом.

MVP - это отдельный вид искусства, где нужно за короткое время доказать, что ты можешь предложить бизнесу решение, которое поможет достичь поставленных продуктовых целей, за оправданную цену. Это своего рода спидран большого проекта. Про такой MVP как раз и пойдет наш разговор.


Читать: https://habr.com/ru/articles/746006/
Как сделать быстрый дашборд по таблице из 150 млн строк с помощью Yandex DataLens и ClickHouse

Привет! Меня зовут Роман Бунин, я BI-евангелист Yandex DataLens. При росте объёма данных, что неизбежно для любой компании, загрузка дашбордов может замедляться до десятков секунд. И чем больше появляется данных, тем медленнее становятся дашборды, особенно если вы хотите строить их по детализированным таблицам.Связка базы данных ClickHouse и BI-системы Yandex DataLens — популярное решение для анализа данных: эти инструменты нативно интегрируются и быстро работают вместе. В этой статье вместе с моим коллегой, архитектором Yandex Cloud Игорем Путятиным, покажем, как на основе таблицы из 150 миллионов строк построить максимально быстрый дашборд, и расскажем о технических ограничениях.


Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/746022/
🤪1
Data science курсы. Топ 7, которые работают в 2023

Топ 7 школ предлагающих Data Science курсы, рассмотрим и покритикуем их детально. Если верить тому что вещает весь ютуб (не только связанный с программированием, а вообще весь), то наряду с нуль кодингом, и оперированием нейронными сетями — Data science захватит мир. И они будут им управлять, а мы им прислуживать. Причем чем глупее саентолог, тем агрессивней он! Ну что-же, значит настало время разобраться в том, что такое Data science курсы, и почему их продвижение стало таким прибыльным.


Читать: https://habr.com/ru/articles/746196/
Фигуры Matplotlib и стиль Cyberpunk: несколько строк кода — и готова красивая фигура

Когда мы создаем инфографику или постеры с данными, мы хотим привлечь внимание читателя: для этого изображение должно быть эстетически привлекательным и при этом убедительно доносить нашу мысль. Есть множество графических библиотек для создания графиков с помощью Python. Одна из них — это хорошо известная Matplotlib. Но графики, построенные ее стандартными средствами, часто выглядят скучными, и, чтобы оживить их, нужно потратить много времени.


Читать: https://habr.com/ru/companies/vk/articles/746062/
Data Quality в банке — знаем цену каждой ошибки

Финансовый сектор уже давно одна большая "дата", когда банк принимает решение о том, выдать ли человеку или компании кредит, он анализирует сотни метрик. Я руковожу стримом Data Quality в Газпромбанке и расскажу о том, как мы решаем проблемы при интеграции с внешними источниками информации, какие оценочные метрики используем и как экспериментируем с моделями, прогоняя неверные данные.

Откуда берутся ошибки и чем внешние источники данных отличаются от внутренних

Чем больше данных, тем больше проблем, связанных с их качеством, причем к ошибкам может привести огромное количество причин.  Некоторые — банальные. Например, оператор при вводе персональных данных неправильно перепечатал ФИО из паспорта. Есть ошибки в проектировании систем. Скажем, разработчики проигнорировали требование к длине поля ввода данных. Например, поле «Паспорт выдан» ограничили 35 символами. Понятно, что нужно больше, но в системе сохраняются только первые 35 введенных символов: «ФМС Тверского района по городу Моск». Бывает, не учли, что какие-то данные вообще надо сохранять, а они потом потребовались. Например, пол клиента. Могут возникнуть сложности, связанные с потерей части данных при передаче информации из системы в систему в ходе ETL/ELT-процессов. При этом стоит разделять проблемы с качеством внутренних данных, которые находятся во внутрикорпоративных системах, и внешних, поступающих из сторонних источников. У нас в банке отлажены процессы по улучшению качества данных (КД), поэтому оно постоянно растет и стабильно выше, чем КД из внешних источников.
еще про данные

Читать: https://habr.com/ru/companies/gazprombank/articles/746582/
Как сделать из Python-скрипта исполняемый файл

Вы изучаете данные и хотите поделиться своим кодом Python с другими, не раскрывая исходный код и не требуя от них установки Python и других компонентов? Если да, то вас может быть интересна конвертация вашего скрипта Python в исполняемый файл.


Читать: https://habr.com/ru/companies/southbridge/articles/746622/
Data Consistency: как быть уверенным, что с данными всё ок

Я довольно долгое время работала аналитиком в Яндекс.Метрике - системе web аналитики. Такие системы помогают сайтам собирать и анализировать поведение пользователей на их сайтах.

Естественно, в таких продуктах как аналитические системы, данные - это главная ценность. Поэтому одна из моих задач как аналитика был мониторинг того, что с данными всё ок.

В этой статье я хочу поделиться своим опытом по решению этой комплексной задачи и бонусом покажу примеры использования array функций в ClickHouse, которые могут помочь вам посчитать действительно сложные метрики.
Поехали

Читать: https://habr.com/ru/articles/743794/
👍2
BI по-русски: что умеют BI-решения, доступные отечественному бизнесу

Мы в beeline cloud постоянно изучаем тренды рынка BI: как он меняется с развитием ИИ и ростом спроса на отечественный софт. А сегодня хотим рассказать о том, кто и зачем использует системы бизнес-аналитики, а также посмотреть на возможности ключевых игроков, представленных в России.


Читать: https://habr.com/ru/companies/beeline_cloud/articles/746720/
💩1
Вредные советы по подготовке датасета

Всем привет! В этой статье разбираю отдельные моменты, связанные с подготовкой к сбору датасета. Технических деталей не будет, оставлю их на вторую статью, а сейчас опишу только "базу", с которой знакомим новых сотрудников.

Статья - лонгрид, поэтому в начале сделал резюме.
Вперед к резюме и советам!

Читать: https://habr.com/ru/articles/746802/
Цифровые продукты в цементной промышленности: выбор и источники пользы

Всем привет! Мы в блоге не так часто поднимаем темы IIoT, но компания плодотворно занимается технологическими решениями и этого направления. В прошлом году команда практики промышленной аналитики и интернета вещей GlowByte реализовала интересный проект для «Петербургцемента» – внедрила цифрового помощника оператора цементной мельницы. Руководитель практики написал для журнала “Цемент и его применение” статью, которой и хотим поделиться с вами. Автора порассуждал и о концепции Индустрии 4.0, и о цифровых продуктах, и получении выгоды от внедрения высоко­технологических решений на непрерывном производ­стве, ну и, конечно же, рассказал о внедрении цифрового помощника оператора цементной мельницы на предприятии.


Читать: https://habr.com/ru/companies/glowbyte/articles/747056/
👍1