Data Analysis / Big Data
2.83K subscribers
563 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Кто, как и ради чего создаёт онлайн-образование в IT-сфере: истории пяти экспертов

Рынок онлайн-образования постоянно растет. Загляните хотя бы в эту статью — сплошь растущие графики. Лучше всего в онлайне развиваются те ниши, в которых сложно получить классическое образование: например, IT.

Что не так с IT в университетах? Коротко: многие учебники устарели, преподаватели не всегда работают по профессии, долгая учёба и мало практики. За те 4 года, что студент получает знания, например, по программированию, принципы профессии уже поменялись.

12 лет назад мы решили обучать айтишников актуальным навыкам с отработкой полученных знаний на реальных задачах и проектах бизнеса. Для качественной подготовки курса нужны крутые эксперты, которые помогут составить грамотную программу курса, расскажут, что же актуально и как это использовать. Но как привлечь состоявшихся специалистов в образование?

Именно об этом — под катом. Пятеро создателей курса Нетологии «Data Science с нуля до middle» расскажут, почему пришли в эдтех, как ищут успешные решения в современном образовании и почему им всё это нравится.


Читать: https://habr.com/ru/specials/753982/
Какой язык программирования выбрать? Часть 4: Spark

Особенность Spark в том, что другого такого фреймворка нет в принципе. Flink, Apache NiFi и другие инструменты закрывают не все задачи. Лично моё мнение – Spark на голову выше их всех. Он уникален, широко распространён и де-факто является стандартом индустрии обработки больших данных.


Читать: https://habr.com/ru/companies/kryptonite/articles/754486/
Зачем инструмент dbt нужен аналитику

Представляем подробный гайд по dbt — Data Build Tool — одному из лучших фреймворков для трансформации данных.

Читать: «Зачем инструмент dbt нужен аналитику»
Oracle Fusion Analytics Event Notifications with OCI Functions

Configuring email notifications with OCI Functions and Oracle Fusion Analytics Event notifications

Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-event-notifications-with-oci-functions
Фантастические pandas

Размышления о том, как перейти от тяжёлых мыслей о конкуренции в IT к любви к фантастическим мишкам и восклицательным знакам, если правильно и вовремя импортируешь нужные библиотеки.


Читать: https://habr.com/ru/articles/748556/
Каталог данных на примере DataHub. Часть I

В современных компаниях генерируемые и собираемые объемы данных растут с поразительной скоростью, создавая необходимость в их систематизации и управлении. Каталоги данных становятся частью информационных систем, предоставляя организациям удобный и эффективный инструмент для хранения, доступа и управления различными типами данных.

Каталог данных — это центральное хранилище информации о структуре, свойствах и отношении между данными. Он позволяет различным пользователям легко находить, понимать и использовать данные для принятия решений и выполнения задач, и будет полезен аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.
Погнали 🚀

Читать: https://habr.com/ru/articles/748350/
Единая нейросетевая модель кредитного скоринга

Сейчас в Альфа-Банке при построении моделей используется множество различных источников данных. Мы в Лаборатории машинного обучения уже несколько лет применяем нейронные сети на последовательностях для решения задачи кредитного скоринга и построили модели на данных карточных транзакций, транзакций расчетного счета и кредитных историй. Повышение качества в задаче кредитного скоринга позволяет банку выдавать большее количество кредитов при неизменном уровне риска, что напрямую влияет на его прибыль.

Моделей становится все больше, и возникает вопрос: почему бы нам не смешивать модели не на уровне их предсказаний, а на некотором более низком уровне? Эта идея приводит нас к новому способу смешивания - построению единой нейросетевой модели, работающей со всеми источниками последовательных данных и учитывающей их взаимное влияние друг на друга. В этой статье мы расскажем, как нам удалось разработать такую модель и каких результатов она позволяет добиться в задаче кредитного скоринга.


Читать: https://habr.com/ru/companies/alfa/articles/748824/
Департамент Big Data Tele2 научил ИИ анализировать автомобильный трафик по всей России

И не просто анализировать, а делать выводы о социально-демографических характеристиках автомобилистов.


Читать: https://habr.com/ru/companies/tele2/articles/749094/
Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле

Привет, Хабр! Легендарная команда прогнозирования промо сети магазинов «Магнит» снова в эфире. Ранее мы успели рассказать о целях и задачах, которые мы решаем: «Магнитная аномалия: как предсказать продажи промо в ритейле», а также поделиться основными трудностями, с которыми приходится сталкиваться в нашем опасном бизнесе: «Божественная комедия», или Девять кругов прогнозирования промо в «Магните».

Сегодня подробнее расскажем о типах и особенностях используемых нами моделей прогнозирования продаж.


Читать: https://habr.com/ru/companies/magnit/articles/748680/
Сравниваем модели машинного обучения с применением статистических тестов

При изучении учебных программ по machine learning я заметила недостаток материалов, посвященных сравнению моделей. Меня зовут Виолетта, я как data scientist в QIWI ежедневно занимаюсь оценкой данных и обучением моделей машинного обучения. В этой статье я рассмотрю три метода сравнения моделей.

Материал будет полезен для сравнения классических моделей, таких как регрессионные модели или модели классификации, на больших таблицах. Акцент в тексте я сделала на методике сравнительного анализа, без учета оптимизации времени тестирования.


Читать: https://habr.com/ru/companies/qiwi/articles/749274/
Modus BI Cloud: работа с данными в облаке

Привет, Хабр, на связи product owner компании Modus Александр Чебанов. Сегодня поговорим про работу и анализ данных в облаке, а еще об архитектуре нашего нового облачного BI для малого и среднего бизнеса.


Читать: https://habr.com/ru/companies/modusbi/articles/749432/
Как мы снизили нагрузку на SAP HANA незаметно для пользователей

Объем информации в корпоративном хранилище данных (КХД) со временем неизбежно начинает превышать запланированные изначально мощности. Обычно эта проблема решается тем, что докупаются недостающие мощности (будет дорого). Когда с такой ситуацией столкнулся наш клиент, мы предложили ему другое решение. Оно позволило сэкономить бюджеты и сделать переходный период максимально безболезненным.

Читайте, что именно мы сделали и какой был результат.


Читать: https://habr.com/ru/companies/sapiens_solutions/articles/747142/
Обновление Дельта BI. ChatGPT, PixelPerfect, коннекторы и визуализации

Совсем недавно вышло обновление платформы для бизнес-аналитики Дельта BI с решениями, знаковыми для всей отрасли. Учитывая нашу реальность и недоступность глобальных продуктов, обновление ощутимо увеличивает отрыв Дельта BI от ближайших конкурентов на российском рынке. Показываем и рассказываем, почему.


Читать: https://habr.com/ru/articles/749996/
Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана

Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта, проектной документации, ценности для бизнеса и требованиях. О том, как начинать с малого и быстро отказываться от слабых идей. Руководство пригодится дата-сайентистам, специалистам по машинному обучению, руководителям отделов, техническим руководителям или тем, кто хочет дорасти до этого уровня.


Читать: https://habr.com/ru/companies/vk/articles/749850/
FineBI-g brother is watching you: как мы начали анализировать действия пользователей в Fine

Привет, Хабр! Мы — BI-команда Tele2. В прошлом году, как и многие наши коллеги по рынку, мы столкнулись с проблемой поиска альтернативы BI-платформам покинувших нас вендоров. О том, как подходить к замене платформы, уже много рассказано здесь и на других ресурсах. В этой статье мы остановимся на конкретном кейсе — как мы решили задачу поиска и последующего анализа действий и полномочий наших пользователей, а также взяли под контроль обновление источников. Под катом мы рассказываем, как собрать датасеты в FineBI, на которых можно построить дашборды о дашбордах и получить данные о посещаемости отчетов, их расположении в директориях и доступах к ним пользователей.


Читать: https://habr.com/ru/companies/tele2/articles/754748/
Искусственный интеллект: сколько он стоит, куда идет и можно ли ему доверять

С тех пор как летом 1956 года на Дартмутском семинаре придумали термин «искусственный интеллект», эта техническая область развивалась на удивление неравномерно. С одной стороны, с ИИ связаны сотни захватывающих дух заголовков. С другой стороны, — такое сильное разочарование, что командам ИИ приходилось скрывать свою суть под другим именем, лишь бы стереть клеймо несбыточных обещаний и мизерных результатов.

Команда VK Cloud перевела статью о том, что на самом деле сейчас происходит с искусственным интеллектом: чего от него ждут, сколько он стоит и как будет развиваться в будущем.


Читать: https://habr.com/ru/companies/vk/articles/754906/
Визуализация данных в VR и AR: мыльный пузырь или новая эра BI?

Надо сказать, что потенциально и у VR (виртуальная реальность), и у AR (дополненная реальность) всегда были отличные шансы завоевать корпоративный мир, не смотря на кардинальные отличия. AR совмещает отображение реального мира и элементы компьютерной дорисовки как в форме дополнения, так и в форме маски к реальным объектам, и именно этой технологии предрекали наибольший рост. VR, в свою очередь, является полностью смоделированным опытом в любом исполнении, который может даже не иметь ничего общего с демонстрацией действительности.

Однако пока что визуализация данных в VR и AR не практикуется повсеместно, это все еще экзотика, несмотря на огромный интерес к теме и прогнозы колоссального роста сферы. Так, еще в 2019 году TAdviser опубликовал свое исследование, где были представлены данные от ARtillry Intelligence, прогнозирующие 113% совокупного годового темпа роста (CAGR) в сегменте корпоративных AR-приложений на западном рынке в период 2017-2022 гг., что, в свою очередь, должно было сделать данный сегмент крупнейшим подсектором Cross-Reality. В то же время, сегменту корпоративных VR-приложений давали прогноз в 55% CAGR. Но сегодня из 2023 года мы можем констатировать, что темпы роста отраслей были в несколько раз менее значительными.

Почему так произошло? Это временное затишье или для обманутых ожиданий действительно были весомые причины? Мы можем попробовать разобраться в этих вопросах на примере нашего любимого подсегмента визуализации данных, и, забегая вперед, хочется сказать, что мнения экспертов противоположно отличаются друг от друга. Одни утверждают, что VR и AR – это неизбежное будущее визуализации больших данных, т.к. они просто не помещаются на плоскостях, а другие считают, что осмысление данных – это важный навык, который не получится затмить никакими модными фичами, а новый трехмерный формат ничуть не упрощает анализ, а иногда даже усложняет его.


Читать: https://habr.com/ru/companies/quillis/articles/755290/
Как мигрировать на российский BI без потери качества?

После ухода основных вендоров BI-решений: Qlik, Tableau, Power BI, проблема экстренного импортозамещения коснулась многих.
Во избежание приостановки процессов бизнес начал искать возможности продления лицензий или миграции на другую платформу без потери функциональности.
Делюсь эффективными шагами при организации проекта миграции на отечественную платформу на примере перехода с Qlik на PIX BI.


Читать: https://habr.com/ru/articles/755558/