Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
FineBI-g brother is watching you: как мы начали анализировать действия пользователей в Fine

Привет, Хабр! Мы — BI-команда Tele2. В прошлом году, как и многие наши коллеги по рынку, мы столкнулись с проблемой поиска альтернативы BI-платформам покинувших нас вендоров. О том, как подходить к замене платформы, уже много рассказано здесь и на других ресурсах. В этой статье мы остановимся на конкретном кейсе — как мы решили задачу поиска и последующего анализа действий и полномочий наших пользователей, а также взяли под контроль обновление источников. Под катом мы рассказываем, как собрать датасеты в FineBI, на которых можно построить дашборды о дашбордах и получить данные о посещаемости отчетов, их расположении в директориях и доступах к ним пользователей.


Читать: https://habr.com/ru/companies/tele2/articles/754748/
Искусственный интеллект: сколько он стоит, куда идет и можно ли ему доверять

С тех пор как летом 1956 года на Дартмутском семинаре придумали термин «искусственный интеллект», эта техническая область развивалась на удивление неравномерно. С одной стороны, с ИИ связаны сотни захватывающих дух заголовков. С другой стороны, — такое сильное разочарование, что командам ИИ приходилось скрывать свою суть под другим именем, лишь бы стереть клеймо несбыточных обещаний и мизерных результатов.

Команда VK Cloud перевела статью о том, что на самом деле сейчас происходит с искусственным интеллектом: чего от него ждут, сколько он стоит и как будет развиваться в будущем.


Читать: https://habr.com/ru/companies/vk/articles/754906/
Визуализация данных в VR и AR: мыльный пузырь или новая эра BI?

Надо сказать, что потенциально и у VR (виртуальная реальность), и у AR (дополненная реальность) всегда были отличные шансы завоевать корпоративный мир, не смотря на кардинальные отличия. AR совмещает отображение реального мира и элементы компьютерной дорисовки как в форме дополнения, так и в форме маски к реальным объектам, и именно этой технологии предрекали наибольший рост. VR, в свою очередь, является полностью смоделированным опытом в любом исполнении, который может даже не иметь ничего общего с демонстрацией действительности.

Однако пока что визуализация данных в VR и AR не практикуется повсеместно, это все еще экзотика, несмотря на огромный интерес к теме и прогнозы колоссального роста сферы. Так, еще в 2019 году TAdviser опубликовал свое исследование, где были представлены данные от ARtillry Intelligence, прогнозирующие 113% совокупного годового темпа роста (CAGR) в сегменте корпоративных AR-приложений на западном рынке в период 2017-2022 гг., что, в свою очередь, должно было сделать данный сегмент крупнейшим подсектором Cross-Reality. В то же время, сегменту корпоративных VR-приложений давали прогноз в 55% CAGR. Но сегодня из 2023 года мы можем констатировать, что темпы роста отраслей были в несколько раз менее значительными.

Почему так произошло? Это временное затишье или для обманутых ожиданий действительно были весомые причины? Мы можем попробовать разобраться в этих вопросах на примере нашего любимого подсегмента визуализации данных, и, забегая вперед, хочется сказать, что мнения экспертов противоположно отличаются друг от друга. Одни утверждают, что VR и AR – это неизбежное будущее визуализации больших данных, т.к. они просто не помещаются на плоскостях, а другие считают, что осмысление данных – это важный навык, который не получится затмить никакими модными фичами, а новый трехмерный формат ничуть не упрощает анализ, а иногда даже усложняет его.


Читать: https://habr.com/ru/companies/quillis/articles/755290/
Как мигрировать на российский BI без потери качества?

После ухода основных вендоров BI-решений: Qlik, Tableau, Power BI, проблема экстренного импортозамещения коснулась многих.
Во избежание приостановки процессов бизнес начал искать возможности продления лицензий или миграции на другую платформу без потери функциональности.
Делюсь эффективными шагами при организации проекта миграции на отечественную платформу на примере перехода с Qlik на PIX BI.


Читать: https://habr.com/ru/articles/755558/
Дайджест новостей искусственного интеллекта и машинного обучения за лето

Привет, Хабр! Давно не виделись (2 года, ровно).

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, друзьями или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июль:

1. Представьте на мгновение, что вы ИИ. Часы длинные, но годы короткие.
Прочитать весь дайджест

Читать: https://habr.com/ru/companies/uzum/articles/750646/
Dashboards: Dead or Alive? The evolution from data graveyards into data gold mines

Are dashboards really dead? A discussion on traditional dashboards (also known as “mode 1” business intelligence (BI)) versus AI/ML augmented modern analytics (also known as mode 2 dashboards).

Read: https://blogs.oracle.com/analytics/post/dashboards-dead-or-alive-the-evolution-from-data-graveyards-into-data-gold-mines
Простые радости вертикального масштабирования

В последние 20 лет архитекторы программных и аппаратных систем перепробовали различные стратегии, которые позволили бы решать проблемы, связанные с большими данными. Пока программисты усердно переписывали код, приспосабливая его для горизонтального масштабирования на множество машин, железячники впихивали на каждый сип всё больше и больше транзисторов и ядер, чтобы увеличить объём работы, осуществимый на каждой машине.

Как подтвердит любой, кому когда-либо доводилось проходить собеседование по программированию, при наличии арифметической и геометрической прогрессии геометрическая всегда возобладает. При горизонтальном масштабировании расходы растут линейно (арифметически). Но по закону Мура вычислительные мощности со временем растут экспоненциально (геометрически). Это означает, что можно несколько лет ничего не делать, а затем масштабировать систему вертикально – и получать улучшение на порядки. За двадцать лет плотность транзисторов возросла в  1000 раз. Это значит, что такая задача, для решения которой в 2002 году потребовались бы тысячи машин, сегодня выполнима всего на одной.


Читать: https://habr.com/ru/articles/755626/
👍1
Разговор об управлении компанией, искусственном интеллекте и ИТ-гигантах

Команда VK Cloud перевела расшифровку подкаста Harvard Business Review HBR IdeaCast. В нем Сундар Пичай, генеральный директор Google и его родительской компании Alphabet, рассказывает о генеративном ИИ и других вопросах, касающихся искусственного интеллекта и развития крупных ИТ-компаний в будущем. Сделали краткую выжимку из этого подкаста и делимся с вами.


Читать: https://habr.com/ru/companies/vk/articles/755040/
Reinforcement Learning from Human Feedback: когда одной математики мало

Сотни людей собрались на конференции ICML на туториале про обучение с подкреплением на основе отзывов (reinforcement learning from human feedback, RLHF). Докладчик спросил, кто хочет размечать данные. Пять, быть может, десять человек подняло руки. И это никого не удивило.
Что было дальше?

Читать: https://habr.com/ru/articles/755904/
Что может позволить себе аналитик из Твери – купить или снять квартиру?

Всем привет! Пишет вам аналитик Алексей из компании Мегапьютер. Я уже дослужился до громкого звания middle аналитик. А вот мой друг из Твери пока только начал свой карьерный путь и работает на позиции junior аналитика. Летом я ездил к нему в гости, и мы обменялись опытом, обсудили много тем профессиональных и не очень. Не обошли стороной и квартирный вопрос. Я уже второй год комфортно поживаю в своей однокомнатной квартире в Чебоксарах, взятой в ипотеку. А мой друг себе пока собственного жилья позволить не может. Или может?

Чтобы ответить на этот вопрос, я решил провести аналитическое расследование. Взял актуальную информацию о зарплате  из базы вакансий. Также выгрузил данные о стоимости аренды и покупки квартир из сервиса по поиску недвижимости.

В Твери, как известно, четыре района: Московский, Центральный, Заволжский и Пролетарский. И все имеют свои особенности. Заволжский считается самым экологически чистым районом, Центральный – историческим, туристическим, Московский – промышленным, Пролетарский – спальным.

По данным сайта по поиску работы средняя зарплата в Твери у junior аналитика – 34 100р., middle – 52 750р.,  senior – 108 750р. И какую же недвижимость каждый специалист может себе позволить?

Прежде чем приступить к анализу, необходимо было понять, как определить доступность покупки и аренды квартиры. Для варианта покупки будет суммироваться платеж по ипотеке, квартплата и сумма, которая потребуется в месяц на проживание.
Процент по ипотеке будет зависеть от вида жилья. 12.5% - для вторички - 7.6% для новостройки или строящегося дома. Срок ипотеки будет 30 лет, а сумма кредита составит 0.85 от общей стоимости квартиры, так как требуется первоначальный взнос 15%


Читать: https://habr.com/ru/articles/756208/
👍1
Преобразование табличных данных в Python

Предположим: вы полны желания изучить  манящий массив данных. К счастью, для этого достаточно вашего компьютера. Итак, вы открываете блокнот Python или REPL, чтобы начать работать:  какую библиотеку использовать? Естественно, вы можете обратиться к старой доброй Pandas. А как насчет новой модной библиотеки фреймов данных, например Polars или datatable? А ещё, для разнообразия, можно попробовать встроенный SQL с помощью DuckDB.

Давайте погрузимся в прекрасную область фреймов данных, чтобы сделать выбор!

PS: Используйте DuckDB, если вам удобно работать с SQL, Polars или Pandas с поддержкой PyArrow, если вам не нужно какое-то специфическое расширение NumPy, и задействуйте PyArrow в том случае, если вы не против ручной оптимизации.


Читать: https://habr.com/ru/companies/southbridge/articles/756116/
Танцуют все — и даже рисунки!

Рассказываем, как в Газпромбанке научились оживлять нарисованных человечков с помощью Data Science и трёх групп ML-моделей.

Читать: «Танцуют все — и даже рисунки!»
👍1
Многоступенчатый фильтр: как очистить огромный массив данных от дубликатов

Рассказали, как удалить дубликаты в огромной базе данных, и о том, как обработать большой объем данных невысокого качества.

Читать: «Многоступенчатый фильтр: как очистить огромный массив данных от дубликатов»
Comparing Data Flows in Oracle Analytics Cloud with Spreadsheet-Based Tools

This article focuses on the key advantages of data flows in Oracle Analytics Cloud and how this tool differs from spreadsheet-based tools such as Microsoft Excel and Google Sheets.

Read: https://blogs.oracle.com/analytics/post/comparing-oac-data-flows-with-spreadsheetbased-tools
«Квантовые облака»: как VK Cloud и разработчики делают квантовые вычисления становятся ближе к бизнесу

Есть целый спектр задач, прежде всего промышленных, которые невозможно решить с помощью простых компьютеров. Суперкомпьютеры часто тоже оказываются бессильны из-за фундаментальных ограничений классической модели вычислений. Кроме того, решение многих задач становится экономически неоправданным из-за высокой стоимости суперкомпьютерной инфраструктуры. Поэтому у производственников и крупного бизнеса есть большой спрос на инструменты, которые могут проводить вычисления «за гранью» классических возможностей. В этом помогают квантовые процессоры и их эмуляторы.


Читать: https://habr.com/ru/companies/vk/articles/754518/
Point-in-time Recovery. Как уменьшить RPO для базы данных

Падение любой информационной системы — это по умолчанию больно и неприятно. На Хабре вы найдете много статей о том, как этого избежать. Но что делать, если все-таки случилась одна из тех историй, которыми пугают джунов? Уборщица разлила ведро воды в ЦОДе или злосчастный экскаватор перерубил оптоволокно?

Меня зовут Андрей Белый, я старший разработчик VK Cloud в команде DBaaS. В этой статье мы на примере PostgreSQL разберем принципы работы баз данных и поговорим о том, как минимизировать последствия инцидентов с помощью оптимизации RPO (Recovery point objective).

Материал подготовлен по мотивам моего выступления на VK Databases Meetup «Point-in-time Recovery. Как уменьшить RPO для базы данных».

Читать: https://habr.com/ru/companies/vk/articles/755922/
Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером

Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.

В статье сначала опишем паттерны построения распределённых хранилищ, чтобы понимать, через какие процессы проходят данные. А после поговорим о задачах специалистов по работе с данными и необходимых для каждой позиции навыках.


Читать: https://habr.com/ru/companies/southbridge/articles/756652/
MLOps от Gucci и оценка уровня Data Driven’ности в компании

Привет, Хабр! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/756644/
Опыт PT: BI на страже кибербезопасности

Привет, Хабр! Сегодня мне хотелось бы поговорить о том, как можно применить BI, а также оценить роль, которую BI играет в цифровой трансформации компании. Ответы на эти вопросы мы получили на своем опыте, когда начали внедрять новую аналитическую платформу и обнаружили интерес к ней со стороны многих департаментов компании. Под катом — история, как мы перевели BI в Positive Technologies на единую платформу.
Узнать больше про этот кейс

Читать: https://habr.com/ru/articles/756758/