Data Analysis / Big Data
2.82K subscribers
572 photos
4 videos
2 files
2.69K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё

Диаграммы помогают визуализировать как простые, так и самые сложные наборы данных. При этом диаграмм — множество видов, у каждого есть свои достоинства и недостатки. О наиболее эффектных и эффективных, реализуемых с Python, мы решили рассказать в сегодняшней подборке. Если вам интересна эта тема – просим под кат. А если у вас есть собственные предпочтения среди графиков (или вы используете что-то ещё), то пишите в комментариях, обсудим. Что же – поехали!


Читать: https://habr.com/ru/companies/ru_mts/articles/738208/
1
Чей DAX сильнее? …или почему каждый пользователь должен влиять на развитие платформы

Привет, Хабр! В этом посте мне хотелось бы поговорить о том, каким образом мы развиваем платформу, и откуда появляются новые функции в Visiology. В большей степени сейчас это касается развития поддержки DAX в третьей версии платформы. Но сама практика появилась не на пустом месте, и сегодня мы как раз обсудим, как команда разработчиков выбирает, какие новые фичи стоит включить в Visiology, зачем мы запустили сбор кейсов для реализации на DAXе, и что можно увидеть на вебинарах Visiology, которые посвящены развитию аналитического движка в Visiology 3.


Читать: https://habr.com/ru/companies/visiology/articles/738456/
Сassandra для бедных — пускаем в ход HDD

Cost reduction - весьма популярное направление, особенно в дни кризиса IT. Вполне естественным является желание оптимизации расходов на “железо” с минимальной потерей производительности, ведь чем больше данных хранится, тем больше может оказаться профит. В данной статье описан кейс эксплуатации Cassandra на HDD дисках как один из способов оптимизации, имеющей смысл при достаточно большом объеме данных.


Читать: https://habr.com/ru/articles/738304/
Как увеличить покрытие ценовым мониторингом с 9% до 85% ассортимента. Deep Learning в процессах ценообразования

В 2022 году в Hoff Tech была сформирована команда для реализации проекта по ценообразованию гипермаркетов Hoff. Все это проходило в рамках цифровой трансформации, и в команду были включены эксперты по ценообразованию, бизнес-анализу, программисты и специалисты по data science.

Для эффективного управления ценой необходимо понимать три вещи:

— какие цели ставит перед собой компания и как она их планирует достигать, используя стратегии ценообразования;

— какова себестоимость нашего товара;

— по каким ценам продают аналогичный товар наши конкуренты.

Так как Hoff уже много лет работает на рынке мебели и товаров для дома, его специалисты прекрасно ориентируются в рыночных тенденциях. Управленческая аналитика компании находится на весьма высоком уровне развития, поэтому первый и второй пункты были для нас понятны. А информации о конкурентном окружении у нас было мало. Ценовым мониторингом было покрыто только около 10% нашего ассортимента, и процесс мониторинга цен конкурентов  был реализован в ручном режиме.

Ситуация осложнялась еще и тем, что мы не смогли воспользоваться существующими на рынке сервисами для автоматизации процесса подбора товаров-аналогов. Сервисы, которые мы нашли, неплохо справляются в секторах продуктов питания и FMCG — в них все товары похожи. А вот в сегменте мебели и товаров для дома продукция зачастую различается не только потребительскими свойствами, но и дизайном, поэтому существующие решения не могли ее анализировать. Мы в Hoff Tech решили разработать свое решение.


Читать: https://habr.com/ru/companies/hofftech/articles/738466/
Configure Kerberos Single Sign-on for Oracle Analytics Server using Oracle HTTP Server

Describes how to configure Kerberos single sign-on for Oracle Analytics Server using Oracle HTTP Server.

Read: https://blogs.oracle.com/analytics/post/oas-kerb-sso-use-ohs
Integrate Oracle Analytics Server with Oracle Identity Cloud Service or IAM Identity Domain for Single Sign-On using App Gateway

Integrate Oracle Analytics Server with Oracle Identity Cloud Service or IAM Identity Domain for Single Sign-On using App Gateway

Read: https://blogs.oracle.com/analytics/post/oas-sso-idcs-iam-app-gateway
Configure SAML 2.0 Single Sign-on for Oracle Analytics Server using Apache HTTP Server without Docker Container

Describes how to configure SAML 2.0 Single Sign-on for Oracle Analytics Server using Apache HTTP Server without a Docker container.

Read: https://blogs.oracle.com/analytics/post/oas-sso-saml-mellon
Кластеризация текста в PySpark

Привет, Хабр!

На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.

Любой текст – это не просто коллекция слов, он содержит мысли и намерения его автора. Но вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать. В таком случае нам поможет кластеризация текста, которая позволит получить представление о данных.
Узнать больше о кластеризации текста

Читать: https://habr.com/ru/articles/738906/
Битва медведей: Pandas против Polars

Привет! На связи Грегори Салиба из Spectr.

Возможно, вы прочитали название статьи и подумали, что попали на программу «В мире животных». Но нет, речь пойдет о сравнении двух  гигантов аналитики данных в Python: Pandas и Polars. В этой статье мы подробно рассмотрим вопрос быстродействия этих двух решений в части работы с файлами больших объемов.

В статье мы сравним скорость обработки на примере конкретной задачи одного из проектов, разработку которого ведет наша команда.


Читать: https://habr.com/ru/companies/spectr/articles/738766/
Data Actions at Work, Part 1 - the Oracle Analytics Link

This blog shows how to use the Oracle Analytics link within Data Actions to enhance analysis within canvases and workbooks.

Read: https://blogs.oracle.com/analytics/post/data-actions-at-work-part-1-analytics-link
OBIA Solution Path

This blog is for many Oracle customers who have invested years into Oracle BI Applications and are evaluating various options to retain the efforts already invested in Oracle BI Applications (OBIA).

Read: https://blogs.oracle.com/analytics/post/obia-solution-path
1
Все события в мире синтетических данных за 2022 год

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.
Новые игроки и анализ рынка синтетических данных

Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:
* 28 поставщиков структурированных синтетических данных,
* 10 поставщиков синтетических тестовых данных,
* 6 опенсорсных поставщиков,
* и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:
На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.


Читать: https://habr.com/ru/articles/735358/
👍1
Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков

Привет! Меня зовут Наташа Базанова, я старший BI-аналитик Selectel. В компании я работаю три года: за это время команда аналитиков сильно расширилась, число задач и их амбициозность выросли. Как и любая другая команда, мы столкнулись с проблемами, связанными с несовершенством бизнес-процессов.

В этом тексте расскажу, что мы предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого нам пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу. Надеюсь, кому-то наш опыт и рекомендации пойдут на пользу — сэкономят время, деньги и нервы.


Читать: https://habr.com/ru/companies/selectel/articles/737590/
👍1
Искусственный интеллект в России и мире: эволюция, тенденции, будущее

Сегодня искусственный интеллект активно задействуют в промышленности, строительстве, ТЭК и других сферах. Усиливают потенциал данной технологии новые суперкомпьютеры, которые помогают обучать ИИ для выполнения соответствующих задач.

Проекты ИИ получают поддержку со стороны государства. В 2021 году стартовал Федеральный проект «Искусственный интеллект», в рамках которого в ИИ будет вложено 24,6 млрд ₽ в течении 5 лет. Уже было профинансировано создание 6 новых научно-исследовательских центров в ведущих университетах и НИИ.

Возникает необходимость не только в оценке эффективности технологий, но и в обосновании их экономической выгоды. В этой статье я рассмотрю тенденции развития ИИ в России, также его возможное будущее и расскажу, как мы применяем искусственный интеллект в работе с данными.


Читать: https://habr.com/ru/companies/inferit/articles/739514/
Применение Python для сбора и предобработки данных цифрового следа

Python для сбора и предобработки данных цифрового следа.

Про цифровой след обычно говорят лишь в общих чертах, и описание программирования для работы с ним лишь упоминают. В данной статье рассмотрен набор библиотек Python и приемов, которые можно использовать для сбора и предобработки данных цифрового следа.


Читать: https://habr.com/ru/articles/739572/
В Газпромбанке рассказали о старте карьеры и стажировках в области IT

Газпромбанк запускает стажировки для студентов и начинающих IT-специалистов, а также кейс-чемпионат, заменяющий студенческую практику.

Читать: «В Газпромбанке рассказали о старте карьеры и стажировках в области IT»
Оператор EXCLUDE в PostgreSQL: Продвинутые ограничения для базы данных

Рассказываем, как использовать ограничение EXCLUDE в PostgreSQL для поддержания корректности вносимой информации в базах данных.

Читать: «Оператор EXCLUDE в PostgreSQL: Продвинутые ограничения для базы данных»