Data Analysis / Big Data
2.82K subscribers
570 photos
4 videos
2 files
2.68K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Configure SAML 2.0 Single Sign-on for Oracle Analytics Server using Apache HTTP Server without Docker Container

Describes how to configure SAML 2.0 Single Sign-on for Oracle Analytics Server using Apache HTTP Server without a Docker container.

Read: https://blogs.oracle.com/analytics/post/oas-sso-saml-mellon
Кластеризация текста в PySpark

Привет, Хабр!

На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.

Любой текст – это не просто коллекция слов, он содержит мысли и намерения его автора. Но вручную невозможно обработать огромное количество текстовой информации и понять какие данные они могут содержать. В таком случае нам поможет кластеризация текста, которая позволит получить представление о данных.
Узнать больше о кластеризации текста

Читать: https://habr.com/ru/articles/738906/
Битва медведей: Pandas против Polars

Привет! На связи Грегори Салиба из Spectr.

Возможно, вы прочитали название статьи и подумали, что попали на программу «В мире животных». Но нет, речь пойдет о сравнении двух  гигантов аналитики данных в Python: Pandas и Polars. В этой статье мы подробно рассмотрим вопрос быстродействия этих двух решений в части работы с файлами больших объемов.

В статье мы сравним скорость обработки на примере конкретной задачи одного из проектов, разработку которого ведет наша команда.


Читать: https://habr.com/ru/companies/spectr/articles/738766/
Data Actions at Work, Part 1 - the Oracle Analytics Link

This blog shows how to use the Oracle Analytics link within Data Actions to enhance analysis within canvases and workbooks.

Read: https://blogs.oracle.com/analytics/post/data-actions-at-work-part-1-analytics-link
OBIA Solution Path

This blog is for many Oracle customers who have invested years into Oracle BI Applications and are evaluating various options to retain the efforts already invested in Oracle BI Applications (OBIA).

Read: https://blogs.oracle.com/analytics/post/obia-solution-path
1
Все события в мире синтетических данных за 2022 год

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.
Новые игроки и анализ рынка синтетических данных

Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:
* 28 поставщиков структурированных синтетических данных,
* 10 поставщиков синтетических тестовых данных,
* 6 опенсорсных поставщиков,
* и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:
На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.


Читать: https://habr.com/ru/articles/735358/
👍1
Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков

Привет! Меня зовут Наташа Базанова, я старший BI-аналитик Selectel. В компании я работаю три года: за это время команда аналитиков сильно расширилась, число задач и их амбициозность выросли. Как и любая другая команда, мы столкнулись с проблемами, связанными с несовершенством бизнес-процессов.

В этом тексте расскажу, что мы предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого нам пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу. Надеюсь, кому-то наш опыт и рекомендации пойдут на пользу — сэкономят время, деньги и нервы.


Читать: https://habr.com/ru/companies/selectel/articles/737590/
👍1
Искусственный интеллект в России и мире: эволюция, тенденции, будущее

Сегодня искусственный интеллект активно задействуют в промышленности, строительстве, ТЭК и других сферах. Усиливают потенциал данной технологии новые суперкомпьютеры, которые помогают обучать ИИ для выполнения соответствующих задач.

Проекты ИИ получают поддержку со стороны государства. В 2021 году стартовал Федеральный проект «Искусственный интеллект», в рамках которого в ИИ будет вложено 24,6 млрд ₽ в течении 5 лет. Уже было профинансировано создание 6 новых научно-исследовательских центров в ведущих университетах и НИИ.

Возникает необходимость не только в оценке эффективности технологий, но и в обосновании их экономической выгоды. В этой статье я рассмотрю тенденции развития ИИ в России, также его возможное будущее и расскажу, как мы применяем искусственный интеллект в работе с данными.


Читать: https://habr.com/ru/companies/inferit/articles/739514/
Применение Python для сбора и предобработки данных цифрового следа

Python для сбора и предобработки данных цифрового следа.

Про цифровой след обычно говорят лишь в общих чертах, и описание программирования для работы с ним лишь упоминают. В данной статье рассмотрен набор библиотек Python и приемов, которые можно использовать для сбора и предобработки данных цифрового следа.


Читать: https://habr.com/ru/articles/739572/
В Газпромбанке рассказали о старте карьеры и стажировках в области IT

Газпромбанк запускает стажировки для студентов и начинающих IT-специалистов, а также кейс-чемпионат, заменяющий студенческую практику.

Читать: «В Газпромбанке рассказали о старте карьеры и стажировках в области IT»
Оператор EXCLUDE в PostgreSQL: Продвинутые ограничения для базы данных

Рассказываем, как использовать ограничение EXCLUDE в PostgreSQL для поддержания корректности вносимой информации в базах данных.

Читать: «Оператор EXCLUDE в PostgreSQL: Продвинутые ограничения для базы данных»
ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене

Разберем популярные паттерны проектирования ML-систем для ответа на следующие вопросы:

1. Какой способ выбрать для деплоя модели в production?

2. Как затащить составной ML-пайплайн в real-time сервис?

3. Каким способом тестировать новую версию модели?


Читать: https://habr.com/ru/articles/739316/
Cache warming в Qlik Sense из подручных материалов

Привет Хабр!

Мы - Соколкин Олег, Юндин Андрей и Монахов Алексей - сотрудники стрима "Мобильная аналитика и отчетность" Группы "Иннотех". Сегодня мы расскажем вам о том, как сделать ваши приложения Qlik Sense быстрее. Речь пойдет не про оптимизацию, а про так называемый прогрев кэша.


Читать: https://habr.com/ru/companies/innotech/articles/739562/
Как ускорить вывод ML-моделей в 4 раза, или Как может выглядеть экосистема МLOps в банке

Привет, я Андрей Качетов, Head of ML Operations в Альфа-Банке. Отвечаю за опромышливание всех ML-моделей в банке, строю новую платформу MLOps, а также формирую единый подход для работы с модельными данными (Feature Store).

В статье, без картинок с «бесконечностями» Ops’ов, расскажу, как может выглядеть полноценный конвейер MLOps, что умеет и немного о том, как мы пришли к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию.


Читать: https://habr.com/ru/companies/alfa/articles/739792/
Поделитесь своими знаниями с миром с помощью Яндекс Практикума

Сейчас идёт поиск ревьюеров и авторов на курсы онлайн-школы. Если вы хотите помогать людям получить востребованные профессии и готовы делиться опытом, то это предложение для вас! При этом задача занимает всего 2-3 часа в день, так что вы сможете совмещать сотрудничество с основной работой.

Узнайте подробности о вакансиях по ссылкам ниже:

Ревьюер на курс «Системный аналитик»;
Автор на курс «Python-разработчик».
👍1
Оптимизация выборок в больших коллекциях MongoDB

При работе с большими коллекциями в MongoDB, размер которых превышал десятки миллионов записей, возникла необходимость формировать случайные выборки уникальных значений полей, принадлежащих документам этой коллекции.

Для такой операции, в MongoDB штатно предусмотрена функция $sample, которую можно использовать в составе pipeline при проведении агрегации данных. Однако, как показала практика, выполнение выборки полей таким образом на большой коллекции может занимать весьма ощутимое время. Чтобы сократить время выполнения таких выборок, потребовалось разработать собственный алгоритм, который на порядки увеличил скорость работы. Ниже приведен подход и вариант реализации данного алгоритма.


Читать: https://habr.com/ru/companies/stc_spb/articles/735512/