Data Analysis / Big Data
2.82K subscribers
572 photos
4 videos
2 files
2.69K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Unlocking data stream processing [Part 3] - data enrichment with fuzzy joins

Read: https://www.dataengineeringweekly.com/p/unlocking-data-stream-processing-84f
😁1
OBIA 12C: How to use External Tables in Oracle Autonomous Data Warehouse (ADW) with BI Applications Fusion Load Plan

This article provides an overview about how to use External tables in Oracle Autonomous Data Warehouse (ADW) with BI Applications Fusion Load Plan.
By default, In the BI Applications Fusion Load plan, FTS Phase scenario’s consume WLS ODI Server1 Managed Server JVM to read and process the BICCC extracted files. Instead you would want to use External tables in Oracle Autonomous Data Warehouse (ADW) to read and process BICCC Extracted files, refer to implementation guide attached in this blog.

Read: https://blogs.oracle.com/analytics/post/obia-12c-how-to-use-external-tables-in-oracle-autonomous-data-warehouse-adw-with-bi-applications-fusion-load-plan
DDRAMDisk выпустил новую линейку RAM дисков, но Россия в пролёте…

Привет Хабр!

Раньше я уже писала про интересный проект RAM диска – безлимитного заменителя SSD, подключаемого в PCIe слот компьютера и прикидывающегося обычным SSD диском, только очень быстрым и с неограниченным ресурсом TBW. Повторяться не буду, подробности работы девайса можете найти в оригинальной статье. Тогда были созданы платы, содержащие впаянные чипы памяти и имевшие фиксированный объём.

За прошедшие два года ребята доработали исходную плату (добавлена возможность подключения внешнего бекапного аккумулятора, увеличена надёжность) и разработали версии на слотах, причём, и для DDR3, и для DDR4 памяти.

Рассмотрим их подробнее. Все фотоматериалы взяты из раздела новостей сайта команды.
Смонтировать RAM диск

Читать: https://habr.com/ru/articles/734186/
Как структурировать проекты машинного обучения с помощью GitHub и VS Code: полная инструкция с настройками и шаблонами

Хорошо продуманный процесс структурирования проектов машинного обучения поможет быстро создавать новые репозитории GitHub и с самого начала ориентироваться на элегантную программную архитектуру. Команда VK Cloud перевела статью о том, как организовать файлы в проектах машинного обучения, используя VS Code. Шаблон для создания проектов машинного обучения можно скачать на GitHub.


Читать: https://habr.com/ru/companies/vk/articles/733000/
Байесовский подход к АБ тестированию

Байесовский подход к АБ-тестам — альтернатива частотному (фреквентистскому) подходу. Поговорим о том, как заменить p-value на более интерпретируемые метрики, используя байесовские методы. На примере теста конверсии сравним частотный и байесовский подходы.


Читать: https://habr.com/ru/companies/glowbyte/articles/732024/
Спринт с Visiology: 10 дней от подготовки данных до дашборда

Привет, друзья! Буквально через несколько дней мы начинаем спринт-интенсив по работе с платформой Visiology. Буквально за 10 дней я планирую показать и рассказать об основных элементах работы платформы. Если вы задумывались о знакомстве с Visiology или в вашей компании как раз рассматривают варианты перехода на российский BI, новый спринт — отличная возможность составить представление и уже получить первичную экспертизу по платформе. Все подробности — под катом.
Хочу сделать свой дашборд!

Читать: https://habr.com/ru/companies/visiology/articles/734442/
Построй ML-модель для Газпромбанка и выиграй миллион

Газпромбанк подготовил задачу для хакатона «Лидеры цифровой трансформации», за решение которой можно выиграть приз.

Читать: «Построй ML-модель для Газпромбанка и выиграй миллион»
What is AnalyticsOps, and how could it improve your business decisions?

Analytics operations, or AnalyticsOps for short, is a concept that has evolved beside the advent of cloud computing, democratized analytics, and advanced analytics techniques such as AI/ML. In this blog, we get to know the difference between AnalyticsOps and DataOps, and DevOps, and enumerate the benefits and costs of implementing it.

Read: https://blogs.oracle.com/analytics/post/what-is-analyticsops-and-how-could-it-improve-your-business-decisions
Как вычислить по IP? Реальный пример деанонимизации «хакера»

Привет 👋 Хабр.

Наша организация занимается сбором больших данных из телеграм, а также множеством других услуг связанных с телегой. Мы даем пользователям возможность поиска по нашим базам данных и постоянно сталкиваемся с тем, что кто-нибудь пытается искать в наших скриптах уязвимости, в том числе xss, sqlinj, phpinc и т.д. Мы учитываем возможные риски и стараемся очень тщательно фильтровать пользовательский input. В один из дней мы заметили подозрительную активность, пользователь отправил в поиск каталога телеграм каналов 8583 запроса за короткий промежуток времени и пытался внедрить спецсимволы, наши скрипты отработали как надо и обрезали потенциально опасный payload, но в админке слетел вывод json в таблице активности пользователей, которую быстро удалось восстановить в рабочее состояние.

Из таблицы активности пользователей стало ясно, что пользователь использовал автоматизированное ПО сканер для поиска потенциальных уязвимостей на нашем сайте, т.к. интервалы между большинством запросов были около 1 сек и всего за несколько часов было 8583 запроса. Даже Яндекс Метрика на записала никаких действий в этот период времени, т.к. запросы делались не через браузер, поэтому скрипты Яндекс Метрики не загружались и не фиксировали посещения каталога.


Читать: https://habr.com/ru/articles/735166/
2💯1
Системы ИИ, data-driven культура и импортозамещение — что рынок BI двигает

Привет, Хабр. Меня зовут Максим Еремин, отвечаю за развитие PaaS-сервисов в beeline cloud. Этой статьей мы запускаем цикл публикаций, в которых вместе с коллегами будем комментировать и рассказывать о ситуации на рынке BI.  Сегодня поговорим о data-driven культуре и импортозамещении. А если возникнут вопросы — буду рад обсудить их в комментариях.

Громкие заголовки, возвещающие о «кончине» business intelligence (BI), встречаются на тематических площадках уже лет десять. Но сегмент и не думает отходить на второй план, напротив — растет и развивается. Аналитики из Precedence Research говорят, что к 2032 году мировой рынок BI достигнет планки в $55 млрд. Их коллеги из Fortune Business Insights дают еще более оптимистичные оценки — та же сумма, но к 2030-му.

Технология глубоко проникла в стеки крупного, малого и среднего бизнеса. Ту или иную BI-систему имеет 80% компаний со штатом более 5 тыс. сотрудников. В фирмах поменьше показатель составляет 26%, но постепенно увеличивается.

Если взглянуть на российский рынок разработки и интеграции BI-решений, то он тоже достаточно зрелый. Два года назад его объем составлял 35 млрд рублей. Сегодня эксперты прогнозируют ускорение темпов роста в полтора-два раза. Развитие рынка стимулируют несколько факторов — рост объемов данных, развитие систем ИИ и необходимость импортозамещения.


Читать: https://habr.com/ru/companies/beeline_cloud/articles/734952/
👍1
Как хранить лайки социальных сетей в базе данных ScyllaDB

Разбираемся, как обновлять большие данные в базах на ScyllaDB, если они постоянно меняются. В качестве примера используем социальные сети.

Читать: «Как хранить лайки социальных сетей в базе данных ScyllaDB»
Как работали с данными с древних времён: краткая история Data Science

Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно.

Читать: «Как работали с данными с древних времён: краткая история Data Science»
Как работали с данными с древних времён: краткая история Data Science

Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно.

Читать: «Как работали с данными с древних времён: краткая история Data Science»