Data Analysis / Big Data
2.82K subscribers
572 photos
4 videos
2 files
2.69K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
What is AnalyticsOps, and how could it improve your business decisions?

Analytics operations, or AnalyticsOps for short, is a concept that has evolved beside the advent of cloud computing, democratized analytics, and advanced analytics techniques such as AI/ML. In this blog, we get to know the difference between AnalyticsOps and DataOps, and DevOps, and enumerate the benefits and costs of implementing it.

Read: https://blogs.oracle.com/analytics/post/what-is-analyticsops-and-how-could-it-improve-your-business-decisions
Как вычислить по IP? Реальный пример деанонимизации «хакера»

Привет 👋 Хабр.

Наша организация занимается сбором больших данных из телеграм, а также множеством других услуг связанных с телегой. Мы даем пользователям возможность поиска по нашим базам данных и постоянно сталкиваемся с тем, что кто-нибудь пытается искать в наших скриптах уязвимости, в том числе xss, sqlinj, phpinc и т.д. Мы учитываем возможные риски и стараемся очень тщательно фильтровать пользовательский input. В один из дней мы заметили подозрительную активность, пользователь отправил в поиск каталога телеграм каналов 8583 запроса за короткий промежуток времени и пытался внедрить спецсимволы, наши скрипты отработали как надо и обрезали потенциально опасный payload, но в админке слетел вывод json в таблице активности пользователей, которую быстро удалось восстановить в рабочее состояние.

Из таблицы активности пользователей стало ясно, что пользователь использовал автоматизированное ПО сканер для поиска потенциальных уязвимостей на нашем сайте, т.к. интервалы между большинством запросов были около 1 сек и всего за несколько часов было 8583 запроса. Даже Яндекс Метрика на записала никаких действий в этот период времени, т.к. запросы делались не через браузер, поэтому скрипты Яндекс Метрики не загружались и не фиксировали посещения каталога.


Читать: https://habr.com/ru/articles/735166/
2💯1
Системы ИИ, data-driven культура и импортозамещение — что рынок BI двигает

Привет, Хабр. Меня зовут Максим Еремин, отвечаю за развитие PaaS-сервисов в beeline cloud. Этой статьей мы запускаем цикл публикаций, в которых вместе с коллегами будем комментировать и рассказывать о ситуации на рынке BI.  Сегодня поговорим о data-driven культуре и импортозамещении. А если возникнут вопросы — буду рад обсудить их в комментариях.

Громкие заголовки, возвещающие о «кончине» business intelligence (BI), встречаются на тематических площадках уже лет десять. Но сегмент и не думает отходить на второй план, напротив — растет и развивается. Аналитики из Precedence Research говорят, что к 2032 году мировой рынок BI достигнет планки в $55 млрд. Их коллеги из Fortune Business Insights дают еще более оптимистичные оценки — та же сумма, но к 2030-му.

Технология глубоко проникла в стеки крупного, малого и среднего бизнеса. Ту или иную BI-систему имеет 80% компаний со штатом более 5 тыс. сотрудников. В фирмах поменьше показатель составляет 26%, но постепенно увеличивается.

Если взглянуть на российский рынок разработки и интеграции BI-решений, то он тоже достаточно зрелый. Два года назад его объем составлял 35 млрд рублей. Сегодня эксперты прогнозируют ускорение темпов роста в полтора-два раза. Развитие рынка стимулируют несколько факторов — рост объемов данных, развитие систем ИИ и необходимость импортозамещения.


Читать: https://habr.com/ru/companies/beeline_cloud/articles/734952/
👍1
Как хранить лайки социальных сетей в базе данных ScyllaDB

Разбираемся, как обновлять большие данные в базах на ScyllaDB, если они постоянно меняются. В качестве примера используем социальные сети.

Читать: «Как хранить лайки социальных сетей в базе данных ScyllaDB»
Как работали с данными с древних времён: краткая история Data Science

Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно.

Читать: «Как работали с данными с древних времён: краткая история Data Science»
Как работали с данными с древних времён: краткая история Data Science

Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно.

Читать: «Как работали с данными с древних времён: краткая история Data Science»
Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python

Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python.

Читать: «Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python»
Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python

Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python.

Читать: «Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python»
Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

Категориальные данные имеет огромное значение в DataScience. Как справедливо заметили авторы в [1], мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса.

Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных.

Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации. Казалось бы, об этом уже написано немало - есть статьи про графические возможности python, есть огромное количество информации и примеров с программным кодом. Однако, как всегда имеются нюансы - в процессе исследования возникают вопросы как с выбором средств визуализации, так и с настройкой инструментов python. В общем, есть о чем поговорить...

В данном обзоре мы рассмотрим следующие способы визуализации таблиц сопряженности.


Читать: https://habr.com/ru/articles/733954/
Доменная модель песочницы данных: на чём зиждется Data Fusion

Доменная модель песочницы данных: на чём зиждется Data Fusion

Привет, Хабр. Меня зовут Кирилл Прунтов, и я корпоративный архитектор Ассоциации Больших Данных. В корпоративной архитектуре есть множество инструментов, которые помогают правильно сконфигурировать проект. Один из таких инструментов, который часто недооценивают, — доменная модель. В этом посте на примере доменной модели, лежащей в основании Песочницы данных АБД, я хочу показать, как этот инструмент работает. Не знаю, планируете ли вы собственную песочницу данных или нет, но доменная модель может помочь вам разграничить сущности и засетапить внутренние среды для экспериментов. Так что под катом вам всё равно может быть интересно.


Читать: https://habr.com/ru/companies/rubda/articles/735496/
An Engineering Guide to Data Quality - A Data Contract Perspective - Part 2

Read: https://www.dataengineeringweekly.com/p/an-engineering-guide-to-data-quality
Более 50 бесплатных курсов и материалов по А/Б тестированию

Это руководство поможет вам понять все, что нужно для начала работы с A/B-тестами. Вы увидите способы запуска тестов, расстановки приоритетов гипотез, анализа результатов и лучшие инструменты для экспериментов с помощью A/B-тестирования.

Все курсы и материалы бесплатны.


Читать: https://habr.com/ru/articles/735690/
Её величество Иерархия. Классификация и способы хранение в MS Excel

Иерархия, как структура данных, встречается очень часто.

• справочники в 1С:Бухгалтерия предприятия и кубовых OLAP системах (типа IBM Cognos TM1) часто имеют иерархическое строение

• иерархия папок и файлов в Windows

• отношения наставничества между коллегами (когда может быть только один наставник и много наставляемых)

• объектная модель VBA (построена на базе иерархии, хотя могут быть особые моменты)

В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами. Откройте практически любой файл Excel и там будет иерархия в том или ином виде.

Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними.

В статье разберем ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?» 😊


Читать: https://habr.com/ru/articles/734886/
Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

Если бы Достоевский жил в наше время, смотрел по вечерам «Черное зеркало» и просто читал новости, то, скорее всего, Раскольникова судил бы Искусственный интеллект.

Сейчас довольно сложно представить, как будет выглядеть судебный процесс будущего, где условному судье не придется протирать 6 лет штаны на институтской скамье и насильно впихивать в свой мозг тонны законодательной базы. Кажется, это будет что-то коллективное и похожее на продвинутых присяжных с «закаченными» правовыми нормами, чтобы моральные аспекты при этом оставались на более близкой человеческой стороне.

Привет, Хабр, это команда  Alliesverse – платформы для управления бизнесом – и это в наши воспаленные мозги попала идея о современном Раскольникове...
Случилось это на большом мероприятии, посвященному ChatGPT, на которое нас пригласили. Мы подумали: а что если ускорить наступление высокотехнологичного и справедливого суда и попробовать обучить ИИ всем российским кодексам ?

Так сформировался эмбрион LawAi by Alliesverse. Под катом, подобно ChatGPT, расскажем наш опыт обучения русскоязычных и зарубежных моделей нейросетей российскому законодательству.

Спойлер: несмотря на то, что современные системы преуспевают в нахождении экстрактивного диапазона, который отвечает на фактоидный вопрос в документе, они по-прежнему считают сложными настройки открытого домена, где модели необходимо найти свои собственные источники информации и генерировать длинные ответы.

Спойлер х2: использование ChatGPT, Notion и прочих готовых решений не подходит для создания юрисконсульта в кармане, т.к. они обучаются на международном массиве данных, у которого много расхождений с российским законодательством.
Читать полностью

Читать: https://habr.com/ru/articles/736116/
The Next Big Things for Oracle Cloud Platform

Recap of The Next Big Things session at Oracle Openworld 2018. Five exciting demos including: content experience, digital assistants, blockchain applications, data science development platform, and visual development.

Read: https://blogs.oracle.com/cloud-infrastructure/post/the-next-big-things-for-oracle-cloud-platform