Data Analysis / Big Data
2.82K subscribers
572 photos
4 videos
2 files
2.69K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python

Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python.

Читать: «Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python»
Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python

Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python.

Читать: «Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python»
Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

Категориальные данные имеет огромное значение в DataScience. Как справедливо заметили авторы в [1], мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса.

Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных.

Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации. Казалось бы, об этом уже написано немало - есть статьи про графические возможности python, есть огромное количество информации и примеров с программным кодом. Однако, как всегда имеются нюансы - в процессе исследования возникают вопросы как с выбором средств визуализации, так и с настройкой инструментов python. В общем, есть о чем поговорить...

В данном обзоре мы рассмотрим следующие способы визуализации таблиц сопряженности.


Читать: https://habr.com/ru/articles/733954/
Доменная модель песочницы данных: на чём зиждется Data Fusion

Доменная модель песочницы данных: на чём зиждется Data Fusion

Привет, Хабр. Меня зовут Кирилл Прунтов, и я корпоративный архитектор Ассоциации Больших Данных. В корпоративной архитектуре есть множество инструментов, которые помогают правильно сконфигурировать проект. Один из таких инструментов, который часто недооценивают, — доменная модель. В этом посте на примере доменной модели, лежащей в основании Песочницы данных АБД, я хочу показать, как этот инструмент работает. Не знаю, планируете ли вы собственную песочницу данных или нет, но доменная модель может помочь вам разграничить сущности и засетапить внутренние среды для экспериментов. Так что под катом вам всё равно может быть интересно.


Читать: https://habr.com/ru/companies/rubda/articles/735496/
An Engineering Guide to Data Quality - A Data Contract Perspective - Part 2

Read: https://www.dataengineeringweekly.com/p/an-engineering-guide-to-data-quality
Более 50 бесплатных курсов и материалов по А/Б тестированию

Это руководство поможет вам понять все, что нужно для начала работы с A/B-тестами. Вы увидите способы запуска тестов, расстановки приоритетов гипотез, анализа результатов и лучшие инструменты для экспериментов с помощью A/B-тестирования.

Все курсы и материалы бесплатны.


Читать: https://habr.com/ru/articles/735690/
Её величество Иерархия. Классификация и способы хранение в MS Excel

Иерархия, как структура данных, встречается очень часто.

• справочники в 1С:Бухгалтерия предприятия и кубовых OLAP системах (типа IBM Cognos TM1) часто имеют иерархическое строение

• иерархия папок и файлов в Windows

• отношения наставничества между коллегами (когда может быть только один наставник и много наставляемых)

• объектная модель VBA (построена на базе иерархии, хотя могут быть особые моменты)

В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами. Откройте практически любой файл Excel и там будет иерархия в том или ином виде.

Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними.

В статье разберем ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?» 😊


Читать: https://habr.com/ru/articles/734886/
Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

Если бы Достоевский жил в наше время, смотрел по вечерам «Черное зеркало» и просто читал новости, то, скорее всего, Раскольникова судил бы Искусственный интеллект.

Сейчас довольно сложно представить, как будет выглядеть судебный процесс будущего, где условному судье не придется протирать 6 лет штаны на институтской скамье и насильно впихивать в свой мозг тонны законодательной базы. Кажется, это будет что-то коллективное и похожее на продвинутых присяжных с «закаченными» правовыми нормами, чтобы моральные аспекты при этом оставались на более близкой человеческой стороне.

Привет, Хабр, это команда  Alliesverse – платформы для управления бизнесом – и это в наши воспаленные мозги попала идея о современном Раскольникове...
Случилось это на большом мероприятии, посвященному ChatGPT, на которое нас пригласили. Мы подумали: а что если ускорить наступление высокотехнологичного и справедливого суда и попробовать обучить ИИ всем российским кодексам ?

Так сформировался эмбрион LawAi by Alliesverse. Под катом, подобно ChatGPT, расскажем наш опыт обучения русскоязычных и зарубежных моделей нейросетей российскому законодательству.

Спойлер: несмотря на то, что современные системы преуспевают в нахождении экстрактивного диапазона, который отвечает на фактоидный вопрос в документе, они по-прежнему считают сложными настройки открытого домена, где модели необходимо найти свои собственные источники информации и генерировать длинные ответы.

Спойлер х2: использование ChatGPT, Notion и прочих готовых решений не подходит для создания юрисконсульта в кармане, т.к. они обучаются на международном массиве данных, у которого много расхождений с российским законодательством.
Читать полностью

Читать: https://habr.com/ru/articles/736116/
The Next Big Things for Oracle Cloud Platform

Recap of The Next Big Things session at Oracle Openworld 2018. Five exciting demos including: content experience, digital assistants, blockchain applications, data science development platform, and visual development.

Read: https://blogs.oracle.com/cloud-infrastructure/post/the-next-big-things-for-oracle-cloud-platform
Four Key Things to Do with Machine Learning

Is your organization getting the most out of machine learning? Learn the four keys to effective machine learning.

Read: https://blogs.oracle.com//post/four-key-things-to-do-with-machine-learning
What Is Oracle Cloud Infrastructure Data Catalog?

Oracle announces Oracle Cloud Infrastructure Data Catalog, a brand new tool to manage and govern your big data. Organize, enrich, search, and consolidate data in a way that expedites and optimizes your data lake.

Read: https://blogs.oracle.com//post/what-is-oracle-cloud-infrastructure-data-catalog
Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter

Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.

Read: https://blogs.oracle.com/undefined/post/real-world-performance-testing-for-oracle-analytics-cloud-with-apache-jmeter
Five things you may not know you could do with dataset authoring in the Dataset Editor of Oracle Analytics Cloud

This post explains powerful things you can do with dataset authoring in Oracle Analytics Cloud.

Read: https://blogs.oracle.com/undefined/post/five-things-you-may-not-know-you-could-do-with-the-dataset-authoring-in-oracle-analytics-dataset-editor
'Memory Saver' feature in Google Chrome may affect active usage of Oracle Analytics

Google Chrome Version 110 and Later 'Memory Saver' Feature May Affect Active Usage of Oracle Analytics

Read: https://blogs.oracle.com/proactivesupportepm/post/memory-saver-feature-in-google-chrome-may-affect-active-usage-of-oracle-analytics
Advisor Webcast: Security Integration of Oracle Analytics Server with E-Business Suite

ADVISOR WEBCAST: Security Integration of Oracle Analytics Server with E-Business Suite on March 29, 2023 (Doc ID 2920301.2)

Read: https://blogs.oracle.com/proactivesupportepm/post/advisor-webcast-security-integration-of-oracle-analytics-server-with-e-business-suite