Data Analysis / Big Data
2.82K subscribers
572 photos
4 videos
2 files
2.69K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
An Engineering Guide to Data Quality - A Data Contract Perspective - Part 2

Read: https://www.dataengineeringweekly.com/p/an-engineering-guide-to-data-quality
Более 50 бесплатных курсов и материалов по А/Б тестированию

Это руководство поможет вам понять все, что нужно для начала работы с A/B-тестами. Вы увидите способы запуска тестов, расстановки приоритетов гипотез, анализа результатов и лучшие инструменты для экспериментов с помощью A/B-тестирования.

Все курсы и материалы бесплатны.


Читать: https://habr.com/ru/articles/735690/
Её величество Иерархия. Классификация и способы хранение в MS Excel

Иерархия, как структура данных, встречается очень часто.

• справочники в 1С:Бухгалтерия предприятия и кубовых OLAP системах (типа IBM Cognos TM1) часто имеют иерархическое строение

• иерархия папок и файлов в Windows

• отношения наставничества между коллегами (когда может быть только один наставник и много наставляемых)

• объектная модель VBA (построена на базе иерархии, хотя могут быть особые моменты)

В финансах иерархия – это один из самых частых объектов, наряду с плоскими и матричными таблицами. Откройте практически любой файл Excel и там будет иерархия в том или ином виде.

Тем не менее, иерархия – это достаточно сложный объект, который имеет неочевидную классификацию. Кроме того, часто мы храним иерархию в плоской таблице (в Excel, в базе данных). А это, вообще говоря, не естественная среда обитания для иерархий. Все это еще более затрудняет и запутывает работу с ними.

В статье разберем ключевые термины и классификацию иерархий, что позволит эффективно работать с ними. Ответим на ряд нетривиальных вопросов: «Все ли иерархии одинаковые?», «Отсутствие детей - это достаточный признак листа?» 😊


Читать: https://habr.com/ru/articles/734886/
Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

Если бы Достоевский жил в наше время, смотрел по вечерам «Черное зеркало» и просто читал новости, то, скорее всего, Раскольникова судил бы Искусственный интеллект.

Сейчас довольно сложно представить, как будет выглядеть судебный процесс будущего, где условному судье не придется протирать 6 лет штаны на институтской скамье и насильно впихивать в свой мозг тонны законодательной базы. Кажется, это будет что-то коллективное и похожее на продвинутых присяжных с «закаченными» правовыми нормами, чтобы моральные аспекты при этом оставались на более близкой человеческой стороне.

Привет, Хабр, это команда  Alliesverse – платформы для управления бизнесом – и это в наши воспаленные мозги попала идея о современном Раскольникове...
Случилось это на большом мероприятии, посвященному ChatGPT, на которое нас пригласили. Мы подумали: а что если ускорить наступление высокотехнологичного и справедливого суда и попробовать обучить ИИ всем российским кодексам ?

Так сформировался эмбрион LawAi by Alliesverse. Под катом, подобно ChatGPT, расскажем наш опыт обучения русскоязычных и зарубежных моделей нейросетей российскому законодательству.

Спойлер: несмотря на то, что современные системы преуспевают в нахождении экстрактивного диапазона, который отвечает на фактоидный вопрос в документе, они по-прежнему считают сложными настройки открытого домена, где модели необходимо найти свои собственные источники информации и генерировать длинные ответы.

Спойлер х2: использование ChatGPT, Notion и прочих готовых решений не подходит для создания юрисконсульта в кармане, т.к. они обучаются на международном массиве данных, у которого много расхождений с российским законодательством.
Читать полностью

Читать: https://habr.com/ru/articles/736116/
The Next Big Things for Oracle Cloud Platform

Recap of The Next Big Things session at Oracle Openworld 2018. Five exciting demos including: content experience, digital assistants, blockchain applications, data science development platform, and visual development.

Read: https://blogs.oracle.com/cloud-infrastructure/post/the-next-big-things-for-oracle-cloud-platform
Four Key Things to Do with Machine Learning

Is your organization getting the most out of machine learning? Learn the four keys to effective machine learning.

Read: https://blogs.oracle.com//post/four-key-things-to-do-with-machine-learning
What Is Oracle Cloud Infrastructure Data Catalog?

Oracle announces Oracle Cloud Infrastructure Data Catalog, a brand new tool to manage and govern your big data. Organize, enrich, search, and consolidate data in a way that expedites and optimizes your data lake.

Read: https://blogs.oracle.com//post/what-is-oracle-cloud-infrastructure-data-catalog
Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter

Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.

Read: https://blogs.oracle.com/undefined/post/real-world-performance-testing-for-oracle-analytics-cloud-with-apache-jmeter
Five things you may not know you could do with dataset authoring in the Dataset Editor of Oracle Analytics Cloud

This post explains powerful things you can do with dataset authoring in Oracle Analytics Cloud.

Read: https://blogs.oracle.com/undefined/post/five-things-you-may-not-know-you-could-do-with-the-dataset-authoring-in-oracle-analytics-dataset-editor
'Memory Saver' feature in Google Chrome may affect active usage of Oracle Analytics

Google Chrome Version 110 and Later 'Memory Saver' Feature May Affect Active Usage of Oracle Analytics

Read: https://blogs.oracle.com/proactivesupportepm/post/memory-saver-feature-in-google-chrome-may-affect-active-usage-of-oracle-analytics
Advisor Webcast: Security Integration of Oracle Analytics Server with E-Business Suite

ADVISOR WEBCAST: Security Integration of Oracle Analytics Server with E-Business Suite on March 29, 2023 (Doc ID 2920301.2)

Read: https://blogs.oracle.com/proactivesupportepm/post/advisor-webcast-security-integration-of-oracle-analytics-server-with-e-business-suite
Oracle named a Visionary in the 2023 Gartner® Magic Quadrant for Analytics and Business Intelligence Platforms

Gartner assesses vendors and talks about their strengths in the research. The vendors covered are recognized based on their vision and execution, including factors like Sales Execution/Pricing, Marketing Execution, Marketing Strategy, Sales Strategy etc. For the fourth year in a row, Oracle has been named a Visionary in the Gartner Magic Quadrant for Analytics and BI (ABI) Platforms.

Read: https://blogs.oracle.com/undefined/post/oracle-named-a-visionary-in-the-2023-gartner-magic-quadrant-for-analytics-and-business-intelligence-platforms
Реализация функции потерь в Python

Функции потерь Python являются важной частью моделей машинного обучения. Эти функции показывают, насколько сильно предсказанный моделью результат отличается от фактического.

Существует несколько способов вычислить эту разницу. В этом материале мы рассмотрим некоторые из наиболее распространенных функций потерь.

Ниже будут рассмотрены следующие четыре функции потерь.


Читать: https://habr.com/ru/articles/736536/
Как построить систему геоаналитики с применением ML

Геоаналитика помогает бизнесу принимать решения: где открыть магазин, построить отель или возвести новостройку с учетом доступности и популярности локации, наличия конкурентов и сотен других факторов. Решать подобные аналитические задачи с большим количеством значимых признаков помогает машинное обучение. В этой статье мы рассмотрим примеры работы сервисов геоаналитики VK Predict. Выясним, какие модели машинного обучения используются при построении таких систем и из каких этапов состоит разработка продукта с возможностями геоаналитики.

Статья подготовлена на основе вебинара команд VK Predict и VK Cloud.


Читать: https://habr.com/ru/companies/vk/articles/734102/