Collection. Темная сторона Data Science
Привет! Меня зовут Оля, я директор по разработке моделей в Департаменте анализа данных и моделирования. Рада приветствовать всех тех, кто отважился заглянуть под капот розничного взыскания. Будет интересно, обещаю!
Читать: https://habr.com/ru/companies/oleg-bunin/articles/845686/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Оля, я директор по разработке моделей в Департаменте анализа данных и моделирования. Рада приветствовать всех тех, кто отважился заглянуть под капот розничного взыскания. Будет интересно, обещаю!
Читать: https://habr.com/ru/companies/oleg-bunin/articles/845686/
#ru
@big_data_analysis | Другие наши каналы
👍2
Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями
Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).
Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.
Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.
Читать: https://habr.com/ru/articles/846296/
#ru
@big_data_analysis | Другие наши каналы
Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).
Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.
Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.
Читать: https://habr.com/ru/articles/846296/
#ru
@big_data_analysis | Другие наши каналы
Что такое Big Data | Биг Дата?
Big Data – термин, который вы можете часто встретить на просторах интернета. Вы можете найти множество статей, докладов и прочих материалов по этому термину, но давайте попробуем разобраться в нём, потому что он не так страшен, как о нём говорят.
Читать: https://habr.com/ru/articles/845536/
#ru
@big_data_analysis | Другие наши каналы
Big Data – термин, который вы можете часто встретить на просторах интернета. Вы можете найти множество статей, докладов и прочих материалов по этому термину, но давайте попробуем разобраться в нём, потому что он не так страшен, как о нём говорят.
Читать: https://habr.com/ru/articles/845536/
#ru
@big_data_analysis | Другие наши каналы
50 оттенков линейной регрессии, или почему всё, что вы знаете об A/B тестах, помещается в одно уравнение
Всем привет! A/B тестирование уже давно стало стандартом в проверке гипотез и улучшении продуктов в X5. Но, как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.
Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?
Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.
Читать: https://habr.com/ru/companies/X5Tech/articles/846298/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! A/B тестирование уже давно стало стандартом в проверке гипотез и улучшении продуктов в X5. Но, как ни странно, многие из «модных» техник, которые применяются в A/B тестировании, на самом деле, не что иное, как вариации старой доброй линейной регрессии.
Основная идея здесь проста: правильное добавление новых переменных в модель помогает лучше контролировать внешние факторы и уменьшать шум в данных. Это позволяет точнее оценить эффект от воздействия и объединить разные статистические подходы, которые обычно рассматриваются отдельно. Но почему это работает? Почему всё сводится к тому, что добавление переменных помогает объединить, казалось бы, разрозненные техники?
Чтобы разобраться в этом, для начала вспомним основы линейной регрессии, после чего перейдём к различным статистическим методам снижения дисперсии и покажем, как они сводятся к линейной регрессии. Затем объединим все техники вместе и на примере покажем, как они работают на практике.
Читать: https://habr.com/ru/companies/X5Tech/articles/846298/
#ru
@big_data_analysis | Другие наши каналы
Кластеризация для души или как порадовать пользователя музыкального стриминга на старте
Всем привет! Меня зовут Татьяна Онофрюк, я аналитик в команде персонализации HiFi-стриминга Звук, и сегодня я расскажу про работу нашей команды с рекомендательными системами и кластеризацией по исполнителям и жанрам стриминга.
Читать: https://habr.com/ru/companies/zvuk/articles/846274/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Татьяна Онофрюк, я аналитик в команде персонализации HiFi-стриминга Звук, и сегодня я расскажу про работу нашей команды с рекомендательными системами и кластеризацией по исполнителям и жанрам стриминга.
Читать: https://habr.com/ru/companies/zvuk/articles/846274/
#ru
@big_data_analysis | Другие наши каналы
Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?
Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы.
На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.
Читать: https://habr.com/ru/articles/846932/
#ru
@big_data_analysis | Другие наши каналы
Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы.
На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.
Читать: https://habr.com/ru/articles/846932/
#ru
@big_data_analysis | Другие наши каналы
«Магнит» совершенствует сервис доставки: новые алгоритмы определяют лучший магазин для вашего заказа
Когда вы заказываете товары на сайте и в приложении, сервис доставки привозит их из магазинов «Магнит». Раньше для сборки заказов выбирался ближайший к покупателю магазин. Причём ближайший в буквальном смысле — по прямой. Это позволяло экономить на курьерах, но во всех магазинах разное количество сотрудников и ассортимент: где-то заказы собирали дольше, а где-то, из-за отсутствия определенных товаров, позиции в заказе меняли на аналоги. Поэтому мы решили поменять логику выбора магазинов, провели в нескольких городах пилотный проект и делимся первыми результатами.
Читать: https://habr.com/ru/companies/magnit/articles/847072/
#ru
@big_data_analysis | Другие наши каналы
Когда вы заказываете товары на сайте и в приложении, сервис доставки привозит их из магазинов «Магнит». Раньше для сборки заказов выбирался ближайший к покупателю магазин. Причём ближайший в буквальном смысле — по прямой. Это позволяло экономить на курьерах, но во всех магазинах разное количество сотрудников и ассортимент: где-то заказы собирали дольше, а где-то, из-за отсутствия определенных товаров, позиции в заказе меняли на аналоги. Поэтому мы решили поменять логику выбора магазинов, провели в нескольких городах пилотный проект и делимся первыми результатами.
Читать: https://habr.com/ru/companies/magnit/articles/847072/
#ru
@big_data_analysis | Другие наши каналы
Как оценить качество LLM модели
Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.
Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:
* Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
* LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
* LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.
Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с
Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.
Читать: https://habr.com/ru/articles/846748/
#ru
@big_data_analysis | Другие наши каналы
Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.
Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:
* Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
* LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
* LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.
Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с
n
параметров) лучше LLM Б (с m
параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений?Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.
Читать: https://habr.com/ru/articles/846748/
#ru
@big_data_analysis | Другие наши каналы
🔍 Развертывание Oracle Analytics Cloud с использованием Terraform
Узнайте, как развернуть два примера каналов частного доступа в Oracle Analytics Cloud с помощью Oracle Cloud Shell и провайдера OCI Terraform. Пошаговое руководство и советы экспертов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Узнайте, как развернуть два примера каналов частного доступа в Oracle Analytics Cloud с помощью Oracle Cloud Shell и провайдера OCI Terraform. Пошаговое руководство и советы экспертов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
🔍 Настройка Oracle Analytics Cloud с приватными каналами
С помощью Oracle Cloud Shell и провайдера OCI Terraform можно легко развернуть два примера приватных каналов доступа для Oracle Analytics Cloud. В статье описывается пошаговый процесс настройки и основные преимущества использования подобных каналов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
С помощью Oracle Cloud Shell и провайдера OCI Terraform можно легко развернуть два примера приватных каналов доступа для Oracle Analytics Cloud. В статье описывается пошаговый процесс настройки и основные преимущества использования подобных каналов.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Deploy Example Oracle Analytics Cloud Vanity URLs using the OCI Terraform Provider
Deploy two example Oracle Analytics Cloud private access channels using Oracle Cloud Shell and the OCI Terraform provider.
Поиск дубликатов в клиентском MDM на миллиард записей
Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.
Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.
Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.
В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.
Читать: https://habr.com/ru/companies/hflabs/articles/847012/
#ru
@big_data_analysis | Другие наши каналы
Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.
Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.
Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.
В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.
Читать: https://habr.com/ru/companies/hflabs/articles/847012/
#ru
@big_data_analysis | Другие наши каналы
От проваленного пилота до идеальной системы — как мы научились работать с LLM проектами
LLM — одно из самых сложных и интересных направлений в Data Light. В статье расскажу о своем опыте управления LLM-проектами: как провела с командой первый провальный пилот, какие инсайты по процессам из него извлекла, и как их после применила на успешных проектах.
Поговорим про работу с асессорами и валидаторами и про то, как сделать качественный продукт в сфере, главная специфика которой — субъективизм и отсутствие единой истины.
Если вы работаете с LLM-проектами в своей компании, а особенно — если думаете этим заняться, обязательно прочитайте статью! Расскажу об ошибках и как их не повторить, и успехах и как их добиться.
Читать: https://habr.com/ru/companies/data_light/articles/847170/
#ru
@big_data_analysis | Другие наши каналы
LLM — одно из самых сложных и интересных направлений в Data Light. В статье расскажу о своем опыте управления LLM-проектами: как провела с командой первый провальный пилот, какие инсайты по процессам из него извлекла, и как их после применила на успешных проектах.
Поговорим про работу с асессорами и валидаторами и про то, как сделать качественный продукт в сфере, главная специфика которой — субъективизм и отсутствие единой истины.
Если вы работаете с LLM-проектами в своей компании, а особенно — если думаете этим заняться, обязательно прочитайте статью! Расскажу об ошибках и как их не повторить, и успехах и как их добиться.
Читать: https://habr.com/ru/companies/data_light/articles/847170/
#ru
@big_data_analysis | Другие наши каналы
Подсчет уникальных значений поля в ClickHouse
Привет, Хабр! Существуют разные задачи в IT, многие решаются алгоритмически или условно за счет архитектурных решений. Среди всего многообразия задач также интересны задачи, решаемые с применением статистических методов.
Одной из таких задач является приближенный расчет количества уникальных значений в поле таблицы (или кардинальности). Казалось бы, практическая польза от быстрого расчета количества уникальных значений поля без больших затрат памяти невелика, однако это позволяет, например, построить оптимальный с точки зрения производительности SQL запрос с этим полем, или использовать это поле в UI (например, элемент с бесконечной прокруткой или элемент с поиском при значительном количестве уникальных значений, а не отображение конечного списка) и т.д. Задача может быть эффективно решена в СУБД, обладающей соответствующими инструментами, поэтому будет рассмотрен ClickHouse.
Интересно решение задачи поиска уникальных значений в ClickHouse? Добро пожаловать :)
Читать: https://habr.com/ru/articles/847458/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Существуют разные задачи в IT, многие решаются алгоритмически или условно за счет архитектурных решений. Среди всего многообразия задач также интересны задачи, решаемые с применением статистических методов.
Одной из таких задач является приближенный расчет количества уникальных значений в поле таблицы (или кардинальности). Казалось бы, практическая польза от быстрого расчета количества уникальных значений поля без больших затрат памяти невелика, однако это позволяет, например, построить оптимальный с точки зрения производительности SQL запрос с этим полем, или использовать это поле в UI (например, элемент с бесконечной прокруткой или элемент с поиском при значительном количестве уникальных значений, а не отображение конечного списка) и т.д. Задача может быть эффективно решена в СУБД, обладающей соответствующими инструментами, поэтому будет рассмотрен ClickHouse.
Интересно решение задачи поиска уникальных значений в ClickHouse? Добро пожаловать :)
Читать: https://habr.com/ru/articles/847458/
#ru
@big_data_analysis | Другие наши каналы
Дашборд как инструмент взаимодействия с бизнесом
Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом.
Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками.
Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты.
Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей.
Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным.
Читать: https://habr.com/ru/companies/beeline_tech/articles/847596/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Сегодня поговорим про дашборды — что это за инструмент такой и как с помощью него взаимодействовать с бизнесом.
Меня зовут Дарья Еськова, я аналитик данных в компании билайн. Если быть точнее, то в команде CLTV, лидирую направление автоматизации визуализации данных. Хочу поделиться с вами своим опытом и наработками.
Поговорим в основном про дашборды с точки зрения бизнеса. Есть технические дашборды, но акцент в посте будет на бизнес-дашбордах — на тех, которые смотрят наши руководители, менеджеры, бизнес-юниты.
Исходно дашбордом называли доску между кучером и лошадью, которая служила преградой для летящей из-под копыт грязи. Но, понятное дело, сейчас мы пользуемся этим словом совершенно для другого. Это информационная панель, которая отображает наши метрики. Как раз этот инструмент, который позволяет донести нужные цифры в нужное время для нужных людей.
Например, наш аналитик, я, кто-то из вас может сказать, что наши продажи выросли, и будет здорово, если бизнесу такой информации достаточно. Но зачастую происходит так, что бизнес просит подтвердить эти факты какими-то данными, которым мы доверяем. И вот как раз визуализация — это очень удобный инструмент, это интерфейс доступа к данным.
Читать: https://habr.com/ru/companies/beeline_tech/articles/847596/
#ru
@big_data_analysis | Другие наши каналы
Современная Lakehouse-платформа данных Data Ocean Nova
Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.
Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.
Читать: https://habr.com/ru/articles/847770/
#ru
@big_data_analysis | Другие наши каналы
Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.
Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.
Читать: https://habr.com/ru/articles/847770/
#ru
@big_data_analysis | Другие наши каналы
Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности
Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.
В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.
И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.
Давайте разбираться.
Читать: https://habr.com/ru/articles/847780/
#ru
@big_data_analysis | Другие наши каналы
Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.
В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.
И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке.
Давайте разбираться.
Читать: https://habr.com/ru/articles/847780/
#ru
@big_data_analysis | Другие наши каналы
Настройка Oracle Analytics Cloud в сложной архитектуре
Как правильно создать и настроить Oracle Analytics Cloud, если OAC и источник данных находятся в разных виртуальных сетях? Узнайте об эффективной интеграции и настройке на многосетевой архитектуре.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Как правильно создать и настроить Oracle Analytics Cloud, если OAC и источник данных находятся в разных виртуальных сетях? Узнайте об эффективной интеграции и настройке на многосетевой архитектуре.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Set up Oracle Analytics Cloud in a multi-Virtual Cloud Network architecture.
Мощь предсказательной аналитики с Oracle Analytics Cloud
Предсказательная аналитика помогает принимать обоснованные решения, прогнозируя тенденции на основе исторических данных. Платформа Oracle Analytics Cloud, с алгоритмами машинного обучения, получила признание как выбор клиентов 2024 от Gartner Peer Insights.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Предсказательная аналитика помогает принимать обоснованные решения, прогнозируя тенденции на основе исторических данных. Платформа Oracle Analytics Cloud, с алгоритмами машинного обучения, получила признание как выбор клиентов 2024 от Gartner Peer Insights.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Инфраструктура для Data-Engineer ClickHouse
В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".
Рекомендуется всем, кто ещё не знаком с ClickHouse.
В статье постарался всё кратко и понятно рассказать про ClickHouse.
Читать: https://habr.com/ru/articles/842818/
#ru
@big_data_analysis | Другие наши каналы
В этой статье я хочу показать как можно использовать ClickHouse в дата-инженерии и как его "пощупать".
Рекомендуется всем, кто ещё не знаком с ClickHouse.
В статье постарался всё кратко и понятно рассказать про ClickHouse.
Читать: https://habr.com/ru/articles/842818/
#ru
@big_data_analysis | Другие наши каналы
Контроль качества разметки на проекте: делай как ОКК
Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.
Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.
Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.
Читать: https://habr.com/ru/companies/data_light/articles/848234/
#ru
@big_data_analysis | Другие наши каналы
Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.
Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось.
Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.
Читать: https://habr.com/ru/companies/data_light/articles/848234/
#ru
@big_data_analysis | Другие наши каналы
«ИИ можно использовать для помощи в кризисных ситуациях, например, при буллинге или потере работы»
Как в таком чувствительном и социальном направлении, как ментальное здоровье, применять большие данные и искусственный интеллект? И может ли ИИ стать психологом? Эти весьма любопытные темы подняли в свежем выпуске подкаста Data Therapy от X5 Tech, гостем которого стал эксперт по управлению большими данными, работающий над проектом Crisis Trends Line, Алексей Артёмов. А ещё обсудили отличия в работе с данными и внедрении инноваций между компаниями в России и за рубежом, а также подходы к их регулированию.
Читать: https://habr.com/ru/companies/X5Tech/articles/848280/
#ru
@big_data_analysis | Другие наши каналы
Как в таком чувствительном и социальном направлении, как ментальное здоровье, применять большие данные и искусственный интеллект? И может ли ИИ стать психологом? Эти весьма любопытные темы подняли в свежем выпуске подкаста Data Therapy от X5 Tech, гостем которого стал эксперт по управлению большими данными, работающий над проектом Crisis Trends Line, Алексей Артёмов. А ещё обсудили отличия в работе с данными и внедрении инноваций между компаниями в России и за рубежом, а также подходы к их регулированию.
Читать: https://habr.com/ru/companies/X5Tech/articles/848280/
#ru
@big_data_analysis | Другие наши каналы