Оценка систем LLM: основные метрики, бенчмарки и лучшие практики
Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM.
Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM.
На повестке дня:
В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества
Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки
Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок
Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL
Читать: https://habr.com/ru/articles/874538/
#ru
@big_data_analysis | Другие наши каналы
Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM.
Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM.
На повестке дня:
В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества
Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки
Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок
Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL
Читать: https://habr.com/ru/articles/874538/
#ru
@big_data_analysis | Другие наши каналы
Цифровая трансформация как основа непрерывного улучшения производства
Всем привет! Сегодня в эфире – редкая тема, про IIoT. Команда промышленной аналитики и интернета вещей GlowByte обобщила и структурировала мысли о возможностях цифрового производства, которые, на их взгляд, раскрываются и развиваются одновременно при правильной организации цифровой трансформации производства и конфликтуют друг с другом – при неправильной.
Читать: https://habr.com/ru/companies/glowbyte/articles/875744/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Сегодня в эфире – редкая тема, про IIoT. Команда промышленной аналитики и интернета вещей GlowByte обобщила и структурировала мысли о возможностях цифрового производства, которые, на их взгляд, раскрываются и развиваются одновременно при правильной организации цифровой трансформации производства и конфликтуют друг с другом – при неправильной.
Читать: https://habr.com/ru/companies/glowbyte/articles/875744/
#ru
@big_data_analysis | Другие наши каналы
AI-тренер и AI-редактор. Полный гайд по профессии
Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей.
Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться.
Читать: https://habr.com/ru/companies/data_light/articles/875998/
#ru
@big_data_analysis | Другие наши каналы
Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей.
Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться.
Читать: https://habr.com/ru/companies/data_light/articles/875998/
#ru
@big_data_analysis | Другие наши каналы
От зеленой до красной: как CatBoost помогает распознавать AML риски
Привет! Меня зовут Булат Юсупов, я бизнес-аналитик команды T2 Fintech и сегодня продолжается серия публикаций на тему разработки необычных ML моделей для B2B сегмента. Сегодня хочу рассказать вам о том, как мы построили модель для оценки рисков в рамках двух важных направлений — KYC (ЗСК, «знай своего клиента») и AML («anti money laundering»). Если говорить проще, речь пойдет о том, как определить, насколько организация или ИП могут оказаться в так называемой «желтой» или «красной» зоне по критериям, установленным ЦБ РФ. Такие зоны связаны с рисками возможного отмывания денег или недостаточно добросовестным поведением на рынке.
И, хотя это звучит в определенной степени формально, посмотрим на задачу с точки зрения практики и технологий. Ведь в современном финансовом мире, где регуляторы ужесточают требования к банкам, а объемы проверок растут, умение быстро и точно оценивать контрагентов становится критически важным.
Читать: https://habr.com/ru/companies/t2/articles/875286/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Булат Юсупов, я бизнес-аналитик команды T2 Fintech и сегодня продолжается серия публикаций на тему разработки необычных ML моделей для B2B сегмента. Сегодня хочу рассказать вам о том, как мы построили модель для оценки рисков в рамках двух важных направлений — KYC (ЗСК, «знай своего клиента») и AML («anti money laundering»). Если говорить проще, речь пойдет о том, как определить, насколько организация или ИП могут оказаться в так называемой «желтой» или «красной» зоне по критериям, установленным ЦБ РФ. Такие зоны связаны с рисками возможного отмывания денег или недостаточно добросовестным поведением на рынке.
И, хотя это звучит в определенной степени формально, посмотрим на задачу с точки зрения практики и технологий. Ведь в современном финансовом мире, где регуляторы ужесточают требования к банкам, а объемы проверок растут, умение быстро и точно оценивать контрагентов становится критически важным.
Читать: https://habr.com/ru/companies/t2/articles/875286/
#ru
@big_data_analysis | Другие наши каналы
Быстрый матчинг товаров на маркетплейсе Wildberries
Привет! Меня зовут Павел Саликов, я Senior ML-инженер в команде Дубликатов Товаров Wildberries. В этой статье расскажу про наше решение матчинга товаров на маркетплейсе и про то, как удалось сделать его быстрым.
Читать: https://habr.com/ru/companies/wildberries/articles/876036/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Павел Саликов, я Senior ML-инженер в команде Дубликатов Товаров Wildberries. В этой статье расскажу про наше решение матчинга товаров на маркетплейсе и про то, как удалось сделать его быстрым.
Читать: https://habr.com/ru/companies/wildberries/articles/876036/
#ru
@big_data_analysis | Другие наши каналы
Big Data в 2025: Как изменились технологии работы с данными и что нас ждет дальше?
Big Data в 2025. Показываем основные технологии работы с большими данными. Рассматриваем пошаговую инструкцию ✔ Tproger
Читать: «Big Data в 2025: Как изменились технологии работы с данными и что нас ждет дальше?»
#ru
@big_data_analysis | Другие наши каналы
Big Data в 2025. Показываем основные технологии работы с большими данными. Рассматриваем пошаговую инструкцию ✔ Tproger
Читать: «Big Data в 2025: Как изменились технологии работы с данными и что нас ждет дальше?»
#ru
@big_data_analysis | Другие наши каналы
О прогнозировании в станкостроении
Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:
Читать: https://habr.com/ru/articles/876376/
#ru
@big_data_analysis | Другие наши каналы
Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:
Читать: https://habr.com/ru/articles/876376/
#ru
@big_data_analysis | Другие наши каналы
Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow
В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.
Читать: https://habr.com/ru/articles/876532/
#ru
@big_data_analysis | Другие наши каналы
В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.
Читать: https://habr.com/ru/articles/876532/
#ru
@big_data_analysis | Другие наши каналы
AI в энтерпайзе
Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными. В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море. Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.
Читать: https://habr.com/ru/articles/876638/
#ru
@big_data_analysis | Другие наши каналы
Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными. В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море. Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.
Читать: https://habr.com/ru/articles/876638/
#ru
@big_data_analysis | Другие наши каналы
Зачем в Look-a-like pseudolabelling (или самый простой метод PU-learning на службе у рекламщиков)
Каждый бизнес хочет меньше платить за рекламу -- и точность таргетирования здесь не на последних ролях. Как быть если вас только сотня-другая примеров ваших клиентов, а хочется получить несколько тысяч, не разорившись на маркетинг?
Публичные подходы к "поиску похожих" (часто говорят Look-a-like) в рекламе (видел их в статьях от рекламных агенств), даже с использованием Machine Learning, не лучшее из возможного.
Рассмотрим как можно сильно улучшить точность моделей в постановке Positive Unlabelled с помощью известного инструмента Pseudolabelling и позволить бизнесу терять в разы меньше денег, дотягиваясь именно до релевантных потенциальных клиентов.
Читать: https://habr.com/ru/articles/876646/
#ru
@big_data_analysis | Другие наши каналы
Каждый бизнес хочет меньше платить за рекламу -- и точность таргетирования здесь не на последних ролях. Как быть если вас только сотня-другая примеров ваших клиентов, а хочется получить несколько тысяч, не разорившись на маркетинг?
Публичные подходы к "поиску похожих" (часто говорят Look-a-like) в рекламе (видел их в статьях от рекламных агенств), даже с использованием Machine Learning, не лучшее из возможного.
Рассмотрим как можно сильно улучшить точность моделей в постановке Positive Unlabelled с помощью известного инструмента Pseudolabelling и позволить бизнесу терять в разы меньше денег, дотягиваясь именно до релевантных потенциальных клиентов.
Читать: https://habr.com/ru/articles/876646/
#ru
@big_data_analysis | Другие наши каналы
👍2
Государственные гранты для IT-проектов или почему финансирование достаётся единицам?
В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.
Читать: https://habr.com/ru/articles/876676/
#ru
@big_data_analysis | Другие наши каналы
В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.
Читать: https://habr.com/ru/articles/876676/
#ru
@big_data_analysis | Другие наши каналы
👍2
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
👍2
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/companies/kaspersky/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/companies/kaspersky/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
👍2
Оценка чат-ботов LLM: основные метрики и методы тестирования
В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.
В этой статье вы узнаете:
* Разницу между оценкой LLM-чат-ботов/диалогов и стандартной оценкой LLM
* Различные подходы к оценке LLM-диалогов
* Различные типы метрик для оценки LLM-чат-ботов
* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval
Читать: https://habr.com/ru/articles/876584/
#ru
@big_data_analysis | Другие наши каналы
В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.
В этой статье вы узнаете:
* Разницу между оценкой LLM-чат-ботов/диалогов и стандартной оценкой LLM
* Различные подходы к оценке LLM-диалогов
* Различные типы метрик для оценки LLM-чат-ботов
* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval
Читать: https://habr.com/ru/articles/876584/
#ru
@big_data_analysis | Другие наши каналы
❤2👍2
Как мы усовершенствовали CDP благодаря агрегатным атрибутам
Постоянный рост конкуренции на рынке вынуждает компании учиться глубже понимать клиентов и адаптировать свои предложения под их потребности. В решении этой задачи маркетологам, аналитикам данных и владельцам бизнеса помогают платформы клиентских данных, которые улучшают персонализацию маркетинговых кампаний и повышают эффективность взаимодействия с клиентами. Под катом мы расскажем, как платформы могут помочь в этом процессе, обсудим концепцию агрегатных атрибутов и их роль в оптимизации работы с данными о клиентах.
Читать: https://habr.com/ru/companies/lanit/articles/875642/
#ru
@big_data_analysis | Другие наши каналы
Постоянный рост конкуренции на рынке вынуждает компании учиться глубже понимать клиентов и адаптировать свои предложения под их потребности. В решении этой задачи маркетологам, аналитикам данных и владельцам бизнеса помогают платформы клиентских данных, которые улучшают персонализацию маркетинговых кампаний и повышают эффективность взаимодействия с клиентами. Под катом мы расскажем, как платформы могут помочь в этом процессе, обсудим концепцию агрегатных атрибутов и их роль в оптимизации работы с данными о клиентах.
Читать: https://habr.com/ru/companies/lanit/articles/875642/
#ru
@big_data_analysis | Другие наши каналы
👍2
Поддержка MDX в Luxms BI: комфортная миграция с Power BI
Сегодня у большинства крупных компаний есть схожая задача: в условиях санкционных рисков, постепенном «отключении» зарубежных систем и политики импортозамещения — перейти на отечественные решения, сохраняя при этом функционал, привычное качество решений и свои наработки.
Меня зовут Алексей Розанов, я руководитель пресейл направления и работы с партнерами ГК Luxms, вендора платформы Luxms BI.
Luxms BI — платформа бизнес-аналитики данных с высочайшим быстродействием и горизонтальной масштабируемостью. У нее мощные функциональные и визуальные возможности, а также быстрая обработка больших объемов данных благодаря своей датацентричной архитектуре. В Реестре российского ПО.
И как человек, который постоянно общается с заказчиками, я прекрасно понимаю, насколько сложным может быть переход с одной системы бизнес-аналитики на другую. Перенос данных, настройка ETL-процессов, интеграция с текущими бизнес-процессами, полная перестройка работы ИТ-служб — всё это требует значительных усилий. А для тех, кто использует Power BI и работает с многомерными кубами, задача усложняется многократно.
В этой статье я расскажу, как Luxms BI помогает нашим клиентам успешно адаптироваться к новым условиям, не теряя в гибкости и эффективности аналитики на примере реализации поддержки MDX-запросов.
Читать: https://habr.com/ru/companies/luxms_bi/articles/877238/
#ru
@big_data_analysis | Другие наши каналы
Сегодня у большинства крупных компаний есть схожая задача: в условиях санкционных рисков, постепенном «отключении» зарубежных систем и политики импортозамещения — перейти на отечественные решения, сохраняя при этом функционал, привычное качество решений и свои наработки.
Меня зовут Алексей Розанов, я руководитель пресейл направления и работы с партнерами ГК Luxms, вендора платформы Luxms BI.
Luxms BI — платформа бизнес-аналитики данных с высочайшим быстродействием и горизонтальной масштабируемостью. У нее мощные функциональные и визуальные возможности, а также быстрая обработка больших объемов данных благодаря своей датацентричной архитектуре. В Реестре российского ПО.
И как человек, который постоянно общается с заказчиками, я прекрасно понимаю, насколько сложным может быть переход с одной системы бизнес-аналитики на другую. Перенос данных, настройка ETL-процессов, интеграция с текущими бизнес-процессами, полная перестройка работы ИТ-служб — всё это требует значительных усилий. А для тех, кто использует Power BI и работает с многомерными кубами, задача усложняется многократно.
В этой статье я расскажу, как Luxms BI помогает нашим клиентам успешно адаптироваться к новым условиям, не теряя в гибкости и эффективности аналитики на примере реализации поддержки MDX-запросов.
Читать: https://habr.com/ru/companies/luxms_bi/articles/877238/
#ru
@big_data_analysis | Другие наши каналы
👍2
Возможности для разработчиков в Oracle Analytics
Oracle Analytics предоставляет инструменты для разработчиков, позволяя анализировать производительность компонентов визуализации. Эти функции доступны пользователям с правами администратора или автора контента, что расширяет возможности анализа и оптимизации данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle Analytics предоставляет инструменты для разработчиков, позволяя анализировать производительность компонентов визуализации. Эти функции доступны пользователям с правами администратора или автора контента, что расширяет возможности анализа и оптимизации данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Understanding Performance Statistics for Data Visualizations in Oracle Analytics
Oracle Analytics offers developer options that enable you to review performance statistics for visualization components. Developer options are available only to users with administrator or content author privileges.
👍2
Защита данных в Oracle Fusion Data Intelligence
Узнайте, как обеспечить безопасность ваших данных в Oracle Fusion Data Intelligence. Статья предлагает подробные шаги для скрытия конфиденциальных колонок в любой предметной области с помощью объектной безопасности. Откройте для себя эффективные методы защиты данных!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Узнайте, как обеспечить безопасность ваших данных в Oracle Fusion Data Intelligence. Статья предлагает подробные шаги для скрытия конфиденциальных колонок в любой предметной области с помощью объектной безопасности. Откройте для себя эффективные методы защиты данных!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Restrict PII Attribute in FDI Subject Area
This will describe steps to hide any sensitive column in a subject area through object level security.
👍2
Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос
Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.
Читать: «Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос»
#ru
@big_data_analysis | Другие наши каналы
Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.
Читать: «Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос»
#ru
@big_data_analysis | Другие наши каналы
👍2
Алгоритм k-means и метод локтя: кластеризация данных с примерами на Python
Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means.
Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python.
Читать: https://habr.com/ru/companies/skillfactory/articles/877684/
#ru
@big_data_analysis | Другие наши каналы
Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means.
Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python.
Читать: https://habr.com/ru/companies/skillfactory/articles/877684/
#ru
@big_data_analysis | Другие наши каналы
👍2