Этика представления данных в примерах: как нами манипулируют
Сейчас данные – новая нефть, этот тренд становится важным для принятия решений в компаниях. Зачем искажают данные? Обычно это делается, когда желаемое хотят выдать за действительное, представить что-то в выгодном свете, подтолкнуть к ошибочным выводам «на основе данных». Чаще такие искажения встречаются в презентациях, поскольку при использовании дашбордов пользователь, как правило, самостоятельно может углубиться в данные и перепроверить их, если возникают сомнения.
Привет, Хабр! Меня зовут Андрей Машковцев, я — ведущий BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об этике визуализации данных. Как представлять данные этично и каким образом нами манипулируют с помощью графики. Основные мысли переложил в статью. Напомню, что в первой части статьи я рассказывал, как не нужно визуализировать данные и показал антипаттерны на примерах. В этой статье приведу примеры намеренного искажения данных при визуализации и научу их распознавать.
Читать: https://habr.com/ru/articles/875050/
#ru
@big_data_analysis | Другие наши каналы
Сейчас данные – новая нефть, этот тренд становится важным для принятия решений в компаниях. Зачем искажают данные? Обычно это делается, когда желаемое хотят выдать за действительное, представить что-то в выгодном свете, подтолкнуть к ошибочным выводам «на основе данных». Чаще такие искажения встречаются в презентациях, поскольку при использовании дашбордов пользователь, как правило, самостоятельно может углубиться в данные и перепроверить их, если возникают сомнения.
Привет, Хабр! Меня зовут Андрей Машковцев, я — ведущий BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об этике визуализации данных. Как представлять данные этично и каким образом нами манипулируют с помощью графики. Основные мысли переложил в статью. Напомню, что в первой части статьи я рассказывал, как не нужно визуализировать данные и показал антипаттерны на примерах. В этой статье приведу примеры намеренного искажения данных при визуализации и научу их распознавать.
Читать: https://habr.com/ru/articles/875050/
#ru
@big_data_analysis | Другие наши каналы
Как я захотел проверить родинку на меланому, а в результате создал бесплатное приложение
Рак кожи, в частности меланома, – одна из самых опасных онкологических болезней. Ранняя диагностика значительно повышает шансы на успешное лечение. Но несмотря на это, большинство приложений, которые я нашел в PlayStore для анализа кожи оказались неожиданно громоздкими и дорогими. Казалось бы, что может быть проще формулы — нажми на кнопку, получишь результат? Вот и я так думал в поисках нужного приложения. Но, каждый раз приходилось заполнять профиль и анкеты только для того, чтобы оказаться перед экраном с реквизитами для оплаты. В итоге это вдохновило меня на создание бесплатного и простого в использовании приложения.
Читать: https://habr.com/ru/articles/875154/
#ru
@big_data_analysis | Другие наши каналы
Рак кожи, в частности меланома, – одна из самых опасных онкологических болезней. Ранняя диагностика значительно повышает шансы на успешное лечение. Но несмотря на это, большинство приложений, которые я нашел в PlayStore для анализа кожи оказались неожиданно громоздкими и дорогими. Казалось бы, что может быть проще формулы — нажми на кнопку, получишь результат? Вот и я так думал в поисках нужного приложения. Но, каждый раз приходилось заполнять профиль и анкеты только для того, чтобы оказаться перед экраном с реквизитами для оплаты. В итоге это вдохновило меня на создание бесплатного и простого в использовании приложения.
Читать: https://habr.com/ru/articles/875154/
#ru
@big_data_analysis | Другие наши каналы
🆒3
Merger в YTsaurus: безболезненное объединение данных в статических таблицах
Статические таблицы нужны, чтобы хранить в них неизменяемые данные. Это означает, что данные, записанные в статическую таблицу, нельзя модифицировать в произвольном месте — их можно либо перезаписать полностью, либо дополнить, сделав запись в конец таблицы.
Основная боль при работе с такой таблицей возникает при росте количества хранимых в ней данных. Время чтения или записи возрастает пропорционально её объёму. Из‑за этого может настать момент, когда взаимодействовать с таблицей становится просто невозможно, и пользователям приходится придумывать ухищрения, чтобы справиться с этим.
В этой статье мы разберём механизм мёрджа чанков с помощью мастер‑серверов, который мы реализовали для статических таблиц YTsaurus — нашей платформы распределённого хранения и обработки больших данных с открытым исходным кодом.
Читать: https://habr.com/ru/companies/yandex/articles/874228/
#ru
@big_data_analysis | Другие наши каналы
Статические таблицы нужны, чтобы хранить в них неизменяемые данные. Это означает, что данные, записанные в статическую таблицу, нельзя модифицировать в произвольном месте — их можно либо перезаписать полностью, либо дополнить, сделав запись в конец таблицы.
Основная боль при работе с такой таблицей возникает при росте количества хранимых в ней данных. Время чтения или записи возрастает пропорционально её объёму. Из‑за этого может настать момент, когда взаимодействовать с таблицей становится просто невозможно, и пользователям приходится придумывать ухищрения, чтобы справиться с этим.
В этой статье мы разберём механизм мёрджа чанков с помощью мастер‑серверов, который мы реализовали для статических таблиц YTsaurus — нашей платформы распределённого хранения и обработки больших данных с открытым исходным кодом.
Читать: https://habr.com/ru/companies/yandex/articles/874228/
#ru
@big_data_analysis | Другие наши каналы
Правда ли, что ленточные хранилища – самые надежные, и когда стоит покупать именно их, а не HDD
Ленточные накопители сохраняют свою актуальность даже в эпоху SSD и облачных технологий. Благодаря высокой надежности, экономической эффективности и уникальным свойствам они остаются незаменимыми в решении задач архивного хранения и резервирования данных. В этой статье мы рассмотрим, почему ленточные хранилища превосходят HDD, изучим их ключевые преимущества и ограничения, а также определим сценарии использования, в которых они наиболее уместны.
Читать: https://habr.com/ru/companies/x-com/articles/875280/
#ru
@big_data_analysis | Другие наши каналы
Ленточные накопители сохраняют свою актуальность даже в эпоху SSD и облачных технологий. Благодаря высокой надежности, экономической эффективности и уникальным свойствам они остаются незаменимыми в решении задач архивного хранения и резервирования данных. В этой статье мы рассмотрим, почему ленточные хранилища превосходят HDD, изучим их ключевые преимущества и ограничения, а также определим сценарии использования, в которых они наиболее уместны.
Читать: https://habr.com/ru/companies/x-com/articles/875280/
#ru
@big_data_analysis | Другие наши каналы
Оценка систем LLM: основные метрики, бенчмарки и лучшие практики
Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM.
Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM.
На повестке дня:
В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества
Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки
Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок
Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL
Читать: https://habr.com/ru/articles/874538/
#ru
@big_data_analysis | Другие наши каналы
Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM.
Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM.
На повестке дня:
В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества
Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки
Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок
Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL
Читать: https://habr.com/ru/articles/874538/
#ru
@big_data_analysis | Другие наши каналы
Цифровая трансформация как основа непрерывного улучшения производства
Всем привет! Сегодня в эфире – редкая тема, про IIoT. Команда промышленной аналитики и интернета вещей GlowByte обобщила и структурировала мысли о возможностях цифрового производства, которые, на их взгляд, раскрываются и развиваются одновременно при правильной организации цифровой трансформации производства и конфликтуют друг с другом – при неправильной.
Читать: https://habr.com/ru/companies/glowbyte/articles/875744/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Сегодня в эфире – редкая тема, про IIoT. Команда промышленной аналитики и интернета вещей GlowByte обобщила и структурировала мысли о возможностях цифрового производства, которые, на их взгляд, раскрываются и развиваются одновременно при правильной организации цифровой трансформации производства и конфликтуют друг с другом – при неправильной.
Читать: https://habr.com/ru/companies/glowbyte/articles/875744/
#ru
@big_data_analysis | Другие наши каналы
AI-тренер и AI-редактор. Полный гайд по профессии
Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей.
Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться.
Читать: https://habr.com/ru/companies/data_light/articles/875998/
#ru
@big_data_analysis | Другие наши каналы
Представьте, что искусственный интеллект — это ребенок, который только начинает учиться говорить и понимать окружающий мир, а AI-тренеры, редакторы и асессоры — это учителя и наставники. Они помогают ему разобраться, как правильно отвечать на вопросы, избегать ошибок и становиться полезным помощником для людей.
Но в чем разница между этими специальностями, какие карьерные перспективы для них существуют и какими качествами надо обладать, чтобы эффективно выполнять такую работу? Давайте разбираться.
Читать: https://habr.com/ru/companies/data_light/articles/875998/
#ru
@big_data_analysis | Другие наши каналы
От зеленой до красной: как CatBoost помогает распознавать AML риски
Привет! Меня зовут Булат Юсупов, я бизнес-аналитик команды T2 Fintech и сегодня продолжается серия публикаций на тему разработки необычных ML моделей для B2B сегмента. Сегодня хочу рассказать вам о том, как мы построили модель для оценки рисков в рамках двух важных направлений — KYC (ЗСК, «знай своего клиента») и AML («anti money laundering»). Если говорить проще, речь пойдет о том, как определить, насколько организация или ИП могут оказаться в так называемой «желтой» или «красной» зоне по критериям, установленным ЦБ РФ. Такие зоны связаны с рисками возможного отмывания денег или недостаточно добросовестным поведением на рынке.
И, хотя это звучит в определенной степени формально, посмотрим на задачу с точки зрения практики и технологий. Ведь в современном финансовом мире, где регуляторы ужесточают требования к банкам, а объемы проверок растут, умение быстро и точно оценивать контрагентов становится критически важным.
Читать: https://habr.com/ru/companies/t2/articles/875286/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Булат Юсупов, я бизнес-аналитик команды T2 Fintech и сегодня продолжается серия публикаций на тему разработки необычных ML моделей для B2B сегмента. Сегодня хочу рассказать вам о том, как мы построили модель для оценки рисков в рамках двух важных направлений — KYC (ЗСК, «знай своего клиента») и AML («anti money laundering»). Если говорить проще, речь пойдет о том, как определить, насколько организация или ИП могут оказаться в так называемой «желтой» или «красной» зоне по критериям, установленным ЦБ РФ. Такие зоны связаны с рисками возможного отмывания денег или недостаточно добросовестным поведением на рынке.
И, хотя это звучит в определенной степени формально, посмотрим на задачу с точки зрения практики и технологий. Ведь в современном финансовом мире, где регуляторы ужесточают требования к банкам, а объемы проверок растут, умение быстро и точно оценивать контрагентов становится критически важным.
Читать: https://habr.com/ru/companies/t2/articles/875286/
#ru
@big_data_analysis | Другие наши каналы
Быстрый матчинг товаров на маркетплейсе Wildberries
Привет! Меня зовут Павел Саликов, я Senior ML-инженер в команде Дубликатов Товаров Wildberries. В этой статье расскажу про наше решение матчинга товаров на маркетплейсе и про то, как удалось сделать его быстрым.
Читать: https://habr.com/ru/companies/wildberries/articles/876036/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Павел Саликов, я Senior ML-инженер в команде Дубликатов Товаров Wildberries. В этой статье расскажу про наше решение матчинга товаров на маркетплейсе и про то, как удалось сделать его быстрым.
Читать: https://habr.com/ru/companies/wildberries/articles/876036/
#ru
@big_data_analysis | Другие наши каналы
Big Data в 2025: Как изменились технологии работы с данными и что нас ждет дальше?
Big Data в 2025. Показываем основные технологии работы с большими данными. Рассматриваем пошаговую инструкцию ✔ Tproger
Читать: «Big Data в 2025: Как изменились технологии работы с данными и что нас ждет дальше?»
#ru
@big_data_analysis | Другие наши каналы
Big Data в 2025. Показываем основные технологии работы с большими данными. Рассматриваем пошаговую инструкцию ✔ Tproger
Читать: «Big Data в 2025: Как изменились технологии работы с данными и что нас ждет дальше?»
#ru
@big_data_analysis | Другие наши каналы
О прогнозировании в станкостроении
Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:
Читать: https://habr.com/ru/articles/876376/
#ru
@big_data_analysis | Другие наши каналы
Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:
Читать: https://habr.com/ru/articles/876376/
#ru
@big_data_analysis | Другие наши каналы
Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow
В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.
Читать: https://habr.com/ru/articles/876532/
#ru
@big_data_analysis | Другие наши каналы
В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.
Читать: https://habr.com/ru/articles/876532/
#ru
@big_data_analysis | Другие наши каналы
AI в энтерпайзе
Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными. В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море. Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.
Читать: https://habr.com/ru/articles/876638/
#ru
@big_data_analysis | Другие наши каналы
Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными. В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море. Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.
Читать: https://habr.com/ru/articles/876638/
#ru
@big_data_analysis | Другие наши каналы
Зачем в Look-a-like pseudolabelling (или самый простой метод PU-learning на службе у рекламщиков)
Каждый бизнес хочет меньше платить за рекламу -- и точность таргетирования здесь не на последних ролях. Как быть если вас только сотня-другая примеров ваших клиентов, а хочется получить несколько тысяч, не разорившись на маркетинг?
Публичные подходы к "поиску похожих" (часто говорят Look-a-like) в рекламе (видел их в статьях от рекламных агенств), даже с использованием Machine Learning, не лучшее из возможного.
Рассмотрим как можно сильно улучшить точность моделей в постановке Positive Unlabelled с помощью известного инструмента Pseudolabelling и позволить бизнесу терять в разы меньше денег, дотягиваясь именно до релевантных потенциальных клиентов.
Читать: https://habr.com/ru/articles/876646/
#ru
@big_data_analysis | Другие наши каналы
Каждый бизнес хочет меньше платить за рекламу -- и точность таргетирования здесь не на последних ролях. Как быть если вас только сотня-другая примеров ваших клиентов, а хочется получить несколько тысяч, не разорившись на маркетинг?
Публичные подходы к "поиску похожих" (часто говорят Look-a-like) в рекламе (видел их в статьях от рекламных агенств), даже с использованием Machine Learning, не лучшее из возможного.
Рассмотрим как можно сильно улучшить точность моделей в постановке Positive Unlabelled с помощью известного инструмента Pseudolabelling и позволить бизнесу терять в разы меньше денег, дотягиваясь именно до релевантных потенциальных клиентов.
Читать: https://habr.com/ru/articles/876646/
#ru
@big_data_analysis | Другие наши каналы
👍2
Государственные гранты для IT-проектов или почему финансирование достаётся единицам?
В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.
Читать: https://habr.com/ru/articles/876676/
#ru
@big_data_analysis | Другие наши каналы
В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.
Читать: https://habr.com/ru/articles/876676/
#ru
@big_data_analysis | Другие наши каналы
👍2
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
👍2
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/companies/kaspersky/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/companies/kaspersky/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
👍2
Оценка чат-ботов LLM: основные метрики и методы тестирования
В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.
В этой статье вы узнаете:
* Разницу между оценкой LLM-чат-ботов/диалогов и стандартной оценкой LLM
* Различные подходы к оценке LLM-диалогов
* Различные типы метрик для оценки LLM-чат-ботов
* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval
Читать: https://habr.com/ru/articles/876584/
#ru
@big_data_analysis | Другие наши каналы
В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.
В этой статье вы узнаете:
* Разницу между оценкой LLM-чат-ботов/диалогов и стандартной оценкой LLM
* Различные подходы к оценке LLM-диалогов
* Различные типы метрик для оценки LLM-чат-ботов
* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval
Читать: https://habr.com/ru/articles/876584/
#ru
@big_data_analysis | Другие наши каналы
❤2👍2
Как мы усовершенствовали CDP благодаря агрегатным атрибутам
Постоянный рост конкуренции на рынке вынуждает компании учиться глубже понимать клиентов и адаптировать свои предложения под их потребности. В решении этой задачи маркетологам, аналитикам данных и владельцам бизнеса помогают платформы клиентских данных, которые улучшают персонализацию маркетинговых кампаний и повышают эффективность взаимодействия с клиентами. Под катом мы расскажем, как платформы могут помочь в этом процессе, обсудим концепцию агрегатных атрибутов и их роль в оптимизации работы с данными о клиентах.
Читать: https://habr.com/ru/companies/lanit/articles/875642/
#ru
@big_data_analysis | Другие наши каналы
Постоянный рост конкуренции на рынке вынуждает компании учиться глубже понимать клиентов и адаптировать свои предложения под их потребности. В решении этой задачи маркетологам, аналитикам данных и владельцам бизнеса помогают платформы клиентских данных, которые улучшают персонализацию маркетинговых кампаний и повышают эффективность взаимодействия с клиентами. Под катом мы расскажем, как платформы могут помочь в этом процессе, обсудим концепцию агрегатных атрибутов и их роль в оптимизации работы с данными о клиентах.
Читать: https://habr.com/ru/companies/lanit/articles/875642/
#ru
@big_data_analysis | Другие наши каналы
👍2
Поддержка MDX в Luxms BI: комфортная миграция с Power BI
Сегодня у большинства крупных компаний есть схожая задача: в условиях санкционных рисков, постепенном «отключении» зарубежных систем и политики импортозамещения — перейти на отечественные решения, сохраняя при этом функционал, привычное качество решений и свои наработки.
Меня зовут Алексей Розанов, я руководитель пресейл направления и работы с партнерами ГК Luxms, вендора платформы Luxms BI.
Luxms BI — платформа бизнес-аналитики данных с высочайшим быстродействием и горизонтальной масштабируемостью. У нее мощные функциональные и визуальные возможности, а также быстрая обработка больших объемов данных благодаря своей датацентричной архитектуре. В Реестре российского ПО.
И как человек, который постоянно общается с заказчиками, я прекрасно понимаю, насколько сложным может быть переход с одной системы бизнес-аналитики на другую. Перенос данных, настройка ETL-процессов, интеграция с текущими бизнес-процессами, полная перестройка работы ИТ-служб — всё это требует значительных усилий. А для тех, кто использует Power BI и работает с многомерными кубами, задача усложняется многократно.
В этой статье я расскажу, как Luxms BI помогает нашим клиентам успешно адаптироваться к новым условиям, не теряя в гибкости и эффективности аналитики на примере реализации поддержки MDX-запросов.
Читать: https://habr.com/ru/companies/luxms_bi/articles/877238/
#ru
@big_data_analysis | Другие наши каналы
Сегодня у большинства крупных компаний есть схожая задача: в условиях санкционных рисков, постепенном «отключении» зарубежных систем и политики импортозамещения — перейти на отечественные решения, сохраняя при этом функционал, привычное качество решений и свои наработки.
Меня зовут Алексей Розанов, я руководитель пресейл направления и работы с партнерами ГК Luxms, вендора платформы Luxms BI.
Luxms BI — платформа бизнес-аналитики данных с высочайшим быстродействием и горизонтальной масштабируемостью. У нее мощные функциональные и визуальные возможности, а также быстрая обработка больших объемов данных благодаря своей датацентричной архитектуре. В Реестре российского ПО.
И как человек, который постоянно общается с заказчиками, я прекрасно понимаю, насколько сложным может быть переход с одной системы бизнес-аналитики на другую. Перенос данных, настройка ETL-процессов, интеграция с текущими бизнес-процессами, полная перестройка работы ИТ-служб — всё это требует значительных усилий. А для тех, кто использует Power BI и работает с многомерными кубами, задача усложняется многократно.
В этой статье я расскажу, как Luxms BI помогает нашим клиентам успешно адаптироваться к новым условиям, не теряя в гибкости и эффективности аналитики на примере реализации поддержки MDX-запросов.
Читать: https://habr.com/ru/companies/luxms_bi/articles/877238/
#ru
@big_data_analysis | Другие наши каналы
👍2