Progres Post
273 subscribers
37 photos
1 video
16 files
179 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Ковбои против пришельцев, а маркетологи против дата-инженеров

В статье Data Engineering: Now with 30% More Bullshit автор лихо прошелся по новомодным понятиям Medallion Architecture, Modern Data Stack, Data Fabric и Zero ETL.

Он считает, что за красивыми новыми словами маркетологи скрывают отсутствие инноваций.

Разбираемся, что же с этими понятиями не так:

1. Medallion Architecture

Трехслойная модель Bronze → Silver → Gold повторяет классику: Data Warehouse, Data Vault, Write-Audit-Publish. Полезная ментальная модель, но не инновация.

Зависимости между слоями создают риски: изменение в Bronze ломает Gold. Комментаторы согласны: архитектура — иллюстрация эволюции, а не революции. Суть — в базовых принципах, а не в названиях слоев.

2. Modern Data Stack

Изначально это маркетинговый термин. Он описывал широкий класс инструментов для работы с данными, ориентированными на максимально быстрый старт и изучение. Это достигалось SaaS-парадигмой продвижения: с облачным развертыванием и началом использования по схеме «Привяжи карту и нажми ОК».

Snowflake/Databricks как база, Fivetran/Airbyte для доставки данных, DBT/Dagster для оркестрации, Monte Carlo для Data Observability, Segment для reverse ETL.

Сейчас термин вызывает скепсис. Он породил тысячи компаний, дата-инфраструктура которых состоит из десятков разнородных элементов от разных вендоров. Работают они кое-как, но регулярно выкачивают деньги со счета.

Многие инструменты помогли изучить продуктовый сценарий и проблематику для создания надежных органических решений. Сам по себе Modern Data Stack стал воплощением фразы Launch fast, support never.

3. Data Fabric

Data Fabric — переупаковка старых концепций: виртуализация данных, централизованные метаданные и ML. Маркетинг обещает бесшовность, но ручная настройка коннекторов и очистка данных остаются.

Успешные кейсы редки: есть, например, Сбербанк, но кроме него никого не видно. Как отметили в комментах, термин теряет актуальность, но вендоры продолжают его эксплуатировать. Интеграция данных сложна, а волшебство лучше оставить диснеевским и советским сказкам.

4. Zero ETL

Идея не отменяет необходимость очистки и трансформации — задачи переносятся на API и стриминг. Работает только в замкнутых экосистемах типа Snowflake и Databricks, но не при работе с разрозненными источниками вроде CRM и SAP.

Бизнес-запросы требуют агрегации, а сырые данные бесполезны для аналитики. Zero ETL — ребрендинг ETL, а не его замена.

Вывод

Тренды — это эволюция, а не революция. Успех зависит не от терминов, а от умения решать задачи: проектировать, чистить, документировать. Как сказано в статье: «Инструменты не решают проблемы. Это делают люди».

За комментарий спасибо Николаю Голову, директору по продукту.

#аналитика #статьи
👍83❤‍🔥2🔥1
А Guide to Building Agents.pdf
7 MB
Бесплатный гайд по созданию ИИ-агентов

В OpenAI снова делятся полезностями. Забирайте гайд по созданию ИИ-агентов.

Внутри пошаговый план создания агента — от концепции до внедрения, с акцентом на безопасность и практические примеры:

- Потенциал агентов в автоматизации задач.

- В чем отличие агентов от простых LLM-приложений.

- Как сэкономить при создании ИИ-агента.

- Готовая структура разработки: инструменты, инструкции, примеры кода.

- Распространенные ошибки.

Кстати, в Cloudera опросили 1500 крупнейших айти-компаний и опубликовали отчет «Будущее корпоративных ИИ-агентов».

Главное из отчета:

Среди опрошенных компаний 57% начали внедрять агентный ИИ два года назад, а 21 % — в прошлом году. 83% считают ИИ-агентов критически важными в создании конкурентного преимущества. 59% опасаются отставания при задержке внедрения. 96% планируют масштабировать развертывание в течение года.

#ии #исследования
👍5❤‍🔥2👾21🔥1
ИИ от Гугла, который понимает геоданные

В России пока отсутствует госполитика публикации открытых геоданных. Почти все наборы такой информации не распространяются свободно.

Несмотря на то, что есть перспективные проекты по работе с ними. В Росгосстрахе собираются учитывать геоданные для предсказания аварий.

В Гугле пошли дальше и представили Geospatial Reasoning — фреймворк, объединяющий Gemini и геопространственные модели для решения задач в кризисном реагировании, здравоохранении, климате и коммерции.

В основе Geospatial Reasoning три группы моделей: одна изучает динамику населения, вторая — маршруты перемещений, а третья автоматически обрабатывает и понимает спутниковые и аэрофотоснимки.

После урагана платформа сравнит снимки до и после. Определит поврежденные здания, оценит ущерб и уязвимость районов, а затем подскажет, куда направить помощь в первую очередь.

Airbus, Maxar, Planet Labs и WPP уже участвуют в бета‑тесте: анализируют триллионы спутниковых пикселей, обновляют онлайн‑карту Земли и получают бизнес‑инсайты из ежедневных снимков.

#ии
❤‍🔥4👍4👏21
Опросник.xlsx
59.3 KB
Как в Банке России оценивают уровень зрелости СУД

Всем участникам финансового рынка в Банке России предлагают единый инструмент оценки зрелости систем управления данными: опросник и модель.

Кому будет полезно:

- Руководители по данным (CDO) и их офисы, ответственные за стратегию управления данными.

- BI‑подразделения, занимающиеся архитектурой, интеграцией и хранением данных.

- Специалисты по качеству и безопасности данных, отвечающие за качество и защиту информации.

- Руководители проектов цифровой трансформации, которым важна аналитика зрелости перед внедрением новых решений.

- Регуляторы и внутренние аудиторы, использующие результаты оценки для мониторинга и контроля соответствия финансовых организаций.

Чем будет полезно:

С помощью методики и опросника участники рынка могут диагностировать приоритетные направления улучшений, обосновывать инвестиции, оптимизировать регуляторную отчетность и формировать культуру Data Governance.

Поделитесь с коллегами из финансового сектора.

#безопасность
👍4❤‍🔥3🙏2🔥11
У кого митинги, а у кого — нытинги

Наверняка разработчики на митингах уже обсуждают, какие задачи можно перенести на после майских. В это время где-то на нытингах директора по данным обсуждают, как дальше жить.

Мы к вам с главными проблемами, над которыми они там бьются:

1. Отсутствие полного контроля над данными

Как отвечать за то, над чем у вас нет полного контроля?

Тем не менее, по данным исследования, только половина опрошенных CDO сообщили, что полностью управляют данными в компании. Остальные делят полномочия с другими топ-менеджерами и руководителями подразделений.

Кроме того, Data Governance — главный приоритет только для 44% опрошенных CDO.

2. Нет определенности в задачах

Среди опрошенных 62% сообщили, что их роль не так хорошо изучена, как другие руководящие должности в их компаниях. Только 35% считают роль устоявшейся.

В среднем CDO занимают свою должность всего 2,5 года.

Это выливается в неясные приоритеты и туманные ожидания. Приносить измеряемую пользу в таких условиях тяжко.

3. Не хватает ресурсов

Если задачи иногда все-таки ставятся понятные, то вот с ресурсами, которые нужны для их выполнения, все хуже. Деньги ведь не делаются из воздуха. Они делаются из других денег или прочих ресурсов.

С нехваткой ресурсов сталкиваются 53% CDO.

Руководством по Data Governance обычно занимаются 2-3 человека, а весь отдел из аналитиков и инженеров чаще всего не превышает 12-15 человек. И это в крупных компаниях с тысячами сотрудников.

По слухам, в Т-Банке с этим все хорошо: там доля аналитиков в штате на порядок выше средней по больнице.

4. Нет культуры по работе с данными

Среди опрошенных 62% считают, что главная проблема — трудности с изменением поведения и отношения к данным внутри компании. И самое пугающее: 56% говорят, что в компании вообще нет культуры принятия решений на основе данных.

Кто же их тогда там нанял на роль CDO и зачем? Для галочки?

Снова повторим, что хватит повторять, что данные — новая нефть. Идите и бурите.

#исследования
👍5🔥3😱3❤‍🔥2
52% CDO хотят отчитываться напрямую CEO, но пока так делают только 3%

Это главный и самый удручающий факт из исследования Deloitte Chief Data Officer Survey 2024. Еще печальнее только то, что в 2023 году таких было 7%.

Кто виноват в растущей дистанции власти?

Подчиненные всегда хотят сократить дистанцию власти, а руководители — увеличить. Это часть культурного кода: в одних странах дистанция власти исторически больше, а в других меньше.

В статье «Влияние дистанции власти на взаимоотношения людей в обществе» показано, как сотрудники IBM на одних и тех же позициях в разных регионах мира по-разному оценивают дистанцию власти.

Ниже всего показатель в Австрии, Израиле и Дании. Вероятно, у тамошних CDO палок в колесах и иерархических проблем меньше, чем в Малайзии, Гватемале и Панаме — там дистанция власти самая большая.

Вряд ли все дело в региональной ментальности, но культурные коды некоторых стран точно сказываются на успехах CDO. Ибо прямой контакт с CEO — важнейшая составляющая успеха: если CDO не взаимодействует с руководством, то никакой культуры Data Driven не возникнет.

Прочие интересности из исследования:

- Стратегию по данным внутри компаний имеют 73% CDO. Неплохо. Однако только половина согласовала эту стратегию с бизнес-целями компании. Вопрос: зачем вторая половина вообще готовила стратегию, если она с бизнесом не стыкуется?

- По сравнению с 2023 годом свой бюджет смогли увеличить 45% CDO. Радуемся за них и сочувствуем 44% тех, кому бюджет урезали. Менее везучие работают в основном в госсекторе.

- Несмотря на развитие законодательства в области данных, только 15% CDO выделили соответствие требованиям закона как приоритет.

Нужно признать, что CDO все чаще выходят на поле вместо того, чтобы сидеть на скамейке запасных, но вот передач от партнеров по команде они получают недостаточно.

#исследования
👍7❤‍🔥3👾22
Владимир_Савельев_«Статистика_и_котики».pdf
4.7 MB
Не мемы про котиков, но тоже умилительно, а еще познавательно и интересно

Книга Владимира Савельева «Статистика и котики» на пальцах кошках объясняет базовые вещи, которые прокачают любого начинающего специалиста по работе с данными.

Преподаватель курса «Культура работы с данными» в Вышке:

Сначала в книге показывают разницу между средним и медианой, затем учат рассчитывать дисперсию и доверительные интервалы, а ближе к концу рассказывают про метод главных компонент.

Все это объясняется максимально простым языком, а в качестве иллюстраций используются забавные котики, которые надолго остаются в памяти. По мнению автора, они помогают посмотреть на статистику с другой стороны. Не как на сухую и безжизненную науку, а как на интересную дисциплину, которая может быть такой же милой и пушистой, как и домашние питомцы.


Поделитесь с подрастающими спецами. Идеальное чтиво для студентов и стажеров, которые хотят стать аналитиками и дата-сайентистами.
❤‍🔥7👍4🙏3💘1
Индийские программисты за вайб-кодинг

На сайте AI Tools опубликовали рейтинг стран по использованию ИИ в 2024 году.

В рейтинге учитывается число посещений 10 тысяч ИИ-сервисов.

На первом месте США, что предсказуемо.

На втором — Индия.

Нам показалось интересным это не только в контексте того, что Индия уже не первый год обгоняет Китай по населению, но и в контексте того, как много в сети обсуждений вайб-кодинга, и как много в Индии программистов.

Есть и другие занимательные неожиданности:

В 2023 году Россия занимала в рейтинге 16 место (1,09 млрд посещений), а Китай — 15 место (1,14 млрд).

В 2024 году мы обогнали китайцев, оставшись на 16 месте (1,46 млрд посещений), а Поднебесная опустилась на 19 позицию (1,38 млрд).

На 4 место в 2024 году поднялась Кения (3,52 млрд посещений). В 2023 году она была лишь на 43 месте (313 млн посещений). Невероятный рывок.

Черный континент может стать интересным рынком для тех, кто разрабатывает нейросети.

#ии #исследования
👍43❤‍🔥2🔥2
Немного хардкорчика для SQL-спецов на вечер

Мы уже публиковали игры для изучения SQL.

Однако это другой уровень:

Datastar — обучающая многопользовательская текстовая космическая игра, полностью реализованная и запускаемая внутри базы данных PostgreSQL.

Игроки управляют действиями с помощью SQL-запросов, что делает игру одновременно учебной платформой для освоения SQL и увлекательным симулятором.

Механика

Игроки исследуют вселенную, торгуют, добывают ресурсы, улучшают корабли и соревнуются с другими игроками и NPC.

Геймплей

Выполняется через SQL-запросы (например, SELECT fly(3);), используя любой интерфейс PostgreSQL (например, psql или Edbit).

Цель

Заработать как можно больше денег, автоматизируя действия через скрипты и SQL-функции.

Глубина

Игра включает экономику, чат между игроками, таблицу лидеров, возможность скриптовать каждое действие и создавать автоматизированные стратегии.

Особенности

Можно сохранять исторические данные, создавать представления (VIEW), использовать автоматические команды (tick-commands), которые выполняются каждую игровую «тик-секунду».

Datastar — отличный способ погрузиться в практику SQL через геймплей и в то же время потренировать навыки анализа данных и оптимизации запросов.

Недостаток/преимущество

Datastar бесплатная, но чтобы поиграть, игру нужно будет развернуть у себя на машине.

Делитесь с друзьями и коллегами, которым уже некогда играть в Старкрафт.

#sql
👍13👾4❤‍🔥2🔥2
Как производители авто зарабатывают на данных

По данным исследования, рынок монетизации автомобильных данных оценивается в €1,7 млрд. К 2030 году он вырастет до €3 млрд, прибавляя 10% ежегодно.

Какие у рынка драйверы роста

1. Сервисы аналитики. Системы на базе ИИ обрабатывают огромные объемы телеметрии, предсказывают поломки и улучшают дизайн деталей. Это подстегивает инвестиции в инфраструктуру и софт.

2. Стартапы и коллаборации. Малые технологические компании быстро создают новые сервисы на основе автомобильных данных. Вместо того, чтобы конкурировать, автопроизводители либо сотрудничают с ними, либо покупают.

3. Новые отрасли. Страховщики используют данные о манере вождения для установки тарифов, энергетики — для оптимизации зарядки электромобилей, а города — для планирования трафика.

Что делают автопроизводители

- Mercedes‑Benz запустил маркетплейс, где продает разработчикам анонимизированные телеметрические данные.

- BMW самостоятельно без посредников находит корпоративных клиентов, которым нужны данные автомобилей.

- Ford развивает программу для разработчиков: сторонние приложения работают с данным авто через открытые API.

- General Motors через OnStar продает автопаркам данные для управления транспортом и контроля за износом деталей.

Как монетизируют эти данные

1. Прямо: клиенты платят за удаленную диагностику, страховку на основе реального стиля езды, подписку на сервисы внутри автомобиля и мониторинг здоровья пассажиров.

2. Косвенно: персонализированная реклама, предупреждения о потенциальных поломках, расширенные программы послепродажного обслуживания.

К 2030 году 40% автомобилей в мире будут собирать и передавать данные.

#деньги #исследования
👍6❤‍🔥32🔥1
Этическая дилемма: персональные цены или персональные данные

Раньше в ценообразовании учитывали только рыночные данные: спрос, предложение, сезонность, конкуренцию. Сейчас большие данные и машинное обучение позволяют персонализировать цену под каждого покупателя.

Спойлер: это не всегда этично и не всегда законно.

Ваня и Таня покупают одну и ту же арахисовую пасту в одно и то же время. Ваня за ₽300, Таня — за ₽250. Разница — в собранных о Ване и Тане данных: любимая марка, история покупок и так далее.

В Маккинзи это называют цифровой трансформацией ценообразования. Хотя куда точнее звучит термин алгоритмическое цифровое неравенство.

Цифровая слежка

Разные люди могут заплатить очень разные суммы за один и тот же продукт или услугу. В некоторых отраслях, например, в гостиницах или авиабилетах такая практика считается приемлемой. Это не новость.

Что нового — так это включение персонализированных данных покупателя, включая предположения (инференции), в алгоритмы ценообразования. Федеральная торговая комиссия США назвала это ценовой слежкой (surveillance pricing) и недавно опубликовала итоги исследования такой практики.

Правовой аспект

В Канаде один юрист предложил рассматривать проблему через призму разумности использования персональных данных для персонализированного ценообразования, оптимизированного под готовность клиента заплатить.

Он заключил:

При установлении цены использование личной информации клиента для оценки его максимальной готовности заплатить противоречит основным принципам действительного согласия и разумной цели в рамках законодательства о защите данных.


Если бы такие механизмы были полностью прозрачны, большинство людей, вероятно, посчитало бы их неприемлемыми.

Грань допустимого

Можно ли устанавливать цену с учетом:

- Пола, возраста, расы, инвалидности? Скорее всего, незаконно, ибо дискриминация.

- Дохода, района проживания? Спорно, может вести к косвенной дискриминации.

- Поведенческих паттернов: стал отцом, в разводе, в депрессии? Этически сомнительно, особенно при непрозрачной логике алгоритма.

Вопрос стоит не только в том, можно ли так делать, но и в том, должны ли мы так делать?

Оригинальная статья: Ask a Data Ethicist: How Is Price Optimization a Data Ethics Issue?

#аналитика #деньги #статьи
👍7❤‍🔥3👌3
Новая нефть. Новая угроза

Профессор ВШЭ, Роман Нестер рассказывает, как зарождалась и развивалась индустрия персональных данных. Как мы пришли от торговли людьми к торговле данными этих людей, а из потребителей ресурсов превратились в ресурс.

Текст читается взахлеб, но если времени нет совсем, вот главное из статьи:

Во-первых, наконец-то кто-то об этом рассказал: то самое сравнение с нефтью вырвано из контекста.

Все началось в 2006-м, когда британский математик Клайв Хамби, консультировавший торговую сеть Tesco, в одном из публичных выступлений сравнил маркетинговые данные с нефтью. Он имел в виду, что данные бесполезны сами по себе, и только если построить сложную систему очистки, перегонки и переработки, в них появится ценность. К сожалению, все запомнили эту фразу совсем в другом контексте: мол, данные каждого клиента — это ценнейший актив, и нужно собирать их как можно больше.


Во-вторых, есть сравнение получше.

Публицист и исследователь рынка О’Райли говорит: данные — это не нефть, а новый песок. Песок используется в производстве полупроводников. Но мы не задаемся вопросом «Какова цена песка?». Ведь для создания ценности из него нужна огромная производственная цепочка, и ценность приходит от применения самих полупроводников. Они требуют десятков лет производства и изобретений, чтобы из песка получилась ценность.


Откуда мы пришли? Кто мы? Куда мы идем?

Зайти на рынок новой нефти хотели все. Кто-то собирал данные из мобильных приложений. Кто-то агрегировал идентификаторы телефонов пользователей, которые проходили мимо специальных фальшивых вайфай-передатчиков. Кто-то делал плагины для браузеров, которые видели всю активность в сети.

Телеком-операторы и банки покупали себе стартапы. Telenor, присутствующий в 20 странах, купил американский Tapad, чтобы научиться собирать данные про своих абонентов и зарабатывать на рекламе, Сбербанк купил систему Segmento. Друг за другом на рекламный рынок вышли мобильные операторы и позволили использовать свои данные рекламодателям.

Крупнейшие интернет-компании стали восприниматься как корпорации зла, а сбор данных стал преступлением, с которым общество мирится. Но лишь до поры до времени.

Запрет на сбор данных сильнее всего ударит по независимых контент-мейкерам. Их доход упадет минимум вдвое. Гугл и Майкрософт же потеряют всего 10-15% прибыли. Русский бунт получается.

Рынок цифровой рекламы в России — ₽300 млрд в год. На контент и продвижение сайтов и приложений приходится ₽150 млрд. Из которых ₽75 млрд — расходы на таргетинг. Если этих денег не станет, не выживут никакие ресурсы, кроме государственных.

Если государство вернет себе монополию на личные данные граждан, ужесточит законы и увеличит штрафы, то спровоцирует отказ от трекинга. Бизнес станет больше тратить на неэффективную рекламу, а лишние расходы переложит на конечного покупателя.

Так соглашаться на куки или нет?

#деньги #статьи
👍3🔥3❤‍🔥22
Кем надо было работать 10 лет назад, чтобы сегодня стать директором по данным

На роль директора по данным (CDO) приходят из разных дисциплин: 40% бывшие айтишники, 30% дата-менеджеры, 15% финансисты, 10% операционщики и 5% маркетологи.

С клиентами в прошлом работал 21% сегодняшних CDO. Влияет ли такой опыт на представление о том, как с помощью данных улучшить обслуживание клиентов? Наверняка.

И влияние это сильнее, чем кажется.

Все они работают с данными: дата-менеджеры, айтишники, маркетологи и финансисты. Но все по-разному.

Они по разному смотрят на данные, по-разному понимают, для разного используют, в разных контекстах изучают и вообще у них работа разная.

Задачи CDO в разных компаниях отличаются меньше, чем задачи маркетолога и айтишника внутри одной компании. Так что эти двое, когда вырастут, станут CDO и возьмутся за примерно одинаковые задачи, получат совсем разный результат.

Что будет, если айтишник станет CDO на заводе, который производит левую палочку Твинкс, а маркетолог на заводе, производящем правую палочку? Палочки станут настолько разными, что их перестанут продавать вместе.

И все же.

Большинство CDO работали в айти. Это значит, что айтишники больше прочих подходят для этой роли? Вряд ли.

Когда назначают CDO из числа айтишников, в его зону ответственности естественно переходят айтишные функции CIO: сбор, управление и защита данных. Биллу Шмарцо кажется, что айти-бэкграунд вреден.

Раз уж монетизация — самая зудящая задача в работе с данными, то разумно взять на роль CDO финансиста. Он умеет оценивать абстрактные активы, включая данные, и извлекать из них максимальную ценность.

Вы бы кого назначили CDO?

#аналитика
🔥5❤‍🔥3👍2👨‍💻2
Почему время так важно для работы с данными

В мире генерируется все больше и больше данных. Если с ростом объема данных не увеличивать скорость обработки, система аналитики будет работать все хуже и хуже.

У кого много данных, те это понимают и тратятся на аналитику в реальном времени.

По прогнозу MarketsAndMarkets рынок потоковой аналитики вырастет с $30 млрд в 2024 году до $126 млрд в 2029 году. Это значит, что каждый год рынок будет расти в среднем на 34%.

На пальцах:

Сбор и аналитика данных нужны, чтобы принимать оптимальные в текущих обстоятельствах решения.

Пошлины на бразильский кофе внезапно подняли вчера вечером, но если вы ждали весточку голубиной почтой, то узнаете об этом только сегодня.

Пока пользующиеся пейджерами конкуренты скупают у оптовиков все, что есть по старым ценам, вы ждете новостей.

Когда получите с голубем совет срочно скупать кофе по оптовым базам, обстоятельства уже изменятся. Вы либо ничего не купите, либо переплатите.

Имей вы систему потоковой аналитики, узнали бы о повышении пошлин еще до того, как об этом объявили публично.

Как это работает:

- В колл-центрах алгоритмы анализируют ход разговора и во время звонка помогают оператору направить беседу по нужному сценарию. Система мгновенно сообщит, если в речи клиента что-то выдаст его желание уйти к конкурентам. Тогда оператор сможет удержать перебежчика.

- Потоковая аналитика на складе позволяет мгновенно реагировать на сделки, чтобы вовремя сокращать или наращивать запасы. Это защищает от упущенных продаж и переполненности склада.

- Производства с помощью потоковой аналитики в реальном времени следят за ресурсом оборудования и состоянием линии. Реагируя на сбой, который еще не случился, завод снижает риск простоя из-за поломки.

- Банк с помощью аналитики в реальном времени сопоставляет остаток на карте и геолокацию телефона. Если клиент в торговом центре и без денег, это может быть идеальным моментом, чтобы предложить ему кредитку.

Иногда алгоритмы сражаются:

Банку нужно принять решение о выдаче кредита как можно быстрее. Люди подают заявку на кредитку в несколько банков. Поэтому проанализировать сотни или тысячи параметров надо не только быстро и с учетом данных в реальном времени. Важно одобрить кредит раньше, чем это сделают в банке другого цвета.

Решения для потоковой аналитики кажутся дорогими. Однако отсутствие такой аналитики может обходиться еще дороже.

Конкуренты с пейджерами успели закупиться по старой цене, а вас теперь ждет кассовый разрыв и дефицит товара на складе.

Во сколько раз голубь должен быть дешевле пейджера, чтобы его низкая цена вас утешила?

#аналитика
👍6❤‍🔥2🔥2🕊2
Как проводить А/Б-тесты в реальном мире

Тестировать оформление кнопочек на сайте легко: поправил в файле стилей цвета и нехитрым кодом разделил трафик пополам. За пределами матрицы все сложнее, потому что в физическом мире сильно больше переменных.

Рекомендуем сразу две статьи про то, как выстроить и обкатать методологию А/Б-тестов для офлайн-бизнеса. В случае автора это была сеть фастфуда.

Статья А: «Планирование и верификация оффлайн A/B-тестов».

Она о том, как автор выстраивал методологию A/Б-тестирования в условиях оффлайн-ритейла. Она для тех, кто работает с данными не в идеальном вакууме, а на земле — в ресторанах, ритейле, логистике.

В статье минимум формул и только рабочие подходы, предостережения и лайфхаки, собранные через тесты, ошибки и маленькие победы.

Статья Б: «Анализ и интерпретация результатов A/B-тестов».

Эта статья учит анализировать полученные данные и не ошибиться с выводами. В ней автор разбирает методы, позволяющие скорректировать влияние внешних факторов. Учит контролировать ошибки, выбирать подходящий статистический критерий и оценивать надежность результатов.

Если первая часть была про чистоту эксперимента, то вторая — про силу аргумента.

Ну и раз уж настроение такое. Загадка про сидящие на трубе буквы — это А/Б-тест или нет?

#аналитика #статьи
❤‍🔥5👍3🔥3
Отдадим в хорошие руки: сценарий ремейка «Королевской битвы» в декорациях «Социальной сети»

Роли CDO и CIO пересекаются, но преследуют разные цели, хоть и в рамках общей стратегии: CDO отвечает за управление и использование данных, а CIO — за технологическую стратегию и айти-системы.

Если бы телеги и лошади имели одинаковую силу убеждения, то совсем неочевидно, кого бы чаще запрягали.

Разделение ролей влияет на стратегию, бюджетирование и окупаемость инвестиций. Как в командном спорте: надо компенсировать недостатки и поддерживать сильные стороны партнеров.

Как и всем уважающим себя супергероям из комиксов, нашим CIO и CDO противостоят мрачные, но могущественные силы:

Непримиримый враг CIO — рост объемов данных. Это вынуждает постоянно обновлять инфраструктуру, чтобы оставаться на уровне с компаниями, которые определяют вектор индустрии.

Вечный противник CDO — тайное антиглобалистское общество, запустившее свои щупальца в законодательную власть развитых страх. Так они вставляют CDO палки в колеса, заставляя тратить заметную часть ресурсов не на крутые продукты, а на соблюдение законов.

Понимание различий помогает правильно распределить обязанности и приоритезировать проекты в условиях роста объемов данных и жестких регуляторных требований

И две тысячи лет война, война без особых причин

Цифровая трансформация — это хорошо, это нам надо. Но многие компания нанимают CDO и CIO не на ясную поляну задач, а в бурелом хаотичных процессов. Когда общие цели не разделены на зоны ответственности, начинается подковерная возня: за ресурсы, зарплаты, влияние и все такое.

Ничего еще не устоялось

Нейросети расширили границы ответственности у CIO и CDO, а заодно и сделали нормой решение задач ИИ. Новые технологии потребовали нового подхода, новы подход открыл новые возможности.

CIO все чаще вовлекается в аналитику больших данных и цифровую безопасность, а CDO в обеспечение законности и этики ИИ.

Гипотеза:

Дальнейшее развитие технологий будет сужать грань между ролями, требуя от обоих руководителей гибкости и взаимозаменяемости.

#аналитика
5❤‍🔥2🔥2🥰2
Темная материя, темная энергия, а теперь еще и темные данные

В недавнем отчете AvePoint сказано, что 64% компаний управляют минимум 1 ПБ данных, а 41% — минимум 500 ПБ. Само по себе это круто, но есть нюанс: от 40% до 90% этих данных не анализируются и не используются.

Как и в случае с темной энергией и темной материей в астрономии, в темных данных нет ничего мрачного или зловещего. Темные они не из-за преступного происхождения, а из-за таинственности, они просто неструктурированные и неиспользуемые: это могут быть логи или старые клиентские отзывы.

Темные данные несут риски (затраты на хранение, сложности с соблюдением нормативов), но вместе с тем дают множество возможностей. Из-за огромного объема темных данных компании упускают ценные инсайты, лишают себя точных решений, упрощенной отчетности и оптимизации расходов.

Не нужно собирать все подряд просто потому, что вы можете. Иногда поиск инсайтов оборачивается поиском иголки в стоге сена.

Чтобы не копить все подряд:

- Собирайте только действительно нужные данные и четко формулируйте цели. Для внешних источников выбирайте надежные сторонние решения с ИИ-возможностями.

- Внедрите политику управления данными, продумайте гигиену данных и проводите регулярные аудиты ROT (redundant, obsolete, trivial). Архивируйте ценное, остальное удаляйте.

- Используйте ИИ-системы для автоматической классификации и приоритизации данных по их бизнес-ценности.

По прогнозам ВЭФ, к 2040 году до 14% мировых выбросов углекислого газа будет приходиться на цифровые данные. Так что осветляйте то, что можете и хотите использовать, и регулярно очищайте архив — сэкономленные на хранении темных данных деньги можно потратить с большей пользой.

#аналитика
👍6🔥5❤‍🔥21