Progres Post
273 subscribers
37 photos
1 video
16 files
180 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Будет ли работа у дата-инженеров после майских

Пока вы будете отдыхать, ИИ будет работать и развиваться. Зак Уилсон попробовал разобраться, в каких задачах дата-инженеров в ближайшем будущем заменит ИИ, а в каких — нет.

Поделим задачи на три группы: большая, средняя и низкая вероятность замещения человека машиной.

Большая вероятность замещения

Отладка пайплайнов: большинство сбоев — ложные срабатывания или ошибки памяти, которые ИИ может быстро устранить.

Ответы на бизнес-вопросы: при условии корректного моделирования данных и качественной документации ИИ сможет обрабатывать 90-95% запросов.

Средняя вероятность замещения

Написание кода на Spark/SQL: инструменты ускоряют генерацию кода, но проверка и тестирование пока остаются за людьми.

Проверка качества данных: базовые проверки упростятся, но контекстные решения все еще требуют человека.

Написание тестов: ИИ эффективен в генерации тестовых данных, но бизнес-логика требует ручного контроля.

Низкая вероятность замещения

Концептуальное моделирование данных: требует бизнес-контекста, переговоров и согласований между людьми.

Стратегические и мягкие навыки: планирование спринтов, документация, коммуникация с заинтересованными сторонами останутся за людьми. Но ИИ упрощает эти задачи.

Создание лучших практик: согласование стандартов внутри команд — социальный процесс, сложный для ИИ.

Разработка инфраструктуры обработки данных: улучшение инструментов вроде Airflow и Spark требует креативности и глубокого понимания систем.

Вывод

Без работы дата-инженеры останутся только на 4 праздничных дня. После снова придется вернуться к большинству задач, но какие-то процессы скоро изменятся. Нужно развиваться и адаптировать навыки под новую реальность. Встраивайте ИИ в работу, чтобы не лишиться ее.

#ии #статьи
😁5👍4😈3❤‍🔥2
Вредные советы: как не внедрить data-driven с помощью магии

Есть выражения, произнося которые, даже очень рациональные люди скатываются в магическое мышление. Печально, но модные слова часто становятся самостоятельными трендами, отвлекая на себя внимание от тех самых трендов, для которых были придуманы.

Новая этика, импортозамещение, здравый смысл, права человека, цифровая трансформация, управление на основе данных.

Корпоративная культура — это не тон оф войс, это гайдлайн. Одним расширением лексикона не отделаться, нужно переосмыслять подходы, привычки, уклады. Это трудно и дорого, а слова бесплатные.

В статье «Data-driven в одном iGaming проекте: когда культура работы с данными не приживается» автор делится своим опытом и предлагает разделить с ним негодование. Как и почему корпоративная культура, в которой полно ML-специалистов, аналитиков и всяких инженеров, отторгла data-driven подход, когда ей его попытались привить?

Делимся его вредными советами для топ-менеджеров и главными инсайтами:

1. Управляйте словами, люди лучше всего понимают образы и абстракции. Профессионалы сами разберутся, какие цифры и когда им нужны.

2. Следите, чтобы сотрудники были проактивны и любознательны. Если отчеты есть, то пущай привыкают и пользуются. Главное, чтобы отчеты были, а то нечем будет пользоваться.

3. Отчеты и цифры нужны только аналитикам. Им это близко и понятно, вот от них и ожидайте инсайты и основанные на данных решения.

4. Ставьте цели в цифрах, разрабатывайте метрики, но не утруждайте себя поиском и оценкой ресурсов, которые позволят этих целей добиться.

5. Если сотрудники сообщили о баге, немедленно бросьте все силы на решение. Похвалите за разрешение проблемы и постарайтесь замять разбор причин, это только добавит перчинки в работу коллег.

Опыт, в котором автор выстрадал эти советы, описан в статье, а мы сфокусируемся на интересной детали. Ничего в этих советах не покажется инновационным тому, кто ни разу не слышал про data-driven. Если в какой-то компании производят отчеты, которыми никто не пользуется, то им выражение data-driven нужнее остальных, ибо им можно заменить напрашивающуюся брань.

Неважно, как где называется подход к управлению на основе данных. Вон, на юге России баклажаны называют синенькими. Еще раз: слова бесплатные, а баклажаны на рынке за деньги продаются.

#аналитика #статьи
🤓5👀42❤‍🔥1👍1
Как дата-аналитики вытеснили голливудских режиссеров с больших экранов на маленькие

Редактор на майских много залипал в сериалы. Уверен, подписчики тоже. Продажи билетов в кино падают каждый год, а количество сериалов и их аудитория множатся. И да, причина в дата-аналитике.

Как так вышло?

Раньше кинотеатры приобщали к таинствам. На мистерии Тарковского и Линча шли за смыслами, историями и метафорами, которых ни по одному каналу не показывали. Эфир телека состоял из ситкомов для и про домохозяек и прочих незамысловатых шоу.

Одна из причин в том, что стримингов в начале века еще не было. Не хотите пропустить серию, которую больше не покажут в этом году, тогда вам надо быть у экрана ровно в 10 вечера. Как ни старайтесь, а пару серий за сезон точно пропустите: то к врачу сходите, то на день рождения.

Поэтому и снимали в основном сериалы без сквозного сюжета: каждая серия — отдельная история, которую с другими ничего кроме персонажей и сеттинга не увязывает. Так что сегодняшние сериалы стали такими крутыми во многом просто потому, что теперь авторы могут позволить себе сюжетные линии длиною не в 30 минут, а в 10-20 часов экранного времени.

Производство сериала в те годы — это по сути работа для дата-аналитика. Каким бы авторитетным ни был режиссер, если он снимает для телевидения, то ему придется плясать под дудку продюсера, который постоянно будет бурчать про рейтинги, охваты, фокус-группы, опросы, графики, сегменты аудитории, окна Овертона и так далее.

Важно: телевизионная часть бизнеса у Сони, Ворнер Бразерс и прочих студий всегда приносила значительно больше денег, чем кинопроизводство. Потому что для телепродюсера единственная задача сериала — собрать у экрана аудиторию, чтоб та посмотрела рекламу, за которую каналу заплатили.

С деньгами в кино все иначе. Рекламодатели не заносят чеки раз в квартал, чтобы вы закрыли кассовый разрыв.

И в самый лучший год у любой студии все равно наберется фильмов пять-семь, которые должны били принести сотни миллионов прибыли, но оказались убыточными. В переводе на язык высоких кабинетов в Голливуде: это очень тяжелый бизнес, потому что главный враг любого бизнеса — непредсказуемость. И нет ничего более непредсказуемого, чем сборы фильма, который еще снимается.

Так было лет 15 назад, но потом появился Человек Паук и все изменил.
🔥7👍6❤‍🔥51
Смерть оригинальности

Современное кино намеренно убивает оригинальность. Оригинальные сценарии не пускают в производство, потому что оригинальность непредсказуема, а непредсказуемость приносит киностудиям убытки.

Как же быть? Надо быть, как Доктор Стрендж с камнем времени. Просто загляните в будущее и узнаете, какой фильм понравится публике, а какой нет.

Как? С помощью дата-аналитики, конечно.

Если вы не смотрели «Карточный домик» с отмененным Кевином Спейси, то наверняка хотя бы слышали про него. Если бы не дата-аналитики, этот сериал не случился бы.

Обычно все устроено так: нашли сценарий, собрали актеров, наняли режиссера, сняли пилотную серию, показали и только потом вам разрешат тратить большие деньги на производство. Пилотный выпуск — типа MVP в мире телевидения.

И в 2011 году в Нетфликсе поступили немыслимо самонадеянно: сразу заказали в производство 2 сезона «Карточного домика», съемки которых обошлись в $100 млн. Без пилотной серии и сомнений в будущем успехе.

Почему они так рискнули?

Риска не было. Аналитики сопоставили 3 фактора, обработав колоссальные объемы данных: зрителям нравятся сериалы с Кевином Спейси, зрители любят Дэвида Финчера, просмотры политических драм растут.

В Нетфликсе предсказали 20 млн зрителей в первый месяц, фактически вышло 23. Это невероятная точность для кинобизнеса.

Отрывок из книги Бена Фритца «Битва за прокат. Как легендарные франшизы убивают оригинальность в Голливуде»:

Если Нетфликс не может рассчитывать на Голливуд [телеканалы и студии отказывались продавать Нетфликсу контент, видя в нем опасного конкурента], значит, ему придется производить контент самому. Но процесс его отбора должен быть совершенно иным. Вместо того чтобы полагаться на фокус-группы, субъективные сравнения с аналогичным контентом и интуицию руководителей, Нетфликс использовал данные.


То, что режиссеры-визионеры создавали, прислушиваясь к своему профессиональному чутью и таланту мировосприятия, Нетфликс оцифровал, разложил на дашборды и поставил на конвейер.

Сегодня в Нетфликсе работает 350 собственных исследователей, ML-инженеров и аналитиков. В Диснее, Ворнер Бразерс и Юниверсал по 100-200 человек в командах Data & Analytics, Marketing Science и Audience Insights.

Эпоха, когда ради сборов в фильме нужно было непременно снять звезду, прошла. Раньше гарантировать прибыль могли только те проекты, у которых хватало бюджета на заоблачные гонорары Тому Крузу, Брэду Питту и Ди Каприо. Сегодня можно обойтись без актеров первого эшелона, если вместо них пригласить дата-аналитиков.

Первые Мстители не произвели фурора в китайских кинотеатрах? Изучите, сколько экранного времени у китайских актеров в западных фильмах, тепло встреченных китайской публикой. Если у ваших китайцев этого времени меньше, поправьте сценарий.

Если не знаете, какого персонажа следующим лучше ввести в сюжет, чтобы история была более захватывающей, то вы не о том думаете. Хотите, чтобы зрителю понравился новый герой? Обратитесь к исследованиям в других индустриях: от каких игрушек дети пищат и какие принты на футболках у взрослых фанатов?

Причем тут Человек Паук?

Не только дата-аналитики убили оригинальность, но и киновселенные.

Зачем рисковать, снимая фильм по оригинальному сценарию, если можно просто выпустить следующую часть успешной франшизы? А началось засилие кинофраншиз не с киновселенной Марвел, а с Человека Паука в исполнении Тоби Магуайра.

Теперь кино — это про простые и развлекательные проекты, а телевидение и сериалы — про сложные авторские идеи. Все перевернулось, как только пришли аналитики и начали считать.

#аналитика #деньги
👍8❤‍🔥6🎉4
Искусственный интеллект в российском здравоохранении

В Superjob выяснили, что только 1% россиян готов довериться искусственному интеллекту в случае болезни. При этом в «Яков и Партнеры» и «Медси» считают, что к 2030 году российский рынок ИИ в медицине может вырасти в 6 раз и достичь ₽78 млрд.

Мнение людей:

- В случае болезни 52% россиян предпочли бы, чтобы их лечил человек с применением ИИ, 38% хотят, чтобы в лечении принимал участие только человек, 1% — чтобы только ИИ.

- Полностью или частично довериться искусственному интеллекту готовы 57% мужчин и 44% женщин. К применению ИИ более склонны люди до 35 лет (53%) и россияне с доходом от 100 тысяч (54%).

- 38% респондентов против ИИ в медицине. Их основные аргументы: «ИИ недостаточно развит», «Человека должен лечить только человек», «Должна быть ответственность за диагноз и лечение».

Мнение аналитиков:

- Российский рынок ИИ в медицине может вырасти более чем в шесть раз и достигнуть ₽78 млрд к 2030 году, составив 1% от мирового. В 2024 году показатель находился на уровне ₽12 млрд. Рост заметен и на мировом рынке: в 2024 году он оценивался в $22 млрд, а через пять лет показатель увеличится до $130–160 млрд, доля медицины составит около 8% всего рынка ИИ (расчет на основе данных MarketsandMarkets, Grand View Research).

- Всего эксперты выделили четыре направления продуктов с наибольшим потенциалом внедрения в российских медицинских учреждениях: цифровые ассистенты, клиническая сводка, помощник врача, экспертный контроль. Их объем к 2030 году может составить ₽65 млрд.

- Отдельно аналитики рассмотрели продуктовое и техническое описание этих четырех групп продуктов, в частности обозначили основные риски их внедрения. Для категории «Цифровые ассистенты» это галлюцинации и низкое качество ответов; для «Клинической сводки» — ошибки и галлюцинации в суммаризации, в том числе упущение фактов из анамнеза; для «Помощника врача» — потеря важной информации из транскрипта на этапе суммаризации, а для «Экспертного контроля» — недоверие врачей к рекомендациям, подсказкам и предиктивным моделям.

Думаем, здесь нет противоречия. Врачи будут пользоваться ИИ, вряд ли этому что-то помешает. Но вот собственную практику машине не дадут открыть, все-таки принимать решение должен врач. Хотя бы потому, что его можно наказать, если что.

#ии #деньги
❤‍🔥3👍3🔥2👌2
Progres Post
Искусственный интеллект в российском здравоохранении В Superjob выяснили, что только 1% россиян готов довериться искусственному интеллекту в случае болезни. При этом в «Яков и Партнеры» и «Медси» считают, что к 2030 году российский рынок ИИ в медицине может…
Точность постановки диагноза заметно растет при использовании LLM

В продолжение темы искусственного интеллекта в медицине: на Хабре вышла большая статья об исследовании ученых из Google DeepMind, где автор разбирается, может ли ИИ заменить врача-терапевта.

Статья сложная, время на чтение — 30 минут. Поэтому приводим кратко главные тезисы и инсайты.

В самостоятельной работе AMIE превзошла клиницистов без помощи ИИ в точности постановки дифференциальных диагнозов (ДД). Клиницисты и AMIE предлагали список из 10 диагнозов, и если в него попадал правильный, это засчитывалось за успех. Точность топ-10 составила 59,1% против 33,6% у врачей. В 29% случаев AMIE ставила правильный диагноз на первое место (топ-1).

Клиницисты с AMIE демонстрировали более высокое качество ДД. Точность топ-10 с AMIE — 51,7%, против 44,4% при использовании простого поиска. Полнота ДД также улучшилась: 55% списков с AMIE содержали все разумные варианты против 36,1% без помощи.

Клиницисты с AMIE составляли более полные списки ДД. Например, в 73 случаях правильный диагноз был добавлен в список только после использования AMIE, против 37 случаев без модели.

Исследование подтверждает, что LLM, такие как AMIE, могут значительно улучшить диагностику, но их роль — ассистирование, а не замена врачей. Ключевые направления для будущего — интеграция мультимодальных данных, снижение рисков конфабуляций и адаптация технологий к реальным клиническим условиям.

#ии #исследования
👍3💊3❤‍🔥22
Что такое Data as a Product (DaaP) и почему это меняет правила игры

Очень интересную тему затронули IBM в своем блоге. Разбираемся.

Представьте, что данные в компании — не просто разрозненные файлы или записи в базах, а полноценные продукты, такие же продуманные и удобные, как мобильное приложение или облачный сервис. Именно так работает концепция Data as a Product (DaaP) — подход, который превращает сырые данные в ценные, готовые к использованию активы.

Суть DaaP: данные как готовый продукт

В этом подходе данные:

- Структурированы и очищены, как товар на полке магазина.

- Имеют чёткую документацию, словно инструкция к гаджету.

- Доступны через API — как онлайн-сервис с удобным интерфейсом.

- Безопасны и соответствуют стандартам (например, GDPR).

DaaP можно сравнить с авиаперелетами. Данные — это пассажиры, у которых есть билеты (метаданные), четкий маршрут (линейка данных) и надежный самолет (инфраструктура). Если что-то идет не так (например, данные теряются или искажаются), это похоже на отмену рейса — последствия для бизнеса могут быть серьезными.

Чем DaaP отличается от обычных Data Products

DaaP — это методология управления данными на всех этапах: от сбора до доставки пользователям.

Data Products — это уже готовые решения на основе данных, например, дашборды аналитики или рекомендательные системы (как у Amazon).

Проще говоря, DaaP — это кухня, где данные готовят, а Data Products — блюда, которые подают клиентам.

DaaP — это не просто технологический тренд, а фундаментальный сдвиг в восприятии данных. Превращая информацию в готовые к использованию продукты, компании получают три ключевых преимущества: оперативность (данные всегда под рукой в нужном формате), качество (стандартизированные и проверенные наборы) и безопасность (встроенные механизмы защиты и соответствия нормам).

Такой подход устраняет главную проблему современного бизнеса — когда 80% времени уходит на поиск и подготовку данных, и только 20% — на их анализ и принятие решений.

#статьи
🔥5❤‍🔥4👍4
Чат-боты отбирают хлеб у поисковых систем

У компании OneLittleWeb вышло исследование на тему того, как за последние 2 года чат-боты на базе искусственного интеллекта забирают трафик у традиционных поисковых систем.

Главные выводы:

- С апреля 2024 года по март 2025 трафик чат-ботов на базе ИИ увеличился на 80%, достигнув 55 млрд посещений за год.

- За тот же период поисковые системы столкнулись со спадом трафика на 0,51%, с общим числом посещений в 1,86 трлн. Хотя снижение незначительное, оно указывает на изменения в поведении пользователей.

- ChatGPT занимает лидирующую позицию с долей рынка 86,32% среди чат-ботов на базе ИИ, далее идут DeepSeek (3,15%) и Gemini (3,06%).

- Google остается лидером среди поисковых систем с долей 87,57%, за ним следуют Microsoft Bing (3,23%) и Yandex (2,23%).

- В то же время посещаемость Yahoo снизилась на 22,5% за последний год. По мнению авторов документа, это может быть связано с трудностями, которые наблюдаются у этой поисковой системы в адаптации к ИИ-решениям.

- Несмотря на рост интереса к ИИ, у ChatGPT примерно в 26 раз меньше ежедневных посещений, чем у Google, так что чат-боты еще не достигли масштабов традиционных поисковиков.

Больше всего поражает, что Yahoo все еще есть, куда падать в плане трафика.

#ии #исследования
👍6🔥4❤‍🔥21
Кто работает с данными в Убере

В беседе с командой Monte Carlo бывший менеджер платформы данных Убера описывает роль менеджера продукта на основе данных (Data Product Manager / DPM) с помощью вопросов, на которые тот отвечает.

DPM — это роль, полностью посвященная решению вопросов вроде:

- Какие данные существуют в компании?

- Кому эти данные нужны?

- Откуда и куда эти данные поступают?

- Какую цель они выполняют?

- Можно ли упростить работу с ними или доступ к ним?

- Соответствуют ли данные нормам и пригодны ли для практического использования?

- Как сделать данные полезными для большего числа сотрудников быстрее?

Менеджеры продуктов на основе данных отвечают на эти вопросы, создавая внутренние инструменты и платформы для сотрудников.

Одни менеджеры продуктов на основе данных тесно сотрудничают с аналитиками и дата-сайентистами. Другие работают с операционными или айти-командами. В крупных компаниях такие менеджеры могут напрямую общаться с топ-менеджментом. Обычно эти специалисты имеют опыт в B2B-продуктах, управлении внутренними инструментами или анализе данных. Некоторые приходят из бэкенд-разработки.

В отличие от классических продуктовых менеджеров, их клиенты — не внешние покупатели. Их клиенты — это сотрудники компании, которые используют данные для работы.

#статьи
🔥441❤‍🔥1🥰1
Перспективы и тренды больших данных в России

В России беда с экспортом продуктов с высокой добавленной стоимостью. Проблема стала еще более выпуклой в режиме санкций. Однако большие данные меняют ситуацию — индустрия растет быстрее, чем по экспоненте. Из управления большими данными постоянно возникают новые бизнесы.

Про это и многое другое смотрите и слушайте на подкасте L&B с Алексеем Нейманом, исполнительным директором Ассоциации Больших Данных.
👍4🔥3❤‍🔥2🤩1
Вам не нужно хранить столько данных. Или нужно?

На BigDATAwire собрали в кучу результаты разных исследований и отчетов. По инсайтам и выводам вышло густо. Разбираемся.

В Gresham опросили 200 старших специалистов по данным из финансовых компаний США и Великобритании и выяснили, что 44% сталкиваются с проблемами. Внимание! Из-за избытка данных или из-за того, что хранят их в слишком многих местах.

О как! Пока кто-то еще только планирует управлять данными по-взрослому, кто-то уже заигрался и насобирал больше, чем может переварить.

По данным опроса Fivetran, 40% ИИ-проектов терпят неудачу или не достигают целей из-за недостатков в управлении данными.

Выходит, что в ЕС главный вызов для технологического и финансового сектора — не доступ к большим данным, а управление ими.

И с 2025 года регуляторы помогают бизнесу с этим вызовом справиться.

Регуляторная инициатива DORA — кнут и пряник в одном наборе. Хотя, больше кнут, конечно. Без соответствия DORA компании не могут внедрять технологии генеративного ИИ, так как их данные не считаются готовыми для обучения моделей.

Соблюдение DORA позволяет партнериться с банками и биржами и минимизирует риски утечек. Кроме того, по данным опросов, инвесторы охотнее вкладываются в компании, которые выполняют предусмотренные в DORA требования.

И напоследок.

Мы уже писали, что отладка пайплайнов — это первый в очереди кандидат на автоматизацию с помощью ИИ. Но мы не знали, сколько времени эти процессы занимают у инженеров. Теперь знаем: 80% ресурсов инженеров данных тратится на поддержку существующих ETL-пайплайнов, даже в компаниях с централизованными данными.

Ну и чем займетесь в свободное время?

#аналитика #статьи #исследования
👍4🔥4❤‍🔥3
С помощью данных можно предсказать увольнение сотрудника

В InfoWatch получили патент на систему для прогнозирования увольнений.

Система представляет собой программно-аппаратный комплекс. ПАК отслеживает поведение сотрудников и строит математическую модель действий. При выявлении аномалий в поведении система формирует группы риска, указывающие на возможные намерения уволиться, снижение лояльности или падение вовлеченности.

В InfoWatch утверждают, что система прошла тестирование и с точностью до 80% может предсказать увольнение сотрудника за 25 дней до его ухода. 

Интересно, как отреагируют зумеры, если узнают, что за ними следят, чтобы понять, не собираются ли они уволиться? Каждый десятый зумер, кстати, хотел бы, чтобы его руководителя заменили на искусственный интеллект.

#ии #аналитика
🔥6👍5❤‍🔥2😁1
DataYoga.pdf
13 MB
Работаем с данными в позе собаки

Нашли крутую книгу от образовательного бренда DataYoga: «Дата йога: грамотная работа с данными».

Книга — источник подходов и советов по созданию визуальных форм ваших данных. Авторы учат создавать красоту из сложных хитросплетений абстрактных данных, задавать аналитические вопросы и разрабатывать интерактивные дашборды.

Темы книги:

- Разобраться в управленческих технологиях и видеть ключевые показатели эффективности визуально.

- Уметь правильно выбирать и настраивать виды визуализации под вашу задачу.

- Понимать пользователя и его поведение.

- Узнать как различные шрифты управляют вниманием, что такое изящность и какой шрифт подобрать для цифр.

- Как переносить стили художников и их цветовые палитры в дизайн своих информационных продуктов.

- Уметь различать 50 оттенков серого, знать их названия и понимать природу цвета, уверенно подбирать свои целевые палитры для данных.

- Различать зрительные иллюзии и понимать людей с особенностями восприятия.

- Уметь выстраивать аргументы за использование таблиц для работы с цифрами, и настаивать на применение визуализации для аналитических целей.

- Противодействовать когнитивным искажениям, знать их природу и не допускать ошибок визуализациях и презентациях.

- Освоить составление информативных заголовков, аналитических выводов и аннотаций, правильно размещать метаданные.

Мастрид для всех, кто занимается визуализацией данных.

Если бы не книга, редактор не пополнил бы свою коллекцию цитатами Йоги Берра:

В теории нет разницы между практикой и теорией. Но на практике она есть.


Кроме книги в DataYoga предлагают бесплатные марафоны по Qlik, Tableau, Yandex DataLens.

#аналитика
🔥5❤‍🔥3👍2👾2
Как в Росгосстрахе оценивают цифровую зрелость

В статье на Хабре авторы из Росгосстраха рассуждают о том, «Можно ли оценить эффективность цифровой трансформации или это просто дань моде?»

Мы прочитали, нам понравилось. Решили структурировать и суммировать то, как в у них там устроена цветовая дифференциация штанов дифференциация уровней цифровой зрелости.

Рассказываем:

1. Начальный уровень

- Инструменты и процессы: Ведущей практикой являются простые офисные программные средства — Excel, электронная почта, ручная обработка данных.

- Автоматизация: Практически отсутствует или ограничивается единичными сценариями (например, выгрузка отчетов вручную, без единой платформы).

- Стратегия: Нет сформулированного понимания ценности и целей цифровизации — решения принимаются интуитивно, на основании какой-то идеи руководства, но без долгосрочной дорожной карты.

- Организационная культура: Люди не привыкли к новым технологиям, процессы разрознены, отсутствует единое понимание, зачем нужна цифровизация, и кто за нее отвечает.

2. Развивающийся

- Инструменты и процессы: Внедряются базовые корпоративные системы (CRM, ERP), начинается сбор первичных данных, появляются первые попытки автоматизировать рутинные процессы.

- Работа с данными: Запускаются простейшие эксперименты с данными — выгрузка отчетов из CRM, аккумулирование мастер-данных, но без полноценной платформы для централизованного хранения и обработки.

- Автоматизация: Начало централизованной автоматизации отдельных процессов, но зачастую интеграция разрозненных систем выполнена лишь частично.

- Организационная культура: Формируются первые точки взаимодействия цифровой команды с бизнес-подразделениями, появляются ответственные за цифру, но глубины проникновения в процессы пока недостаточно.

- Измеримые показатели: На этом уровне цифровизация ключевых справочных и мастер-данных достигает порядка 50–60% и соответствует внутренней диагностике развивающегося состояния.

3. Продвинутый

- Инструменты и процессы: Компании начинают активно использовать BI-порталы, формируются сквозные сценарии построения отчетности и аналитики. Есть интеграция основных систем: ERP, CRM, BI, DWH, а иногда и элементы песочниц для машинного обучения.

- Работа с данными: Данные очищены, объединены и доступны в едином хранилище; налажены механизмы ETL/ELT, настроены пайплайны. Впервые появляются пилотные проекты с использованием технологий искусственного интеллекта (например, прогнозирование спроса, рекомендательные движки).

- Автоматизация: Достаточно высокая степень автоматизации рутинных задач, интеграция систем, снижение доли ручного труда при пересборке отчетов, своевременный контроль качества данных.

- Организационная культура и компетенции: Появляются гуру аналитики, базовые курсы по BI-инструментам охватывают значительное число сотрудников. Повышается вовлеченность: специалисты готовы обучаться и использовать новые решения, формируется среда data-driven decision making.

- Клиентский опыт: Цифровые каналы продаж работают стабильно, постепенно формируется омниканальная стратегия: клиенты могут переходить из офлайн-точек во внутрикорпоративное приложение и обратно без потерь данных.

4. Зрелый

- Инструменты и процессы: Цифровые решения охватывают весь жизненный цикл бизнеса: от привлечения клиента до послепродажного обслуживания. Используются большие данные, автоматика принимает участие в ключевых бизнес-процессах, а алгоритмы ИИ и ML регулярно обновляются и корректируются.

- Работа с данными: Устойчиво работают распределенные архитектуры (Data Mesh, Data Lakehouse); портрет клиента и картина процессов доступна всему руководству в режиме реального времени. Все данные проходят через систему качества и безопасности.

- Автоматизация: Автоматизированы не только рутинные задачи, но и значительная часть управленческих процессов (кредитный скоринг, динамическое ценообразование, автоматические взаимодействия с клиентами через чат-боты).
👍4🔥3❤‍🔥22👏1
- Организационная культура и компетенции: Высокая вовлеченность сотрудников, непрерывные информационные тренинги, четко сформированные роли Data Engineer, Data Scientist, Business Analyst. Культура постоянного экспериментирования: fail fast, learn faster.

- Клиентский опыт: Пользовательских болей почти нет: цифровая экосистема обеспечивает клиенту максимально простой путь — от оформления продукта до его получения и поддержки. NPS находится на высоком уровне благодаря технологической гибкости и быстрому отклику на запросы.

Итого:

Каждый следующий уровень не просто добавляет три-четыре новых инструмента, а качественно меняет подход работы с данными и принятия решений. Ключевая дифференциация между ними заключается в глубине встроенности цифровых практик:

- Наличие системы и стратегии: от отсутствия единого понимания до четко артикулированной долговременной программы.

- Степень интеграции: от изолированных точечных решений до работающей экосистемы, где данные легко передаются между различными компонентами.

- Роль данных в принятии решений: от интуитивного подхода к полноценному data-driven.

- Культура и компетенции: от усталого отношения к айти-инициативам до активного обучения и генерации внутренних точек роста со стороны сотрудников.

#аналитика #статьи
4🔥3👌3❤‍🔥2
Инсайты из 1000 бесед с командами дата-аналитиков

Рассказываем самое интересное из статьи Миккеля Денсё Data about data from 1,000 conversations with data teams, в которой автор делится инсайтами, полученными из 1000 бесед с дата-командами на платформе Synq.

1. DWH как центр управления бизнесом

Раньше DWH использовались только для сводных отчетов. Сегодня туда сводят данные из разных систем, чтобы запустить ML-модели, автоматизировать рекламные кампании и готовить отчеты.

В одном крупном интернет-магазине из-за сбоя в канале передачи данных неправильные CLTV-метрики показали, что на рекламные кампании можно тратить больше. За пару часов некорректного запуска пайплайна команда потратила на рекламу лишние $100 000.

Если DWH влияет на бизнес-решения и доход, к нему нужно относиться как к продакшн-инфраструктуре. Внедрите SLA-алерты, четкие процессы инцидент-менеджмента и метрики качества данных: процент успешных загрузок, время восстановления после ошибки.

2. Масштаб и цена заблуждения при росте стеков

В этом исследовании 20% команд, которые используют DBT (data build tool), отметили, что в их проекте более 1000 моделей. Еще 5% проектов имеют свыше 5000 таких моделей.

Модель в DBT – это SQL-скрипт, который преобразует сырые данные в готовые таблицы для аналитиков или других систем.

В Siemens один инстанс DBT обслуживает более 800 отдельных проектов. В этой экосистеме работают 550 дата-инженеров и аналитиков. Ежедневно запускается около 2500 задач преобразования данных и обрабатывается примерно 85 000 DBT-моделей. При таких объемах невозможно помнить, кто отвечает за каждую модель или отчет.

Командам нужны карты ответственности – документы, где указано, кто владеет каждой моделью и дашбордом. Без этого легко упускать из виду устаревшие модели, дубли и неиспользуемые отчеты.

3. Тестирование как инструмент доверия, а не галочка

Раньше данные проверяли на простой уровень качества: NOT NULL и UNIQUE, чтобы убедиться, что нет пустых или дублирующих записей. Сейчас нужны тесты, которые отражают бизнес-логику и специфику источников.

На маркетплейсе, где раз в неделю обновляют ML-модель прогнозирования цен на автомобили, команда блокирует выгрузку в AWS S3, если исторические данные не полные за последние 12 месяцев. Для обучения модели важна не только свежесть, но и непрерывная временная серия.

В медийной компании данные о кликах и показах поступают от тысяч партнеров: поток достигает сотен тысяч строк в день. Если хотя бы один партнер задержит данные, дашборды окажутся пустыми. Команда ежедневно сравнивает фактический объем строк с ожидаемым диапазоном, чтобы вовремя обнаружить исчезновение данных, а не исправлять последствия нерегулярной поставки.

Пора понять, что DWH — не источник отчетов, а центр управления бизнесом. Так-то.

#аналитика #статьи
👍5❤‍🔥4🔥31
Преподаватели вузов обучаются работе с ИИ

В правительстве сообщили, что повышение квалификации в сфере ИИ с 2022 года прошли уже 5400 преподавателей вузов.

Вроде бы здорово, но есть нюанс: всего в российских вузах работает аж 220 тысяч преподавателей. Так что это пока капля в море.

Студенты, наверняка, и без преподавателей разберутся, как работать с ИИ. Но вряд ли так же массово, как в Китае, где работу с ИИ включают в начальные и средние классы.

#ии
👍3👏32❤‍🔥2
Как разные LLM справляются с преобразованием запросов на естественном языке в SQL

В Tinybird опубликовали результаты бенчмарка по генерации SQL-запросов для 22 популярных моделей.

Топ 5:

1. claude-opus-4

2. claude-3.7-sonnet

3. o3-mini

4. claude-3.5-sonnet

5. gpt-4.1

Здорово, что авторы подробно описали методологию и позволяют сравнить результаты всех моделей со средними результатами человека (процентные значения в крайних правых столбцах).

По клику на название модели в таблице можно посмотреть подробности результатов.

#ии #sql
❤‍🔥5👍4🔥3🏆3
Шифрование больших данных — это не издержки, а экономия

На SSRN опубликовали исследование о том, как шифрование помогает экономить миллионы долларов компаниям, использующим большие данные.

Название, если не боитесь сломать язык: «Изучение экономического влияния утечек данных и роли технологий шифрования в снижении финансовых потерь для компаний, использующих аналитику больших данных для персонализированного маркетинга».

Кейсы

В исследовании разобраны 2 примера.

Первый:

Хакеры взломали базу онлайн-ритейлера на 50 млн клиентов с адресами, именами и номерами кредиток. Данные были зашифрованы с помощью AES-256, и злоумышленники не получили к ним доступ.

Компания избежала убытков в $200 млн: $120 млн на штрафы GDPR (до 4% годового оборота), $50 млн — на юридические издержки и компенсации и $30 млн — на восстановление репутации.

Среднее время восстановления (MTTR) сократилось на 61%: с 72 до 28 часов, потому что не требовалась полная перестройка хранилищ и индексов: достаточно было заменить ключи и провести тестирование среды.

Второй:

В аналитической платформе банка было 80 млн записей о транзакциях. Внедрение AES-256 для данных в покое и TLS 1.3 для данных в пути сократило расходы на ликвидацию последствий взлома на 45%: с €90 млн до €49,5 млн.

MTTR снизился на 53%: с 96 до 45 часов. Ежеквартальные затраты на аудит ключей и протоколов составляют всего €50–75 тысяч, а каждые полгода ротация ключей обходится примерно в €30 тысяч.

Выводы

Современные протоколы шифрования AES-256 для данных в покое и TLS 1.3 для данных в пути снижают затраты на ликвидацию последствий утечек в среднем на 60%, а также сокращают время простоя систем на 50–60%.

Кроме прямой экономии на штрафах и юридических издержках шифрование повышает лояльность клиентов. Компании, раскрывающие меры защиты, удерживают на 15% больше пользователей. Повышенная скорость обработки данных дает прирост выручки за счет более точной персонализации. Даже при ежегодных расходах на поддержку шифрования окупаемость достигается уже после первой серьезной утечки.

Не то чтобы мы всего этого не знали, но теперь у нас есть пруфы.

#деньги #исследования
👍4🔥4❤‍🔥32
Перспективы развития рынка СУБД до 2031 года

В ЦСР выкатили исследование «Рынок систем управления и обработки данных в России: текущее состояние и перспективы развития до 2031 года».

Разбираемся в главных инсайтах и прогнозах.

Объем рынка

Общая оценка по итогам 2024 года — ₽90 млрд. К 2031 году объем рынка вырастет на 180% и составит ₽251 млрд.

Проекты «Экономика данных» (₽1,4 трлн) и «Цифровое государственное управление» (₽0,5 трлн) нуждаются в больших цифровых платформах для всех ключевых отраслей. Так что этот сценарий кажется даже не оптимистичным, а вполне себе базовым.

Топ 10 компаний

На десятку лидеров приходится 28% рынка.

1. PostgresPro — 10,4% (₽9,3 млрд)

2. Группа Arenadata — 6,7% (₽6 млрд)

3. Yandex Cloud — 2,5% (₽2,2 млрд)

4. DIS Group — 2,2% (₽2 млрд)

5. Тантор Лабс — 1,5% (₽1,4 млрд)

6. VK Tech — 0,8% (₽0,7 млрд)

7. Ростелеком — 0,7% (₽0,6 млрд)

8. СберТех — 0,3% (₽0,3 млрд)

9. Газинформсервис — 0,3% (₽0,3 млрд)

10. Orion Soft — 0,2% (₽0,2 млрд)

Импортозамещение

В 2024 году доля продаж зарубежного ПО на рынке СУБД и сервисов составила около 10%, при этом в инсталлированной базе все еще более 60% активных СУБД — зарубежные решения.

Около 58% опрошенных считают, что западные вендоры могут вернуться на российский рынок до 2031 года, но уже не на доминирующие позиции.

К 2031 году российские вендоры могут захватить до 99% новых продаж СУБД, однако высокий уровень установленной базы западных решений сохранится.

Импортозамещение останется главным драйвером роста до 2027 года, после чего ключевыми станут ИИ-технологии, цифровизация отраслей и экспорт российских решений в дружественные страны.

#субд #деньги #исследования
🔥8❤‍🔥5👍5