This is Data
6.2K subscribers
173 photos
196 links
Канал Романа Романчука про аналитику и данные.

Рассказываю про метрики и мат.статистику. Обозреваю ENG и RUS статьи. Советую книги. Делюсь скриптами, ссылками, майндмэпами.

Сайт: https://thisisdata.ru
Задать вопрос: @romanchuk_roman
Download Telegram
Как эффективно взаимодействовать с ИИ

Недавно я проводил опрос, и 88% подписчиков канала ответили, что используют ИИ-чаты для решения каких-либо задач. А 19% делегируют ИИ даже ежедневную рабочую рутину. Цифры впечатляют.

Но как чаще всего выглядит это общение? Мы задаем какой-то вопрос, пишем призыв «сделай то-то и то-то», чуть уточняем и все. На самом деле можно получать гораздо более качественный результат, для этого существует такая штука, как промпт-инжиниринг.

Промпт-инжиниринг – это искусство создания эффективных запросов (промптов) для взаимодействия с большими языковыми моделями (LLM), такими как ChatGPT.
Умение составить качественный промпт помогает раскрывать весь огромный потенциал ИИ.

Основные техники

1. Zero-shot prompting – запрос без примеров. Модель должна понять задачу и попытаться ответить.
2. Few-shot prompting – запрос с несколькими примерами. Модель получает образцы правильных ответов, что помогает ей лучше понять задачу.
3. Chain-of-thought prompting – пошаговое рассуждение. Модель объясняет свой процесс мышления, что улучшает качество и прозрачность ответа.
4. Role prompting – задание роли. Указание модели определённой роли (например, «ты эксперт по статистике») помогает получить более целенаправленные ответы.
5. Context-enhanced prompting – использование контекста. Предоставление модели дополнительной информации о задаче или ситуации улучшает релевантность ее ответов.

Примеры использования

Zero-shot:
Объясни p-value простыми словами.

→ Модель даст общий обзор, понятный новичку.

Few-shot:
Вот несколько примеров объяснения статистических понятий:

1. Среднее значение – это статистический показатель, который характеризует типичную величину набора числовых данных.
2. Дисперсия – это показатель разброса данных вокруг их среднего значения.

Теперь объясни p-value аналогичным образом.

→ Модель ориентируется на стиль и уровень объяснения.

Chain-of-thought:
Объясни p-value, рассуждая пошагово, чтобы я понял, как его вычисляют и как интерпретируют результаты A/B теста.

→ Модель подробно описывает последовательность действий и логику анализа.

Role + Context-enhanced:
Ты аналитик в финтех-компании. Мы проводим A/B тесты. Объясни p-value так, чтобы я понял его практическое значение и математическую интерпретацию. Приведи пример на основе сравнения двух выборок.

→ Модель выдаёт экспертный разбор с конкретным примером, максимально приближённым к реальной задаче.

Что почитать?

▪️Руководство по промпт-инжинирингу – отличная база с примерами и техниками.
▪️Книга «The Art of Prompt Engineering» – практическое руководство с кейсами и советами.

ИИ-чаты уже стали частью нашей работы и жизни. Пока они не способны заменить человека, но это мощный инструмент автоматизации. Главное – уметь им правильно пользоваться. Экспериментируйте с промптами и выжимайте из ИИ максимум.

#опыт
🔥22👍123
И снова 3 сентября… а вместе с ним третий способ посчитать LTV!

Прошлые два способа можно глянуть здесь: тыц и тыц.

В этот раз я покажу, как рассчитать метрику с учетом маржинальности и дисконтирования. В отличие от простого LTV, данный расчет отражает реальную финансовую ценность клиента для бизнеса, фокусируясь на прибыли после вычета себестоимости и учитывая обесценивание денег со временем.

Маржинальность (Gross Margin) – это доля прибыли от выручки после вычета переменных затрат на обслуживание, производство, доставку, сырье и т.д. Она считается так:

Gross Margin (%) = (Revenue - COGS) / Revenue * 100

Например, если COGS составляет 300 000 р., а Revenue – 1 200 000 р., то маржинальность равна 75%. Это значит, что из общей выручки в 1 200 000 р. ваша прибыль составила 900 000 р. Остальные 300 000 р. покрыли затраты на продукт. Про расчет Revenue и COGS я делал отдельный пост.

Дисконтирование – метод, который корректирует будущие доходы на основе ставки дисконтирования. Обычно ставка составляет 5–15% годовых. В нашем случае для простоты мы возьмем 10% годовых или в упрощенном расчете 0.833% в месяц. Метод учитывает, что деньги, полученные через год, менее ценны из-за инфляции, альтернативных инвестиций и рисков.

Чтобы рассчитать прогноз LTV за выбранный период, нужно для каждого месяца взять ARPU, умножить его на маржинальность, дисконтировать и сложить результаты.
Формулу и пример я привел на слайде.

#разбор_метрик #метрики
16👍9🔥1
Знакомимся!

Спасибо, что вы здесь и читаете канал.
Нас уже 6 тысяч – маленький стадион людей, объединенных любовью к данным. И мне хочется, чтобы мы знали друг друга чуть лучше.

Меня зовут Рома. Родился и живу в Москве, в IT работаю с 2008 года. Начинал как веб-разработчик, потом стал seo-шником (да-да, был и такой грех), а примерно с 2015 ушел в аналитику. Тогда все было куда проще: «Знаешь что такое Яндекс Метрика и Google Analytics?» – ты принят! Сегодня же это профессия с серьезным порогом входа: SQL, Python, A/B-тесты, модели и многое другое. Все эти навыки я осваивал постепенно на практике, дорос до хеда и даже директора по аналитике.

Вот уже год как я работаю в Т-Банке, занимаюсь экосистемной аналитикой и метриками. Параллельно снова учусь – поступил в магистратуру, так как считаю, что учеба должна быть постоянной частью жизни, а не чем-то разовым.

Канал долгое время оставался академичным: разборы метрик, подходов, инструментов. Но сейчас я понял, что одних сухих тем мало, хочется добавить больше жизни – рассказывать про работу, учебу, опыт и даже немного про хобби. При этом серьезные посты тоже останутся.

Теперь ваша очередь! Напишите в комментариях: кто вы, чем занимаетесь и как пришли в аналитику (или только думаете об этом). Будет интересно познакомиться поближе)
3🔥7415👎3
Мы разобрали три популярных способа подсчета метрики LTV. Теперь пора сравнить их и сделать выводы.

Простой LTV. Это грубая и прогнозная оценка того, сколько денег один клиент принесет бизнесу за весь срок пользования продуктом. Такой показатель далек от реальных финансовых расчетов, так как не учитывает историю взаимодействия клиентов с продуктом, категории клиентов, дисконтирование и маржинальность. Поэтому цифры часто получаются завышенными. При этом простой LTV быстро и легко посчитать, а значит можно оценить допустимые затраты на маркетинг. Способ полезен стартапам без клиентской истории.

LTV с учетом маржи и дисконтирования. Такой метод расчета популярен среди финансистов, так как отражает финансовую оценку прибыли от усредненного клиента. Оставаясь прогнозной, метрика учитывает дисконтирование за расчетный период и маржу. Это позволяет использовать полученный LTV в юнит-экономике. Такой расчет применяется зрелым бизнесом с накопленной клиентской историей.

Когортный LTV. Это уже фактическая метрика, которая учитывает категорию клиентов. Она рассчитывается на основе накопленных данных о взаимодействии клиентов с продуктом и отражает прибыль, которую получил бизнес от конкретного сегмента пользователей. Метрика помогает переориентировать маркетинговые кампании на более прибыльные когорты клиентов. Ее можно превратить в финансовую модель, если учесть маржу и дисконтирование.

На слайде я суммировал информацию и привел формулы. Сохраняй как шпаргалку.

#разбор_метрик #метрики
👍204🔥3
Аналитики, дизайнеры и продакты!

Вы наверное уже слышали, что 27 сентября в Москве пройдет конференция «Продукты 24 × FFDD2D» – объединение двух крупных мероприятий, которые задают тренды в продуктовой среде.

Теперь это одно большое событие для тех, хочет смотреть на продукт и на метрики шире.

Будет три потока выступлений:

▪️Первый – про кейсы, перевернувшие индустрию, и инсайты из смежных сфер: телевидение, путешествия, которые помогают взглянуть на привычные бизнес-процессы с новой стороны.
▪️Второй – о том, как данные и технологии помогают создавать крутые продукты и укреплять лояльность клиентов.
▪️Третий – с дискуссиями и воркшопами про кросс-функциональное взаимодействие.

📍 Регистрируйтесь онлайн: https://producty24-ffdd2d.ru/

P.S. Для тех кто успел зарегистрироваться офлайн, приходите в экспертную зону, я там буду. Поговорим о метриках или за жизнь )
👍102🔥1
Есть метрика, которая неразрывно связана с LTV, – Customer Acquisition Cost (САС), стоимость привлечения клиентов. Это средняя сумма, которую компания тратит, чтобы привлечь одного клиента. Если CAC превышает прибыль от клиента, бизнес работает в минус.

Существуют два подхода к расчету САС. Маркетинговый подход учитывает только затраты на маркетинг: рекламу, контент-маркетинг, расходы на CRM и др. Он применяется в стартапах и E-commerce. Расчет CAC должен быть как по каждому каналу, так и по всем каналам в целом.

Финансовый подход включает не только затраты на маркетинг, но и на продажи: зарплаты менеджеров по продажам, обслуживание колл-центров, пробные версии продукта и др. Такой подход – стандарт в крупных компаниях и B2B, особенно в SaaS, где цикл сделки долгий, и маркетинг – только верхняя часть воронки.

Независимо от подхода, для корректного расчета метрики необходимо установить:

1. Какие затраты вы будете учитывать? Например, медиабюджеты, фиксированные затраты, такие как зарплаты маркетологов, расходы на CRM.

2. Кого считать «привлеченным клиентом»? В B2C это может быть пользователь, который совершил первую покупку, в SaaS – подписавший договор и прошедший онбординг, в freemium-моделях – платящий пользователь.

3. Какой временной лаг выбрать? Большинство маркетинговых активностей работают с отложенным эффектом. Человек мог увидеть рекламу в январе, а совершить покупку в марте. Поэтому не стоит считать CAC и количество привлеченных клиентов за один и тот же месяц. Один из вариантов – посчитать всех, кто перешел по рекламе в январе, и сколько из них стало клиентами в течение 30/60/90 дней.

В чем связь LTV и CAC? CAC показывает, сколько вы тратите на привлечение клиента, а LTV – сколько вы с него зарабатываете. Ключевая метрика здесь – соотношение LTV/CAC.

Золотое правило гласит: если LTV / CAC > 3, то модель считается здоровой и бизнес приносит прибыль, а значит надо масштабироваться! Если LTV / CAC < 1, то бизнес теряет деньги на каждом клиенте. Если LTV / CAC = 1, то вы просто окупаете маркетинг, но не покрываете прочие расходы.

#разбор_метрик #метрики
21👍9🔥5
Зачем я поступил в магу?

Недавно обещал рассказать, зачем пошел в магу в таком почтенном возрасте и как ее выбирал.

Я закончил ВУЗ, вообще никак не связанный с IT или математикой. Но еще со школы я увлекался сайтами – делал их просто ради интереса, потом начал брать заказы, а дальше уже пошло-поехало, устроился работать в эту сферу. Сначала это казалось случайным путем, но именно он и привел меня в аналитику.

Когда я впервые пришел на собеседование, все выглядело иначе, чем сейчас. Тогда требования были простыми: знаешь Excel – ты уже аналитик))

Дальше все шло через самообучение: трекинг событий, SQL, Power BI, статистика. Все осваивал по вечерам, а также на практике методом проб и ошибок. Но постепенно пришло ощущение, что не хватает базы. Не хватает вот этого фундамента, на который можно было бы опереться, когда человек может не знать бизнес-контекста, но он быстро «врубается» просто потому, что у него есть технический бэкграунд.

Потом я оказался в Т-Банке. Вокруг люди, которые учатся постоянно: кто-то только закончил университет, кто-то проходит очередной курс, кто-то снова поступает. В основном это технические вузы. И я подумал: а почему бы не попробовать самому?
Оказалось, сейчас масса возможностей для жаждущих знаний. Например, онлайн-программы ВУЗов в партнерстве с крупными IT-компаниями. А еще в помощь студентам дают образовательный кредит под 3% с господдержкой! Решил собрать варианты и посмотреть, куда я вообще подхожу.

В список попали три магистратуры:
▪️ВШЭ с программой «Аналитика больших данных» совместно с Karpov Courses;
▪️МИФИ с направлением «Наука о данных и искусственный интеллект» в партнерстве с Яндекс Практикумом;
▪️МФТИ с программой «Наука о данных».

Сначала хотел податься везде, но МФТИ отпал – дорого и неудобный сайт, даже не смог подать заявку. В итоге сосредоточился на ВШЭ и МИФИ.
Сдал экзамен, выбрал МИФИ. Сыграли роль и доверие к ВУЗу, и партнерство с Яндекс Практикумом – я уже проходил у них курсы, знаю уровень. Плюс программа в МИФИ показалась интереснее: не только аналитика, но и искусственный интеллект – сейчас это очень актуально.

А дальше два года обучения.

1️⃣ Первый год базовый: Python, SQL, статистика, визуализация, теория вероятностей, машинное обучение. Во втором семестре нужно будет выбрать фокус – Data Science или инженерия данных.

2️⃣ На втором году выбор специализации. Всего их четыре: ML-инженер, инженер данных, направление по компьютерному зрению и NLP.

Пока начались только первые лекции, но мне уже нравится сам процесс. После работы учеба воспринимается по-другому – ты не просто сдаешь зачеты, а понимаешь, зачем это делаешь.

В нашей сфере все меняется слишком быстро и чтобы не выпадать из потока, нужно постоянно прокачиваться. Если давно думали о магистратуре или новом направлении – попробуйте. В любом случае это шаг вперед.

А я буду время от времени делиться, как идет обучение и какие выводы делаю по ходу.

#личное
🔥732👎2🥱2
В последнее время мы разбирали метрику LTV и ее связь с CAC. Хочется завершить эту серию постов вот какой темой: «Что делать, когда показатели посчитаны?»

Главное, что нам дает LTV в совокупности с другими метриками – понимание своих клиентов. Вот несколько рекомендаций по дальнейшим действиям.

Устанавливаем бюджет на рекламу. Очевидная польза LTV – знание о том, сколько денег приносит один клиент за все время пользования продуктом. При минимальных прикидках эта цифра не должна превышать расходы на привлечение одного клиента. При более сложных расчетах мы следим, чтобы соотношение LTV к CAC превышало 3. Это позволяет заложить бюджет на маркетинг.
Тут важная ремарка: затраты на привлечение могут превышать доход от клиента, если вы это делаете осознанно. Например, вы под инвестициями и вам необходимо нарастить оборот, долю рынка и тп. Однако вы должны четко понимать как в будущем будете исправлять экономику продукта и растранзачивать клиента, иначе это все может плохо закончиться.

Выявляем эффективные маркетинговые каналы. Каналы с наибольшим когортным LTV и прибыльным LTV/CAC Ratio должны стать приоритетом для маркетинговых кампаний, а каналы с наименьшим LTV – поводом для выявления причин и, возможно, смены стратегии.

Влияем на поведение клиентов. Не все клиенты одинаково прибыльны. Главная задача – подобрать стратегию для каждой когорты. Для этого мы проводим аналитику, формулируем гипотезы и разрабатываем стратегии, которые повысят LTV конкретной группы: скидки и бонусы, программа лояльности, продажи товаров комплектом и др. При анализе мы смотрим в первую очередь на частоту покупок, средний чек и снижение активности.

Увеличиваем LTV. Метрика складывается из трех показателей: средний чек, ARPU и среднее время жизни клиента. Декомпозируя LTV дальше, мы можем влиять на нижестоящие метрики. Например, сократить время до следующей покупки через рекламные рассылки или изменить цену продукта. Но при увеличении среднего чека акцент должен ставиться на товарах с наибольшей маржинальностью.

Планируем рост бизнеса. Прогнозирование LTV помогает ставить долгосрочные цели и рассчитывать инвестиции. Оптимальный горизонт предсказания – от года до трех лет. Лучше оценивать LTV одновременно с CAC за выбранный период, чтобы видеть, приносят ли клиенты прибыль в перспективе и за какое время окупятся затраты на их привлечение. На основании этого мы планируем расширение бизнеса.

#разбор_метрик #метрики
1👍85🔥3👎1
Как организовать разметку приложения событиями?

Недавно прилетел вопрос от коллеги: «Как правильно размечать событиями сайт или приложение? Есть ли какие-то чек-листы или best practice?».

Вопрос настолько хороший и фундаментальный, что я вспомнил молодость и решил накатать целый пост-напоминалку. Потому что если с самого начала накосячить с разметкой, то и все последующие аналитические выводы могут оказаться красивой, но бессмысленной картинкой.

Когда-то я отвечал за событийную аналитику нескольких крупных проектов и уже тогда выработал простой и, что важно, масштабируемый принцип. Он отлично приживается и на сайтах, и в мобилках.

Представьте, что ваше приложение – это матрешка

У нас есть экраны: main, catalog, cart.
Каждый экран мы мысленно делим на крупные блоки (например, header, product_grid, recommendations_slider).
А эти блоки, в свою очередь, состоят из элементов (cart_button, favorite_icon, product_card).

Любое действие пользователя – это законченная история, которая собирается по четкому сценарию. Но как её записать? Здесь есть развилка, и нужно выбрать один из двух основных вариантов формирования события.

Вариант 1

Событие создается по правилам:
screen_name + block_name + element_name + action


Например:
catalog_product_grid_cart_button_click


Плюсы:
▪️Удобно анализировать в интерфейсе аналитических систем.
▪️Не нужно строить сложные фильтры, чтобы увидеть все клики в каталоге продуктов.
▪️По имени события сразу понятно, где, что и как произошло.

Минусы:
▪️Риск упереться в лимиты на количество уникальных событий. Если у вас очень сложное приложение, таких комбинаций может накопиться несколько тысяч.

Вариант 2

Событие состоит только из действия:
action


Но вся магия кроется в параметрах! В них мы и прописываем screen_name, block_name, element_name.

Например:
click


Параметры:
{screen_name: 'catalog', block_name: 'product_grid', element_name: 'cart_button'}


Плюсы:
▪️Простой и понятный список событий. У вас будет всего несколько десятков базовых действий. Система не захламлена.
▪️Легко добавить новый элемент или блок, не создавая новое уникальное событие.

Минусы:
▪️Требуется предварительная обработка. Для анализа вам постоянно придется фильтровать одно и то же событие по разным параметрам.

Независимо от выбранного варианта, душа события – это его параметры. Обязательно продумайте их: от базовых, вроде user_id и app_version, до кастомных, вроде product_id, promo_name или source.

Предостережение

Главный соблазн для любого начинающего аналитика – начать трекать ВСЁ. «А давайте еще повесим событие на скролл, на наведение курсора, на смену времени суток в приложении!». Стоп! Помните, что у всего есть своя цена.

Системы аналитики вроде Google Analytics, AppsFlyer или AppMetrica имеют лимиты на количество регистрируемых событий. Например, вот выдержка из доки:
В AppMetrica есть суточные лимиты на кастомные события, присылаемые через SDK и Post API. Суточный лимит — 3 250 000 событий на тарифе Free.


Упершись в потолок, вы можете начать терять важные данные. Да и хранение каждого события в вашей БД – это прямые серверные затраты.

Поэтому мой совет: раз в полгода-год проводите аудит. Удаляйте устаревшие события, которые больше никто не анализирует.

В общем, друзья, в разметке событиями нет ничего архисложного. Немного структуры, здравого смысла и планирования на старте, и ваша аналитика будет стоять на крепком фундаменте. Удачи в трекинге!

#опыт
1👍23🔥71
Always be the worst guy

Always be the worst guy in every band you’re in. If you’re the best guy, you need to find another band. And always be around people who are better than you, so you can learn.

– Чад Фаулер, «The Passionate Programmer»


Эта фраза из книги так зацепила меня, что я решил осмыслить ее через написание поста 🙂

Она не про то, чтобы быть лузером, она про развитие. А смысл ее достаточно прост: всегда ищи окружение, где ты не дотягиваешь. Потому что только так происходит рост.

Большинство людей же напротив выбирает комфорт: быть «опытным специалистом», к которому идут за советом, чувствовать уверенность, знать все ответы. Это приятно, но опасно. Комфорт убивает развитие. Настоящий рост начинается там, где ты чувствуешь себя немного глупо, где есть люди, у которых хочется учиться.

В аналитике, IT, менеджменте это ощущается особенно остро. Когда вокруг сильные специалисты, тебе просто не дают застояться. Они показывают пример: как решать задачи быстрее, писать код аккуратнее, формулировать гипотезы точнее.

Иногда рядом с такими людьми чувствуешь себя неуверенно, но именно это состояние и есть двигатель прогресса. Через год ты оглядываешься назад и понимаешь – стал совсем другим.

И наоборот – если долго находишься в команде, где ты самый сильный, ты перестаешь расти. Все кажется знакомым, решения повторяются, задачи похожи. Комфортно, спокойно, предсказуемо и абсолютно бесперспективно.

Наша траектория формируется не великими решениями, а ежедневными мелочами. С кем мы работаем. У кого учимся. Как проводим время. Куда ходим – на конференцию или в бар. Хотя, если честно, и в баре иногда завязываются отличные знакомства – просто не стоит делать это своей основной стратегией развития 🙃

Поэтому если чувствуешь, что вокруг все слишком знакомо и спокойно – возможно, пора сменить окружение.

Потому что быть самым слабым в команде – не стыдно. Стыдно – застрять там, где ты не развиваешься.

#мысли
💯3818🔥6👎2
Друзья, привет!

Собрал для вас подборку своих последних постов на тему метрик, без которых невозможно управлять продуктом осознанно.

Чем глубже погружаешься в аналитику, тем яснее становится: именно LTV и CAC отвечают на главный вопрос – имеет ли продукт шанс на устойчивый рост. Они отражают не только эффективность маркетинга и ценообразования, но и то, насколько хорошо выстроены онбординг, удержание и продуктовая ценность.

▪️ Простой способ расчета LTV
▪️ LTV с учетом маржи и дисконтирования
▪️ Когортный LTV
▪️ Customer Acquisition Cost
▪️ Что делать, когда показатели посчитаны

Если тема вам близка – добавляйте пост в закладки, пригодится!

#харды #метрики
16👍6🔥5
Иногда кажется, что ИИ влетел в нашу жизнь слишком быстро. Еще вчера мы учились программировать, ковырялись в формулах, сдавали лабы ночами… а сегодня половина задач в ВУЗах и на собеседованиях решается по схеме: вставил в чат – получил ответ – профит 🙈

Появился новый жанр – вайб-кодинг. Когда человек не совсем понимает, что делает, но ИИ выдает что-то, что выглядит как работа, и этого как будто бы достаточно.

Проблема не в том, что «раньше было лучше» или что технологии «портят молодежь». Проблема в том, что мы внезапно получили инструмент, который слишком легко имитирует компетентность.

Ситуация в ВУЗах

Недавно наткнулся на интересную дискуссию в сообществе МИФИ о использовании ChatGPT студентами из-за возросшей нагрузки непрофильными предметами. Студент получает задачу, не понимает или просто не успевает в ней разобраться и открывает ИИ. Через минуту готовое решение, с кодом, объяснениями и красивыми формулами.
Можно сдавать и закрывать предмет. А вот знания, увы не прикладываются автоматически. Более того, даже преподы грешат этим!

Уровень собеседований

Здесь все еще забавнее. Кандидат приходит на интервью, получает вопрос, кивает, «думает» пару секунд, а в реальности в это время спешно вбивает запрос в ChatGPT.
Ответ получается идеально гладким. Но главное даже не в том, что рекрутер это заметит (а опытные замечают почти сразу). Главная проблема, что таким путем ты рискуешь получить работу, к которой вообще не готов.

Мы стоим на развилке

ИИ – невероятно мощный инструмент. Он может ускорять обучение, помогать понять сложные темы, разбирать код, объяснять формулы человеческим языком.
Но если сводить его роль к «сделай за меня», то мы попадаем в ловушку: перестаем различать, что мы понимаем, а что просто красиво сделано за нас.

Как быть?

Кажется, все упирается в честность перед собой.
Если я использую ИИ, то он должен быть советчиком и навигатором, но не тем, кто сдает экзамены вместо меня. Потому что в реальности экзамен всегда впереди – просто его роль будет выполнять жизнь или реальная работа.
ИИ облегчил вход, но не отменил необходимость учиться. Он только изменил то, как мы учимся. И в этом нет ни плохого, ни хорошего, есть только ответственность пользоваться инструментом так, чтобы становиться сильнее, а не зависимее.

#мысли
👍21💯9🔥64🦄2🤔1
Дорогие друзья!

Честно – год был мега насыщенный и не все темы из моих планов дошли до вас. Обещаю исправиться! В следующем буду писать больше, глубже и, надеюсь, полезнее.

А теперь – новогодний тост-заклинание! Пусть в новом году:

🎄ваши метрики растут, а расходы нет,
🍰 тесты прокрашиваются, а баги исправляются,
🙈 релизы выходят, а сон крепчает,
🍾 цели сходятся, а ненужное – уходит.

Спасибо, что остаетесь здесь. Все будет хорошо!

С Новым годом!
144👍2
Возвращаемся в строй

Отдых вышел что надо - долгий и ленивый 🦥
Я провел его дома под пледом, с Гарри Поттером на экране и «Ведьмаком» в консоли. Пару раз выгонял себя на пробежки в лес (сосны в инее - это волшебно!), а в самый снегопад даже удалось устроить выезд на квадроциклах с друзьями.

Этот перерыв был нужен, чтобы перезагрузить голову, выдохнуть и собраться с мыслями. И теперь я готов к новому году с новыми идеями и энергией.

А что будет в канале дальше? 🤔

В фокусе - харды. Много. Буду делиться знаниями и разбирать сложные темы.

Ждите про:
SQL и оптимизацию запросов;
Python для анализа данных и разработки;
ML и статистику;
Немножко A/B;
И конечно, мои любимые метрики - куда ж без них.

Чтобы было проще находить нужное, вводим навигацию по тегам:

#харды - про код, данные и алгоритмы;
#софты - переговоры, презентации, работа в команде;
#карьера - рост от джуна до лида, фишки развития;
#книга - must-read для прокачки и иногда для души;
#мысли - мое мнение в свободном (и иногда хулиганском) формате;
#опыт - стратегии, кейсы, лайфхаки из реальных проектов;
#личное - учеба в маге, спорт, вылазки на природу.

Цель - делать контент, который будет вам полезен и интересен. Если есть темы, которые хотите разобрать - пишите в комментарии, обязательно учту.

Рад снова быть на связи! Давайте заряжать этот год вместе.
👍49🔥178👾1
Почему оконные функции - это суперсила аналитика?

Знакомы с проблемой? Вам нужно посчитать долю каждой продажи в общей выручке за месяц, сравнить сегодняшний показатель со вчерашним или составить рейтинг товаров внутри категории. Обычные агрегатные функции (с GROUP BY или без него) «схлопывают» строки и детализация теряется.

Здесь на сцену выходят оконные функции. Их суперсила в том, что они производят вычисления над группой строк (окном), но не сливают их в одну, а добавляют результат как новый столбец к каждой исходной строке.

Проще на примере:
-- Обычная сумма возвращает одну строку
SELECT SUM(revenue) FROM orders;

-- Оконная сумма добавляет общий итог к КАЖДОЙ строке
SELECT
*,
SUM(revenue) OVER() AS total_revenue
FROM orders;


Аналогия:
Представьте, что вы учитель.

Обычный запрос - это выставить одну общую среднюю оценку всему классу.
Оконная функция - это рядом с каждой личной оценкой ученика написать средний балл по классу для сравнения.

Где использовать оконки?
При подсчете скользящего среднего, накопительных итогов, ранжирования, расчете долей, сравнения строк.

В следующем посте подробнее погрузимся в синтаксис и научимся создавать окна.

А пока поделитесь насколько сложно вам было осваивать оконные функции?

🤯 - сложно
🥱 - изи

#харды #sql
🥱44🤯17👍103🤔2
Учимся создавать «окна» в SQL

В прошлом посте мы узнали, зачем нужны оконные функции. Теперь научимся их объявлять. Все начинается с инструкции OVER() - она и определяет наше «окно».

Ключевые команды внутри OVER():

▪️PARTITION BY - разделяет данные на группы (партиции). Как GROUP BY, но без «схлопывания» строк. Считает функцию внутри каждой группы отдельно.
▪️ORDER BY - сортирует строки внутри окна. Критично для функций нарастающего итога, ранжирования и смещения (LAG/LEAD).

Разберем на примере простой таблички, содержащей дату, канал с которого пришел пользователь и количество конверсий:
SELECT 
date AS dt
, medium AS med
, conversions AS conv
, SUM(conversions) OVER(PARTITION BY date ORDER BY medium) AS sum
FROM orders


Что произойдет?

PARTITION BY Date создаст отдельное «окно» для каждой даты. Сумма будет считаться только в рамках одного дня.
ORDER BY medium отсортирует каналы внутри каждой даты.
SUM(conversions) в паре с ORDER BY рассчитает нарастающий итог конверсий внутри каждого дня. Для первой строки в окне (дне) sum будет равен ее conversions, для второй - сумме первой и второй, и так далее.

⚠️ Важно: ROWS / RANGE управляют диапазоном строк, по которым считается оконная функция. И даже если ничего не указывать, то по умолчанию используется RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW.

В результате выполнения запроса мы получим примерно такую табличку:
dt        med      conv  sum
10.05.20 cpa 1 1
10.05.20 cpc 2 3
10.05.20 organic 1 4
11.05.20 cpa 1 1
11.05.20 cpc 3 4
11.05.20 direct 1 5
11.05.20 organic 2 7
12.05.20 cpc 1 1
12.05.20 organic 2 3


Основы разобрали! Далее я расскажу как сужать фокус окна до «скользящего» диапазона с помощью ROWS BETWEEN.

#харды #sql
19👍13🤔1💯1
Сегодня поговорим про экосистемные метрики. Или, если слово «экосистема» кажется слишком громким - про мультипродуктовые, сквозные пользовательские метрики.

В России настоящих экосистем не так уж много: Т-Банк, Сбер, Яндекс, МТС. Но чтобы применять экосистемные метрики, не обязательно быть «экосистемой». Достаточно иметь несколько продуктов и общего пользователя.

Сначала давайте разберемся, что же такое «экосистема»?

Экосистема - это портфель продуктов, в основе которого лежит платформа единого профиля пользователя и между продуктами которого существует передаточная ценность.

Это система взаимосвязей между продуктами и сервисами, добавляющая им ценность. В определенный момент связи дают больше пользы, чем все составные части экосистемы в сумме.


Когда у компании один продукт, чаще всего все довольно просто и грубо. Обычно считают доходы и расходы. Юнит-экономика, Retention, LTV и CAC приходят позже, когда продуктов становится больше и бизнес усложняется.

И вот здесь часто возникает ошибка: каждый продукт продолжают измерять изолированно, как будто пользователь существует внутри одного сервиса. Но пользователь так не живет. Он может прийти через один продукт, попробовать второй, регулярно пользоваться третьим, а деньги принести в четвертом. Для клиента это один непрерывный опыт, а для аналитики - набор разрозненных витрин.

А что такое «экосистемная метрика»?

Экосистемная метрика - это метрика, описывающая сразу несколько продуктов, а не один конкретный.

Это метрика, которая позволяет перейти от математики продукта к математике пользователя и экосистемы в целом.


Такие метрики нужны не «для красоты». Они используются в дереве метрик, чтобы понимать вклад конкретного продукта во всю систему, а также чтобы корректно оценивать эффекты A/B-тестов, которые почти всегда выходят за рамки одного продукта.

Когда компания начинает смотреть на бизнес через призму «мультипродуктовости», сильно меняется управленческое мышление. Отдельный продукт может быть убыточным или вообще не монетизироваться, но при этом оставаться важной частью всей конструкции - снижать стоимость привлечения, усиливать вовлечение, повышать удержание или раскрывать ценность других продуктов. В продуктовой логике такие сервисы хочется закрыть. В экосистемной - это элементы, из которых собирается эффективная бизнес-модель.

Дополнительно появляется эффект снижения CAC и роста удержания. Пользователей можно вовлекать в новые продукты не только через внешний маркетинг, но и за счет уже существующей базы. А пользователь, который использует несколько продуктов, значительно реже полностью уходит, даже если один из сервисов перестал быть для него ценным.

Какой вывод?

Если у вас несколько продуктов, не живите в логике одного продукта. Не измеряйте бизнес как набор независимых сервисов. Измеряйте пользователя ваших продуктов - именно там находится реальная ценность и реальные управленческие решения.

#харды #метрики
👍148
Если вы искали исчерпывающий курс по управлению данными, то он здесь, в одной книге на 800 страниц. Но приготовьтесь - это вам не «Котики».

📚 DAMA-DMBOK: Свод знаний по управлению данными. 2-е издание

The Data Management Association - это международная некоммерческая организация, которая поддерживает и развивает профессиональное сообщество в области управления данными. Она была основана в 1980-х и ранее называлась Data Administration Management Association или сокращенно DAMA. Организация знаменита публикацией ключевого справочника по управлению данными Data Management Body of Knowledge или DMBOK.

Справочник DAMA-DMBOK содержит лучшие практики, методологии и рекомендации по различным аспектам управления данными. Он охватывает 10 ключевых областей, включая архитектуру и проектирование данных, хранилища данных и бизнес-аналитику, управление качеством данных и метаданными. Авторы стремятся стандартизировать процессы работы с данными и улучшить их управление. Поэтому DAMA-DMBOK - стандарт в дата-менеджменте и основное пособие для подготовки к экзамену на Certified Data Management Professional (CDMP). Берем на заметку.

🔗 Первое издание вышло в 2009 году, второе опубликовано в 2017 году. Именно оно переведено на русский язык и продается в бумажном варианте за много денег, например, на OZON. Электронную версию в PDF - качайте по ссылке.

#книга
21