Only Analyst

🎖 С Днём Победы Красной армии и советского народа над нацистской Германией в Великой Отечественной войне 1941–1945 годов!

В честь 9 мая — снова небольшая динамическая визуализация, посвящённая теме военной индустрии.

В этот раз я подготовил графики на основе данных SIPRI Top 100 Arms-Producing Companies (2002–2023):

🏭 Топ-20 оборонных компаний мира по объёму продаж оружия (в миллионах $).
🌍 Топ-20 стран мира по суммарным доходам оборонных компаний (в миллионах $).

👀 Интересно наблюдать, как в течение двух десятилетий:

На арену выходят новые игроки,
Меняется геополитическая расстановка сил,
И кто действительно правит оружейным рынком.

📊 Источник: SIPRI (Стокгольмский международный институт исследований проблем мира).
📅 Период: 2002–2023 гг.
📦 В выборке — все компании из ежегодного рейтинга SIPRI Top 100.

С Днём Победы!

Пусть память о прошлом помогает осмысливать настоящее.

Ссылка на данные прошлого года

😀 @onlyanalystgroup
💬 @onlyanalystchat

2👍27❤19🔥8👎5

2.99K views08:03

Only Analyst

🎯 Разбор live-coding SQL компании VK

Делаем новую рубрику - разбор заданий с live-coding секций компаний. В этот раз со мной поделились задачей на продуктового аналитика в VK. Актуально на май 2025.

Разберем не просто SQL решение конкретной задачи, а именно методологию, декомпозицию, как себя вести и что делать в трудных ситуациях.

Задача довольно объемная и состоит из трех частей, поэтому разделим историю на несколько постов.

Поехали!

Ты на секции live-coding. У тебя есть онлайн редактор и SQL. Цель — показать не только решение, но и ход мыслей. Показываю, как рассуждать пошагово и писать читаемый код.

📋 Внимательно изучаем условие

У нас есть таблица visits со следующими колонками:

user_id    -- ID пользователя  
campaign   -- канал привлечения  
datetime   -- дата и время визита

🔍 Задача:

Построить таблицу, где указано количество новых пользователей по дням их первого визита. Это и есть когорты привлечения.

🧠 Декомпозиция задачи

Шаг 0 — понять, что такое «когорта привлечения»
Когорта в этом задании — это группа пользователей, у которых первый визит был в один и тот же день.
Например, если 1 марта в первый раз пришли 120 человек, а 2 марта — 90, то у нас две когорты.

Шаг 1 — для каждого пользователя определить дату его первого визита
Это делается с помощью агрегирования:

MIN(datetime) по каждому user_id

Обернём это в DATE(...), чтобы убрать время

Шаг 2 — посчитать, сколько пользователей в каждой дате (когорте)
Просто сгруппируем результаты предыдущего шага по cohort_date

И посчитаем количество строк (пользователей) в каждой дате

Шаг 3 — аккуратно оформить код: используем CTE. Это удобно: видно каждый шаг. Упрощает чтение кода интервьюером

🧱 Сборка кода по частям

🔹 Шаг 1: Сначала — дата первого визита

WITH first_visits AS (
    SELECT 
        user_id,
        MIN(DATE(datetime)) AS cohort_date
    FROM visits
    GROUP BY user_id
)

🔎 Здесь мы для каждого пользователя находим его первую дату визита — и это его когорта.

🔹 Шаг 2: Теперь считаем пользователей по дате когорт

cohort_sizes AS (
    SELECT 
        cohort_date,
        COUNT(*) AS users_count
    FROM first_visits
    GROUP BY cohort_date
)

🔎 Мы группируем пользователей по cohort_date и считаем их количество.

🔹 Шаг 3: Финальный результат

WITH first_visits AS (
    SELECT 
        user_id,
        MIN(DATE(datetime)) AS cohort_date
    FROM visits
    GROUP BY user_id
),
cohort_sizes AS (
    SELECT 
        cohort_date,
        COUNT(*) AS users_count
    FROM first_visits
    GROUP BY cohort_date
)
SELECT *
FROM cohort_sizes
ORDER BY cohort_date;

💡 Общие советы для секции live-coding:

🧩 Решай пошагово. Сначала на бумаге/в голове разбери: «Что мне нужно посчитать? Что известно?»

🗣 Говори вслух. Даже если пишешь простой GROUP BY, комментируй: "Я сейчас группирую по дате привлечения, чтобы получить когорты".

🔤 Пиши чисто. Хорошие имена CTE показывают твоё мышление (first_visits, cohort_sizes, а не cte1).

😌 Думай просто. Интервьюер скорее оценит чёткую структуру, чем «хитрый хак».

📎 В следующем посте: как посчитать ретеншн первой недели по когортам — сколько пользователей вернулись в течение 7 дней после первого визита.

Интересные задачи присылайте мне в личку - разберем. @onlyanalyst

Вопросы по прохождению такой секции, то задавайте в комментариях.

Если пост и формат в целом зайдет (это я пойму по реакциям), то добавим еще и видео решение с подробным объяснением и разными подходами.

😀 @onlyanalystgroup
💬 @onlyanalystchat

👍50🔥17❤10👎1

3.13K views11:11

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

2.48K views12:32

🔥17👍7❤3👎2

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

2.47K views13:05

❤9👍9🔥7👎1

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

2.1K views10:53

❤11🔥6👍4👎1

Only Analyst

🎯 Live-coding SQL часть 2: Ретеншн первой недели по когортам

Продолжаем тренироваться в секции live-coding по SQL от компании VK. Если пропустили, то первая часть по ссылке.

📋 Условие

Напоминаю: у нас таблица visits со схемой:

user_id    -- ID пользователя  
campaign   -- канал привлечения  
datetime   -- дата и время визита

🧠 Задача

Посчитать ретеншн первой недели по когортам:
Для каждой даты первого визита (когорты) — сколько пользователей вернулись хотя бы один раз в течение 7 дней после первого визита (не включая сам день прихода).

⚙️ Декомпозиция задачи

💠 Шаг 0 — план действий

Нам нужно:
• Определить дату первого визита (как в задаче 1)
• Найти все визиты, которые произошли строго после этой даты
• Оставить только те, что произошли в течение 7 дней
• Посчитать, сколько уникальных пользователей вернулось по каждой когорте

💠 Шаг 1 — CTE с первой датой визита (cohort_date)

Повторим из прошлого задания — база для когорт.

WITH first_visits AS (
    SELECT 
        user_id,
        MIN(DATE(datetime)) AS cohort_date
    FROM visits
    GROUP BY user_id
)

💠 Шаг 2 — джойним с исходной таблицей

Нам нужно сопоставить:
• когорта пользователя
• последующие визиты
• ограничение в 7 дней после первого прихода

, retention_visits AS (
    SELECT
        fv.user_id,
        fv.cohort_date,
        DATE(v.datetime) AS visit_date
    FROM first_visits fv
    JOIN visits v ON fv.user_id = v.user_id
    WHERE DATE(v.datetime) > fv.cohort_date  -- позже, чем первый визит
      AND DATE(v.datetime) <= fv.cohort_date + INTERVAL '7 day'  -- но не позже 7 дней
)

💠 Шаг 3 — считаем вернувшихся пользователей по когорте

, retained_users AS (
    SELECT 
        cohort_date,
        COUNT(DISTINCT user_id) AS retained_users_count
    FROM retention_visits
    GROUP BY cohort_date
)

💠 Шаг 4 — добавим размер когорт (из первого задания)

, cohort_sizes AS (
    SELECT 
        cohort_date,
        COUNT(*) AS users_count
    FROM first_visits
    GROUP BY cohort_date
)

💠 Шаг 5 — собираем результат

WITH first_visits AS (
    SELECT 
        user_id,
        MIN(DATE(datetime)) AS cohort_date
    FROM visits
    GROUP BY user_id
),
retention_visits AS (
    SELECT
        fv.user_id,
        fv.cohort_date,
        DATE(v.datetime) AS visit_date
    FROM first_visits fv
    JOIN visits v ON fv.user_id = v.user_id
    WHERE DATE(v.datetime) > fv.cohort_date
      AND DATE(v.datetime) <= fv.cohort_date + INTERVAL '7 day'
),
retained_users AS (
    SELECT 
        cohort_date,
        COUNT(DISTINCT user_id) AS retained_users_count
    FROM retention_visits
    GROUP BY cohort_date
),
cohort_sizes AS (
    SELECT 
        cohort_date,
        COUNT(*) AS users_count
    FROM first_visits
    GROUP BY cohort_date
)
SELECT 
    cs.cohort_date,
    cs.users_count,
    COALESCE(ru.retained_users_count, 0) AS retained_users,
    ROUND(COALESCE(ru.retained_users_count, 0)::numeric / cs.users_count, 2) AS retention_rate
FROM cohort_sizes cs
LEFT JOIN retained_users ru ON cs.cohort_date = ru.cohort_date
ORDER BY cs.cohort_date;

💡 Советы для секции live-coding (часть 2):
1. Переиспользуй. Продемонстрирую структурное мышление и внимательность возвращаясь к прошлым результатам, нежели писать все с 0 каждый раз.
2. Формулируй вслух, что проверяешь. Например: «Сейчас я фильтрую визиты, произошедшие после первого визита, но не позже 7 дней — для метрики раннего ретеншна».
3. Добавляй защиту от NULL-ов. Используй COALESCE, если есть LEFT JOIN — это демонстрирует внимание к деталям.
4. Поясняй математику. Даже если A / B, проговори: «делю число вернувшихся на размер когорты, чтобы получить процент ретеншна».

📎 В следующем посте: ретеншн первой недели по каналам привлечения.

Интересные задачи присылайте мне в личку - разберем. @onlyanalyst

Вопросы по прохождению такой секции, то задавайте в комментариях.

😀 @onlyanalystgroup
💬 @onlyanalystchat

Only Analyst

🔥18❤6👍3👎1

2.92K views14:47

Only Analyst

Please open Telegram to view this post

VIEW IN TELEGRAM

13:22

Only Analyst

🚀 Новый формат буткемпа: аналитический продукт с нуля за 4 дня

Запускаю новую серию онлайн-буткемпов — максимально прикладной подход для аналитиков всех уровней.

📅 Даты: 12–15 июня

Каждый день — это не теория, а реальный продовый кейс, который можно развернуть, показать и развивать. А также начать учиться на базе возникающих проблем, вместо пустого изучения теории без понимания где и как она применяется.

По факту это коммерческий опыт, который вы сможете адаптировать к текущей работе и как сторонний проект для добавления в резюме. Это не бесполезный GitHub с jupiter ноутбуками из Рамблер.Техникума, а настоящий проект.

📌 Формат и программа:

12–13 июня (2 дня по 2 часа) — Базовый блок

🔧 Технологии:

Python (asyncio, requests, logging, io)

PostgreSQL + psycopg2

Docker + docker-compose

matplotlib

🧠 Что делаем:

Разворачиваем Telegram-бота в Docker, подключаем базу, логируем данные, визуализируем графики.

📍Зачем это аналитику:

работать с API и асинхронным кодом

хранить данные в PostgreSQL

создавать визуализации

💰 Участие: 10 000 ₽ онлайн / 5 000 ₽ запись

14 июня — Блок Superset

🔧 Технологии: Apache Superset

🧠 Что делаем:

Подключаем Superset к базе, создаём BI-дэшборды, учимся фильтровать, кастомизировать визуализации.

📍Почему это важно:

BI — обязательный навык в работе аналитика

умение строить дашборды в Superset — востребовано в ИТ-компаниях

💰 Участие: всё вместе с Superset — 15 000 ₽ онлайн / 7 500 ₽ запись

15 июня — Блок Airflow

🔧 Технологии: Apache Airflow

🧠 Что делаем:

Создаём полноценный ETL пайплайн для обновления данных.

📍Зачем это нужно:

автоматизация задач

опыт продакшен-пайплайнов

понимание, как работают данные в команде

💰 Участие: полный буткемп с Superset + Airflow — 20 000 ₽ онлайн / 10 000 ₽ запись

💡 Что получится на выходе?

- Ты соберёшь реальный микросервис, в который входит:

- Telegram-бот, который взаимодействует с пользователем

- PostgreSQL-база с логированием событий

- matplotlib-графики

- BI-дашборды в Superset

- ежедневный автоапдейт данных через Airflow

📦 Это можно самостоятельно развернуть на сервере, показать на собеседовании и использовать в портфолио. Забудьте про "нескучные" ссылка на GitHub.

📈 Этот проект покрывает ключевые навыки, которые ищут работодатели: python, sql, docker, apache superset и apache airflow

❓Часто задаваемые вопросы

Можно ли участвовать с нуля?

- Да, буткемп подходит новичкам. Не нужно опыта работы. Всё объясняется пошагово.

Что нужно установить заранее?

- Docker Desktop

- Visual Studio Code

- Zoom

Все программы бесплатные. Инструкции по установке вышлю.

Как проходит обучение?

- Живые занятия в Zoom с записью

- Формат live-coding: ты видишь, как я пишу код

- Каждую строчку кода я объясняю голосом и оставляю комментарий прямо в коде

- Можно делать вместе со мной или по записи

Можно ли оплатить в рассрочку?

- Да, можно разбить платёж на 2 части.

Какие системные требования?

- Любая операционная система, 8 Гб оперативной памяти желательно. Если не подходит, то можете арендовать отдельный сервер.

🤝 Атмосфера: как в настоящей ИТ-команде

Ты не просто учишься — ты ощущаешь, как работает продуктовая команда:

- ежедневные синки (в начале каждого занятия — как в рабочих командах)

- обсуждение архитектуры, задач, проблем

- общий чат для общения, вопросов, взаимопомощи

- фидбек, практика и живое взаимодействие

📍Это не мёртвый курс — это живой ИТ-опыт.

💬 Напиши, если хочешь забронировать место. Кол-во участников в онлайн-группе ограничено.

😀 OnlyAnalyst. Погружаемся в аналитику по-настоящему.

P.S. Все участники еще также узнают первыми о моем новом направлении - AnalystCamp.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥9❤8👎2

2.5K viewsedited 17:38

Only Analyst

🎓 Что говорят участники про Буткемп?

Более 50 человек уже прошли наш интенсив — и вот что они говорят:

💬 «Курс отличный и будет становиться только лучше. Можно отлично и весело провести время, узнав для себя что-то новое!»
— @ilya_mosin_wa

💬 «Очень круто попробовать что-то новое и разобраться с инструментами, о которых раньше только слышала. Теперь я точно знаю — это реально освоить, главное не бояться!»
— @kusyakek

💬 «Это был мой первый опыт с TG-ботом, Python и Docker. Прошло всего несколько звонков — и уже готовый проект. Этот опыт помог мне пройти собеседование и получить оффер!»
— @nastyarimbaud

💬 «Материал без воды, чётко, с молниеносной поддержкой, ощущение настоящего рабочего процесса»
— @nastyarimbaud

💬 «Очень понравился дух обучения, команда, поддержка, и всё это с подачей “говорящей головы”, где каждое действие объясняется на пальцах»
— @Lexina_Elena

💬 «Проект реально можно трогать руками, адаптировать под себя, и он работает! Это кайф»
— @kusyakek

💬 «Подача без “высокого порога входа” — всё объяснено и показано, и даже новичок может подключиться»
— @anni_parsh

💬 «Отдельный респект за организацию: все программы работали без сбоев, никаких технических сложностей. А подача — на высоте!»
— @reddis_m

💬 «Очень понравилось то, как Алексей строит атмосферу: уверенно, спокойно, без “воды”, фокус на реальную практику»
— @avonadzh

💬 «Домашка помогала закрепить материал, а структура буткемпа — это просто идеальный формат для первого data-проекта»
— @EllKirill

🛠 Участники отмечают:
✅ Понятную и «разжёванную» подачу материала
✅ Проект, который можно показать на собеседовании
✅ Настоящее погружение в Docker, SQL, Python и Telegram API
✅ Готовый data-продукт за считаные дни
✅ Рабочую атмосферу, поддержку и командную динамику
✅ Ощущение реального опыта IT-разработки

🧠 Даже те, кто пришли с минимальными знаниями, уходили с конкретным результатом и пониманием, как строятся data-продукты.

🎯 Итог буткемпа — это не просто уроки, а:
— первый data-проект своими руками
— уверенность в себе
— новое окружение
— и строчка в резюме, которая работает

🚀 Июньский bootcamp уже полность набран и остался только в формате в записей. Кто хочет записаться на июль - можете писать мне в личные сообщения @onlyanalyst

😀 OnlyAnalyst. Погружаемся в аналитику по-настоящему.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🥰3👎1🔥1

2.6K viewsedited 10:23

Only Analyst

☀️ Я знаю, что вы делали этим летом.

🏕️ Прошло уже 2 недели с последнего буткемпа и наконец-то можно выдохнуть и подвести итог.

🐼 Это был самый большой, самый полный буткем за всю историю: Telegram, Python,
API, SQL, Airflow, Superset. Это если не
вдаваться в подробности.

😊 Меня радует, что созданный продукт реально приносит пользу людям и не имеет аналогов у «продавцов курсов»

🙇‍♀️ Но у них такого продукта не может быть
по определению: они хотят просто что-то продать, а мы хотим научиться применять современные аналитические технологии, чтобы приобрести коммерческий опыт.

🔮 Что дальше? По сути это первопроходный формат и новое слово в обучении. Поэтому было принято решение перенести его в новую плоскость. Ждите анонсов. Наш ламповый канал скоро сделает большой шаг вперед!

🤫 Не буду много рассказывать сам, а лучше попрошу учеников самостоятельно в комментариях поделиться своими

🖼️ А к посту приложил скриншоты. Можете
оценить вайб по нашим «серьезным» лицам, а по остальным скриншотам посмотрите что мы там сделали за 4 дня.

🏯 На втором скриншоте можете оценить нашу архитектуру. Так что по сути и начальный system design тоже добавлю (шучу).

😀

OnlyAnalyst. Погружаемся в аналитику по-настоящему.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26❤9👍6

3.66K views17:52

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

3.08K views09:08

🔥14❤4👍2

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:58

3.51K views10:33

🔥17❤5👍43🥰1

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

3.85K views14:44

👍16🔥7❤4

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

2.33K views12:56

🔥16❤4👍4

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:39

2.42K views13:59

🔥15👍3❤2

Only Analyst

This media is not supported in your browser

VIEW IN TELEGRAM

0:32

2.29K views15:52

🔥11❤3👍3

Only Analyst

📊 Как рассказывать про непростые графики?

На этот график я наткнулся пару месяцев назад. С первого взгляда всё очевидно, но в аналитике, как обычно, не всё так просто.

Ниже разбор, как мы проверили источники, сопоставили показатели и исправили визуализацию.

1) Базовый график
На нём рядом целые страны (Франция, Канада, Финляндия, Чехия, Австрия) и группы населения США (афроамериканцы, латиноамериканцы, белые).

Подпись «OECD», «WHO», «CDC» есть, но методика и год не указаны. Значения по странам завышены, по США — очень высокие.

2) Как определили источники
• США (CDC, 2022, crude): Black — 27.5, Hispanic — 5.5, White — 2.0. Источник: MMWR.
• Страны (UNODC, 2022): Канада — 0.889, Австрия — 0.145, Франция — 0.100, Финляндия — 0.091, Чехия — 0.095.

Почему не OECD/WHO? UNODC — эталон по «умышленным убийствам с применением огнестрела», CDC — медрегистрация смертей в США.

3) Ошибки и исправления
• Смешение уровней → разделили страны и группы.
• Неясный показатель → взяли только firearm homicide.
• Нет года → указали 2022.
• Разная методология → дали дисклеймер.
• Не указано crude/age-adjusted → уточнили, что crude.
• Риск экологической ошибки → без причинных выводов.

4) Исправленный график
Разница осталась огромной, но сравнение стало корректным.

5) Выводы

✅ firearm homicide у некоторых групп США в разы выше, чем в странах ОЭСР.

❌ Этничность ≠ причина — нужны модели с контролем факторов. Нужна корректная модель с контролем факторов (возраст, место проживания, доход, занятость, доступ к оружию и т. д.).

ℹ️ Мини-справка
• Crude rate — случаи на 100 тыс. без учёта возраста: просто, но искажает сравнения.
• Age-adjusted rate — пересчёт при одинаковой возрастной структуре: чище, но сложнее.
💡 Молодая страна может казаться опаснее по crude, но после поправки разница исчезает.

На какие мысли наводит этот график?

И какие дальнейшие действия предприняли бы?

😀

OnlyAnalyst. Погружаемся в аналитику по-настоящему.

💬 Наш чатик.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤5👍11

3.16K views07:34

About

Blog

Apps

Platform