Data Bar | О data-проектах
2.06K subscribers
143 photos
1 file
110 links
Авторский канал о данных, аналитике, визуализации и датапроектах.
Саша Варламов @agvarl, Tableau Zen Master, Avito, ex Playrix, ex InDrive
Download Telegram
Динамика российского IT-рынка в 2025. Смена ландшафта

В конце 2023 года мы запустили проект анализа зарплат в IT. Сначала данные собирались по одной платформе Getmatch 1 раз в 2 недели, а с февраля стали собирать каждый день и подключать другие платформы. Данные каждый день мы отправляем в дашборд, а статистику по разным специализациям - в TG канал. Всё работает автоматически.

Делаем мы это для того, чтобы понять состояние рынка вакансий IT, используя данные, а не мнения.

2025й год закончился, мы собрали несколько миллионов дата-пойнтов с различных агрегаторов вакансий.

В этом посте показываем динамику активных вакансий на каждый день за год по двум платформам:
1. Getmatch. Премиум-сегмент (300K рублей - медианная зарплата). Платформа для размещения IT вакансий от мидл уровня и выше. В основном, топовые компании РФ и частично компании за рубежом. Все вакансии верифицируются
2. Хабр Карьера. Средний сегмент (200K рублей - медианная зарплата), включая Intern/Junior. Шире охват компаний.

Подавляющее большинство предложений в выборке - от компаний, работающих в России или с возможностью удалёнки.

(Нижний сегмент - IT вакансии локальных компаний и низкой квалификации в исследовании практически не представлен - они есть на HH без разделения на грейды. Медианная зарплата на HH - 90K рублей).

Оба агрегатора указывают грейд вакансии, эта информация используется в анализе. Активные вакансии - те, которые доступны на платформе в конкретный день. То есть, одна вакансия доступна несколько дней.

Итак, на графиках - число и доля активных вакансий по обеим платформам.

Инсайты из данных:
💙 Главный тренд: значительное снижение числа вакансий. На Getmatch к концу ноября 2025 года — минус 45% к ноябрю 2024. По Хабру полного года ещё нет, но падение сильнее
💙 Доля вакасий конкретного грейда в общем числе вакансий. Числа показаны на нижних графиках.
- Синьоры vs Мидлы. Их соотношение примерно 1:1 на обеих платформах. Но доля мидл-вакансий за год снизилась на 5%.
- Лиды. Их стало на 35% меньше, чем вакансий для синьоров или мидлов. Но их доля в общем пуле выросла примерно на 30%. Для лидов общее падение рынка компенсируется возросшим спросом.
- Лидовых вакансий меньше на 35 процентов, чем синьорных или мидловых. Тоже на двух платформах.
- Джуны и интерны. Их крайне мало в количественном выражении (в 6 и 10 раз меньше мидлов или синьоров соответственно). Но их доля не упала, а даже немного подросла - компании полностью не отказываются от этого сегмента.
💙 Сезонность никуда не делась. На графиках четко видны циклы HR-активности: подъем в феврале, спад на майских, осенний набор в сентябре-октябре. Рынок жив, он работает в привычном ритме, просто в меньшем объеме.


Выводы из данных:
💙 Рынок сузился, но не рухнул. Идет концентрация на опытных кадрах, но с сохранением точечного найма на стартовые позиции.
💙 Getmatch (премиум) и Хабр (средний сегмент) показывают очень схожую картину по структуре.

Канал | Дашборд 👈

#аналитика
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥145👍3🍾1
Советские фильмы и диаграммы

В канале Алексея Смагина data.csv недавно вышел пост с ребусами - там зарубежные фильмы были зашифрованы в графиках и диаграммах.

Мне идея понравилась, и я сделал диаграммы по мотивам советского кино.

Попробуйте угадать, какой известный фильм скрывается за каждой диаграммой.

Пишите свои версии в комментариях!

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8🤯6🔥4😱2
Почему команды замедляются, даже когда людей становится больше. И чем сможет помочь AI.

Есть популярная управленческая интуиция: если проект не успевает, нужно добавить людей. Логика простая: сказать "нас не хватает" психологически проще, чем признать архитектурные или организационные проблемы.

Но на практике часто происходит обратное: людей становится больше, а скорость падает. Про это ещё в 1975 году писал руководитель разработки в IBM, Фредерик Брукс. И "Законом Брукса" стали называть идею о том, что новые силы в проекте на поздних стадиях только отодвигают срок его сдачи.

На картинке показаны графы коммуникаций участников проекта. Если совсем просто: чем больше участников системы, тем больше усилий уходит не на работу, а на согласование работы. Сами графы коммуникаций - сильный визуальный инсайт.

Математика тут довольно жесткая. В команде из n человек количество потенциальных коммуникационных связей равно n(n−1)/2.
При росте команды с 5 до 10 человек людей становится вдвое больше, а связей - почти в пять раз.

Это явление называют communication overhead - издержки на коммуникацию.

На уровне ощущений увеличение команды проявляется быстро:
появляется больше встреч
растёт количество чатов
решения принимаются дольше
контекст всё чаще приходится пересказывать

Работа не исчезает, но вокруг неё нарастает шум. Возникает ложное чувсво прогресса: движухи больше, а проект не двигается. Вы сами могли заметить, сколько времени тратится на синки, выравнивания и координацию в больших проектах.

Важно, что Сommunication overhead - это не проблемы общения людей. Это структурная особенность любой сети. В компьютерных сетях ситуация точно такая же: чем больше узлов, тем выше доля служебного трафика. Полезная нагрузка растёт медленнее, чем координация.

Организации устроены аналогично. Процент полезных или бизнес-данных падает с ростом числа коммуникаций, а оверхед на синхронизацию контекста растёт. А это - плюс время и деньги.

Отсюда и эффект, описанный в законе Брукса: добавление людей в запаздывающий проект делает его ещё более запаздывающим. Новым участникам нужен контекст и/или обучение, а старые участники тратят время на его передачу и вкат новых людей. В моменте система становится тяжелее.

Важно понимать, что Communication overhead - не ошибка управления и не признак плохой команды. Это цена за масштаб. Пока команда маленькая, координация бесплатна. После определённого размера она становится основным ограничением.

Именно поэтому многие сильные организации сходятся в числе 5-7 человек на автономную команду. Это точка, где сеть ещё не начинает "говорить сама с собой" больше, чем работать.

А вот теперь, самое интересное. Как можно сократить число узлов и коммуникаций в "человеческой сети"?

В современных реалиях можно применять ИИ, и его уже применяют для этого. Но здесь важно не перепутать роли. Сам ИИ не уменьшает количество связей между людьми, а снижает трение в этих связях: сжимает контекст, делает саммари, помогает вспомнить решения. То есть уменьшает вес коммуникаций, но не отменяет их.

Для снижения оверхеда в команде можно:
1. Уменьшить число узлов сети. Или передать часть рутинной работы ИИ, снизив число участников проекта. При этом кратно упадет число связей.
2. Снизить уровень коммуникации. Это про сжатие контекста с помощью ИИ и использование его возможностей в качестве контекстного буфера.

Примеры по второму пункту:

Самая большая боль в командах не общение, а потеря контекста:
можешь напомнить, почему мы так решили?
где обсуждали?
это актуально или уже поменялось?

ИИ может:
читать чаты
читать таски
читать документы
делать саммари встреч
помнить историю решений

Поэтому, ИИ может выступать как контекстный буфер. А это - минус сотни сообщений и минус десятки встреч. Кроме этого, ИИ может асинхронно взаимодействовать со всеми участниками команды, это - огромная экономия времени на синхронизацию контекста.

Сейчас уже есть агенты, частично покрывающие проблемы оверхеда. Я думаю, в будущем появятся корпоративные решения для полного контроля и синхронизации контекста

#AI

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍8😱1
Про навыкоцентричность.

Headhunter на днях выпустил отчёт "Будущее навыкоцентричности". PDF в комментариях. Если кратко - рынок труда уходит от должностей и дипломов к навыкам. Любой сотрудник - набор навыков. Компания ищет конкретный скиллсет или дообучает недостающим навыкам. Естественно, это сильно влияет на процессы найма, оценки и развития сотрудников.

Интересно, что мы в проекте анализа зарплатных вилок в IT VILKY уже больше года работаем ровно в этом направлении: собираем все возможные навыки из вакансий, используем NPL и LLM для анализа описаний вакансий и нормализации данных.

Про анализ навыков в нашем проекте мы писали много, например, пост. В канале VILKY каждый день появляются самые дорогие и популярные навыки по IT-направлениям - можно буквально видеть "ценник" на Terraform, Python или Data Engineering.

Мы даже пытались считать стоимость любого скиллсета, сколько должен стоить специалист с определённым набором навыков. Собрали словари (до 10k навыков с их синонимами), научились дополнять вакансии скрытыми навыками и получать полный профиль позиции.

В продакшн это не раскатывали - слишком тяжёлый проект получался, да и бизнес в РФ ещё не был готов.

И вот сейчас об этом говорит HH со ссылками McKinsey, Microsoft, Coursera, Udemy и других. Ещё собрали мнения экспертов из разных отраслей. Мнения разные и интересные. Мне понравилось то, что вынес в заглавную картинку.

HH в отчете сообщает, что "Навыкоцентричный подход выбирают 68% российских компаний". Не знаю, откуда взяли 68%, но цифра кажется завышенной. Оцените просто сами что у вас в компании с навыкоцентричностью.

Мировой, а теперь и российский тренд понятен. Так что готовимся к новому слову "Навыкоцентричность". Отчёт HH будет тоже прочитать нелишним любому, кто строит карьеру. У HH еще есть гайд "Как внедрить навыкоцентричный подход в компании".

За стоимостью IT навыков можно следить в нашем канале VILKY или на дашборде - это бесплатно.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥6
От запроса к вопросу. Google представил Conversational Analytics в BigQuery

Вчера Google в блоге показал возможности решения Conversational Analytics в BigQuery. Теперь можно задавать вопросы к данным обычным языком, а система сама строит и выполняет SQL запрос и показывает результат с графиками и пояснениями в веб-интерфейсе. Используются агенты с последними моделями Gemini.

Осенью такое решение было представлена для гуглового Looker. Но Looker - это BI-слой. А здесь - прямое взаимодействие с DWH, без BI посредника.

Это ещё один шаг к демократизации данных.

Гайды Conversational Analytics для BigQuery и Looker.

Что это даёт бизнесу:
Демократизация аналитики. Можно получать ответы без знания SQL и без очереди к аналитикам.
Быстрее инсайты. Бизнес-пользователь напрямую взаимодействует с данными.
Меньше ручного контекста. ИИ читает метаданные и описания таблиц, формируя контекст данных

Давате разберём, почему это не революция:
Ответы ИИ надо проверять. Гугл сам об этом предупреждает.
Для метаданных и описаний таблиц надо проделать колоссальную работу: их нужно описывать, поддерживать и тестировать как агенты работают с метаданными.
Запросы BigQuery стоят денег. В крупных компаниях на запросы уходят десятки тысяч долларов в месяц. Неоптимальные SQL-запросы от ИИ будут сжирать бюджеты. Бизнес-пользователей придётся ограничивать и обучать формулировке вопросов.
Сложные бизнес-инсайты пока это не даст. Нужно много контекста и процессинга данных.

Похоже, что в ближайшем будущем отдельным навыком станет умение формулировать правильные бизнес-вопросы к данным.


💚 А про то, как самому локально развернуть базу данных и подключить к ней Claude через MCP для Conversational Analytics, я писал в посте "AI отчеты на основе данных".
💚 На Хабре сделал полный гайд "Подключаем Claude по MCP к базе данных на домашнем компьютере".

#conversational_analytics #genbi

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5❤‍🔥3
Нефтегаз, дата-центры и социальные сети

Все чаще звучит тема будущего дефицита энергии под вычислительные мощности. Глобальный AI , кроме софта, это физическая инфраструктура: дата-центры, электростанции, сети.

В конце 2000-х я работал на консалтинговых и производственных проектах для крупных нефтегазовых операторов в Казахстане: ENI, British Gas, Chevron и др..

Спустя несколько лет, году в 2014м, один из выпускников, после корпоративного обучения в ENI, рассказал интересную вещь: компания построила под Миланом несколько многоэтажных дата-центров. А он проходил там практику. При встрече он предложил мне догадаться, чем занимаются в дата-центре. Я не угадал - ответ оказался неожиданным.

Помимо геоаналитики, там активно шерстили и анализировали социальные сети. ENI управляет большим числом промышленных объектов по всей планете, а локальные инциденты не всегда сразу доходят до штаб-квартиры. А в соцсетях кто-то может сфоткать фото дыма или аварии буквально в первые минуты и выложить в соцсеть. Это только один пример.

Другими словами, данные из публичного цифрового пространства приходили быстрее внутренних каналов.

Стало интересно, что сейчас у ENI со строительством data-центров.

Сегодня ENI развивает один из крупнейших в Европе вычислительных кластеров в Ломбардии, с собственными суперкомпьютерами и энергоэффективной архитектурой. В 2025 году компания также объявила партнёрство с Khazna (ОАЭ) по созданию AI-кампуса на сотни мегаватт. Питать планируют от новой газовой электростанции.

На официальном сайте есть крутая инфографика про эволюцию суперкомпьютеров с 1948 года и дата-центры. А здесь - много фото дата-центра ENI.

Чем там будут заниматься, можно только предполагать. Но связка LLM + семантический анализ соцсетей + гигантские вычислительные мощности - это уже не просто мониторинг. Это инструмент раннего обнаружения рисков, прогнозирования событий и построения модели мира в реальном времени.

В догонку ноябрьская новость про инвестиции в новое направление для энергетических компаний - AI-инфраструктуру.
Chevron выходит на рынок дата-центров и инвестирует в AI-инфраструктуру в Техасе
Halliburton предлагает специализированные решения для ЦОД
Liberty Energy партнёрится с Oklo (ядерные реакторы) с решениями для энергоёмких клиентов

Что из этого следует
AI требует гигантских объёмов дешёвой и стабильной энергии.
Нефтегазовые компании уже обладают ключевыми компетенциями: генерация, инфраструктура, капиталоёмкие проекты.
Дата-центры становятся новым промышленным активом, сопоставимым по значимости с НПЗ или газовыми хабами.

В этом контексте выигрывать будут те регионы/компании, где есть:
доступная энергия
земля
инженерные кадры
политическая стабильность

Поэтому Казахстан тоже выглядит перспективно. Можно вспомнить инициативу "Долина ЦОД". И на уровне правительства такие инициативы поддерживают. Это оч круто!

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤‍🔥54
Хроники пет-проекта. Как идея выросла в data-продукт.

Привет всем, кто недавно присоединился - вас уже больше 2000 👋

Сегодня расскажу, как мы вчетвером (я, Никита, Рома и Снежана) за год превратили простую идею в полноценный data-продукт.

Если вы делаете свои пет-проекты, возможно, этот путь будет полезен. У нас - опыт работы в больших и средних IT компаниям, и мы делали все так как принято в большом IT. Большую статью про проект писали на VC.

Всё началось с простых вопросов
Сколько стоят IT навыки?
Сколько денег предлагают на конкретных ролях?

Так появился маленький пет-проект.

Со временем он вырос в полноценный data-pipeline с LLM, дашбордами, алертами и автоматическими дайджестами.
В базе - несколько миллионов data-пойнтов. По некоторым источниками собрали историю с 2012 года.
Про проект писали телеграм-каналы с общей аудиторией более 2млн человек.

Мы делали всё по выходным, и сделали то, что еще никто не делал:
объединили данные из разных источников и построили ежедневно обновляемый дашборд
создали телеграм-канал с автоматической аналитикой вакансий.
подключили нейросети к базе данных и реализовали диалог с данными почти сразу после появления MCP.

Коротко весь путь по шагам:

Постановка проблемы.
Про боль рынка, и зачем всё это. Первая версия дашборда.
"Дайте вилку" или IT вакансии с зарплатами

Сбор данных и автоматизация.
Строим песочницу для экспериментов с данными.
IT вакансии и автоматизация парсинга зарплат.

Проект становится системой.
От "скрипта на коленке" в продукт: пайплайн, хранилище, трансформации, дизайн.
Агрегаторы IT вакансий и их сравнение
Проект VILKY. Roadmap, API, dbt и MongoDB

LLM + Telegram + автоматические дайджесты
Как мы придумали дополнительные фичи
Проект VILKY. LLM, телеграм канал и дайджесты
Пет-проект VILKY. Архитектура, исследования, дизайн.

Неожиданный эффект Telegram.
Как проект подхватили крупные IT-паблики
VILKY в IT пабликах и эффект Telegram

Инсайты и наблюдения про рынок IT
14000 открытых IT вакансий на одном дашборде
Hard и Soft навыки в IT профессиях. Алгоритмы NLP

AI-репортинг как следующий слой
AI отчёты на основе данных
Нейрорепортинг Claude + MCP и технологические тренды в IT
Локальное подключение нейросетей к БД

Взгляд сверху
Проекты, продукты и продуктовый подход в пет-проекте


Что мы видим сейчас

Мы собираем данные каждый день, и теперь доступны вещи, которых не было ещё год назад:
динамика вакансий по дням
сезонность найма
тримодальность зарплат (три кластера компаний с разными вилками)
распределение грейдов по IT-направлениям
и многое другое

Мы можем:
считать стоимость навыков
строить карты эволюции профессий
искать вакансии по любому описанию
общаться с данными через Claude или ChatGPT
находить скрытые паттерны в истории рынка

Пространство для анализа огромное. А времени, как всегда, меньше.


И вопрос про будущее:

Технически мы уже можем дать доступ к данным через ChatGPT.

Например:
загружать резюме и искать релевантные вакансии
задавать вопросы реальному рынку
получать ответы из структурированных данных

В публичном виде такого пока никто не делал. Это полноценная связь LLM с данными.

Интересно ли вам было бы общаться с рынком вакансий напрямую через ChatGPT?
Ставьте "❤️" в реакциях.

@data_bar 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
23🔥8