ИИ всех не заменит: сколько будет специалистов по данным через 5 лет
Вышка выпустила статистический сборник «Индикаторы образования». В 2023 году на айти-специальности в вузы поступило 357 тысяч студентов — 27% от общего приема в вузы. В колледжи поступило еще 142 тысячи айтишников — 14% всего приема.
Спрос на айтишников уже даже обсуждать стыдно, но Сэм Альтман пугает программистов безработицей.
В это время Всемирный экономический форум выпустил исследование о занятости на айти-рынке. По данным ВЭФ, большие данные и нейросети в ближайшие 5 лет создадут миллионы новых рабочих мест.
Почему студентам все-таки надо не париться и учиться работать с данными?
Потому что спрос на таких специалистов в ближайшие 5 лет вырастет:
1. Специалисты по большим данным / +113%
Цифровизации и распространение IoT приводят к накоплению огромных объемов информации, что требует специализированной обработки.
Среди работодателей 86% считают, что развитие ИИ и информационных технологий трансформирует бизнес, что напрямую увеличивает спрос на экспертов по большим данным.
2. Аналитики и дата-сайентисты / +41%
Финансовые компании и ритейл инвестируют до 20% бюджета в аналитику и предиктивное моделирование, стимулируя спрос на дата-сайентистов.
По данным опросов, 7 из 10 компаний считают аналитическое мышление критически важным для бизнеса, что усиливает спрос на специалистов, способных превращать данные в инсайты.
3. Дата-инженеры / +36%
Около 70% работодателей планируют увеличить инвестиции в инфраструктуру данных для создания надёжных ETL-процессов.
По данным IDC, мировые расходы на облачные платформы могут расти до 25% ежегодно и усилить потребность в инженерах.
4. Специалисты по хранилищам данных / +46%
Объединение данных из ERP, CRM, IoT и прочих систем требует квалифицированных специалистов по хранилищам. Широкое применение ИИ и машинного обучения требует качественных хранилищ данных для построения моделей и аналитики.
Если вы хотите построить карьеру в айти и выбираете, на какую специальность поступать в вуз или колледж, выбирайте карьеру в сфере данных. На таких специалистов будет максимальный спрос.
Расскажите знакомым абитуриентам.
#исследования
Вышка выпустила статистический сборник «Индикаторы образования». В 2023 году на айти-специальности в вузы поступило 357 тысяч студентов — 27% от общего приема в вузы. В колледжи поступило еще 142 тысячи айтишников — 14% всего приема.
Спрос на айтишников уже даже обсуждать стыдно, но Сэм Альтман пугает программистов безработицей.
В это время Всемирный экономический форум выпустил исследование о занятости на айти-рынке. По данным ВЭФ, большие данные и нейросети в ближайшие 5 лет создадут миллионы новых рабочих мест.
Почему студентам все-таки надо не париться и учиться работать с данными?
Потому что спрос на таких специалистов в ближайшие 5 лет вырастет:
1. Специалисты по большим данным / +113%
Цифровизации и распространение IoT приводят к накоплению огромных объемов информации, что требует специализированной обработки.
Среди работодателей 86% считают, что развитие ИИ и информационных технологий трансформирует бизнес, что напрямую увеличивает спрос на экспертов по большим данным.
2. Аналитики и дата-сайентисты / +41%
Финансовые компании и ритейл инвестируют до 20% бюджета в аналитику и предиктивное моделирование, стимулируя спрос на дата-сайентистов.
По данным опросов, 7 из 10 компаний считают аналитическое мышление критически важным для бизнеса, что усиливает спрос на специалистов, способных превращать данные в инсайты.
3. Дата-инженеры / +36%
Около 70% работодателей планируют увеличить инвестиции в инфраструктуру данных для создания надёжных ETL-процессов.
По данным IDC, мировые расходы на облачные платформы могут расти до 25% ежегодно и усилить потребность в инженерах.
4. Специалисты по хранилищам данных / +46%
Объединение данных из ERP, CRM, IoT и прочих систем требует квалифицированных специалистов по хранилищам. Широкое применение ИИ и машинного обучения требует качественных хранилищ данных для построения моделей и аналитики.
Если вы хотите построить карьеру в айти и выбираете, на какую специальность поступать в вуз или колледж, выбирайте карьеру в сфере данных. На таких специалистов будет максимальный спрос.
Расскажите знакомым абитуриентам.
#исследования
❤🔥3❤3🔥2
Данные не превращаются в деньги даже в компаниях, где есть Chief Data Officer
В 2002 году позиции CDO практически не существовало. В 2012 году CDO был только в 12% крупных компаний, а в 2020 году уже в 67%.
Количество CDO растет, но их эффективность невелика. Топ-менеджеры отводят им роль руководителей департаментов, хотя они должны заниматься стратегией всей компании в отношении данных.
Ценность, которую создает CDO, не так очевидна, как ценность директора по маркетингу, начальника производства или финансового директора.
В 2024 году рынок корпоративного ПО вырос на 34%. В МТС оценили объем айти-рынка в ₽3,3 млрд. Вклад айти-сектора в российский ВВП вырос до ₽4 трлн и превысил 2,2%. В большинстве сфер айти-бюджеты растут, но расходуются неэффективно: проваливается 70% проектов по цифровизации и цифровой трансформации.
И даже при росте бюджетов данные все еще не превращаются в деньги.
Компании инвестируют миллиарды в айти-инфраструктуру, но не внедряют системных изменений, а потому не получают эффекта. Новые технологии накладываются на старые подходы, что не приводит к трансформации.
В крупных компаниях данные хранятся разрозненно, департаменты не всегда обмениваются информацией. Возникают конфликты, которые приводят к неэффективному управлению ресурсами.
Из статьи «Корпоративный университет данных: искусство малых шагов»:
Все повторяют мантру, что данные — новая нефть, но почти никто не понимает, как ее перерабатывать, чтобы превращать сырье в товар.
В крупных компаниях CDO должны стать мостиком между информационными системами и научить топ-менеджеров видеть картину с данными целиком.
#деньги
В 2002 году позиции CDO практически не существовало. В 2012 году CDO был только в 12% крупных компаний, а в 2020 году уже в 67%.
Количество CDO растет, но их эффективность невелика. Топ-менеджеры отводят им роль руководителей департаментов, хотя они должны заниматься стратегией всей компании в отношении данных.
Ценность, которую создает CDO, не так очевидна, как ценность директора по маркетингу, начальника производства или финансового директора.
В 2024 году рынок корпоративного ПО вырос на 34%. В МТС оценили объем айти-рынка в ₽3,3 млрд. Вклад айти-сектора в российский ВВП вырос до ₽4 трлн и превысил 2,2%. В большинстве сфер айти-бюджеты растут, но расходуются неэффективно: проваливается 70% проектов по цифровизации и цифровой трансформации.
И даже при росте бюджетов данные все еще не превращаются в деньги.
Компании инвестируют миллиарды в айти-инфраструктуру, но не внедряют системных изменений, а потому не получают эффекта. Новые технологии накладываются на старые подходы, что не приводит к трансформации.
В крупных компаниях данные хранятся разрозненно, департаменты не всегда обмениваются информацией. Возникают конфликты, которые приводят к неэффективному управлению ресурсами.
Из статьи «Корпоративный университет данных: искусство малых шагов»:
Недавно на одном корпоративном мероприятии я услышал кейс о противостоянии двух юнитов. В крупном холдинге у одной из компаний группы стоит задача минимизировать выбросы в окружающую среду, у другой — оптимизировать производство.
Они, не понимая, как сходится экономика этих двух процессов, решают каждый свою задачу. Тем временем эти задачи могут быть решены параллельно — и чтобы увидеть это, достаточно построения «ручейка данных» между подразделениями, фактически одной сводной таблицы, которая покажет топ-менеджменту полную картину в бизнесе в различных разрезах и показателях.
На выходе такой мост между двумя обособленными информационными продуктами способен экономить бизнесу миллионы рублей ежегодно — в приведенном кейсе это около 500 млн рублей.
Все повторяют мантру, что данные — новая нефть, но почти никто не понимает, как ее перерабатывать, чтобы превращать сырье в товар.
В крупных компаниях CDO должны стать мостиком между информационными системами и научить топ-менеджеров видеть картину с данными целиком.
#деньги
🔥6❤2👍2👌2
Компании начнут собирать меньше данных
Сбор персональных данных на теневом рынке подорожал в 2,5 раза за 2023 год. Один сбор стоит до ₽44,3 тысяч. В 3,3 раза подорожали данные сотовых операторов. В 1,5 раза дороже стала банковская информация.
Есть гипотеза, что компании станут собирать и анализировать меньше пользовательских данных.
В 2024 году Гугл ограничил 3rd party cookies в своем браузере. Не имея альтернативы, бизнес постепенно сократит объемы собираемых данных.
Причины сокращения:
1. Сбор, хранение и обработка данных дорожают.
2. Штрафы за утечки и новые законы заставляют хранить меньше данных.
3. Новые алгоритмы анализируют небольшие массивы данных без потери качества.
Отмена 3rd party cookies ударит по таргетингу. Выручка паблишеров сократится на 30–50%. Назойливой рекламы станет меньше.
Интернет-трафик сократится. Когда оператор отключит сбор информации, вы будете тратить 7 ГБ трафика вместо 10 ГБ. Сегодня эти 3 ГБ — непосредственно информационный обмен.
К 2035 году бизнес адаптируется и будет собирать только по-настоящему полезные данные.
#деньги #исследования
Сбор персональных данных на теневом рынке подорожал в 2,5 раза за 2023 год. Один сбор стоит до ₽44,3 тысяч. В 3,3 раза подорожали данные сотовых операторов. В 1,5 раза дороже стала банковская информация.
Есть гипотеза, что компании станут собирать и анализировать меньше пользовательских данных.
В 2024 году Гугл ограничил 3rd party cookies в своем браузере. Не имея альтернативы, бизнес постепенно сократит объемы собираемых данных.
Причины сокращения:
1. Сбор, хранение и обработка данных дорожают.
2. Штрафы за утечки и новые законы заставляют хранить меньше данных.
3. Новые алгоритмы анализируют небольшие массивы данных без потери качества.
Отмена 3rd party cookies ударит по таргетингу. Выручка паблишеров сократится на 30–50%. Назойливой рекламы станет меньше.
Интернет-трафик сократится. Когда оператор отключит сбор информации, вы будете тратить 7 ГБ трафика вместо 10 ГБ. Сегодня эти 3 ГБ — непосредственно информационный обмен.
К 2035 году бизнес адаптируется и будет собирать только по-настоящему полезные данные.
#деньги #исследования
🔥3👏3🤔3👍1
Может ли ИИ написать сложный SQL-запрос
Выясняем, каковы шансы сбыться у прогноза Gartner.
В статье автор сравнил свои SQL-запросы с теми, что написал ChatGPT. Формально нейросеть с задачей справилась, но есть нюансы:
- Когда смертный инженер пишет сложный запрос к БД, он учитывает контекст. Когда мы ставим задачу, то многое из того, что подразумевается, формально не произносится, и для нейросети это проблема.
- Если человек разумный все-таки учел в промпте все тонкости и подготовил четкую и детальную инструкцию, это ничего не гарантирует. Нейросеть может написать рабочий, но неоптимизированный и нечитабельный код.
В итоге автору пришлось потратить уйму времени на оптимизацию промпта. У инженера гораздо быстрее получится оптимизировать свой код, чем промпт для нейросети.
Главный вывод:
Нельзя сравнивать качество запроса, написанного человеком, и запроса, который написал ИИ.
Какой код напишет человек, зависит только от его квалификации. Какой код напишет нейросеть, зависит от нее, а еще от квалификации того, кто составляет промпт.
Представим, что и человек, и нейросеть написали одинаково хороший код. Сделает это машину ровней венцу творения? Нет. Это будет значить только то, что написавший промпт для нейросети делает свою работу так же хорошо, как и написавший код.
#субд #ии #sql #статьи
Выясняем, каковы шансы сбыться у прогноза Gartner.
В статье автор сравнил свои SQL-запросы с теми, что написал ChatGPT. Формально нейросеть с задачей справилась, но есть нюансы:
- Когда смертный инженер пишет сложный запрос к БД, он учитывает контекст. Когда мы ставим задачу, то многое из того, что подразумевается, формально не произносится, и для нейросети это проблема.
- Если человек разумный все-таки учел в промпте все тонкости и подготовил четкую и детальную инструкцию, это ничего не гарантирует. Нейросеть может написать рабочий, но неоптимизированный и нечитабельный код.
В итоге автору пришлось потратить уйму времени на оптимизацию промпта. У инженера гораздо быстрее получится оптимизировать свой код, чем промпт для нейросети.
Главный вывод:
Нельзя сравнивать качество запроса, написанного человеком, и запроса, который написал ИИ.
Какой код напишет человек, зависит только от его квалификации. Какой код напишет нейросеть, зависит от нее, а еще от квалификации того, кто составляет промпт.
Представим, что и человек, и нейросеть написали одинаково хороший код. Сделает это машину ровней венцу творения? Нет. Это будет значить только то, что написавший промпт для нейросети делает свою работу так же хорошо, как и написавший код.
#субд #ии #sql #статьи
👍4🔥4👌2💯2
Кейс: проверка гипотез в аналитике данных с помощью DeepSeek
Ребята из Всероссийской страховой компании протестировали бесплатную версию DeepSeek на умение проверять гипотезы. Модели предстояло понять, как меняются ключевые показатели техподдержки и отсортировать по категориям обращения клиентов.
Гипотеза 1: оценка трендов по ключевым показателям техноддержки
Скормили нейросети эксель-таблицу с основными метриками: SLA, количество негативных отзывов, поступивших и решенных заявок.
Написали простой промпт:
Получили очень даже хорошо структурированный отчет. Однако модель иногда принимала рост показателя за падение и наоборот.
Интересно, что на выводы это не повлияло: предложенные нейросетью мероприятия по улучшению совпали с идеями команды.
Гипотеза 2: категоризация обращений в техподдержку
Собрали обращения пользователей в техподдержку за 3 квартала. Получили эксель-таблицу на 70 тысяч строк. У каждого обращения было текстовое описание проблемы, которое пользователи давали в свободной форме.
Промпт:
Категории, которые выделил искусственный интеллект, почти полностью повторяли те, на которые авторы раньше делили обращения вручную. Были и отклонения: какие-то обращения попадали сразу в несколько категорий, а какие-то распределялись нерелевантно.
Модель неплохо уловила некоторые тренды, но в некоторых категориях фиксировала рост обращений, хотя в исходных данных ясно наблюдается падение.
Вердикт:
DeepSeek подходит для первичной аналитики, но с оговорками. С категоризацией он справился неплохо, а вот в динамических показателях много путался. Для больших данных все-таки лучше брать специализированные решения.
#аналитика #ии #статья
Ребята из Всероссийской страховой компании протестировали бесплатную версию DeepSeek на умение проверять гипотезы. Модели предстояло понять, как меняются ключевые показатели техподдержки и отсортировать по категориям обращения клиентов.
Гипотеза 1: оценка трендов по ключевым показателям техноддержки
Скормили нейросети эксель-таблицу с основными метриками: SLA, количество негативных отзывов, поступивших и решенных заявок.
Написали простой промпт:
В выгрузке данные по метрикам технической поддержки продавца. Сравни тренды всех показателей в 3 периодах: 1) январь 2023 - декабрь 2023; 2) январь 24 - сентябрь 24; 3) октябрь 24 - февраль 25.
Сделай выводы, как изменилось качество технической поддержки личного кабинета. Предложи мероприятия по улучшению.
Получили очень даже хорошо структурированный отчет. Однако модель иногда принимала рост показателя за падение и наоборот.
Интересно, что на выводы это не повлияло: предложенные нейросетью мероприятия по улучшению совпали с идеями команды.
Гипотеза 2: категоризация обращений в техподдержку
Собрали обращения пользователей в техподдержку за 3 квартала. Получили эксель-таблицу на 70 тысяч строк. У каждого обращения было текстовое описание проблемы, которое пользователи давали в свободной форме.
Промпт:
В файле обращения пользователей личного кабинета продавца в техническую поддержку.
Категоризируй обращения по причинам обращений. Выдели не более 10 категорий.
Проведи анализ изменений процентного соотношения категорий за 3 кв. 2024, 4 кв. 2024 и 1 кв. 2025 года.
Категории, которые выделил искусственный интеллект, почти полностью повторяли те, на которые авторы раньше делили обращения вручную. Были и отклонения: какие-то обращения попадали сразу в несколько категорий, а какие-то распределялись нерелевантно.
Модель неплохо уловила некоторые тренды, но в некоторых категориях фиксировала рост обращений, хотя в исходных данных ясно наблюдается падение.
Вердикт:
DeepSeek подходит для первичной аналитики, но с оговорками. С категоризацией он справился неплохо, а вот в динамических показателях много путался. Для больших данных все-таки лучше брать специализированные решения.
#аналитика #ии #статья
👍5❤2🔥2
Собеседование дата-сайентиста: 10 вопросов, на которые не ответят джуны
На Proglib собрали в тест 10 вопросов, об которые спотыкаются 80% кандидатов. Знание ответов отличит мидла от джуна.
Проверьте себя и коллег.
На Proglib собрали в тест 10 вопросов, об которые спотыкаются 80% кандидатов. Знание ответов отличит мидла от джуна.
Проверьте себя и коллег.
🔥4❤2👏2
Спрос на спецов по аналитике данных и машинному обучению вырос в 30 раз за 10 лет
По данным исследования hh.ru за 2014-2024 годы.
При этом самый бурный рост наблюдается в последние 4 года — с 2020 количество вакансий по этим позициям выросло в 2,5 раза.
Самые быстрорастущие направления:
- Инфраструктура данных и DevOps (3,6 раза)
- Анализ данных (2,5 раза)
- Инженерия данных и биг дата (1,9 раза)
- Машинное обучение (1,8 раза)
Медианные зарплаты за 2024 год:
- ML-инженеры (₽590 тысяч)
- Специалисты по анализу данных (₽470 тысяч)
- Инженеры по безопасности высоконагруженных систем (₽400 тысяч)
- Дата-инженеры (₽365 тысяч)
- Инженеры по компьютерному зрению (₽324 тысячи)
Как отбирают кандидатов:
- В 48% вакансий требуют опыт от 1 до 3 лет.
- В 44% — от 3 до 6 лет.
- Самые востребованные — выпускники МФТИ, НИУ ВШЭ и МГУ, прошедшие подготовку в Школе анализа данных Яндекса.
Если думали, что корочка из института не пригодится, возможно, вы ошибались.
#исследования #деньги
По данным исследования hh.ru за 2014-2024 годы.
При этом самый бурный рост наблюдается в последние 4 года — с 2020 количество вакансий по этим позициям выросло в 2,5 раза.
Самые быстрорастущие направления:
- Инфраструктура данных и DevOps (3,6 раза)
- Анализ данных (2,5 раза)
- Инженерия данных и биг дата (1,9 раза)
- Машинное обучение (1,8 раза)
Медианные зарплаты за 2024 год:
- ML-инженеры (₽590 тысяч)
- Специалисты по анализу данных (₽470 тысяч)
- Инженеры по безопасности высоконагруженных систем (₽400 тысяч)
- Дата-инженеры (₽365 тысяч)
- Инженеры по компьютерному зрению (₽324 тысячи)
Как отбирают кандидатов:
- В 48% вакансий требуют опыт от 1 до 3 лет.
- В 44% — от 3 до 6 лет.
- Самые востребованные — выпускники МФТИ, НИУ ВШЭ и МГУ, прошедшие подготовку в Школе анализа данных Яндекса.
Если думали, что корочка из института не пригодится, возможно, вы ошибались.
#исследования #деньги
❤4🔥3👌3
Как вы думаете, с данными в корпорациях похожая ситуация?
Telegram
[Другая]стратегия
Ну, за меньше пены
Принесла вам весёлое, в самый раз для вечера пятницы: две диаграммы про разницу между галлюцинациями представлениями о внедрении генИИ в крупных корпорациях тм и реальностью.
TL;DR: больше половины генИИ-инициатив существуют только в…
Принесла вам весёлое, в самый раз для вечера пятницы: две диаграммы про разницу между галлюцинациями представлениями о внедрении генИИ в крупных корпорациях тм и реальностью.
TL;DR: больше половины генИИ-инициатив существуют только в…
😁3❤🔥1
Forwarded from Пост Лукацкого
Вот тут в Коммерсанте статья про рост запроса бизнеса на проведение аудитов на соответствие закону о персональных данных 🪪 Мол, рост у многих игроков этого рынка, что есть хорошо. Но... это же в корне неверно. Хорошо только тем, кто получает деньги за проведение аудитов. В реальности ситуация становится только хуже 🤠
Во-первых, если внимательно читать, то аудиты многие проводят для того, чтобы реализовать смягчающие факторы при утечке🥺 То есть компании хотят не понять реальный уровень защиты, а снизить размеры штрафа. Это тоже нормальное желание, но только к безопасности персональных данных никакого отношения не имеет. Вспоминая закон Гудхарта, компании будут стремиться не защищать личную информацию, а пройти аудит ☑️ Начнется торговля аттестатами соответствия или как их там еще будут называть, и пошло-поехало... Мы такое проходили уже.
Во-вторых, чтобы оценивать реальную защищенность системы обработки персональных данных, предлагаемых мер (аттестация, которую пройти нельзя на современным предприятии, аудит по чеклисту и т.п.) нужно совсем другое - пентесты, багбаунти, red team'инг, кибериспытания...👺 А про это никто не говорит. КоАП вообще ни слова не говорит о том, как надо подтверждать соответствие требованиям. А раз так, то все пойдут по пути наименьшего сопротивления. То есть защиты больше не станет, скорее наоборот. А вот чувство ложной защищенности вырастет... До поры, до времени ⏳
А потом, когда такую проверенную компанию взломают, бизнес спросит: "Ну вы же проходили оценку соответствия. И что теперь?"🤔 А будет вот что. Сначала пострадавшая компания получит свой штраф; пусть и в уменьшенном размере (то есть несколько миллионов рублей, до 15-ти). Потом ее поломают 🤔 во второй раз; защиты же особо нет - только бумажная безопасность. И тогда будет оборотный штраф, так как смягчающие обстоятельства в этом случае уже не будут действовать. Селяви 🤔
#персональныеданные #оценказащищенности
Во-первых, если внимательно читать, то аудиты многие проводят для того, чтобы реализовать смягчающие факторы при утечке
Во-вторых, чтобы оценивать реальную защищенность системы обработки персональных данных, предлагаемых мер (аттестация, которую пройти нельзя на современным предприятии, аудит по чеклисту и т.п.) нужно совсем другое - пентесты, багбаунти, red team'инг, кибериспытания...
А потом, когда такую проверенную компанию взломают, бизнес спросит: "Ну вы же проходили оценку соответствия. И что теперь?"
#персональныеданные #оценказащищенности
Please open Telegram to view this post
VIEW IN TELEGRAM
Коммерсантъ
Со штрафами всё на оборот
Будущее наказание за утечки уже влияет на рынок хранения данных
👍4🔥2🥰2👏1
Битва за 3% эффективности вместо монетизации
По данным MIT, до 70% компаний используют большие данные преимущественно для снижения себестоимости продуктов. Эту экономию и называют монетизацией.
Мы считаем это лукавством. Вы ведь монетизируете то, что монетизировали и без больших данных, просто теперь чуть нарастили маржу.
В чем тут проблема?
Разработчики и дата-инженеры решают бизнес-задачи, но не умеют их формулировать и ставить. Да и не должны уметь. Это прерогатива топ-менеджеров.
Топ-менеджеры не могут сформулировать задачу, результат выполнения которой выходил бы за рамки текущих процессов.
Chief Data Officers могли бы это делать, но для этого они должны работать в коллективе, который исповедует data-driven. Таких мало. Под вывеской data-driven обычно просто собирают данные, но не находят им должного применения.
Данные используются для количественного роста эффективности и отладки уже существующих процессов. Но не для качественного перехода в их монетизации.
Еще лучше анализировать данные, еще больше собирать, еще снизить издержки хранения. И получить еще 3% эффективности.
Разработчики и руководство видят в данных только инструмент, помогающий экономить и несколько повышать маржинальность. Разгляди они в них продукт, как того хотели бы Chief Data Officers, выхлоп был бы больше.
#аналитика #деньги
По данным MIT, до 70% компаний используют большие данные преимущественно для снижения себестоимости продуктов. Эту экономию и называют монетизацией.
Мы считаем это лукавством. Вы ведь монетизируете то, что монетизировали и без больших данных, просто теперь чуть нарастили маржу.
В чем тут проблема?
Разработчики и дата-инженеры решают бизнес-задачи, но не умеют их формулировать и ставить. Да и не должны уметь. Это прерогатива топ-менеджеров.
Топ-менеджеры не могут сформулировать задачу, результат выполнения которой выходил бы за рамки текущих процессов.
Chief Data Officers могли бы это делать, но для этого они должны работать в коллективе, который исповедует data-driven. Таких мало. Под вывеской data-driven обычно просто собирают данные, но не находят им должного применения.
Данные используются для количественного роста эффективности и отладки уже существующих процессов. Но не для качественного перехода в их монетизации.
Еще лучше анализировать данные, еще больше собирать, еще снизить издержки хранения. И получить еще 3% эффективности.
Разработчики и руководство видят в данных только инструмент, помогающий экономить и несколько повышать маржинальность. Разгляди они в них продукт, как того хотели бы Chief Data Officers, выхлоп был бы больше.
#аналитика #деньги
❤🔥4❤2🔥1
Progres Post
Битва за 3% эффективности вместо монетизации По данным MIT, до 70% компаний используют большие данные преимущественно для снижения себестоимости продуктов. Эту экономию и называют монетизацией. Мы считаем это лукавством. Вы ведь монетизируете то, что монетизировали…
Кто на что учился
За 3 года Авито вложит в текстовые и мультимодальные нейросети ₽12 млрд и планирует заработать на этом ₽21 млрд.
Об этом говорят все.
Мало кто говорит, что ивестируя в ИИ, Авито параллельно инвестирует в образование студентов, которые будут с этим ИИ работать:
- В 2024 году Авито уже запустил магистратуру по Data Science в МФТИ.
- В 2025 году Авито запустит еще три программы: по разработке, Data Science и продуктовому менеджменту в ИТМО и ВШЭ.
- В 2025 году Авито полностью оплатит обучение 118 из 140 студентов на этих направлениях.
- Авито также планирует получить образовательную лицензию и открыть на базе Академии аналитиков собственные курсы по продуктовому менеджменту и Data Science.
Яндекс со своей Школой анализа данных тоже молодцы. Однако эти образовательные программы не решают проблем, о которых мы вчера писали.
Про что никто не говорит:
В школах, появляющихся тут и там, учат механике работы с данными. Это образование для тех, кто будет непосредственно взаимодействовать с айти-инструментами.
Индустрии же не хватает университетов, где будут учить не специалистов, а топ-менеджеров. В таких университетах должны учить не решению задач, а умению правильно задавать вопросы к данным с позиции управленцев.
С айти-инфраструктурой все неплохо, школы данных справляются. Методология обучения в университетах должна готовить кадры, которые будут формулировать и проверять с помощью данных новые гипотезы, а не решать рутинные задачи.
Сегодня проваливается 70% программ цифровой трансформации. Все из-за того, что современные методы и инструменты спотыкаются об архаичные подходы.
В статье «Корпоративный университет данных: искусство малых шагов» автор подробно рассуждает, как решить эту проблему.
#ии #образование
За 3 года Авито вложит в текстовые и мультимодальные нейросети ₽12 млрд и планирует заработать на этом ₽21 млрд.
Об этом говорят все.
Мало кто говорит, что ивестируя в ИИ, Авито параллельно инвестирует в образование студентов, которые будут с этим ИИ работать:
- В 2024 году Авито уже запустил магистратуру по Data Science в МФТИ.
- В 2025 году Авито запустит еще три программы: по разработке, Data Science и продуктовому менеджменту в ИТМО и ВШЭ.
- В 2025 году Авито полностью оплатит обучение 118 из 140 студентов на этих направлениях.
- Авито также планирует получить образовательную лицензию и открыть на базе Академии аналитиков собственные курсы по продуктовому менеджменту и Data Science.
Яндекс со своей Школой анализа данных тоже молодцы. Однако эти образовательные программы не решают проблем, о которых мы вчера писали.
Про что никто не говорит:
В школах, появляющихся тут и там, учат механике работы с данными. Это образование для тех, кто будет непосредственно взаимодействовать с айти-инструментами.
Индустрии же не хватает университетов, где будут учить не специалистов, а топ-менеджеров. В таких университетах должны учить не решению задач, а умению правильно задавать вопросы к данным с позиции управленцев.
С айти-инфраструктурой все неплохо, школы данных справляются. Методология обучения в университетах должна готовить кадры, которые будут формулировать и проверять с помощью данных новые гипотезы, а не решать рутинные задачи.
Сегодня проваливается 70% программ цифровой трансформации. Все из-за того, что современные методы и инструменты спотыкаются об архаичные подходы.
В статье «Корпоративный университет данных: искусство малых шагов» автор подробно рассуждает, как решить эту проблему.
#ии #образование
🔥4👌3❤2
Национальная биржа больших данных
В Китае данные воспринимают как топливо для цифровой трансформации государства и бизнеса. Впервые создать национальную биржу данных китайцы попробовали в 2014 году, но попытка провалилась.
В 2015 году в китайском Гуйяне запустили Глобальную биржу по обмену большими данными. К 2024 году на платформе работали 1466 субъектов, а совокупный объем торгов составил $736 млн, из которых $408 млн — только за 2024 год.
В 2022 году весь китайский рынок торговли большими данными оценивался в $12 млрд. Эксперты считают, что к 2030 году он вырастет до $72 млрд.
Развитие торговли данными в Китае обеспечил принятый в 2021 году закон о защите персональной информации. По уровню защиты данных он напоминает европейский GDPR, но не ограничивает рынки торговли обезличенными данными.
В России подобный закон внесли в Госдуму еще в 2020 году, в первом чтении приняли в 2021, а потом все подвисло аж на 3 года. Полностью приняли закон только в 2024 году.
Надеемся, что теперь и у нас подобная биржа появится, а разработчикам и бизнесу станет проще получать данные.
#деньги
В Китае данные воспринимают как топливо для цифровой трансформации государства и бизнеса. Впервые создать национальную биржу данных китайцы попробовали в 2014 году, но попытка провалилась.
В 2015 году в китайском Гуйяне запустили Глобальную биржу по обмену большими данными. К 2024 году на платформе работали 1466 субъектов, а совокупный объем торгов составил $736 млн, из которых $408 млн — только за 2024 год.
В 2022 году весь китайский рынок торговли большими данными оценивался в $12 млрд. Эксперты считают, что к 2030 году он вырастет до $72 млрд.
Развитие торговли данными в Китае обеспечил принятый в 2021 году закон о защите персональной информации. По уровню защиты данных он напоминает европейский GDPR, но не ограничивает рынки торговли обезличенными данными.
В России подобный закон внесли в Госдуму еще в 2020 году, в первом чтении приняли в 2021, а потом все подвисло аж на 3 года. Полностью приняли закон только в 2024 году.
Надеемся, что теперь и у нас подобная биржа появится, а разработчикам и бизнесу станет проще получать данные.
#деньги
👍4❤3🔥2
Первоапрельская аналитика данных: можно ли есть кебабы у вокзала?
Гуляя по Парижу, один любитель кебабов задумался: а правда ли, что чем ближе к метро или вокзалу, тем хуже кебаб? Он решил не строить догадок и провести исследование.
Он вооружился Python и собрал рейтинги сотен заведений через Google Places API. Выгрузил карту улиц с OpenStreetMap с помощью OSMnx. Затем использовал GeoPandas и Shapely, чтобы рассчитать точные расстояния от каждой кебабной до ближайшей станции. Для поиска кратчайших пешеходных маршрутов он применил NetworkX, а для анализа зависимостей — статистические методы.
Результаты оказались неожиданными: никакой зависимости между расстоянием и рейтингами не нашлось. Да, среди заведений у станций были посредственные варианты, но в целом их качество не отличалось от тех, что прятались в глубине кварталов.
Круто, что аналитика данных позволяет не только разбираться в бизнес-процессах, но и разрушать городские легенды.
Комменты можно почитать на Реддите.
Отправьте друзьям, может перестанут брезговать перекусами на вокзалах.
Вот бы кто-то сделал такое для Москвы или Питера.
#исследования
Гуляя по Парижу, один любитель кебабов задумался: а правда ли, что чем ближе к метро или вокзалу, тем хуже кебаб? Он решил не строить догадок и провести исследование.
Он вооружился Python и собрал рейтинги сотен заведений через Google Places API. Выгрузил карту улиц с OpenStreetMap с помощью OSMnx. Затем использовал GeoPandas и Shapely, чтобы рассчитать точные расстояния от каждой кебабной до ближайшей станции. Для поиска кратчайших пешеходных маршрутов он применил NetworkX, а для анализа зависимостей — статистические методы.
Результаты оказались неожиданными: никакой зависимости между расстоянием и рейтингами не нашлось. Да, среди заведений у станций были посредственные варианты, но в целом их качество не отличалось от тех, что прятались в глубине кварталов.
Круто, что аналитика данных позволяет не только разбираться в бизнес-процессах, но и разрушать городские легенды.
Комменты можно почитать на Реддите.
Отправьте друзьям, может перестанут брезговать перекусами на вокзалах.
Вот бы кто-то сделал такое для Москвы или Питера.
#исследования
😁7👏6🔥3🌭3❤2
В крупных соцопросах участвует менее 0,1% населения, но мы делаем выводы про всех россиян. Как это работает?
В «Если быть точным» объяснили, как устроены выборки и откуда берется репрезентативность:
- Почему нет разницы в точности опроса при 1000 и 5000 участников.
- Как в США опросили 250 тысяч человек, а результаты получились столь же точные, как если бы опрос был сделан на случайной выборке в 10 человек.
- Почему опросы не смогли предсказать победу Трампа в 2016 году.
- По какой формуле посчитать, сколько респондентов должно быть в выборке.
Крутой материал для тех, кто работает с данными: много инсайтов про методологии, скрытые искажения и случайности.
#аналитика #статьи
В «Если быть точным» объяснили, как устроены выборки и откуда берется репрезентативность:
- Почему нет разницы в точности опроса при 1000 и 5000 участников.
- Как в США опросили 250 тысяч человек, а результаты получились столь же точные, как если бы опрос был сделан на случайной выборке в 10 человек.
- Почему опросы не смогли предсказать победу Трампа в 2016 году.
- По какой формуле посчитать, сколько респондентов должно быть в выборке.
Крутой материал для тех, кто работает с данными: много инсайтов про методологии, скрытые искажения и случайности.
#аналитика #статьи
👍4🔥3👌2
На что уходят мировые инвестиции в генеративный ИИ
В Gartner прогнозируют, что в 2025 году мировые расходы на генеративный ИИ составят $644 млрд. Это на 76% больше, чем в 2024.
Разберемся, насколько вырастут инвестиции в разных отраслях по сравнению с прошлым годом:
1. Программное обеспечение: $37 млрд, +93%
2. Устройства: $398 млрд, +99%
Кстати, в IDC считают, что доля ПК с встроенным ИИ вырастет с 5% в 2023 году до 94% уже к 2028 году. Такие цифры в IDC получили, опросив 670 руководителей крупных айти-компаний по всему миру.
3. Серверы: $180 млрд, +33%
4. Услуги: $27 млрд, +162%
Пока вы думаете, много это или мало, на Кафедре когнитивных наук Калифорнийского университета сообщили, что GPT-4.5 прошла трехсторонний тест Тьюринга:
В трехстороннем тесте испытуемые в течение 5 минут общаются одновременно с машиной и человеком и должны определить, кто есть кто. В 73% случаев GPT-4.5 приняли за человека.
#ии #деньги #исследования
В Gartner прогнозируют, что в 2025 году мировые расходы на генеративный ИИ составят $644 млрд. Это на 76% больше, чем в 2024.
Разберемся, насколько вырастут инвестиции в разных отраслях по сравнению с прошлым годом:
1. Программное обеспечение: $37 млрд, +93%
2. Устройства: $398 млрд, +99%
Кстати, в IDC считают, что доля ПК с встроенным ИИ вырастет с 5% в 2023 году до 94% уже к 2028 году. Такие цифры в IDC получили, опросив 670 руководителей крупных айти-компаний по всему миру.
3. Серверы: $180 млрд, +33%
4. Услуги: $27 млрд, +162%
Пока вы думаете, много это или мало, на Кафедре когнитивных наук Калифорнийского университета сообщили, что GPT-4.5 прошла трехсторонний тест Тьюринга:
Полученные данные представляют собой первое эмпирическое доказательство того, что искусственная система проходит стандартный трехсторонний тест Тьюринга.
В трехстороннем тесте испытуемые в течение 5 минут общаются одновременно с машиной и человеком и должны определить, кто есть кто. В 73% случаев GPT-4.5 приняли за человека.
#ии #деньги #исследования
❤🔥2🔥2👌2
Яндекс выпустил бета-версию Нейроэксперта для работы с документами, презентациями, аудио и видео
Нейроэксперт превратит загруженные файлы в базу знаний. Вы можете создавать разные папки с файлами. Изучая файлы внутри отдельных пространств-папок, Нейроэксперт может пересказывать содержимое, проводить сравнительный анализ, написать на основе файлов текст и так далее.
Папки работают, как в облачных хранилищах — ими можно делиться по ссылкам.
В Яндексе пояснили:
Зачем это надо?
- Отправляете ссылки на несколько длиннющих видеообзоров от любимых блогеров на новый гаджет и просите Нейроэксперта помочь. Он сопоставит мнения, сравнит оценки и сделает общий вывод, а вы сэкономите несколько часов.
- Загружаете сразу несколько отчетов, исследований и презентаций на любую тему объемом хоть в сотни страниц и просите Нейроэксперта подготовить метаисследование. Получаете в нужном стиле и формате документ, который основан сразу на нескольких источниках.
- Загружаете презентации продукта от разных поставщиков и просите Нейроэксперта подготовить сравнительную таблицу. Берете этот отчет и идете к руководителю, чтобы на основании таблицы решить, у кого покупать.
Яндекс планирует в будущем выпустить расширенную версию для бизнес-задач, в которой появятся новые опции — поиск сведений во внутренних базах данных и документации, систематизация работы, упрощение процессов адаптации и повышение эффективности сотрудников.
Сервис пригодится студентам, преподавателям, бухгалтерам, маркетологам и кому угодно, если ему приходится на работе изучать много документов.
#ии
Нейроэксперт превратит загруженные файлы в базу знаний. Вы можете создавать разные папки с файлами. Изучая файлы внутри отдельных пространств-папок, Нейроэксперт может пересказывать содержимое, проводить сравнительный анализ, написать на основе файлов текст и так далее.
Папки работают, как в облачных хранилищах — ими можно делиться по ссылкам.
В Яндексе пояснили:
По всей загруженной информации пользователь может задавать вопросы в режиме диалога — как при общении с обычным чат-ботом. Нейроэксперт подготовит ответ только на основе источников пользователя и не добавит ничего от себя. После выхода сервиса из бета-тестирования пользователи смогут добавлять больше 25 файлов или ссылок.
Зачем это надо?
- Отправляете ссылки на несколько длиннющих видеообзоров от любимых блогеров на новый гаджет и просите Нейроэксперта помочь. Он сопоставит мнения, сравнит оценки и сделает общий вывод, а вы сэкономите несколько часов.
- Загружаете сразу несколько отчетов, исследований и презентаций на любую тему объемом хоть в сотни страниц и просите Нейроэксперта подготовить метаисследование. Получаете в нужном стиле и формате документ, который основан сразу на нескольких источниках.
- Загружаете презентации продукта от разных поставщиков и просите Нейроэксперта подготовить сравнительную таблицу. Берете этот отчет и идете к руководителю, чтобы на основании таблицы решить, у кого покупать.
Яндекс планирует в будущем выпустить расширенную версию для бизнес-задач, в которой появятся новые опции — поиск сведений во внутренних базах данных и документации, систематизация работы, упрощение процессов адаптации и повышение эффективности сотрудников.
Сервис пригодится студентам, преподавателям, бухгалтерам, маркетологам и кому угодно, если ему приходится на работе изучать много документов.
#ии
🔥5👍3👏2
Инвесторы используют альтернативные данные для прогноза продаж
Инвесторы розничных сетей все чаще используют альтернативные данные, а не финансовую отчетность для анализа рынка и прогнозов. Это могут быть опросы покупателей, данные по кредиткам и геолокации, обсуждения в соцсетях.
Кто и как собирает альтернативные данные?
- Партнер Goldman Sachs, HundredX проводит опросы о намерениях покупателей через НКО и продает эти данные клиентам.
- В Placer отслеживают перемещения людей для оценки посещаемости магазинов и эффективности рекламы на билбордах.
- В Reddit проводят вебинары для ритейлеров: соцсеть анализирует посты и комменты для прогнозирования спроса.
Зачем инвесторам альтернативные данные?
В ноябре 2024 года аналитики Facteus заметили, изучая данные кредиток, что средний чек в Tik Tok Shop вырос на 16%. Клиентам Facteus это стало известно за неделю до публикации квартального отчета. Так хедж-фонды, которые опирались на альтернативные данные, купили акции выгоднее тех, кто ждал официальной информации.
Ну и сами аналитики на этом заработали. Из-за подобных кейсов на Уолл-стрит вырос спрос на альтернативные данные, и выручка Facteus выросла с 2023 года на 300%.
Какая-то узаконенная торговля инсайдерской инфой получается.
#деньги
Инвесторы розничных сетей все чаще используют альтернативные данные, а не финансовую отчетность для анализа рынка и прогнозов. Это могут быть опросы покупателей, данные по кредиткам и геолокации, обсуждения в соцсетях.
Кто и как собирает альтернативные данные?
- Партнер Goldman Sachs, HundredX проводит опросы о намерениях покупателей через НКО и продает эти данные клиентам.
- В Placer отслеживают перемещения людей для оценки посещаемости магазинов и эффективности рекламы на билбордах.
- В Reddit проводят вебинары для ритейлеров: соцсеть анализирует посты и комменты для прогнозирования спроса.
Зачем инвесторам альтернативные данные?
В ноябре 2024 года аналитики Facteus заметили, изучая данные кредиток, что средний чек в Tik Tok Shop вырос на 16%. Клиентам Facteus это стало известно за неделю до публикации квартального отчета. Так хедж-фонды, которые опирались на альтернативные данные, купили акции выгоднее тех, кто ждал официальной информации.
Ну и сами аналитики на этом заработали. Из-за подобных кейсов на Уолл-стрит вырос спрос на альтернативные данные, и выручка Facteus выросла с 2023 года на 300%.
Какая-то узаконенная торговля инсайдерской инфой получается.
#деньги
👍7🔥3👌2❤🔥1
Data Mesh умер на стройке Вавилонской башни
Успешно внедрить этот подход смогли не более 5% компаний, которым он теоретически был бы полезен.
Как это выглядит в теории:
Отделы маркетинга, продаж и финансов внутри одной компании собирают и хранят данные как полноценный продукт. Все рассматривают данные как полезный актив не только для себя, но и для коллег.
Розовых пони с единорогами только не хватает.
Как это получается на практике:
Единые стандарты не внедряются, что усложняет интеграцию. Все собирают данные по-своему, что приводит к проблемам с анализом.
Например, в крупном корпоративном бизнес-блоке банка клиентом называют одну сущность, а в отделе кредитования малого бизнеса — другую. Как только эти отделы захотят обменяться данными, им потребуется чудо, чтобы не повторить историю с Вавилонской башней.
#статьи #аналитика
Успешно внедрить этот подход смогли не более 5% компаний, которым он теоретически был бы полезен.
Как это выглядит в теории:
Отделы маркетинга, продаж и финансов внутри одной компании собирают и хранят данные как полноценный продукт. Все рассматривают данные как полезный актив не только для себя, но и для коллег.
Розовых пони с единорогами только не хватает.
Как это получается на практике:
Единые стандарты не внедряются, что усложняет интеграцию. Все собирают данные по-своему, что приводит к проблемам с анализом.
Например, в крупном корпоративном бизнес-блоке банка клиентом называют одну сущность, а в отделе кредитования малого бизнеса — другую. Как только эти отделы захотят обменяться данными, им потребуется чудо, чтобы не повторить историю с Вавилонской башней.
#статьи #аналитика
🔥4👍3❤🔥2
Какой российский бизнес готов к экономике данных, а какой — нет
Вышка выпустила сборник «Готовность российского бизнеса к экономике данных», где рассказала, сколько компаний в разных отраслях использует большие данные:
- Продажи, доставка, постпродажное обслуживание: 45%.
- Производство услуг и продуктов, обслуживание оборудования: 41%.
- Администрирование: бухгалтерия, финансы, кадры: 35%.
- Маркетинг и реклама: 32%.
- Логистика и склад: 23%.
Многие ли готовы покупать и продавать данные
Среди тех, кто уже их использует или только планирует:
- 19% готовы продавать данные или делиться ими бесплатно.
- 23% хотели бы покупать данные у других организаций.
- 39% хотели бы получить доступ к государственным данным.
Неожиданный аутсайдер
В России среди всех организаций, использующих большие данные, в бизнес-процессах их применяют только 23% складских и логистических компаний.
Это самый низкий показатель среди всех отраслей бизнеса. То ли там работают луддиты, то ли это какой-то саботаж.
Пока российские логисты игнорируют большие данные, в Амазон за 2019-2023 годы с их помощью вот к чему пришли:
- На 40% сократили задержки в доставке.
- На 30% нарастили рентабельность цепочки поставок.
- На 10% сократили среднее время доставки.
- На 30% снизили избыточные запасы на складах.
Если просто повторять, что данные — новая нефть, никаких дивидендов не будет. Надо бурить, детка, бурить.
#исследования
Вышка выпустила сборник «Готовность российского бизнеса к экономике данных», где рассказала, сколько компаний в разных отраслях использует большие данные:
- Продажи, доставка, постпродажное обслуживание: 45%.
- Производство услуг и продуктов, обслуживание оборудования: 41%.
- Администрирование: бухгалтерия, финансы, кадры: 35%.
- Маркетинг и реклама: 32%.
- Логистика и склад: 23%.
Многие ли готовы покупать и продавать данные
Среди тех, кто уже их использует или только планирует:
- 19% готовы продавать данные или делиться ими бесплатно.
- 23% хотели бы покупать данные у других организаций.
- 39% хотели бы получить доступ к государственным данным.
Неожиданный аутсайдер
В России среди всех организаций, использующих большие данные, в бизнес-процессах их применяют только 23% складских и логистических компаний.
Это самый низкий показатель среди всех отраслей бизнеса. То ли там работают луддиты, то ли это какой-то саботаж.
Пока российские логисты игнорируют большие данные, в Амазон за 2019-2023 годы с их помощью вот к чему пришли:
- На 40% сократили задержки в доставке.
- На 30% нарастили рентабельность цепочки поставок.
- На 10% сократили среднее время доставки.
- На 30% снизили избыточные запасы на складах.
Если просто повторять, что данные — новая нефть, никаких дивидендов не будет. Надо бурить, детка, бурить.
#исследования
👍5🔥3❤🔥2🤨1