Колонки занимают на 87% меньше места, чем строки
Apache Parquet — бинарный, колоночно-ориентированный формат хранения данных, является независимым от языка. В отличие от CSV, Parquet оптимизирован для выполнения сложных запросов.
В каждой колонке данные должны быть строго одного типа. Parquet предоставляет возможность считывать не целиком весь файл, а только одну колонку, что может значительно минимизировать показатели ввода-вывода.
В статье сравнили Parquet и CSV:
- Уменьшает объем сканируемых данных на 99%: 2,51 ГБ vs 1,12 ТБ.
- Выполняет запросы в 34 раза быстрее: 4,78 сек vs 284 сек.
- Занимает на 87% меньше места: 130 ГБ vs 1 ТБ.
В тестах использовалось хранилище S3. У авторов получилась экономия в деньгах 99,7% при переходе с CSV на Parquet.
Parquet — оптимальный выбор для аналитических задач и больших данных, где критичны скорость, стоимость и эффективность хранения. CSV остается актуален для небольших наборов данных, простых задач и ручного анализа.
#статьи
Apache Parquet — бинарный, колоночно-ориентированный формат хранения данных, является независимым от языка. В отличие от CSV, Parquet оптимизирован для выполнения сложных запросов.
В каждой колонке данные должны быть строго одного типа. Parquet предоставляет возможность считывать не целиком весь файл, а только одну колонку, что может значительно минимизировать показатели ввода-вывода.
В статье сравнили Parquet и CSV:
- Уменьшает объем сканируемых данных на 99%: 2,51 ГБ vs 1,12 ТБ.
- Выполняет запросы в 34 раза быстрее: 4,78 сек vs 284 сек.
- Занимает на 87% меньше места: 130 ГБ vs 1 ТБ.
В тестах использовалось хранилище S3. У авторов получилась экономия в деньгах 99,7% при переходе с CSV на Parquet.
Parquet — оптимальный выбор для аналитических задач и больших данных, где критичны скорость, стоимость и эффективность хранения. CSV остается актуален для небольших наборов данных, простых задач и ручного анализа.
#статьи
❤🔥6👍2🔥2
Состояние и перспективы рынка СУБД в России
По данным ЦСР, в ближайшие семь лет среднегодовой темп роста мирового рынка СУБД составит 10%. В России в течение пяти лет он будет вдвое выше — 20%.
Российский рынок будет расти на фоне импортозамещения, предусмотренного в том числе нацпроектом «Экономика данных»: доля зарубежного ПО снизилась с 64% в 2021 году до 18% в 2023 году. К 2030 году она сократится до 1%.
Больше подробностей ищите в оригинале исследования.
#субд #деньги #исследования
По данным ЦСР, в ближайшие семь лет среднегодовой темп роста мирового рынка СУБД составит 10%. В России в течение пяти лет он будет вдвое выше — 20%.
Российский рынок будет расти на фоне импортозамещения, предусмотренного в том числе нацпроектом «Экономика данных»: доля зарубежного ПО снизилась с 64% в 2021 году до 18% в 2023 году. К 2030 году она сократится до 1%.
Больше подробностей ищите в оригинале исследования.
#субд #деньги #исследования
👍10❤1🥰1
Инструмент для автоматического документирования базы данных
Написанный на Go инструмент tbls анализирует структуру базы данных и автоматически генерирует красивую документацию в выбранном формате: Markdown, PlantUML, DOT, JSON или HTML.
Умеет создавать наглядные ER-диаграммы и визуализировать связи между таблицами. Интегрируется с CI/CD и автоматически обновляет документацию при изменении схемы.
Поддерживает большинство популярных СУБД: PostgreSQL, MySQL, SQLite и так далее.
Забирайте на Гитхабе.
#субд
Написанный на Go инструмент tbls анализирует структуру базы данных и автоматически генерирует красивую документацию в выбранном формате: Markdown, PlantUML, DOT, JSON или HTML.
Умеет создавать наглядные ER-диаграммы и визуализировать связи между таблицами. Интегрируется с CI/CD и автоматически обновляет документацию при изменении схемы.
Поддерживает большинство популярных СУБД: PostgreSQL, MySQL, SQLite и так далее.
Забирайте на Гитхабе.
#субд
🔥8👨💻3❤🔥2
Три архитектурных вопроса, которые считаются решенными по умолчанию
Техлид в команде разработки ИИ-инструментов столкнулся с проблемой: система централизованного мониторинга обрабатывала огромные потоки данных онлайн, но в распределенной среде возникли сложности.
Воркеры дублировали задачи или блокировали друг друга, сбои приводили к потере данных, а критические задержки нарушали работу сервиса.
Главное, что узнал автор статьи, решая эти проблемы:
1. Как правильно распределять задачи между воркерами?
Можно избежать дублирования и блокировок, если использовать группы консьюмеров Kafka. Они автоматически распределяют задачи между воркерами, следят за оффсетами и гарантируют, что каждый воркер получает свой уникальный набор данных. В случае сбоя одного воркера Kafka перераспределяет задачи без потерь.
2. Как гарантировать завершение задачи при сбоях?
Если воркер упал, важно, чтобы задача не потерялась и не выполнялась заново без необходимости. Помогает фиксация UUID успешно выполненных задач в отдельной таблице и отложенный коммит оффсетов Kafka, который предотвращает повторную обработку. Это снижает риск дублирования вычислений и потери данных.
3. Как соблюдать допустимую задержку выполнения?
В условиях жестких требований к задержке помогает параллельное выполнение одной и той же задачи в разных географически разнесенных дата-центрах. Даже если один кластер откажет, второй выполнит расчет в срок.
Если работаете с распределенными системами и хотите избежать неожиданных сбоев, дублирования задач и пропусков данных, читайте лонгрид с разбором реальных кейсов на Хабре.
#статьи
Техлид в команде разработки ИИ-инструментов столкнулся с проблемой: система централизованного мониторинга обрабатывала огромные потоки данных онлайн, но в распределенной среде возникли сложности.
Воркеры дублировали задачи или блокировали друг друга, сбои приводили к потере данных, а критические задержки нарушали работу сервиса.
Главное, что узнал автор статьи, решая эти проблемы:
1. Как правильно распределять задачи между воркерами?
Можно избежать дублирования и блокировок, если использовать группы консьюмеров Kafka. Они автоматически распределяют задачи между воркерами, следят за оффсетами и гарантируют, что каждый воркер получает свой уникальный набор данных. В случае сбоя одного воркера Kafka перераспределяет задачи без потерь.
2. Как гарантировать завершение задачи при сбоях?
Если воркер упал, важно, чтобы задача не потерялась и не выполнялась заново без необходимости. Помогает фиксация UUID успешно выполненных задач в отдельной таблице и отложенный коммит оффсетов Kafka, который предотвращает повторную обработку. Это снижает риск дублирования вычислений и потери данных.
3. Как соблюдать допустимую задержку выполнения?
В условиях жестких требований к задержке помогает параллельное выполнение одной и той же задачи в разных географически разнесенных дата-центрах. Даже если один кластер откажет, второй выполнит расчет в срок.
Если работаете с распределенными системами и хотите избежать неожиданных сбоев, дублирования задач и пропусков данных, читайте лонгрид с разбором реальных кейсов на Хабре.
#статьи
👍6❤2🔥2
Как работать с большими данными в SEO и экономить 300 тысяч в месяц на Яндекс Метрике
Большие данные — это ценность, только если вы можете их обработать. У сайта Rusprofile 500 000 визитов в сутки, и владельцы столкнулись с диким сэмплированием в Яндекс Метрике, из-за которого нельзя посмотреть точные данные более чем за 2 дня.
Метрика Про стоит 300 тысяч в месяц. Однако в Rusprofile решили пойти другим путем и сэкономить:
- Стали выгружать данные из Метрики и Топвизора по API. Это 15 млн строк ежемесячно. В исходной таблице уже было 700 млн строк. Как решение использовали ClickHouse, заточенную под такое число записей.
- Настроили пайплайны с помощью Apache Airflow. Каждый день данные за предыдущие сутки выгружаются автоматически. Раз в неделю обновляются агрегированные данные по позициям из Топвизора.
- Использовали Yandex DataLens для визуализации. В мониторинге еженедельные данные по 515 000 поисковых запросов, которые можно отфильтровать и по сайту Rusprofile, и по конкурентам.
Разработка решения окупилась за 5 месяцев.
Кейс показывает, как комбинация ETL-процессов, современных инструментов и гибкого подхода помогает решать сложные задачи SEO-аналитики даже при экстремальных объемах данных.
Подробности читайте на сайте SEO News.
#субд #деньги
Большие данные — это ценность, только если вы можете их обработать. У сайта Rusprofile 500 000 визитов в сутки, и владельцы столкнулись с диким сэмплированием в Яндекс Метрике, из-за которого нельзя посмотреть точные данные более чем за 2 дня.
Метрика Про стоит 300 тысяч в месяц. Однако в Rusprofile решили пойти другим путем и сэкономить:
- Стали выгружать данные из Метрики и Топвизора по API. Это 15 млн строк ежемесячно. В исходной таблице уже было 700 млн строк. Как решение использовали ClickHouse, заточенную под такое число записей.
- Настроили пайплайны с помощью Apache Airflow. Каждый день данные за предыдущие сутки выгружаются автоматически. Раз в неделю обновляются агрегированные данные по позициям из Топвизора.
- Использовали Yandex DataLens для визуализации. В мониторинге еженедельные данные по 515 000 поисковых запросов, которые можно отфильтровать и по сайту Rusprofile, и по конкурентам.
Разработка решения окупилась за 5 месяцев.
Кейс показывает, как комбинация ETL-процессов, современных инструментов и гибкого подхода помогает решать сложные задачи SEO-аналитики даже при экстремальных объемах данных.
Подробности читайте на сайте SEO News.
#субд #деньги
👌4🔥3❤2❤🔥1
Отчет о рисках для корпоративных данных за 2024 год
Компания Makves представила отчет по актуальным проблемам хранения, обработки и защиты неструктурированных данных в российских компаниях в 2024 году.
Разбираемся в цифрах и делаем выводы.
Главный инсайт:
У 100% российских компаний в общий доступ утекла конфиденциальная информация и персональные данные. При этом 95% не контролируют доступ уволенных сотрудников.
Другие ключевые цифры:
- 40% файлов в компаниях не используются более 5 лет.
- 60% компаний имеют аккаунты с уязвимыми паролями.
- 35% объема файловых хранилищ занимают неделовые данные — фото, видео, личные файлы.
- 26% файлов в типовой инфраструктуре — дубликаты.
Риски, связанные с пользователями:
- Неактивные более 2 месяцев аккаунты — потенциальные точки для атак.
- Уволенные сотрудники с активным доступом — ключевой риск утечки данных.
- Слабые пароли и отсутствие MFA — массовая проблема, особенно в крупных компаниях с текучкой кадров.
Риски, связанные с файлами:
- Дубликаты файлов повышают риск утечек и усложняют управление доступом.
- Ручное назначение прав приводит к избыточным привилегиям и ошибкам.
- Конфиденциальные данные в общем доступе — нарушение ФЗ-152, GDPR, PCI DSS, что грозит штрафами и приостановкой деятельности.
Всем компаниям показано:
Обучать сотрудников основам ИБ, регулярно архивировать и удалять устаревшие данные, внедрять системы для аудита прав доступа, удалять неактивные аккаунты и аккаунты уволенных сотрудников.
#безопасность #исследования
Компания Makves представила отчет по актуальным проблемам хранения, обработки и защиты неструктурированных данных в российских компаниях в 2024 году.
Разбираемся в цифрах и делаем выводы.
Главный инсайт:
У 100% российских компаний в общий доступ утекла конфиденциальная информация и персональные данные. При этом 95% не контролируют доступ уволенных сотрудников.
Другие ключевые цифры:
- 40% файлов в компаниях не используются более 5 лет.
- 60% компаний имеют аккаунты с уязвимыми паролями.
- 35% объема файловых хранилищ занимают неделовые данные — фото, видео, личные файлы.
- 26% файлов в типовой инфраструктуре — дубликаты.
Риски, связанные с пользователями:
- Неактивные более 2 месяцев аккаунты — потенциальные точки для атак.
- Уволенные сотрудники с активным доступом — ключевой риск утечки данных.
- Слабые пароли и отсутствие MFA — массовая проблема, особенно в крупных компаниях с текучкой кадров.
Риски, связанные с файлами:
- Дубликаты файлов повышают риск утечек и усложняют управление доступом.
- Ручное назначение прав приводит к избыточным привилегиям и ошибкам.
- Конфиденциальные данные в общем доступе — нарушение ФЗ-152, GDPR, PCI DSS, что грозит штрафами и приостановкой деятельности.
Всем компаниям показано:
Обучать сотрудников основам ИБ, регулярно архивировать и удалять устаревшие данные, внедрять системы для аудита прав доступа, удалять неактивные аккаунты и аккаунты уволенных сотрудников.
#безопасность #исследования
🔥5❤🔥3👏2
Как получить кредит на $5,5 млрд под залог данных о клиентах
Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства.
United Airlines
В 2020, во время пандемии доходы рухнули, авиакомпании грозило банкротство. Руководство запросило кредит у правительства США под залог данных о 100 млн клиентов программы лояльности MileagePlus.
При рыночной капитализации в $9 млрд независимые эксперты оценили данные в $22 млрд.
Кредиторы сочли данные высоколиквидным активом. Он генерировал стабильный доход через продажу миль партнерам и стимулировал повторные покупки.
Компания получила кредит на $5 млрд и избежала банкротства.
American Airlines
Тогда же, в пандемию на грани финансового коллапса оказалась авиакомпания American Airlines.
При капитализации в $8 млрд кредиторы оценили данные 115 млн клиентов программы лояльности AAdvantage в $24 млрд.
Правительство США выдало под залог данных льготный кредит на $5,5 млрд и спасло компанию от краха.
Caesars Entertainment
Помните «Дворец Цезаря», в котором кутили герои «Мальчишника в Вегасе»? В 2015 году владельцы казино накопили $18 млрд долгов и объявили о банкротстве.
При реструктуризации кредиторы требовали оценки всех активов, включая нематериальные, чтобы использовать их для погашения долга.
Вместе с независимыми экспертами кредиторы оценили данные о 45 млн клиентов программы лояльности в $1 млрд.
Данные — не просто информация. Компании, которые способны использовать данные в качестве финансового актива, более устойчивы в кризис.
#деньги
Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства.
United Airlines
В 2020, во время пандемии доходы рухнули, авиакомпании грозило банкротство. Руководство запросило кредит у правительства США под залог данных о 100 млн клиентов программы лояльности MileagePlus.
При рыночной капитализации в $9 млрд независимые эксперты оценили данные в $22 млрд.
Кредиторы сочли данные высоколиквидным активом. Он генерировал стабильный доход через продажу миль партнерам и стимулировал повторные покупки.
Компания получила кредит на $5 млрд и избежала банкротства.
American Airlines
Тогда же, в пандемию на грани финансового коллапса оказалась авиакомпания American Airlines.
При капитализации в $8 млрд кредиторы оценили данные 115 млн клиентов программы лояльности AAdvantage в $24 млрд.
Правительство США выдало под залог данных льготный кредит на $5,5 млрд и спасло компанию от краха.
Caesars Entertainment
Помните «Дворец Цезаря», в котором кутили герои «Мальчишника в Вегасе»? В 2015 году владельцы казино накопили $18 млрд долгов и объявили о банкротстве.
При реструктуризации кредиторы требовали оценки всех активов, включая нематериальные, чтобы использовать их для погашения долга.
Вместе с независимыми экспертами кредиторы оценили данные о 45 млн клиентов программы лояльности в $1 млрд.
Данные — не просто информация. Компании, которые способны использовать данные в качестве финансового актива, более устойчивы в кризис.
#деньги
❤🔥4❤3👌3
Progres Post
Как получить кредит на $5,5 млрд под залог данных о клиентах Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства. United Airlines В 2020, во время пандемии доходы рухнули, авиакомпании грозило…
Объясняем за 15 секунд, почему данные программ лояльности так много стоят
- Персонализация повышает доход: 65% случайных клиентов дают только 10% выручки, а всего 5% лояльных — 40%.
- Один участвующий в программе лояльности клиент приносит в 52 раза больше денег, чем один случайный.
- Платить больше за персонализированный сервис готовы 80% клиентов.
Это объясняет, почему при оценке компании в $8 млрд American Airlines оценила данные своей программы лояльности в $24 млрд.
Подробности и другие инсайты ищите в большом свежем исследовании Data Insight.
#деньги #исследования
- Персонализация повышает доход: 65% случайных клиентов дают только 10% выручки, а всего 5% лояльных — 40%.
- Один участвующий в программе лояльности клиент приносит в 52 раза больше денег, чем один случайный.
- Платить больше за персонализированный сервис готовы 80% клиентов.
Это объясняет, почему при оценке компании в $8 млрд American Airlines оценила данные своей программы лояльности в $24 млрд.
Подробности и другие инсайты ищите в большом свежем исследовании Data Insight.
#деньги #исследования
👍4🔥3❤2
Сборник лучших практик по Data Science от IBM
Если вы устали от бесконечных экспериментов в Jupyter и хотите научиться внедрять ML-модели в реальные системы — этот сборник для вас. Пригодится дата-сайентистам, которые хотят перейти от прототипов к промышленным решениям.
Это не пошаговое руководство, а методичка по стратегии работы с данными. Если вы только вырабатываете в компании техническую политику, методы и инструменты, этот сборник поможет.
Что внутри?
В сборнике сделали фокус на инженерию: версионирование, масштабируемость, мониторинг — все, что часто упускают в учебниках.
Сохраняйте себе и делитесь с теми, кто работает с данными.
Забирайте на Гитхабе.
Если вы устали от бесконечных экспериментов в Jupyter и хотите научиться внедрять ML-модели в реальные системы — этот сборник для вас. Пригодится дата-сайентистам, которые хотят перейти от прототипов к промышленным решениям.
Это не пошаговое руководство, а методичка по стратегии работы с данными. Если вы только вырабатываете в компании техническую политику, методы и инструменты, этот сборник поможет.
Что внутри?
В сборнике сделали фокус на инженерию: версионирование, масштабируемость, мониторинг — все, что часто упускают в учебниках.
Сохраняйте себе и делитесь с теми, кто работает с данными.
Забирайте на Гитхабе.
🔥3❤2❤🔥2🙏1
Open Source AI Tools.pdf
2.5 MB
Сохраняйте: 128 российских опенсорс-инструментов для ИИ-разработки
В ICT Moscow отобрали все российские опенсорсные инструменты для разработки ИИ, опубликованные с начала 2020 года. Ссылки собрали в один pdf-файл.
В файле:
- Библиотеки и фреймворки (42)
- Модели (32)
- Бенчмарки (20)
- Датасеты (15)
- Методы (10)
- Платформы (5)
- Архитектуры (4)
Можно быстро найти нужный инструмент, документацию и контакты разработчиков.
#ии #опенсорс
В ICT Moscow отобрали все российские опенсорсные инструменты для разработки ИИ, опубликованные с начала 2020 года. Ссылки собрали в один pdf-файл.
В файле:
- Библиотеки и фреймворки (42)
- Модели (32)
- Бенчмарки (20)
- Датасеты (15)
- Методы (10)
- Платформы (5)
- Архитектуры (4)
Можно быстро найти нужный инструмент, документацию и контакты разработчиков.
#ии #опенсорс
👍5❤🔥4🔥2
10 трюков с SQLite, которые отличают мидла от джуна
Внешне простой SQLite скрывает крутые возможности, которые упрощают и ускоряют разработку.
В статье на примерах разбирают 10 полезных трюков, которыми редко пользуются джуны:
1. Использование Virtual Tables
2. Индексация по выражениям: Index on Expressions
3. Использование Common Table Expressions с рекурсией
4. Стратегическое использование PRAGMA для настройки производительности
5. Транзакции внутри транзакций: SAVEPOINT
6. Сжатие базы на лету с VACUUM INTO
7. Использование кастомных функций на C / Python / JavaScript
8. Журналирование и аудит с помощью триггеров
9. Использование Row Value Comparison для сложных условий
10. Имитация CHECK CONSTRAINT на уровне выражений
Вы круты, если в статье не нашли для себя ничего нового. Отправьте знакомому джуну — ему будет полезно. Или проверьте компетенцию коллеги.
#субд #sql
Внешне простой SQLite скрывает крутые возможности, которые упрощают и ускоряют разработку.
В статье на примерах разбирают 10 полезных трюков, которыми редко пользуются джуны:
1. Использование Virtual Tables
2. Индексация по выражениям: Index on Expressions
3. Использование Common Table Expressions с рекурсией
4. Стратегическое использование PRAGMA для настройки производительности
5. Транзакции внутри транзакций: SAVEPOINT
6. Сжатие базы на лету с VACUUM INTO
7. Использование кастомных функций на C / Python / JavaScript
8. Журналирование и аудит с помощью триггеров
9. Использование Row Value Comparison для сложных условий
10. Имитация CHECK CONSTRAINT на уровне выражений
Вы круты, если в статье не нашли для себя ничего нового. Отправьте знакомому джуну — ему будет полезно. Или проверьте компетенцию коллеги.
#субд #sql
👍3🔥3👌2🤡1
Оцените свою продуктивность с помощью аналитики данных
Нашли в журнале «Код» мануал, по которому с помощью Google Colab и ActivityWatch можно качественно проанализировать свою продуктивность.
Авторы не просто рассказывают, как написать код, но и наглядно учат анализировать данные. Например, если вы засиживаетесь после полуночи за работой, то это время нужно переносить на предыдущий день, чтобы корректно интерпретировать результаты.
Еще из крутых инсайтов: браузер — коварная штука, в нем можно и работать, и мультики смотреть, так что авторы учат анализировать активность по заголовкам вкладок.
#аналитика #статьи
Нашли в журнале «Код» мануал, по которому с помощью Google Colab и ActivityWatch можно качественно проанализировать свою продуктивность.
Авторы не просто рассказывают, как написать код, но и наглядно учат анализировать данные. Например, если вы засиживаетесь после полуночи за работой, то это время нужно переносить на предыдущий день, чтобы корректно интерпретировать результаты.
Еще из крутых инсайтов: браузер — коварная штука, в нем можно и работать, и мультики смотреть, так что авторы учат анализировать активность по заголовкам вкладок.
#аналитика #статьи
👍4❤🔥3❤2
Свежая работа в Nature Human Behaviour переворачивает классическое представление об обучении и образовании как о наборе необходимых специальных знаний. Анализ 70 млн реальных карьерных траекторий показывает, что важно не набрать как можно больше знаний и навыков, а критически важна их последовательность и иерархия в ходе реального карьерного роста.
Наиболее важна «вложенность» навыков - встроенность их во взаимосвязанную иерархию. Например, без сильной базы в логике и коммуникации даже глубокие технические знания теряют свою ценность для карьеры. А без постоянного развития критического мышления навык переговоров в бизнесе не развивается, и специалист остается «низко результативным».
Примером служит карьера аналитика данных.
Сначала сотрудник должен освоить базовые навыки критического мышления и логики. Затем, овладев промежуточными компетенциями – обработкой и визуализацией данных, он получает возможность изучать более узкие, но высокооплачиваемые специфические навыки – например, методы прогнозного анализа и алгоритмы машинного обучения.
Таким образом, вложенность навыков создаёт последовательность профессионального развития, где каждый этап становится фундаментом для следующего. Это объясняет, почему даже высокие уровни владения специфическими навыками бесполезны без прочной базы в общих компетенциях
Фундаментально становится понятно, что родителям важно инвестировать прежде всего в критическое мышление, креативность, эмоциональный интеллект и способность к адаптации у детей, потому что именно эти навыки наиболее устойчивы к автоматизации и дают максимальную гибкость в карьере.
Более того, целый ряд таких «общих» навыков, критически важных для «целостного скилл-сета» формируются в семьях просто посредством простого поощрения дискуссий и обсуждений, и в целом становятся результатом воздействия среды в большей степени, чем «школьных предметов».
За адаптированный пересказ статьи с помощью ChatGPT спасибо Евгению Кузнецову
Наиболее важна «вложенность» навыков - встроенность их во взаимосвязанную иерархию. Например, без сильной базы в логике и коммуникации даже глубокие технические знания теряют свою ценность для карьеры. А без постоянного развития критического мышления навык переговоров в бизнесе не развивается, и специалист остается «низко результативным».
Примером служит карьера аналитика данных.
Сначала сотрудник должен освоить базовые навыки критического мышления и логики. Затем, овладев промежуточными компетенциями – обработкой и визуализацией данных, он получает возможность изучать более узкие, но высокооплачиваемые специфические навыки – например, методы прогнозного анализа и алгоритмы машинного обучения.
Таким образом, вложенность навыков создаёт последовательность профессионального развития, где каждый этап становится фундаментом для следующего. Это объясняет, почему даже высокие уровни владения специфическими навыками бесполезны без прочной базы в общих компетенциях
Фундаментально становится понятно, что родителям важно инвестировать прежде всего в критическое мышление, креативность, эмоциональный интеллект и способность к адаптации у детей, потому что именно эти навыки наиболее устойчивы к автоматизации и дают максимальную гибкость в карьере.
Более того, целый ряд таких «общих» навыков, критически важных для «целостного скилл-сета» формируются в семьях просто посредством простого поощрения дискуссий и обсуждений, и в целом становятся результатом воздействия среды в большей степени, чем «школьных предметов».
За адаптированный пересказ статьи с помощью ChatGPT спасибо Евгению Кузнецову
Substack
Навыки - это "все сложно", или почему среда учит не меньше, чем университет
ChatGPT по материалу "Skill dependencies uncover nested human capital" Moh Hosseinioun ..., Nature Human Behaviour (2025)
❤🔥4❤4🔥2
72% компаний в России теряют деньги из-за отсутствия качественных данных
По данным исследования «Матемаркетинга» и «АЭРО», 90% компаний в России принимают решения на основе данных, но только 13% удовлетворены качеством и количеством этих данных. При этом 72% теряли деньги из-за низкого качества данных.
Кажется, главная беда — формализм: аж 90% компаний работают с аналитикой данных, но только 21% считают себя data-driven. И сколько среди тех, кто себя таковыми считает, таковыми являются?
Признаки того, что большинство компаний относится к аналитике больших данных формально:
- 37% компаний собирают данные вручную.
- 55% не имеют единой стратегии управления данными.
- 73% используют стандартные excel-отчеты вместо автоматизированных BI-систем.
- 10% тратят на создание дашборда более квартала.
Компании не используют данные по-настоящему — они делают это неэффективно, превращая аналитику в формальность. Чтобы перестать терять деньги, бизнесу необходимо централизовать управление данными, устранить разрозненность отчетности, автоматизировать процессы и, главное, создать корпоративную культуру доверия к аналитике.
Исследования показывают, что предприятия, которые внедрили четкую data-стратегию, теряют на 35% меньше денег из-за ошибок в данных.
#аналитика #деньги #исследования
По данным исследования «Матемаркетинга» и «АЭРО», 90% компаний в России принимают решения на основе данных, но только 13% удовлетворены качеством и количеством этих данных. При этом 72% теряли деньги из-за низкого качества данных.
Кажется, главная беда — формализм: аж 90% компаний работают с аналитикой данных, но только 21% считают себя data-driven. И сколько среди тех, кто себя таковыми считает, таковыми являются?
Признаки того, что большинство компаний относится к аналитике больших данных формально:
- 37% компаний собирают данные вручную.
- 55% не имеют единой стратегии управления данными.
- 73% используют стандартные excel-отчеты вместо автоматизированных BI-систем.
- 10% тратят на создание дашборда более квартала.
Компании не используют данные по-настоящему — они делают это неэффективно, превращая аналитику в формальность. Чтобы перестать терять деньги, бизнесу необходимо централизовать управление данными, устранить разрозненность отчетности, автоматизировать процессы и, главное, создать корпоративную культуру доверия к аналитике.
Исследования показывают, что предприятия, которые внедрили четкую data-стратегию, теряют на 35% меньше денег из-за ошибок в данных.
#аналитика #деньги #исследования
👍5❤2🔥2
ИИ всех не заменит: сколько будет специалистов по данным через 5 лет
Вышка выпустила статистический сборник «Индикаторы образования». В 2023 году на айти-специальности в вузы поступило 357 тысяч студентов — 27% от общего приема в вузы. В колледжи поступило еще 142 тысячи айтишников — 14% всего приема.
Спрос на айтишников уже даже обсуждать стыдно, но Сэм Альтман пугает программистов безработицей.
В это время Всемирный экономический форум выпустил исследование о занятости на айти-рынке. По данным ВЭФ, большие данные и нейросети в ближайшие 5 лет создадут миллионы новых рабочих мест.
Почему студентам все-таки надо не париться и учиться работать с данными?
Потому что спрос на таких специалистов в ближайшие 5 лет вырастет:
1. Специалисты по большим данным / +113%
Цифровизации и распространение IoT приводят к накоплению огромных объемов информации, что требует специализированной обработки.
Среди работодателей 86% считают, что развитие ИИ и информационных технологий трансформирует бизнес, что напрямую увеличивает спрос на экспертов по большим данным.
2. Аналитики и дата-сайентисты / +41%
Финансовые компании и ритейл инвестируют до 20% бюджета в аналитику и предиктивное моделирование, стимулируя спрос на дата-сайентистов.
По данным опросов, 7 из 10 компаний считают аналитическое мышление критически важным для бизнеса, что усиливает спрос на специалистов, способных превращать данные в инсайты.
3. Дата-инженеры / +36%
Около 70% работодателей планируют увеличить инвестиции в инфраструктуру данных для создания надёжных ETL-процессов.
По данным IDC, мировые расходы на облачные платформы могут расти до 25% ежегодно и усилить потребность в инженерах.
4. Специалисты по хранилищам данных / +46%
Объединение данных из ERP, CRM, IoT и прочих систем требует квалифицированных специалистов по хранилищам. Широкое применение ИИ и машинного обучения требует качественных хранилищ данных для построения моделей и аналитики.
Если вы хотите построить карьеру в айти и выбираете, на какую специальность поступать в вуз или колледж, выбирайте карьеру в сфере данных. На таких специалистов будет максимальный спрос.
Расскажите знакомым абитуриентам.
#исследования
Вышка выпустила статистический сборник «Индикаторы образования». В 2023 году на айти-специальности в вузы поступило 357 тысяч студентов — 27% от общего приема в вузы. В колледжи поступило еще 142 тысячи айтишников — 14% всего приема.
Спрос на айтишников уже даже обсуждать стыдно, но Сэм Альтман пугает программистов безработицей.
В это время Всемирный экономический форум выпустил исследование о занятости на айти-рынке. По данным ВЭФ, большие данные и нейросети в ближайшие 5 лет создадут миллионы новых рабочих мест.
Почему студентам все-таки надо не париться и учиться работать с данными?
Потому что спрос на таких специалистов в ближайшие 5 лет вырастет:
1. Специалисты по большим данным / +113%
Цифровизации и распространение IoT приводят к накоплению огромных объемов информации, что требует специализированной обработки.
Среди работодателей 86% считают, что развитие ИИ и информационных технологий трансформирует бизнес, что напрямую увеличивает спрос на экспертов по большим данным.
2. Аналитики и дата-сайентисты / +41%
Финансовые компании и ритейл инвестируют до 20% бюджета в аналитику и предиктивное моделирование, стимулируя спрос на дата-сайентистов.
По данным опросов, 7 из 10 компаний считают аналитическое мышление критически важным для бизнеса, что усиливает спрос на специалистов, способных превращать данные в инсайты.
3. Дата-инженеры / +36%
Около 70% работодателей планируют увеличить инвестиции в инфраструктуру данных для создания надёжных ETL-процессов.
По данным IDC, мировые расходы на облачные платформы могут расти до 25% ежегодно и усилить потребность в инженерах.
4. Специалисты по хранилищам данных / +46%
Объединение данных из ERP, CRM, IoT и прочих систем требует квалифицированных специалистов по хранилищам. Широкое применение ИИ и машинного обучения требует качественных хранилищ данных для построения моделей и аналитики.
Если вы хотите построить карьеру в айти и выбираете, на какую специальность поступать в вуз или колледж, выбирайте карьеру в сфере данных. На таких специалистов будет максимальный спрос.
Расскажите знакомым абитуриентам.
#исследования
❤🔥3❤3🔥2
Данные не превращаются в деньги даже в компаниях, где есть Chief Data Officer
В 2002 году позиции CDO практически не существовало. В 2012 году CDO был только в 12% крупных компаний, а в 2020 году уже в 67%.
Количество CDO растет, но их эффективность невелика. Топ-менеджеры отводят им роль руководителей департаментов, хотя они должны заниматься стратегией всей компании в отношении данных.
Ценность, которую создает CDO, не так очевидна, как ценность директора по маркетингу, начальника производства или финансового директора.
В 2024 году рынок корпоративного ПО вырос на 34%. В МТС оценили объем айти-рынка в ₽3,3 млрд. Вклад айти-сектора в российский ВВП вырос до ₽4 трлн и превысил 2,2%. В большинстве сфер айти-бюджеты растут, но расходуются неэффективно: проваливается 70% проектов по цифровизации и цифровой трансформации.
И даже при росте бюджетов данные все еще не превращаются в деньги.
Компании инвестируют миллиарды в айти-инфраструктуру, но не внедряют системных изменений, а потому не получают эффекта. Новые технологии накладываются на старые подходы, что не приводит к трансформации.
В крупных компаниях данные хранятся разрозненно, департаменты не всегда обмениваются информацией. Возникают конфликты, которые приводят к неэффективному управлению ресурсами.
Из статьи «Корпоративный университет данных: искусство малых шагов»:
Все повторяют мантру, что данные — новая нефть, но почти никто не понимает, как ее перерабатывать, чтобы превращать сырье в товар.
В крупных компаниях CDO должны стать мостиком между информационными системами и научить топ-менеджеров видеть картину с данными целиком.
#деньги
В 2002 году позиции CDO практически не существовало. В 2012 году CDO был только в 12% крупных компаний, а в 2020 году уже в 67%.
Количество CDO растет, но их эффективность невелика. Топ-менеджеры отводят им роль руководителей департаментов, хотя они должны заниматься стратегией всей компании в отношении данных.
Ценность, которую создает CDO, не так очевидна, как ценность директора по маркетингу, начальника производства или финансового директора.
В 2024 году рынок корпоративного ПО вырос на 34%. В МТС оценили объем айти-рынка в ₽3,3 млрд. Вклад айти-сектора в российский ВВП вырос до ₽4 трлн и превысил 2,2%. В большинстве сфер айти-бюджеты растут, но расходуются неэффективно: проваливается 70% проектов по цифровизации и цифровой трансформации.
И даже при росте бюджетов данные все еще не превращаются в деньги.
Компании инвестируют миллиарды в айти-инфраструктуру, но не внедряют системных изменений, а потому не получают эффекта. Новые технологии накладываются на старые подходы, что не приводит к трансформации.
В крупных компаниях данные хранятся разрозненно, департаменты не всегда обмениваются информацией. Возникают конфликты, которые приводят к неэффективному управлению ресурсами.
Из статьи «Корпоративный университет данных: искусство малых шагов»:
Недавно на одном корпоративном мероприятии я услышал кейс о противостоянии двух юнитов. В крупном холдинге у одной из компаний группы стоит задача минимизировать выбросы в окружающую среду, у другой — оптимизировать производство.
Они, не понимая, как сходится экономика этих двух процессов, решают каждый свою задачу. Тем временем эти задачи могут быть решены параллельно — и чтобы увидеть это, достаточно построения «ручейка данных» между подразделениями, фактически одной сводной таблицы, которая покажет топ-менеджменту полную картину в бизнесе в различных разрезах и показателях.
На выходе такой мост между двумя обособленными информационными продуктами способен экономить бизнесу миллионы рублей ежегодно — в приведенном кейсе это около 500 млн рублей.
Все повторяют мантру, что данные — новая нефть, но почти никто не понимает, как ее перерабатывать, чтобы превращать сырье в товар.
В крупных компаниях CDO должны стать мостиком между информационными системами и научить топ-менеджеров видеть картину с данными целиком.
#деньги
🔥6❤2👍2👌2
Компании начнут собирать меньше данных
Сбор персональных данных на теневом рынке подорожал в 2,5 раза за 2023 год. Один сбор стоит до ₽44,3 тысяч. В 3,3 раза подорожали данные сотовых операторов. В 1,5 раза дороже стала банковская информация.
Есть гипотеза, что компании станут собирать и анализировать меньше пользовательских данных.
В 2024 году Гугл ограничил 3rd party cookies в своем браузере. Не имея альтернативы, бизнес постепенно сократит объемы собираемых данных.
Причины сокращения:
1. Сбор, хранение и обработка данных дорожают.
2. Штрафы за утечки и новые законы заставляют хранить меньше данных.
3. Новые алгоритмы анализируют небольшие массивы данных без потери качества.
Отмена 3rd party cookies ударит по таргетингу. Выручка паблишеров сократится на 30–50%. Назойливой рекламы станет меньше.
Интернет-трафик сократится. Когда оператор отключит сбор информации, вы будете тратить 7 ГБ трафика вместо 10 ГБ. Сегодня эти 3 ГБ — непосредственно информационный обмен.
К 2035 году бизнес адаптируется и будет собирать только по-настоящему полезные данные.
#деньги #исследования
Сбор персональных данных на теневом рынке подорожал в 2,5 раза за 2023 год. Один сбор стоит до ₽44,3 тысяч. В 3,3 раза подорожали данные сотовых операторов. В 1,5 раза дороже стала банковская информация.
Есть гипотеза, что компании станут собирать и анализировать меньше пользовательских данных.
В 2024 году Гугл ограничил 3rd party cookies в своем браузере. Не имея альтернативы, бизнес постепенно сократит объемы собираемых данных.
Причины сокращения:
1. Сбор, хранение и обработка данных дорожают.
2. Штрафы за утечки и новые законы заставляют хранить меньше данных.
3. Новые алгоритмы анализируют небольшие массивы данных без потери качества.
Отмена 3rd party cookies ударит по таргетингу. Выручка паблишеров сократится на 30–50%. Назойливой рекламы станет меньше.
Интернет-трафик сократится. Когда оператор отключит сбор информации, вы будете тратить 7 ГБ трафика вместо 10 ГБ. Сегодня эти 3 ГБ — непосредственно информационный обмен.
К 2035 году бизнес адаптируется и будет собирать только по-настоящему полезные данные.
#деньги #исследования
🔥3👏3🤔3👍1