В советы директоров включат специалистов по кибербезопасности
В 2025 году глобальные расходы на защиту данных вырастут на 15% и достигнут $212 млрд.
К 2027 году 17% всех кибератак будут использовать генеративный ИИ. Несмотря на угрозу, среди руководителей компаний только 54% считают, что их организации готовы к кибератакам, а 37% сомневаются, что их системы справятся с новыми вызовами.
Однако признание проблемы — половина решения. Советы директоров начинают воспринимать кибербезопасность как бизнес-риск, а не айти-проблему. К 2026 году хотя бы один специалист по кибербезопасности будет в 70% советов директоров.
#безопасность #деньги #исследования
В 2025 году глобальные расходы на защиту данных вырастут на 15% и достигнут $212 млрд.
К 2027 году 17% всех кибератак будут использовать генеративный ИИ. Несмотря на угрозу, среди руководителей компаний только 54% считают, что их организации готовы к кибератакам, а 37% сомневаются, что их системы справятся с новыми вызовами.
Однако признание проблемы — половина решения. Советы директоров начинают воспринимать кибербезопасность как бизнес-риск, а не айти-проблему. К 2026 году хотя бы один специалист по кибербезопасности будет в 70% советов директоров.
#безопасность #деньги #исследования
👍3👏1
Как журналисты нашли должников за капремонт с помощью Pandas и SQLite
Журналисты издания «Деловой Петербург» изучили 20 тысяч отчетов Фонда капитального ремонта и выяснили, кто задолжал больше всего.
Разбираемся, как они анализировали данные.
На входе: архивы по 18 районам города, более 1000 html-файлов на каждый. В них информация о 2,8 млн помещений.
Очевидно, это результат выгрузки базы данных. Если бы к ней был доступ, все решалось бы SQL-запросами. Но доступа не было, так что пришлось работать с отчетами в html-файлах.
Напрашивающийся подход — прочитать таблицы с помощью read_html() в Pandas и объединить маленькие в одну большую.
Решение оказалось так себе:
Сперва индикатор
Медленно.
Причина задержки, судя по всему, в медленной работе метода
Подготовили пустой словарь-накопитель. Каждую прочитанную таблицу преобразовывали в словарь и добавляли к словарю-накопителю. Затем уже словарь-накопитель преобразовывали обратно в таблицу Pandas для анализа.
На все ушло 13 минут. Неплохо, но можно лучше.
Еще быстрее оказалась загрузка извлеченной из html-файлов информации в базу данных. Авторы обошлись без SQLAlchemy. Они напрямую отправляли несложные SQL-команды из Pandas в стандартный модуль SQLite.
На выполнение ушло 12 минут. Чуть быстрее варианта со словарем и намного быстрее первоначального подхода.
Что узнали?
Чаще всего за капремонт не платит бизнес. В центре Питера 85% задолженности образовано владельцами коммерческих помещений в многоквартирных домах.
Подробности читайте в статье на Хабре.
#sql #статьи
Журналисты издания «Деловой Петербург» изучили 20 тысяч отчетов Фонда капитального ремонта и выяснили, кто задолжал больше всего.
Разбираемся, как они анализировали данные.
На входе: архивы по 18 районам города, более 1000 html-файлов на каждый. В них информация о 2,8 млн помещений.
Очевидно, это результат выгрузки базы данных. Если бы к ней был доступ, все решалось бы SQL-запросами. Но доступа не было, так что пришлось работать с отчетами в html-файлах.
Напрашивающийся подход — прочитать таблицы с помощью read_html() в Pandas и объединить маленькие в одну большую.
Решение оказалось так себе:
Сперва индикатор
tqdm
показывал 5 минут на формирование единой таблицы. Когда индикатор подобрался к 20%, оставшееся время увеличилось уже до 30 минут, а скорость упала с 30 до 8 итераций в секунду. Затем прогноз оставшегося времени и вовсе вырос до 2 часов. Медленно.
Причина задержки, судя по всему, в медленной работе метода
append
в Pandas. Попробовали без него: нашли решение с двойным преобразованием. Подготовили пустой словарь-накопитель. Каждую прочитанную таблицу преобразовывали в словарь и добавляли к словарю-накопителю. Затем уже словарь-накопитель преобразовывали обратно в таблицу Pandas для анализа.
На все ушло 13 минут. Неплохо, но можно лучше.
Еще быстрее оказалась загрузка извлеченной из html-файлов информации в базу данных. Авторы обошлись без SQLAlchemy. Они напрямую отправляли несложные SQL-команды из Pandas в стандартный модуль SQLite.
На выполнение ушло 12 минут. Чуть быстрее варианта со словарем и намного быстрее первоначального подхода.
Что узнали?
Чаще всего за капремонт не платит бизнес. В центре Питера 85% задолженности образовано владельцами коммерческих помещений в многоквартирных домах.
Подробности читайте в статье на Хабре.
#sql #статьи
👍4🔥2❤1
Колонки занимают на 87% меньше места, чем строки
Apache Parquet — бинарный, колоночно-ориентированный формат хранения данных, является независимым от языка. В отличие от CSV, Parquet оптимизирован для выполнения сложных запросов.
В каждой колонке данные должны быть строго одного типа. Parquet предоставляет возможность считывать не целиком весь файл, а только одну колонку, что может значительно минимизировать показатели ввода-вывода.
В статье сравнили Parquet и CSV:
- Уменьшает объем сканируемых данных на 99%: 2,51 ГБ vs 1,12 ТБ.
- Выполняет запросы в 34 раза быстрее: 4,78 сек vs 284 сек.
- Занимает на 87% меньше места: 130 ГБ vs 1 ТБ.
В тестах использовалось хранилище S3. У авторов получилась экономия в деньгах 99,7% при переходе с CSV на Parquet.
Parquet — оптимальный выбор для аналитических задач и больших данных, где критичны скорость, стоимость и эффективность хранения. CSV остается актуален для небольших наборов данных, простых задач и ручного анализа.
#статьи
Apache Parquet — бинарный, колоночно-ориентированный формат хранения данных, является независимым от языка. В отличие от CSV, Parquet оптимизирован для выполнения сложных запросов.
В каждой колонке данные должны быть строго одного типа. Parquet предоставляет возможность считывать не целиком весь файл, а только одну колонку, что может значительно минимизировать показатели ввода-вывода.
В статье сравнили Parquet и CSV:
- Уменьшает объем сканируемых данных на 99%: 2,51 ГБ vs 1,12 ТБ.
- Выполняет запросы в 34 раза быстрее: 4,78 сек vs 284 сек.
- Занимает на 87% меньше места: 130 ГБ vs 1 ТБ.
В тестах использовалось хранилище S3. У авторов получилась экономия в деньгах 99,7% при переходе с CSV на Parquet.
Parquet — оптимальный выбор для аналитических задач и больших данных, где критичны скорость, стоимость и эффективность хранения. CSV остается актуален для небольших наборов данных, простых задач и ручного анализа.
#статьи
❤🔥6👍2🔥2
Состояние и перспективы рынка СУБД в России
По данным ЦСР, в ближайшие семь лет среднегодовой темп роста мирового рынка СУБД составит 10%. В России в течение пяти лет он будет вдвое выше — 20%.
Российский рынок будет расти на фоне импортозамещения, предусмотренного в том числе нацпроектом «Экономика данных»: доля зарубежного ПО снизилась с 64% в 2021 году до 18% в 2023 году. К 2030 году она сократится до 1%.
Больше подробностей ищите в оригинале исследования.
#субд #деньги #исследования
По данным ЦСР, в ближайшие семь лет среднегодовой темп роста мирового рынка СУБД составит 10%. В России в течение пяти лет он будет вдвое выше — 20%.
Российский рынок будет расти на фоне импортозамещения, предусмотренного в том числе нацпроектом «Экономика данных»: доля зарубежного ПО снизилась с 64% в 2021 году до 18% в 2023 году. К 2030 году она сократится до 1%.
Больше подробностей ищите в оригинале исследования.
#субд #деньги #исследования
👍10❤1🥰1
Инструмент для автоматического документирования базы данных
Написанный на Go инструмент tbls анализирует структуру базы данных и автоматически генерирует красивую документацию в выбранном формате: Markdown, PlantUML, DOT, JSON или HTML.
Умеет создавать наглядные ER-диаграммы и визуализировать связи между таблицами. Интегрируется с CI/CD и автоматически обновляет документацию при изменении схемы.
Поддерживает большинство популярных СУБД: PostgreSQL, MySQL, SQLite и так далее.
Забирайте на Гитхабе.
#субд
Написанный на Go инструмент tbls анализирует структуру базы данных и автоматически генерирует красивую документацию в выбранном формате: Markdown, PlantUML, DOT, JSON или HTML.
Умеет создавать наглядные ER-диаграммы и визуализировать связи между таблицами. Интегрируется с CI/CD и автоматически обновляет документацию при изменении схемы.
Поддерживает большинство популярных СУБД: PostgreSQL, MySQL, SQLite и так далее.
Забирайте на Гитхабе.
#субд
🔥8👨💻3❤🔥2
Три архитектурных вопроса, которые считаются решенными по умолчанию
Техлид в команде разработки ИИ-инструментов столкнулся с проблемой: система централизованного мониторинга обрабатывала огромные потоки данных онлайн, но в распределенной среде возникли сложности.
Воркеры дублировали задачи или блокировали друг друга, сбои приводили к потере данных, а критические задержки нарушали работу сервиса.
Главное, что узнал автор статьи, решая эти проблемы:
1. Как правильно распределять задачи между воркерами?
Можно избежать дублирования и блокировок, если использовать группы консьюмеров Kafka. Они автоматически распределяют задачи между воркерами, следят за оффсетами и гарантируют, что каждый воркер получает свой уникальный набор данных. В случае сбоя одного воркера Kafka перераспределяет задачи без потерь.
2. Как гарантировать завершение задачи при сбоях?
Если воркер упал, важно, чтобы задача не потерялась и не выполнялась заново без необходимости. Помогает фиксация UUID успешно выполненных задач в отдельной таблице и отложенный коммит оффсетов Kafka, который предотвращает повторную обработку. Это снижает риск дублирования вычислений и потери данных.
3. Как соблюдать допустимую задержку выполнения?
В условиях жестких требований к задержке помогает параллельное выполнение одной и той же задачи в разных географически разнесенных дата-центрах. Даже если один кластер откажет, второй выполнит расчет в срок.
Если работаете с распределенными системами и хотите избежать неожиданных сбоев, дублирования задач и пропусков данных, читайте лонгрид с разбором реальных кейсов на Хабре.
#статьи
Техлид в команде разработки ИИ-инструментов столкнулся с проблемой: система централизованного мониторинга обрабатывала огромные потоки данных онлайн, но в распределенной среде возникли сложности.
Воркеры дублировали задачи или блокировали друг друга, сбои приводили к потере данных, а критические задержки нарушали работу сервиса.
Главное, что узнал автор статьи, решая эти проблемы:
1. Как правильно распределять задачи между воркерами?
Можно избежать дублирования и блокировок, если использовать группы консьюмеров Kafka. Они автоматически распределяют задачи между воркерами, следят за оффсетами и гарантируют, что каждый воркер получает свой уникальный набор данных. В случае сбоя одного воркера Kafka перераспределяет задачи без потерь.
2. Как гарантировать завершение задачи при сбоях?
Если воркер упал, важно, чтобы задача не потерялась и не выполнялась заново без необходимости. Помогает фиксация UUID успешно выполненных задач в отдельной таблице и отложенный коммит оффсетов Kafka, который предотвращает повторную обработку. Это снижает риск дублирования вычислений и потери данных.
3. Как соблюдать допустимую задержку выполнения?
В условиях жестких требований к задержке помогает параллельное выполнение одной и той же задачи в разных географически разнесенных дата-центрах. Даже если один кластер откажет, второй выполнит расчет в срок.
Если работаете с распределенными системами и хотите избежать неожиданных сбоев, дублирования задач и пропусков данных, читайте лонгрид с разбором реальных кейсов на Хабре.
#статьи
👍6❤2🔥2
Как работать с большими данными в SEO и экономить 300 тысяч в месяц на Яндекс Метрике
Большие данные — это ценность, только если вы можете их обработать. У сайта Rusprofile 500 000 визитов в сутки, и владельцы столкнулись с диким сэмплированием в Яндекс Метрике, из-за которого нельзя посмотреть точные данные более чем за 2 дня.
Метрика Про стоит 300 тысяч в месяц. Однако в Rusprofile решили пойти другим путем и сэкономить:
- Стали выгружать данные из Метрики и Топвизора по API. Это 15 млн строк ежемесячно. В исходной таблице уже было 700 млн строк. Как решение использовали ClickHouse, заточенную под такое число записей.
- Настроили пайплайны с помощью Apache Airflow. Каждый день данные за предыдущие сутки выгружаются автоматически. Раз в неделю обновляются агрегированные данные по позициям из Топвизора.
- Использовали Yandex DataLens для визуализации. В мониторинге еженедельные данные по 515 000 поисковых запросов, которые можно отфильтровать и по сайту Rusprofile, и по конкурентам.
Разработка решения окупилась за 5 месяцев.
Кейс показывает, как комбинация ETL-процессов, современных инструментов и гибкого подхода помогает решать сложные задачи SEO-аналитики даже при экстремальных объемах данных.
Подробности читайте на сайте SEO News.
#субд #деньги
Большие данные — это ценность, только если вы можете их обработать. У сайта Rusprofile 500 000 визитов в сутки, и владельцы столкнулись с диким сэмплированием в Яндекс Метрике, из-за которого нельзя посмотреть точные данные более чем за 2 дня.
Метрика Про стоит 300 тысяч в месяц. Однако в Rusprofile решили пойти другим путем и сэкономить:
- Стали выгружать данные из Метрики и Топвизора по API. Это 15 млн строк ежемесячно. В исходной таблице уже было 700 млн строк. Как решение использовали ClickHouse, заточенную под такое число записей.
- Настроили пайплайны с помощью Apache Airflow. Каждый день данные за предыдущие сутки выгружаются автоматически. Раз в неделю обновляются агрегированные данные по позициям из Топвизора.
- Использовали Yandex DataLens для визуализации. В мониторинге еженедельные данные по 515 000 поисковых запросов, которые можно отфильтровать и по сайту Rusprofile, и по конкурентам.
Разработка решения окупилась за 5 месяцев.
Кейс показывает, как комбинация ETL-процессов, современных инструментов и гибкого подхода помогает решать сложные задачи SEO-аналитики даже при экстремальных объемах данных.
Подробности читайте на сайте SEO News.
#субд #деньги
👌4🔥3❤2❤🔥1
Отчет о рисках для корпоративных данных за 2024 год
Компания Makves представила отчет по актуальным проблемам хранения, обработки и защиты неструктурированных данных в российских компаниях в 2024 году.
Разбираемся в цифрах и делаем выводы.
Главный инсайт:
У 100% российских компаний в общий доступ утекла конфиденциальная информация и персональные данные. При этом 95% не контролируют доступ уволенных сотрудников.
Другие ключевые цифры:
- 40% файлов в компаниях не используются более 5 лет.
- 60% компаний имеют аккаунты с уязвимыми паролями.
- 35% объема файловых хранилищ занимают неделовые данные — фото, видео, личные файлы.
- 26% файлов в типовой инфраструктуре — дубликаты.
Риски, связанные с пользователями:
- Неактивные более 2 месяцев аккаунты — потенциальные точки для атак.
- Уволенные сотрудники с активным доступом — ключевой риск утечки данных.
- Слабые пароли и отсутствие MFA — массовая проблема, особенно в крупных компаниях с текучкой кадров.
Риски, связанные с файлами:
- Дубликаты файлов повышают риск утечек и усложняют управление доступом.
- Ручное назначение прав приводит к избыточным привилегиям и ошибкам.
- Конфиденциальные данные в общем доступе — нарушение ФЗ-152, GDPR, PCI DSS, что грозит штрафами и приостановкой деятельности.
Всем компаниям показано:
Обучать сотрудников основам ИБ, регулярно архивировать и удалять устаревшие данные, внедрять системы для аудита прав доступа, удалять неактивные аккаунты и аккаунты уволенных сотрудников.
#безопасность #исследования
Компания Makves представила отчет по актуальным проблемам хранения, обработки и защиты неструктурированных данных в российских компаниях в 2024 году.
Разбираемся в цифрах и делаем выводы.
Главный инсайт:
У 100% российских компаний в общий доступ утекла конфиденциальная информация и персональные данные. При этом 95% не контролируют доступ уволенных сотрудников.
Другие ключевые цифры:
- 40% файлов в компаниях не используются более 5 лет.
- 60% компаний имеют аккаунты с уязвимыми паролями.
- 35% объема файловых хранилищ занимают неделовые данные — фото, видео, личные файлы.
- 26% файлов в типовой инфраструктуре — дубликаты.
Риски, связанные с пользователями:
- Неактивные более 2 месяцев аккаунты — потенциальные точки для атак.
- Уволенные сотрудники с активным доступом — ключевой риск утечки данных.
- Слабые пароли и отсутствие MFA — массовая проблема, особенно в крупных компаниях с текучкой кадров.
Риски, связанные с файлами:
- Дубликаты файлов повышают риск утечек и усложняют управление доступом.
- Ручное назначение прав приводит к избыточным привилегиям и ошибкам.
- Конфиденциальные данные в общем доступе — нарушение ФЗ-152, GDPR, PCI DSS, что грозит штрафами и приостановкой деятельности.
Всем компаниям показано:
Обучать сотрудников основам ИБ, регулярно архивировать и удалять устаревшие данные, внедрять системы для аудита прав доступа, удалять неактивные аккаунты и аккаунты уволенных сотрудников.
#безопасность #исследования
🔥5❤🔥3👏2
Как получить кредит на $5,5 млрд под залог данных о клиентах
Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства.
United Airlines
В 2020, во время пандемии доходы рухнули, авиакомпании грозило банкротство. Руководство запросило кредит у правительства США под залог данных о 100 млн клиентов программы лояльности MileagePlus.
При рыночной капитализации в $9 млрд независимые эксперты оценили данные в $22 млрд.
Кредиторы сочли данные высоколиквидным активом. Он генерировал стабильный доход через продажу миль партнерам и стимулировал повторные покупки.
Компания получила кредит на $5 млрд и избежала банкротства.
American Airlines
Тогда же, в пандемию на грани финансового коллапса оказалась авиакомпания American Airlines.
При капитализации в $8 млрд кредиторы оценили данные 115 млн клиентов программы лояльности AAdvantage в $24 млрд.
Правительство США выдало под залог данных льготный кредит на $5,5 млрд и спасло компанию от краха.
Caesars Entertainment
Помните «Дворец Цезаря», в котором кутили герои «Мальчишника в Вегасе»? В 2015 году владельцы казино накопили $18 млрд долгов и объявили о банкротстве.
При реструктуризации кредиторы требовали оценки всех активов, включая нематериальные, чтобы использовать их для погашения долга.
Вместе с независимыми экспертами кредиторы оценили данные о 45 млн клиентов программы лояльности в $1 млрд.
Данные — не просто информация. Компании, которые способны использовать данные в качестве финансового актива, более устойчивы в кризис.
#деньги
Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства.
United Airlines
В 2020, во время пандемии доходы рухнули, авиакомпании грозило банкротство. Руководство запросило кредит у правительства США под залог данных о 100 млн клиентов программы лояльности MileagePlus.
При рыночной капитализации в $9 млрд независимые эксперты оценили данные в $22 млрд.
Кредиторы сочли данные высоколиквидным активом. Он генерировал стабильный доход через продажу миль партнерам и стимулировал повторные покупки.
Компания получила кредит на $5 млрд и избежала банкротства.
American Airlines
Тогда же, в пандемию на грани финансового коллапса оказалась авиакомпания American Airlines.
При капитализации в $8 млрд кредиторы оценили данные 115 млн клиентов программы лояльности AAdvantage в $24 млрд.
Правительство США выдало под залог данных льготный кредит на $5,5 млрд и спасло компанию от краха.
Caesars Entertainment
Помните «Дворец Цезаря», в котором кутили герои «Мальчишника в Вегасе»? В 2015 году владельцы казино накопили $18 млрд долгов и объявили о банкротстве.
При реструктуризации кредиторы требовали оценки всех активов, включая нематериальные, чтобы использовать их для погашения долга.
Вместе с независимыми экспертами кредиторы оценили данные о 45 млн клиентов программы лояльности в $1 млрд.
Данные — не просто информация. Компании, которые способны использовать данные в качестве финансового актива, более устойчивы в кризис.
#деньги
❤🔥4❤3👌3
Progres Post
Как получить кредит на $5,5 млрд под залог данных о клиентах Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства. United Airlines В 2020, во время пандемии доходы рухнули, авиакомпании грозило…
Объясняем за 15 секунд, почему данные программ лояльности так много стоят
- Персонализация повышает доход: 65% случайных клиентов дают только 10% выручки, а всего 5% лояльных — 40%.
- Один участвующий в программе лояльности клиент приносит в 52 раза больше денег, чем один случайный.
- Платить больше за персонализированный сервис готовы 80% клиентов.
Это объясняет, почему при оценке компании в $8 млрд American Airlines оценила данные своей программы лояльности в $24 млрд.
Подробности и другие инсайты ищите в большом свежем исследовании Data Insight.
#деньги #исследования
- Персонализация повышает доход: 65% случайных клиентов дают только 10% выручки, а всего 5% лояльных — 40%.
- Один участвующий в программе лояльности клиент приносит в 52 раза больше денег, чем один случайный.
- Платить больше за персонализированный сервис готовы 80% клиентов.
Это объясняет, почему при оценке компании в $8 млрд American Airlines оценила данные своей программы лояльности в $24 млрд.
Подробности и другие инсайты ищите в большом свежем исследовании Data Insight.
#деньги #исследования
👍4🔥3❤2
Сборник лучших практик по Data Science от IBM
Если вы устали от бесконечных экспериментов в Jupyter и хотите научиться внедрять ML-модели в реальные системы — этот сборник для вас. Пригодится дата-сайентистам, которые хотят перейти от прототипов к промышленным решениям.
Это не пошаговое руководство, а методичка по стратегии работы с данными. Если вы только вырабатываете в компании техническую политику, методы и инструменты, этот сборник поможет.
Что внутри?
В сборнике сделали фокус на инженерию: версионирование, масштабируемость, мониторинг — все, что часто упускают в учебниках.
Сохраняйте себе и делитесь с теми, кто работает с данными.
Забирайте на Гитхабе.
Если вы устали от бесконечных экспериментов в Jupyter и хотите научиться внедрять ML-модели в реальные системы — этот сборник для вас. Пригодится дата-сайентистам, которые хотят перейти от прототипов к промышленным решениям.
Это не пошаговое руководство, а методичка по стратегии работы с данными. Если вы только вырабатываете в компании техническую политику, методы и инструменты, этот сборник поможет.
Что внутри?
В сборнике сделали фокус на инженерию: версионирование, масштабируемость, мониторинг — все, что часто упускают в учебниках.
Сохраняйте себе и делитесь с теми, кто работает с данными.
Забирайте на Гитхабе.
🔥3❤2❤🔥2🙏1
Open Source AI Tools.pdf
2.5 MB
Сохраняйте: 128 российских опенсорс-инструментов для ИИ-разработки
В ICT Moscow отобрали все российские опенсорсные инструменты для разработки ИИ, опубликованные с начала 2020 года. Ссылки собрали в один pdf-файл.
В файле:
- Библиотеки и фреймворки (42)
- Модели (32)
- Бенчмарки (20)
- Датасеты (15)
- Методы (10)
- Платформы (5)
- Архитектуры (4)
Можно быстро найти нужный инструмент, документацию и контакты разработчиков.
#ии #опенсорс
В ICT Moscow отобрали все российские опенсорсные инструменты для разработки ИИ, опубликованные с начала 2020 года. Ссылки собрали в один pdf-файл.
В файле:
- Библиотеки и фреймворки (42)
- Модели (32)
- Бенчмарки (20)
- Датасеты (15)
- Методы (10)
- Платформы (5)
- Архитектуры (4)
Можно быстро найти нужный инструмент, документацию и контакты разработчиков.
#ии #опенсорс
👍5❤🔥4🔥2
10 трюков с SQLite, которые отличают мидла от джуна
Внешне простой SQLite скрывает крутые возможности, которые упрощают и ускоряют разработку.
В статье на примерах разбирают 10 полезных трюков, которыми редко пользуются джуны:
1. Использование Virtual Tables
2. Индексация по выражениям: Index on Expressions
3. Использование Common Table Expressions с рекурсией
4. Стратегическое использование PRAGMA для настройки производительности
5. Транзакции внутри транзакций: SAVEPOINT
6. Сжатие базы на лету с VACUUM INTO
7. Использование кастомных функций на C / Python / JavaScript
8. Журналирование и аудит с помощью триггеров
9. Использование Row Value Comparison для сложных условий
10. Имитация CHECK CONSTRAINT на уровне выражений
Вы круты, если в статье не нашли для себя ничего нового. Отправьте знакомому джуну — ему будет полезно. Или проверьте компетенцию коллеги.
#субд #sql
Внешне простой SQLite скрывает крутые возможности, которые упрощают и ускоряют разработку.
В статье на примерах разбирают 10 полезных трюков, которыми редко пользуются джуны:
1. Использование Virtual Tables
2. Индексация по выражениям: Index on Expressions
3. Использование Common Table Expressions с рекурсией
4. Стратегическое использование PRAGMA для настройки производительности
5. Транзакции внутри транзакций: SAVEPOINT
6. Сжатие базы на лету с VACUUM INTO
7. Использование кастомных функций на C / Python / JavaScript
8. Журналирование и аудит с помощью триггеров
9. Использование Row Value Comparison для сложных условий
10. Имитация CHECK CONSTRAINT на уровне выражений
Вы круты, если в статье не нашли для себя ничего нового. Отправьте знакомому джуну — ему будет полезно. Или проверьте компетенцию коллеги.
#субд #sql
👍3🔥3👌2🤡1
Оцените свою продуктивность с помощью аналитики данных
Нашли в журнале «Код» мануал, по которому с помощью Google Colab и ActivityWatch можно качественно проанализировать свою продуктивность.
Авторы не просто рассказывают, как написать код, но и наглядно учат анализировать данные. Например, если вы засиживаетесь после полуночи за работой, то это время нужно переносить на предыдущий день, чтобы корректно интерпретировать результаты.
Еще из крутых инсайтов: браузер — коварная штука, в нем можно и работать, и мультики смотреть, так что авторы учат анализировать активность по заголовкам вкладок.
#аналитика #статьи
Нашли в журнале «Код» мануал, по которому с помощью Google Colab и ActivityWatch можно качественно проанализировать свою продуктивность.
Авторы не просто рассказывают, как написать код, но и наглядно учат анализировать данные. Например, если вы засиживаетесь после полуночи за работой, то это время нужно переносить на предыдущий день, чтобы корректно интерпретировать результаты.
Еще из крутых инсайтов: браузер — коварная штука, в нем можно и работать, и мультики смотреть, так что авторы учат анализировать активность по заголовкам вкладок.
#аналитика #статьи
👍4❤🔥3❤2
Свежая работа в Nature Human Behaviour переворачивает классическое представление об обучении и образовании как о наборе необходимых специальных знаний. Анализ 70 млн реальных карьерных траекторий показывает, что важно не набрать как можно больше знаний и навыков, а критически важна их последовательность и иерархия в ходе реального карьерного роста.
Наиболее важна «вложенность» навыков - встроенность их во взаимосвязанную иерархию. Например, без сильной базы в логике и коммуникации даже глубокие технические знания теряют свою ценность для карьеры. А без постоянного развития критического мышления навык переговоров в бизнесе не развивается, и специалист остается «низко результативным».
Примером служит карьера аналитика данных.
Сначала сотрудник должен освоить базовые навыки критического мышления и логики. Затем, овладев промежуточными компетенциями – обработкой и визуализацией данных, он получает возможность изучать более узкие, но высокооплачиваемые специфические навыки – например, методы прогнозного анализа и алгоритмы машинного обучения.
Таким образом, вложенность навыков создаёт последовательность профессионального развития, где каждый этап становится фундаментом для следующего. Это объясняет, почему даже высокие уровни владения специфическими навыками бесполезны без прочной базы в общих компетенциях
Фундаментально становится понятно, что родителям важно инвестировать прежде всего в критическое мышление, креативность, эмоциональный интеллект и способность к адаптации у детей, потому что именно эти навыки наиболее устойчивы к автоматизации и дают максимальную гибкость в карьере.
Более того, целый ряд таких «общих» навыков, критически важных для «целостного скилл-сета» формируются в семьях просто посредством простого поощрения дискуссий и обсуждений, и в целом становятся результатом воздействия среды в большей степени, чем «школьных предметов».
За адаптированный пересказ статьи с помощью ChatGPT спасибо Евгению Кузнецову
Наиболее важна «вложенность» навыков - встроенность их во взаимосвязанную иерархию. Например, без сильной базы в логике и коммуникации даже глубокие технические знания теряют свою ценность для карьеры. А без постоянного развития критического мышления навык переговоров в бизнесе не развивается, и специалист остается «низко результативным».
Примером служит карьера аналитика данных.
Сначала сотрудник должен освоить базовые навыки критического мышления и логики. Затем, овладев промежуточными компетенциями – обработкой и визуализацией данных, он получает возможность изучать более узкие, но высокооплачиваемые специфические навыки – например, методы прогнозного анализа и алгоритмы машинного обучения.
Таким образом, вложенность навыков создаёт последовательность профессионального развития, где каждый этап становится фундаментом для следующего. Это объясняет, почему даже высокие уровни владения специфическими навыками бесполезны без прочной базы в общих компетенциях
Фундаментально становится понятно, что родителям важно инвестировать прежде всего в критическое мышление, креативность, эмоциональный интеллект и способность к адаптации у детей, потому что именно эти навыки наиболее устойчивы к автоматизации и дают максимальную гибкость в карьере.
Более того, целый ряд таких «общих» навыков, критически важных для «целостного скилл-сета» формируются в семьях просто посредством простого поощрения дискуссий и обсуждений, и в целом становятся результатом воздействия среды в большей степени, чем «школьных предметов».
За адаптированный пересказ статьи с помощью ChatGPT спасибо Евгению Кузнецову
Substack
Навыки - это "все сложно", или почему среда учит не меньше, чем университет
ChatGPT по материалу "Skill dependencies uncover nested human capital" Moh Hosseinioun ..., Nature Human Behaviour (2025)
❤🔥4❤4🔥2
72% компаний в России теряют деньги из-за отсутствия качественных данных
По данным исследования «Матемаркетинга» и «АЭРО», 90% компаний в России принимают решения на основе данных, но только 13% удовлетворены качеством и количеством этих данных. При этом 72% теряли деньги из-за низкого качества данных.
Кажется, главная беда — формализм: аж 90% компаний работают с аналитикой данных, но только 21% считают себя data-driven. И сколько среди тех, кто себя таковыми считает, таковыми являются?
Признаки того, что большинство компаний относится к аналитике больших данных формально:
- 37% компаний собирают данные вручную.
- 55% не имеют единой стратегии управления данными.
- 73% используют стандартные excel-отчеты вместо автоматизированных BI-систем.
- 10% тратят на создание дашборда более квартала.
Компании не используют данные по-настоящему — они делают это неэффективно, превращая аналитику в формальность. Чтобы перестать терять деньги, бизнесу необходимо централизовать управление данными, устранить разрозненность отчетности, автоматизировать процессы и, главное, создать корпоративную культуру доверия к аналитике.
Исследования показывают, что предприятия, которые внедрили четкую data-стратегию, теряют на 35% меньше денег из-за ошибок в данных.
#аналитика #деньги #исследования
По данным исследования «Матемаркетинга» и «АЭРО», 90% компаний в России принимают решения на основе данных, но только 13% удовлетворены качеством и количеством этих данных. При этом 72% теряли деньги из-за низкого качества данных.
Кажется, главная беда — формализм: аж 90% компаний работают с аналитикой данных, но только 21% считают себя data-driven. И сколько среди тех, кто себя таковыми считает, таковыми являются?
Признаки того, что большинство компаний относится к аналитике больших данных формально:
- 37% компаний собирают данные вручную.
- 55% не имеют единой стратегии управления данными.
- 73% используют стандартные excel-отчеты вместо автоматизированных BI-систем.
- 10% тратят на создание дашборда более квартала.
Компании не используют данные по-настоящему — они делают это неэффективно, превращая аналитику в формальность. Чтобы перестать терять деньги, бизнесу необходимо централизовать управление данными, устранить разрозненность отчетности, автоматизировать процессы и, главное, создать корпоративную культуру доверия к аналитике.
Исследования показывают, что предприятия, которые внедрили четкую data-стратегию, теряют на 35% меньше денег из-за ошибок в данных.
#аналитика #деньги #исследования
👍5❤2🔥2
ИИ всех не заменит: сколько будет специалистов по данным через 5 лет
Вышка выпустила статистический сборник «Индикаторы образования». В 2023 году на айти-специальности в вузы поступило 357 тысяч студентов — 27% от общего приема в вузы. В колледжи поступило еще 142 тысячи айтишников — 14% всего приема.
Спрос на айтишников уже даже обсуждать стыдно, но Сэм Альтман пугает программистов безработицей.
В это время Всемирный экономический форум выпустил исследование о занятости на айти-рынке. По данным ВЭФ, большие данные и нейросети в ближайшие 5 лет создадут миллионы новых рабочих мест.
Почему студентам все-таки надо не париться и учиться работать с данными?
Потому что спрос на таких специалистов в ближайшие 5 лет вырастет:
1. Специалисты по большим данным / +113%
Цифровизации и распространение IoT приводят к накоплению огромных объемов информации, что требует специализированной обработки.
Среди работодателей 86% считают, что развитие ИИ и информационных технологий трансформирует бизнес, что напрямую увеличивает спрос на экспертов по большим данным.
2. Аналитики и дата-сайентисты / +41%
Финансовые компании и ритейл инвестируют до 20% бюджета в аналитику и предиктивное моделирование, стимулируя спрос на дата-сайентистов.
По данным опросов, 7 из 10 компаний считают аналитическое мышление критически важным для бизнеса, что усиливает спрос на специалистов, способных превращать данные в инсайты.
3. Дата-инженеры / +36%
Около 70% работодателей планируют увеличить инвестиции в инфраструктуру данных для создания надёжных ETL-процессов.
По данным IDC, мировые расходы на облачные платформы могут расти до 25% ежегодно и усилить потребность в инженерах.
4. Специалисты по хранилищам данных / +46%
Объединение данных из ERP, CRM, IoT и прочих систем требует квалифицированных специалистов по хранилищам. Широкое применение ИИ и машинного обучения требует качественных хранилищ данных для построения моделей и аналитики.
Если вы хотите построить карьеру в айти и выбираете, на какую специальность поступать в вуз или колледж, выбирайте карьеру в сфере данных. На таких специалистов будет максимальный спрос.
Расскажите знакомым абитуриентам.
#исследования
Вышка выпустила статистический сборник «Индикаторы образования». В 2023 году на айти-специальности в вузы поступило 357 тысяч студентов — 27% от общего приема в вузы. В колледжи поступило еще 142 тысячи айтишников — 14% всего приема.
Спрос на айтишников уже даже обсуждать стыдно, но Сэм Альтман пугает программистов безработицей.
В это время Всемирный экономический форум выпустил исследование о занятости на айти-рынке. По данным ВЭФ, большие данные и нейросети в ближайшие 5 лет создадут миллионы новых рабочих мест.
Почему студентам все-таки надо не париться и учиться работать с данными?
Потому что спрос на таких специалистов в ближайшие 5 лет вырастет:
1. Специалисты по большим данным / +113%
Цифровизации и распространение IoT приводят к накоплению огромных объемов информации, что требует специализированной обработки.
Среди работодателей 86% считают, что развитие ИИ и информационных технологий трансформирует бизнес, что напрямую увеличивает спрос на экспертов по большим данным.
2. Аналитики и дата-сайентисты / +41%
Финансовые компании и ритейл инвестируют до 20% бюджета в аналитику и предиктивное моделирование, стимулируя спрос на дата-сайентистов.
По данным опросов, 7 из 10 компаний считают аналитическое мышление критически важным для бизнеса, что усиливает спрос на специалистов, способных превращать данные в инсайты.
3. Дата-инженеры / +36%
Около 70% работодателей планируют увеличить инвестиции в инфраструктуру данных для создания надёжных ETL-процессов.
По данным IDC, мировые расходы на облачные платформы могут расти до 25% ежегодно и усилить потребность в инженерах.
4. Специалисты по хранилищам данных / +46%
Объединение данных из ERP, CRM, IoT и прочих систем требует квалифицированных специалистов по хранилищам. Широкое применение ИИ и машинного обучения требует качественных хранилищ данных для построения моделей и аналитики.
Если вы хотите построить карьеру в айти и выбираете, на какую специальность поступать в вуз или колледж, выбирайте карьеру в сфере данных. На таких специалистов будет максимальный спрос.
Расскажите знакомым абитуриентам.
#исследования
❤🔥3❤3🔥2