57% людей передают нейросетям конфиденциальные данные своих работодателей
В TELUS Digital выяснили, что в крупных айти-компаниях тотальные проблемы с безопасностью при использовании сотрудниками ИИ.
Чистосердечные признания:
- 68% сотрудников используют публичные ИИ-ассистенты через личные аккаунты в рабочих целях.
- 31% вводит в ИИ-ассистентов личные данные.
- 29% разглашает детали проектов и продуктов.
- 21% раскрывает данные клиентов.
- 11% сливает искусственному интеллекту финансовую отчетность компании.
Проблемы с политиками безопасности в компаниях:
- 29% людей продолжают использовать конфиденциальные данные в работе с ИИ, зная о запрете.
- 50% людей не уверены, соблюдают ли они правила компании.
- 44% компаний не имеет ИИ-политики, либо сотрудники не знают о ней.
- 42% людей уверены, что за нарушение политики их не накажут.
Что нужно делать?
- Обучать сотрудников работе с ИИ и соблюдению корпоративной политики безопасности. Сейчас только 24% проходят обязательные курсы по этой теме.
- Обеспечить сотрудников защищенными ИИ-решениями с контролем данных.
- Внедрять строгие, но понятные ИИ-политики, объяснять их важность и контролировать соблюдение.
По данным исследования, 60% людей использует ИИ, чтобы работать быстрее, а 50% людей автоматизировали часть своих задач.
ИИ экономит время и генерирует для крупных компаний приличную долю выручки. Часть этих денег надо срочно направить на контроль за безопасностью и обучение сотрудников.
#ии #исследования
В TELUS Digital выяснили, что в крупных айти-компаниях тотальные проблемы с безопасностью при использовании сотрудниками ИИ.
Чистосердечные признания:
- 68% сотрудников используют публичные ИИ-ассистенты через личные аккаунты в рабочих целях.
- 31% вводит в ИИ-ассистентов личные данные.
- 29% разглашает детали проектов и продуктов.
- 21% раскрывает данные клиентов.
- 11% сливает искусственному интеллекту финансовую отчетность компании.
Проблемы с политиками безопасности в компаниях:
- 29% людей продолжают использовать конфиденциальные данные в работе с ИИ, зная о запрете.
- 50% людей не уверены, соблюдают ли они правила компании.
- 44% компаний не имеет ИИ-политики, либо сотрудники не знают о ней.
- 42% людей уверены, что за нарушение политики их не накажут.
Что нужно делать?
- Обучать сотрудников работе с ИИ и соблюдению корпоративной политики безопасности. Сейчас только 24% проходят обязательные курсы по этой теме.
- Обеспечить сотрудников защищенными ИИ-решениями с контролем данных.
- Внедрять строгие, но понятные ИИ-политики, объяснять их важность и контролировать соблюдение.
По данным исследования, 60% людей использует ИИ, чтобы работать быстрее, а 50% людей автоматизировали часть своих задач.
ИИ экономит время и генерирует для крупных компаний приличную долю выручки. Часть этих денег надо срочно направить на контроль за безопасностью и обучение сотрудников.
#ии #исследования
🔥5😱2👍1
Хакеры взломали Минфин США с помощью SQL-инъекции и особенностями юникода в PostgreSQL
Критическую уязвимость нашли в программе управления привилегированным доступом от компании BeyondTrust, которая использовала PostgreSQL.
Что за уязвимость?
Хакеры обнаружили проблему в вызове внутри библиотеки
Они использовали два байта (c0 27), которые PostgreSQL принял за валидный юникод-символ. Так они внедрили неэкранированный апостроф и открыли себе возможность для SQL-инъекции.
Этот апостроф дал хакерам контроль над psql, CLI-интерфейсом PostgreSQL. Оттуда они использовали команду
Почему уязвимость не заметили раньше?
SQL-инъекции разбирают во всех учебниках, но эта оставалась незамеченной 9 лет, потому что:
- У PostgreSQL не было встроенной валидации юникод-символов в
- Она представляла угрозу только в командной строке
Какова мораль?
В Минфине полностью положились на надежность экранирования апострофов и опрометчиво разрешили пользователю выполнять произвольные команды в
Так не надо.
Никогда не передавайте клиентский код в
За комментарий спасибо Василию Пучкову, архитектору решений.
#sql #субд
Критическую уязвимость нашли в программе управления привилегированным доступом от компании BeyondTrust, которая использовала PostgreSQL.
Что за уязвимость?
Хакеры обнаружили проблему в вызове внутри библиотеки
libpq
функции pg_escape_string
. Она отвечает за экранирование пользовательского ввода. Они использовали два байта (c0 27), которые PostgreSQL принял за валидный юникод-символ. Так они внедрили неэкранированный апостроф и открыли себе возможность для SQL-инъекции.
Этот апостроф дал хакерам контроль над psql, CLI-интерфейсом PostgreSQL. Оттуда они использовали команду
\!
для выполнения произвольного кода на серверах Минфина. Почему уязвимость не заметили раньше?
SQL-инъекции разбирают во всех учебниках, но эта оставалась незамеченной 9 лет, потому что:
- У PostgreSQL не было встроенной валидации юникод-символов в
PQescapeStringInternal
.- Она представляла угрозу только в командной строке
psql
. Этот сценарий не рассмотрели. Какова мораль?
В Минфине полностью положились на надежность экранирования апострофов и опрометчиво разрешили пользователю выполнять произвольные команды в
psql
.Так не надо.
Никогда не передавайте клиентский код в
psql
, даже если считаете его проверенным. Всегда исходите из того, что один уровень защиты может быть обойден.За комментарий спасибо Василию Пучкову, архитектору решений.
#sql #субд
👍13🔥5⚡1❤1😱1
Positive Technologies опубликовала исследование, посвященное утечкам конфиденциальных данных из организаций во втором полугодии 2024 года. Оно основано на результатах анализа данных об утечках из авторитетных открытых источников и около 3500 объявлений о бесплатных раздачах, продажах и покупках утекших данных на тематических теневых ресурсах.
Отмечается, что более половины успешных атак на организации заканчиваются утечками данных и во втором полугодии 2024 года этот показатель составил 52%. Предполагается, что в 2025 году доля атак на организации с кражей данных будет варьироваться в диапазоне от 50% до 55%. В случае если в повсеместно используемых программных решениях будут выявлены критически опасные уязвимости нулевого дня, которые массово возьмут на вооружение киберпреступные группировки, показатель может временно повыситься до 60–65%.
Финансовые организации остаются в числе наиболее уязвимых структур. Основными типами компрометированной информации являются персональные данные (76% объявлений), платежные реквизиты (12%) и учетные записи пользователей (11%). При этом в категории продаж дороже 10 тысяч долларов каждая пятая публикация связана именно с финансовым сектором.
Отмечается, что несмотря на усиление банками и другими финансовыми учреждениями защитных мер, хакеры находят лазейки, проникая в системы через уязвимые звенья — подрядчиков и поставщиков IT-услуг. Особую опасность представляют атаки на компании, работающие с несколькими банками сразу. Через одного слабо защищенного подрядчика злоумышленники могут получить доступ к множеству финансовых организаций.
Другие выводы исследования:
🔹 Наиболее часто жертвами утечек становились госучреждения (13%), промышленность (10%), IT-компании (10%), финансовые организации (8%) и медицинские учреждения (7%).
🔹 На теневых форумах растет спрос на покупку данных. Во втором полугодии произошло существенное увеличение (с 3% до 12%) доли объявлений о покупке информации, причем средняя1 цена, указанная в таком объявлении, выросла с 600 до 1700 долларов.
🔹 Вместе с тем в 60% объявлений на тематических площадках данные раздаются бесплатно и только в 28% продаются. Более чем в половине объявлений о продаже (55%) стоимость данных не превышает 1 тыс. долларов, и лишь в 6% объявлений назначена цена более 10 тыс. долларов.
🔹 Самые высокие цены на теневых ресурсах установлены на данные платежных карт, медицинские данные и исходный код. Средняя цена за набор данных платежных карт — 2500 долларов. Самые низкие цены установлены на персональные данные, средняя цена в объявлениях об их продаже — 835 долларов.
🔹 Утечки становятся более объемными. На теневых ресурсах доля баз данных, в которых более 100 тыс. строк, выросла с 52% до 56%, а доля наборов данных объемом более 1 ГБ повысилась с 35% до 52%. Это может свидетельствовать об интересе злоумышленников к предприятиям среднего бизнеса.
🔹 Азия по-прежнему лидирует в рейтинге регионов по числу утечек. Во втором полугодии доля объявлений здесь составила 35%, что на 5 процентных пунктов больше, чем в первом полугодии.
🔹 С 10% до 16% выросла доля публикаций, связанных со странами Северной Америки. Регион стал вторым по числу объявлений на теневых площадках, сместив Латинскую Америку на четвертую позицию. США стали лидером в рейтинге отдельных стран по количеству объявлений в дарквебе — их доля составила 15%,.
🔹 Доля европейских стран, напротив, снизилась на 5 п. п. и во втором полугодии составила 15%. Снизилась также и доля стран СНГ, в том числе России. В связанных с утечками объявлениях на теневых ресурсах во втором полугодии 2024 года она составила всего 4%.
🔹 В большинстве успешных атак на организации, повлекших за собой утечки данных, использовалось вредоносное ПО (71%) и методы социальной инженерии (60%).
🔹В 38% атак на организации с использованием вредоносного ПО, которые закончились утечками данных, были задействованы шифровальщики.
Более подробно об исследовании
#безопасность
Отмечается, что более половины успешных атак на организации заканчиваются утечками данных и во втором полугодии 2024 года этот показатель составил 52%. Предполагается, что в 2025 году доля атак на организации с кражей данных будет варьироваться в диапазоне от 50% до 55%. В случае если в повсеместно используемых программных решениях будут выявлены критически опасные уязвимости нулевого дня, которые массово возьмут на вооружение киберпреступные группировки, показатель может временно повыситься до 60–65%.
Финансовые организации остаются в числе наиболее уязвимых структур. Основными типами компрометированной информации являются персональные данные (76% объявлений), платежные реквизиты (12%) и учетные записи пользователей (11%). При этом в категории продаж дороже 10 тысяч долларов каждая пятая публикация связана именно с финансовым сектором.
Отмечается, что несмотря на усиление банками и другими финансовыми учреждениями защитных мер, хакеры находят лазейки, проникая в системы через уязвимые звенья — подрядчиков и поставщиков IT-услуг. Особую опасность представляют атаки на компании, работающие с несколькими банками сразу. Через одного слабо защищенного подрядчика злоумышленники могут получить доступ к множеству финансовых организаций.
Другие выводы исследования:
🔹 Наиболее часто жертвами утечек становились госучреждения (13%), промышленность (10%), IT-компании (10%), финансовые организации (8%) и медицинские учреждения (7%).
🔹 На теневых форумах растет спрос на покупку данных. Во втором полугодии произошло существенное увеличение (с 3% до 12%) доли объявлений о покупке информации, причем средняя1 цена, указанная в таком объявлении, выросла с 600 до 1700 долларов.
🔹 Вместе с тем в 60% объявлений на тематических площадках данные раздаются бесплатно и только в 28% продаются. Более чем в половине объявлений о продаже (55%) стоимость данных не превышает 1 тыс. долларов, и лишь в 6% объявлений назначена цена более 10 тыс. долларов.
🔹 Самые высокие цены на теневых ресурсах установлены на данные платежных карт, медицинские данные и исходный код. Средняя цена за набор данных платежных карт — 2500 долларов. Самые низкие цены установлены на персональные данные, средняя цена в объявлениях об их продаже — 835 долларов.
🔹 Утечки становятся более объемными. На теневых ресурсах доля баз данных, в которых более 100 тыс. строк, выросла с 52% до 56%, а доля наборов данных объемом более 1 ГБ повысилась с 35% до 52%. Это может свидетельствовать об интересе злоумышленников к предприятиям среднего бизнеса.
🔹 Азия по-прежнему лидирует в рейтинге регионов по числу утечек. Во втором полугодии доля объявлений здесь составила 35%, что на 5 процентных пунктов больше, чем в первом полугодии.
🔹 С 10% до 16% выросла доля публикаций, связанных со странами Северной Америки. Регион стал вторым по числу объявлений на теневых площадках, сместив Латинскую Америку на четвертую позицию. США стали лидером в рейтинге отдельных стран по количеству объявлений в дарквебе — их доля составила 15%,.
🔹 Доля европейских стран, напротив, снизилась на 5 п. п. и во втором полугодии составила 15%. Снизилась также и доля стран СНГ, в том числе России. В связанных с утечками объявлениях на теневых ресурсах во втором полугодии 2024 года она составила всего 4%.
🔹 В большинстве успешных атак на организации, повлекших за собой утечки данных, использовалось вредоносное ПО (71%) и методы социальной инженерии (60%).
🔹В 38% атак на организации с использованием вредоносного ПО, которые закончились утечками данных, были задействованы шифровальщики.
Более подробно об исследовании
#безопасность
🔥5❤1👍1
Третий сезон «Игры в кальмара» выйдет 27 июня 2025 года
Пока ждете, если ждете, можете окунуться в атмосферу сериала и поиграть:
Пройдите 9 испытаний в SQL Squid Game и попытайтесь остаться в живых.
#sql
Пока ждете, если ждете, можете окунуться в атмосферу сериала и поиграть:
Пройдите 9 испытаний в SQL Squid Game и попытайтесь остаться в живых.
#sql
🔥7❤🔥2
В советы директоров включат специалистов по кибербезопасности
В 2025 году глобальные расходы на защиту данных вырастут на 15% и достигнут $212 млрд.
К 2027 году 17% всех кибератак будут использовать генеративный ИИ. Несмотря на угрозу, среди руководителей компаний только 54% считают, что их организации готовы к кибератакам, а 37% сомневаются, что их системы справятся с новыми вызовами.
Однако признание проблемы — половина решения. Советы директоров начинают воспринимать кибербезопасность как бизнес-риск, а не айти-проблему. К 2026 году хотя бы один специалист по кибербезопасности будет в 70% советов директоров.
#безопасность #деньги #исследования
В 2025 году глобальные расходы на защиту данных вырастут на 15% и достигнут $212 млрд.
К 2027 году 17% всех кибератак будут использовать генеративный ИИ. Несмотря на угрозу, среди руководителей компаний только 54% считают, что их организации готовы к кибератакам, а 37% сомневаются, что их системы справятся с новыми вызовами.
Однако признание проблемы — половина решения. Советы директоров начинают воспринимать кибербезопасность как бизнес-риск, а не айти-проблему. К 2026 году хотя бы один специалист по кибербезопасности будет в 70% советов директоров.
#безопасность #деньги #исследования
👍3👏1
Как журналисты нашли должников за капремонт с помощью Pandas и SQLite
Журналисты издания «Деловой Петербург» изучили 20 тысяч отчетов Фонда капитального ремонта и выяснили, кто задолжал больше всего.
Разбираемся, как они анализировали данные.
На входе: архивы по 18 районам города, более 1000 html-файлов на каждый. В них информация о 2,8 млн помещений.
Очевидно, это результат выгрузки базы данных. Если бы к ней был доступ, все решалось бы SQL-запросами. Но доступа не было, так что пришлось работать с отчетами в html-файлах.
Напрашивающийся подход — прочитать таблицы с помощью read_html() в Pandas и объединить маленькие в одну большую.
Решение оказалось так себе:
Сперва индикатор
Медленно.
Причина задержки, судя по всему, в медленной работе метода
Подготовили пустой словарь-накопитель. Каждую прочитанную таблицу преобразовывали в словарь и добавляли к словарю-накопителю. Затем уже словарь-накопитель преобразовывали обратно в таблицу Pandas для анализа.
На все ушло 13 минут. Неплохо, но можно лучше.
Еще быстрее оказалась загрузка извлеченной из html-файлов информации в базу данных. Авторы обошлись без SQLAlchemy. Они напрямую отправляли несложные SQL-команды из Pandas в стандартный модуль SQLite.
На выполнение ушло 12 минут. Чуть быстрее варианта со словарем и намного быстрее первоначального подхода.
Что узнали?
Чаще всего за капремонт не платит бизнес. В центре Питера 85% задолженности образовано владельцами коммерческих помещений в многоквартирных домах.
Подробности читайте в статье на Хабре.
#sql #статьи
Журналисты издания «Деловой Петербург» изучили 20 тысяч отчетов Фонда капитального ремонта и выяснили, кто задолжал больше всего.
Разбираемся, как они анализировали данные.
На входе: архивы по 18 районам города, более 1000 html-файлов на каждый. В них информация о 2,8 млн помещений.
Очевидно, это результат выгрузки базы данных. Если бы к ней был доступ, все решалось бы SQL-запросами. Но доступа не было, так что пришлось работать с отчетами в html-файлах.
Напрашивающийся подход — прочитать таблицы с помощью read_html() в Pandas и объединить маленькие в одну большую.
Решение оказалось так себе:
Сперва индикатор
tqdm
показывал 5 минут на формирование единой таблицы. Когда индикатор подобрался к 20%, оставшееся время увеличилось уже до 30 минут, а скорость упала с 30 до 8 итераций в секунду. Затем прогноз оставшегося времени и вовсе вырос до 2 часов. Медленно.
Причина задержки, судя по всему, в медленной работе метода
append
в Pandas. Попробовали без него: нашли решение с двойным преобразованием. Подготовили пустой словарь-накопитель. Каждую прочитанную таблицу преобразовывали в словарь и добавляли к словарю-накопителю. Затем уже словарь-накопитель преобразовывали обратно в таблицу Pandas для анализа.
На все ушло 13 минут. Неплохо, но можно лучше.
Еще быстрее оказалась загрузка извлеченной из html-файлов информации в базу данных. Авторы обошлись без SQLAlchemy. Они напрямую отправляли несложные SQL-команды из Pandas в стандартный модуль SQLite.
На выполнение ушло 12 минут. Чуть быстрее варианта со словарем и намного быстрее первоначального подхода.
Что узнали?
Чаще всего за капремонт не платит бизнес. В центре Питера 85% задолженности образовано владельцами коммерческих помещений в многоквартирных домах.
Подробности читайте в статье на Хабре.
#sql #статьи
👍4🔥2❤1
Колонки занимают на 87% меньше места, чем строки
Apache Parquet — бинарный, колоночно-ориентированный формат хранения данных, является независимым от языка. В отличие от CSV, Parquet оптимизирован для выполнения сложных запросов.
В каждой колонке данные должны быть строго одного типа. Parquet предоставляет возможность считывать не целиком весь файл, а только одну колонку, что может значительно минимизировать показатели ввода-вывода.
В статье сравнили Parquet и CSV:
- Уменьшает объем сканируемых данных на 99%: 2,51 ГБ vs 1,12 ТБ.
- Выполняет запросы в 34 раза быстрее: 4,78 сек vs 284 сек.
- Занимает на 87% меньше места: 130 ГБ vs 1 ТБ.
В тестах использовалось хранилище S3. У авторов получилась экономия в деньгах 99,7% при переходе с CSV на Parquet.
Parquet — оптимальный выбор для аналитических задач и больших данных, где критичны скорость, стоимость и эффективность хранения. CSV остается актуален для небольших наборов данных, простых задач и ручного анализа.
#статьи
Apache Parquet — бинарный, колоночно-ориентированный формат хранения данных, является независимым от языка. В отличие от CSV, Parquet оптимизирован для выполнения сложных запросов.
В каждой колонке данные должны быть строго одного типа. Parquet предоставляет возможность считывать не целиком весь файл, а только одну колонку, что может значительно минимизировать показатели ввода-вывода.
В статье сравнили Parquet и CSV:
- Уменьшает объем сканируемых данных на 99%: 2,51 ГБ vs 1,12 ТБ.
- Выполняет запросы в 34 раза быстрее: 4,78 сек vs 284 сек.
- Занимает на 87% меньше места: 130 ГБ vs 1 ТБ.
В тестах использовалось хранилище S3. У авторов получилась экономия в деньгах 99,7% при переходе с CSV на Parquet.
Parquet — оптимальный выбор для аналитических задач и больших данных, где критичны скорость, стоимость и эффективность хранения. CSV остается актуален для небольших наборов данных, простых задач и ручного анализа.
#статьи
❤🔥6👍2🔥2
Состояние и перспективы рынка СУБД в России
По данным ЦСР, в ближайшие семь лет среднегодовой темп роста мирового рынка СУБД составит 10%. В России в течение пяти лет он будет вдвое выше — 20%.
Российский рынок будет расти на фоне импортозамещения, предусмотренного в том числе нацпроектом «Экономика данных»: доля зарубежного ПО снизилась с 64% в 2021 году до 18% в 2023 году. К 2030 году она сократится до 1%.
Больше подробностей ищите в оригинале исследования.
#субд #деньги #исследования
По данным ЦСР, в ближайшие семь лет среднегодовой темп роста мирового рынка СУБД составит 10%. В России в течение пяти лет он будет вдвое выше — 20%.
Российский рынок будет расти на фоне импортозамещения, предусмотренного в том числе нацпроектом «Экономика данных»: доля зарубежного ПО снизилась с 64% в 2021 году до 18% в 2023 году. К 2030 году она сократится до 1%.
Больше подробностей ищите в оригинале исследования.
#субд #деньги #исследования
👍10❤1🥰1
Инструмент для автоматического документирования базы данных
Написанный на Go инструмент tbls анализирует структуру базы данных и автоматически генерирует красивую документацию в выбранном формате: Markdown, PlantUML, DOT, JSON или HTML.
Умеет создавать наглядные ER-диаграммы и визуализировать связи между таблицами. Интегрируется с CI/CD и автоматически обновляет документацию при изменении схемы.
Поддерживает большинство популярных СУБД: PostgreSQL, MySQL, SQLite и так далее.
Забирайте на Гитхабе.
#субд
Написанный на Go инструмент tbls анализирует структуру базы данных и автоматически генерирует красивую документацию в выбранном формате: Markdown, PlantUML, DOT, JSON или HTML.
Умеет создавать наглядные ER-диаграммы и визуализировать связи между таблицами. Интегрируется с CI/CD и автоматически обновляет документацию при изменении схемы.
Поддерживает большинство популярных СУБД: PostgreSQL, MySQL, SQLite и так далее.
Забирайте на Гитхабе.
#субд
🔥8👨💻3❤🔥2
Три архитектурных вопроса, которые считаются решенными по умолчанию
Техлид в команде разработки ИИ-инструментов столкнулся с проблемой: система централизованного мониторинга обрабатывала огромные потоки данных онлайн, но в распределенной среде возникли сложности.
Воркеры дублировали задачи или блокировали друг друга, сбои приводили к потере данных, а критические задержки нарушали работу сервиса.
Главное, что узнал автор статьи, решая эти проблемы:
1. Как правильно распределять задачи между воркерами?
Можно избежать дублирования и блокировок, если использовать группы консьюмеров Kafka. Они автоматически распределяют задачи между воркерами, следят за оффсетами и гарантируют, что каждый воркер получает свой уникальный набор данных. В случае сбоя одного воркера Kafka перераспределяет задачи без потерь.
2. Как гарантировать завершение задачи при сбоях?
Если воркер упал, важно, чтобы задача не потерялась и не выполнялась заново без необходимости. Помогает фиксация UUID успешно выполненных задач в отдельной таблице и отложенный коммит оффсетов Kafka, который предотвращает повторную обработку. Это снижает риск дублирования вычислений и потери данных.
3. Как соблюдать допустимую задержку выполнения?
В условиях жестких требований к задержке помогает параллельное выполнение одной и той же задачи в разных географически разнесенных дата-центрах. Даже если один кластер откажет, второй выполнит расчет в срок.
Если работаете с распределенными системами и хотите избежать неожиданных сбоев, дублирования задач и пропусков данных, читайте лонгрид с разбором реальных кейсов на Хабре.
#статьи
Техлид в команде разработки ИИ-инструментов столкнулся с проблемой: система централизованного мониторинга обрабатывала огромные потоки данных онлайн, но в распределенной среде возникли сложности.
Воркеры дублировали задачи или блокировали друг друга, сбои приводили к потере данных, а критические задержки нарушали работу сервиса.
Главное, что узнал автор статьи, решая эти проблемы:
1. Как правильно распределять задачи между воркерами?
Можно избежать дублирования и блокировок, если использовать группы консьюмеров Kafka. Они автоматически распределяют задачи между воркерами, следят за оффсетами и гарантируют, что каждый воркер получает свой уникальный набор данных. В случае сбоя одного воркера Kafka перераспределяет задачи без потерь.
2. Как гарантировать завершение задачи при сбоях?
Если воркер упал, важно, чтобы задача не потерялась и не выполнялась заново без необходимости. Помогает фиксация UUID успешно выполненных задач в отдельной таблице и отложенный коммит оффсетов Kafka, который предотвращает повторную обработку. Это снижает риск дублирования вычислений и потери данных.
3. Как соблюдать допустимую задержку выполнения?
В условиях жестких требований к задержке помогает параллельное выполнение одной и той же задачи в разных географически разнесенных дата-центрах. Даже если один кластер откажет, второй выполнит расчет в срок.
Если работаете с распределенными системами и хотите избежать неожиданных сбоев, дублирования задач и пропусков данных, читайте лонгрид с разбором реальных кейсов на Хабре.
#статьи
👍6❤2🔥2
Как работать с большими данными в SEO и экономить 300 тысяч в месяц на Яндекс Метрике
Большие данные — это ценность, только если вы можете их обработать. У сайта Rusprofile 500 000 визитов в сутки, и владельцы столкнулись с диким сэмплированием в Яндекс Метрике, из-за которого нельзя посмотреть точные данные более чем за 2 дня.
Метрика Про стоит 300 тысяч в месяц. Однако в Rusprofile решили пойти другим путем и сэкономить:
- Стали выгружать данные из Метрики и Топвизора по API. Это 15 млн строк ежемесячно. В исходной таблице уже было 700 млн строк. Как решение использовали ClickHouse, заточенную под такое число записей.
- Настроили пайплайны с помощью Apache Airflow. Каждый день данные за предыдущие сутки выгружаются автоматически. Раз в неделю обновляются агрегированные данные по позициям из Топвизора.
- Использовали Yandex DataLens для визуализации. В мониторинге еженедельные данные по 515 000 поисковых запросов, которые можно отфильтровать и по сайту Rusprofile, и по конкурентам.
Разработка решения окупилась за 5 месяцев.
Кейс показывает, как комбинация ETL-процессов, современных инструментов и гибкого подхода помогает решать сложные задачи SEO-аналитики даже при экстремальных объемах данных.
Подробности читайте на сайте SEO News.
#субд #деньги
Большие данные — это ценность, только если вы можете их обработать. У сайта Rusprofile 500 000 визитов в сутки, и владельцы столкнулись с диким сэмплированием в Яндекс Метрике, из-за которого нельзя посмотреть точные данные более чем за 2 дня.
Метрика Про стоит 300 тысяч в месяц. Однако в Rusprofile решили пойти другим путем и сэкономить:
- Стали выгружать данные из Метрики и Топвизора по API. Это 15 млн строк ежемесячно. В исходной таблице уже было 700 млн строк. Как решение использовали ClickHouse, заточенную под такое число записей.
- Настроили пайплайны с помощью Apache Airflow. Каждый день данные за предыдущие сутки выгружаются автоматически. Раз в неделю обновляются агрегированные данные по позициям из Топвизора.
- Использовали Yandex DataLens для визуализации. В мониторинге еженедельные данные по 515 000 поисковых запросов, которые можно отфильтровать и по сайту Rusprofile, и по конкурентам.
Разработка решения окупилась за 5 месяцев.
Кейс показывает, как комбинация ETL-процессов, современных инструментов и гибкого подхода помогает решать сложные задачи SEO-аналитики даже при экстремальных объемах данных.
Подробности читайте на сайте SEO News.
#субд #деньги
👌4🔥3❤2❤🔥1
Отчет о рисках для корпоративных данных за 2024 год
Компания Makves представила отчет по актуальным проблемам хранения, обработки и защиты неструктурированных данных в российских компаниях в 2024 году.
Разбираемся в цифрах и делаем выводы.
Главный инсайт:
У 100% российских компаний в общий доступ утекла конфиденциальная информация и персональные данные. При этом 95% не контролируют доступ уволенных сотрудников.
Другие ключевые цифры:
- 40% файлов в компаниях не используются более 5 лет.
- 60% компаний имеют аккаунты с уязвимыми паролями.
- 35% объема файловых хранилищ занимают неделовые данные — фото, видео, личные файлы.
- 26% файлов в типовой инфраструктуре — дубликаты.
Риски, связанные с пользователями:
- Неактивные более 2 месяцев аккаунты — потенциальные точки для атак.
- Уволенные сотрудники с активным доступом — ключевой риск утечки данных.
- Слабые пароли и отсутствие MFA — массовая проблема, особенно в крупных компаниях с текучкой кадров.
Риски, связанные с файлами:
- Дубликаты файлов повышают риск утечек и усложняют управление доступом.
- Ручное назначение прав приводит к избыточным привилегиям и ошибкам.
- Конфиденциальные данные в общем доступе — нарушение ФЗ-152, GDPR, PCI DSS, что грозит штрафами и приостановкой деятельности.
Всем компаниям показано:
Обучать сотрудников основам ИБ, регулярно архивировать и удалять устаревшие данные, внедрять системы для аудита прав доступа, удалять неактивные аккаунты и аккаунты уволенных сотрудников.
#безопасность #исследования
Компания Makves представила отчет по актуальным проблемам хранения, обработки и защиты неструктурированных данных в российских компаниях в 2024 году.
Разбираемся в цифрах и делаем выводы.
Главный инсайт:
У 100% российских компаний в общий доступ утекла конфиденциальная информация и персональные данные. При этом 95% не контролируют доступ уволенных сотрудников.
Другие ключевые цифры:
- 40% файлов в компаниях не используются более 5 лет.
- 60% компаний имеют аккаунты с уязвимыми паролями.
- 35% объема файловых хранилищ занимают неделовые данные — фото, видео, личные файлы.
- 26% файлов в типовой инфраструктуре — дубликаты.
Риски, связанные с пользователями:
- Неактивные более 2 месяцев аккаунты — потенциальные точки для атак.
- Уволенные сотрудники с активным доступом — ключевой риск утечки данных.
- Слабые пароли и отсутствие MFA — массовая проблема, особенно в крупных компаниях с текучкой кадров.
Риски, связанные с файлами:
- Дубликаты файлов повышают риск утечек и усложняют управление доступом.
- Ручное назначение прав приводит к избыточным привилегиям и ошибкам.
- Конфиденциальные данные в общем доступе — нарушение ФЗ-152, GDPR, PCI DSS, что грозит штрафами и приостановкой деятельности.
Всем компаниям показано:
Обучать сотрудников основам ИБ, регулярно архивировать и удалять устаревшие данные, внедрять системы для аудита прав доступа, удалять неактивные аккаунты и аккаунты уволенных сотрудников.
#безопасность #исследования
🔥5❤🔥3👏2
Как получить кредит на $5,5 млрд под залог данных о клиентах
Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства.
United Airlines
В 2020, во время пандемии доходы рухнули, авиакомпании грозило банкротство. Руководство запросило кредит у правительства США под залог данных о 100 млн клиентов программы лояльности MileagePlus.
При рыночной капитализации в $9 млрд независимые эксперты оценили данные в $22 млрд.
Кредиторы сочли данные высоколиквидным активом. Он генерировал стабильный доход через продажу миль партнерам и стимулировал повторные покупки.
Компания получила кредит на $5 млрд и избежала банкротства.
American Airlines
Тогда же, в пандемию на грани финансового коллапса оказалась авиакомпания American Airlines.
При капитализации в $8 млрд кредиторы оценили данные 115 млн клиентов программы лояльности AAdvantage в $24 млрд.
Правительство США выдало под залог данных льготный кредит на $5,5 млрд и спасло компанию от краха.
Caesars Entertainment
Помните «Дворец Цезаря», в котором кутили герои «Мальчишника в Вегасе»? В 2015 году владельцы казино накопили $18 млрд долгов и объявили о банкротстве.
При реструктуризации кредиторы требовали оценки всех активов, включая нематериальные, чтобы использовать их для погашения долга.
Вместе с независимыми экспертами кредиторы оценили данные о 45 млн клиентов программы лояльности в $1 млрд.
Данные — не просто информация. Компании, которые способны использовать данные в качестве финансового актива, более устойчивы в кризис.
#деньги
Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства.
United Airlines
В 2020, во время пандемии доходы рухнули, авиакомпании грозило банкротство. Руководство запросило кредит у правительства США под залог данных о 100 млн клиентов программы лояльности MileagePlus.
При рыночной капитализации в $9 млрд независимые эксперты оценили данные в $22 млрд.
Кредиторы сочли данные высоколиквидным активом. Он генерировал стабильный доход через продажу миль партнерам и стимулировал повторные покупки.
Компания получила кредит на $5 млрд и избежала банкротства.
American Airlines
Тогда же, в пандемию на грани финансового коллапса оказалась авиакомпания American Airlines.
При капитализации в $8 млрд кредиторы оценили данные 115 млн клиентов программы лояльности AAdvantage в $24 млрд.
Правительство США выдало под залог данных льготный кредит на $5,5 млрд и спасло компанию от краха.
Caesars Entertainment
Помните «Дворец Цезаря», в котором кутили герои «Мальчишника в Вегасе»? В 2015 году владельцы казино накопили $18 млрд долгов и объявили о банкротстве.
При реструктуризации кредиторы требовали оценки всех активов, включая нематериальные, чтобы использовать их для погашения долга.
Вместе с независимыми экспертами кредиторы оценили данные о 45 млн клиентов программы лояльности в $1 млрд.
Данные — не просто информация. Компании, которые способны использовать данные в качестве финансового актива, более устойчивы в кризис.
#деньги
❤🔥4❤3👌3
Progres Post
Как получить кредит на $5,5 млрд под залог данных о клиентах Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства. United Airlines В 2020, во время пандемии доходы рухнули, авиакомпании грозило…
Объясняем за 15 секунд, почему данные программ лояльности так много стоят
- Персонализация повышает доход: 65% случайных клиентов дают только 10% выручки, а всего 5% лояльных — 40%.
- Один участвующий в программе лояльности клиент приносит в 52 раза больше денег, чем один случайный.
- Платить больше за персонализированный сервис готовы 80% клиентов.
Это объясняет, почему при оценке компании в $8 млрд American Airlines оценила данные своей программы лояльности в $24 млрд.
Подробности и другие инсайты ищите в большом свежем исследовании Data Insight.
#деньги #исследования
- Персонализация повышает доход: 65% случайных клиентов дают только 10% выручки, а всего 5% лояльных — 40%.
- Один участвующий в программе лояльности клиент приносит в 52 раза больше денег, чем один случайный.
- Платить больше за персонализированный сервис готовы 80% клиентов.
Это объясняет, почему при оценке компании в $8 млрд American Airlines оценила данные своей программы лояльности в $24 млрд.
Подробности и другие инсайты ищите в большом свежем исследовании Data Insight.
#деньги #исследования
👍4🔥3❤2
Сборник лучших практик по Data Science от IBM
Если вы устали от бесконечных экспериментов в Jupyter и хотите научиться внедрять ML-модели в реальные системы — этот сборник для вас. Пригодится дата-сайентистам, которые хотят перейти от прототипов к промышленным решениям.
Это не пошаговое руководство, а методичка по стратегии работы с данными. Если вы только вырабатываете в компании техническую политику, методы и инструменты, этот сборник поможет.
Что внутри?
В сборнике сделали фокус на инженерию: версионирование, масштабируемость, мониторинг — все, что часто упускают в учебниках.
Сохраняйте себе и делитесь с теми, кто работает с данными.
Забирайте на Гитхабе.
Если вы устали от бесконечных экспериментов в Jupyter и хотите научиться внедрять ML-модели в реальные системы — этот сборник для вас. Пригодится дата-сайентистам, которые хотят перейти от прототипов к промышленным решениям.
Это не пошаговое руководство, а методичка по стратегии работы с данными. Если вы только вырабатываете в компании техническую политику, методы и инструменты, этот сборник поможет.
Что внутри?
В сборнике сделали фокус на инженерию: версионирование, масштабируемость, мониторинг — все, что часто упускают в учебниках.
Сохраняйте себе и делитесь с теми, кто работает с данными.
Забирайте на Гитхабе.
🔥3❤2❤🔥2🙏1
Open Source AI Tools.pdf
2.5 MB
Сохраняйте: 128 российских опенсорс-инструментов для ИИ-разработки
В ICT Moscow отобрали все российские опенсорсные инструменты для разработки ИИ, опубликованные с начала 2020 года. Ссылки собрали в один pdf-файл.
В файле:
- Библиотеки и фреймворки (42)
- Модели (32)
- Бенчмарки (20)
- Датасеты (15)
- Методы (10)
- Платформы (5)
- Архитектуры (4)
Можно быстро найти нужный инструмент, документацию и контакты разработчиков.
#ии #опенсорс
В ICT Moscow отобрали все российские опенсорсные инструменты для разработки ИИ, опубликованные с начала 2020 года. Ссылки собрали в один pdf-файл.
В файле:
- Библиотеки и фреймворки (42)
- Модели (32)
- Бенчмарки (20)
- Датасеты (15)
- Методы (10)
- Платформы (5)
- Архитектуры (4)
Можно быстро найти нужный инструмент, документацию и контакты разработчиков.
#ии #опенсорс
👍5❤🔥4🔥2
10 трюков с SQLite, которые отличают мидла от джуна
Внешне простой SQLite скрывает крутые возможности, которые упрощают и ускоряют разработку.
В статье на примерах разбирают 10 полезных трюков, которыми редко пользуются джуны:
1. Использование Virtual Tables
2. Индексация по выражениям: Index on Expressions
3. Использование Common Table Expressions с рекурсией
4. Стратегическое использование PRAGMA для настройки производительности
5. Транзакции внутри транзакций: SAVEPOINT
6. Сжатие базы на лету с VACUUM INTO
7. Использование кастомных функций на C / Python / JavaScript
8. Журналирование и аудит с помощью триггеров
9. Использование Row Value Comparison для сложных условий
10. Имитация CHECK CONSTRAINT на уровне выражений
Вы круты, если в статье не нашли для себя ничего нового. Отправьте знакомому джуну — ему будет полезно. Или проверьте компетенцию коллеги.
#субд #sql
Внешне простой SQLite скрывает крутые возможности, которые упрощают и ускоряют разработку.
В статье на примерах разбирают 10 полезных трюков, которыми редко пользуются джуны:
1. Использование Virtual Tables
2. Индексация по выражениям: Index on Expressions
3. Использование Common Table Expressions с рекурсией
4. Стратегическое использование PRAGMA для настройки производительности
5. Транзакции внутри транзакций: SAVEPOINT
6. Сжатие базы на лету с VACUUM INTO
7. Использование кастомных функций на C / Python / JavaScript
8. Журналирование и аудит с помощью триггеров
9. Использование Row Value Comparison для сложных условий
10. Имитация CHECK CONSTRAINT на уровне выражений
Вы круты, если в статье не нашли для себя ничего нового. Отправьте знакомому джуну — ему будет полезно. Или проверьте компетенцию коллеги.
#субд #sql
👍3🔥3👌2🤡1