Progres Post
274 subscribers
37 photos
1 video
16 files
181 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Опенсорсная альтернатива Гугл-аналитике с белковым вкусом

Разработчик из «Адо́уби» Майк Цао искал более быструю и простую замену Гугл-аналитике для своих сайтов. Когда не нашел подходящей, то разработал и выложил в открытый доступ Umami.

Плюсы:

- Некоторые правила блокировщиков рекламы запрещают загружать скрипты со сторонних сайтов. Собственный хостинг позволяет обходить эти правила.

- Скрипт весит всего 6 КБ, и страницы грузятся быстрее.

- Можно отслеживать произвольные события. Например, нажатия определенной кнопки.

- Все записанные данные обезличиваются и хранятся в MySQL или PostgreSQL.

- Полная статистика выводится на одной странице.

- Ваши данные хранятся у вас и анализируете их только вы.

- Система заботится о конфиденциальности и не собирает куки.

Минусы:

- Фокус на простоте и легкости ограничивает функционал. Слишком мало инструментов для аналитики. Компаниям, для которых данные — актив, точно придется потратиться на доработки.

- Забота о конфиденциальности — победа этическая, а не экономическая. Без куки-файлов анализировать поведение пользователей сложнее.

- Специфические плагины могут стоить очень дорого. Настолько, что малому бизнесу премиальные плагины не по карману.

- Система и плагины требуют регулярных обновлений. Без актуальных патчей пострадает производительность и безопасность.

Кажется, что почти все плюсы Umami — это производные от минусов. И наоборот. Для целевой аудитории то, что мы назвали минусами, вообще ничего не значит.

На сайте можно поиграться с демо-версией и посмотреть обзор функций.

Исходный код на Гитхабе.

#опенсорс #аналитика
🔥5❤‍🔥3👍3
57% людей передают нейросетям конфиденциальные данные своих работодателей

В TELUS Digital выяснили, что в крупных айти-компаниях тотальные проблемы с безопасностью при использовании сотрудниками ИИ.

Чистосердечные признания:

- 68% сотрудников используют публичные ИИ-ассистенты через личные аккаунты в рабочих целях.

- 31% вводит в ИИ-ассистентов личные данные.

- 29% разглашает детали проектов и продуктов.

- 21% раскрывает данные клиентов.

- 11% сливает искусственному интеллекту финансовую отчетность компании.

Проблемы с политиками безопасности в компаниях:

- 29% людей продолжают использовать конфиденциальные данные в работе с ИИ, зная о запрете.

- 50% людей не уверены, соблюдают ли они правила компании.

- 44% компаний не имеет ИИ-политики, либо сотрудники не знают о ней.

- 42% людей уверены, что за нарушение политики их не накажут.

Что нужно делать?

- Обучать сотрудников работе с ИИ и соблюдению корпоративной политики безопасности. Сейчас только 24% проходят обязательные курсы по этой теме.

- Обеспечить сотрудников защищенными ИИ-решениями с контролем данных.

- Внедрять строгие, но понятные ИИ-политики, объяснять их важность и контролировать соблюдение.

По данным исследования, 60% людей использует ИИ, чтобы работать быстрее, а 50% людей автоматизировали часть своих задач.

ИИ экономит время и генерирует для крупных компаний приличную долю выручки. Часть этих денег надо срочно направить на контроль за безопасностью и обучение сотрудников.

#ии #исследования
🔥5😱2👍1
Хакеры взломали Минфин США с помощью SQL-инъекции и особенностями юникода в PostgreSQL

Критическую уязвимость нашли в программе управления привилегированным доступом от компании BeyondTrust, которая использовала PostgreSQL.

Что за уязвимость?

Хакеры обнаружили проблему в вызове внутри библиотеки libpq функции pg_escape_string. Она отвечает за экранирование пользовательского ввода.

Они использовали два байта (c0 27), которые PostgreSQL принял за валидный юникод-символ. Так они внедрили неэкранированный апостроф и открыли себе возможность для SQL-инъекции.

Этот апостроф дал хакерам контроль над psql, CLI-интерфейсом PostgreSQL. Оттуда они использовали команду \! для выполнения произвольного кода на серверах Минфина.

Почему уязвимость не заметили раньше?

SQL-инъекции разбирают во всех учебниках, но эта оставалась незамеченной 9 лет, потому что:

- У PostgreSQL не было встроенной валидации юникод-символов в PQescapeStringInternal.

- Она представляла угрозу только в командной строке psql. Этот сценарий не рассмотрели.

Какова мораль?

В Минфине полностью положились на надежность экранирования апострофов и опрометчиво разрешили пользователю выполнять произвольные команды в psql.

Так не надо.

Никогда не передавайте клиентский код в psql, даже если считаете его проверенным. Всегда исходите из того, что один уровень защиты может быть обойден.

За комментарий спасибо Василию Пучкову, архитектору решений.

#sql #субд
👍13🔥511😱1
Positive Technologies опубликовала исследование, посвященное утечкам конфиденциальных данных из организаций во втором полугодии 2024 года. Оно основано на результатах анализа данных об утечках из авторитетных открытых источников и около 3500 объявлений о бесплатных раздачах, продажах и покупках утекших данных на тематических теневых ресурсах.

Отмечается, что более половины успешных атак на организации заканчиваются утечками данных и во втором полугодии 2024 года этот показатель составил 52%. Предполагается, что в 2025 году доля атак на организации с кражей данных будет варьироваться в диапазоне от 50% до 55%. В случае если в повсеместно используемых программных решениях будут выявлены критически опасные уязвимости нулевого дня, которые массово возьмут на вооружение киберпреступные группировки, показатель может временно повыситься до 60–65%.

Финансовые организации остаются в числе наиболее уязвимых структур. Основными типами компрометированной информации являются персональные данные (76% объявлений), платежные реквизиты (12%) и учетные записи пользователей (11%). При этом в категории продаж дороже 10 тысяч долларов каждая пятая публикация связана именно с финансовым сектором.

Отмечается, что несмотря на усиление банками и другими финансовыми учреждениями защитных мер, хакеры находят лазейки, проникая в системы через уязвимые звенья — подрядчиков и поставщиков IT-услуг. Особую опасность представляют атаки на компании, работающие с несколькими банками сразу. Через одного слабо защищенного подрядчика злоумышленники могут получить доступ к множеству финансовых организаций.

Другие выводы исследования:

🔹 Наиболее часто жертвами утечек становились госучреждения (13%), промышленность (10%), IT-компании (10%), финансовые организации (8%) и медицинские учреждения (7%).

🔹 На теневых форумах растет спрос на покупку данных. Во втором полугодии произошло существенное увеличение (с 3% до 12%) доли объявлений о покупке информации, причем средняя1 цена, указанная в таком объявлении, выросла с 600 до 1700 долларов.

🔹 Вместе с тем в 60% объявлений на тематических площадках данные раздаются бесплатно и только в 28% продаются. Более чем в половине объявлений о продаже (55%) стоимость данных не превышает 1 тыс. долларов, и лишь в 6% объявлений назначена цена более 10 тыс. долларов.

🔹 Самые высокие цены на теневых ресурсах установлены на данные платежных карт, медицинские данные и исходный код. Средняя цена за набор данных платежных карт — 2500 долларов. Самые низкие цены установлены на персональные данные, средняя цена в объявлениях об их продаже — 835 долларов.

🔹 Утечки становятся более объемными. На теневых ресурсах доля баз данных, в которых более 100 тыс. строк, выросла с 52% до 56%, а доля наборов данных объемом более 1 ГБ повысилась с 35% до 52%. Это может свидетельствовать об интересе злоумышленников к предприятиям среднего бизнеса.

🔹 Азия по-прежнему лидирует в рейтинге регионов по числу утечек. Во втором полугодии доля объявлений здесь составила 35%, что на 5 процентных пунктов больше, чем в первом полугодии.

🔹 С 10% до 16% выросла доля публикаций, связанных со странами Северной Америки. Регион стал вторым по числу объявлений на теневых площадках, сместив Латинскую Америку на четвертую позицию. США стали лидером в рейтинге отдельных стран по количеству объявлений в дарквебе — их доля составила 15%,.

🔹 Доля европейских стран, напротив, снизилась на 5 п. п. и во втором полугодии составила 15%. Снизилась также и доля стран СНГ, в том числе России. В связанных с утечками объявлениях на теневых ресурсах во втором полугодии 2024 года она составила всего 4%.

🔹 В большинстве успешных атак на организации, повлекших за собой утечки данных, использовалось вредоносное ПО (71%) и методы социальной инженерии (60%).

🔹В 38% атак на организации с использованием вредоносного ПО, которые закончились утечками данных, были задействованы шифровальщики.

Более подробно об исследовании

#безопасность
🔥51👍1
Третий сезон «Игры в кальмара» выйдет 27 июня 2025 года

Пока ждете, если ждете, можете окунуться в атмосферу сериала и поиграть:

Пройдите 9 испытаний в SQL Squid Game и попытайтесь остаться в живых.

#sql
🔥7❤‍🔥2
В советы директоров включат специалистов по кибербезопасности

В 2025 году глобальные расходы на защиту данных вырастут на 15% и достигнут $212 млрд.

К 2027 году 17% всех кибератак будут использовать генеративный ИИ. Несмотря на угрозу, среди руководителей компаний только 54% считают, что их организации готовы к кибератакам, а 37% сомневаются, что их системы справятся с новыми вызовами.

Однако признание проблемы — половина решения. Советы директоров начинают воспринимать кибербезопасность как бизнес-риск, а не айти-проблему. К 2026 году хотя бы один специалист по кибербезопасности будет в 70% советов директоров.

#безопасность #деньги #исследования
👍3👏1
Как журналисты нашли должников за капремонт с помощью Pandas и SQLite

Журналисты издания «Деловой Петербург» изучили 20 тысяч отчетов Фонда капитального ремонта и выяснили, кто задолжал больше всего.

Разбираемся, как они анализировали данные.

На входе: архивы по 18 районам города, более 1000 html-файлов на каждый. В них информация о 2,8 млн помещений.

Очевидно, это результат выгрузки базы данных. Если бы к ней был доступ, все решалось бы SQL-запросами. Но доступа не было, так что пришлось работать с отчетами в html-файлах.

Напрашивающийся подход — прочитать таблицы с помощью read_html() в Pandas и объединить маленькие в одну большую.

Решение оказалось так себе:

Сперва индикатор tqdm показывал 5 минут на формирование единой таблицы. Когда индикатор подобрался к 20%, оставшееся время увеличилось уже до 30 минут, а скорость упала с 30 до 8 итераций в секунду. Затем прогноз оставшегося времени и вовсе вырос до 2 часов.

Медленно.

Причина задержки, судя по всему, в медленной работе метода append в Pandas. Попробовали без него: нашли решение с двойным преобразованием.

Подготовили пустой словарь-накопитель. Каждую прочитанную таблицу преобразовывали в словарь и добавляли к словарю-накопителю. Затем уже словарь-накопитель преобразовывали обратно в таблицу Pandas для анализа.

На все ушло 13 минут. Неплохо, но можно лучше.

Еще быстрее оказалась загрузка извлеченной из html-файлов информации в базу данных. Авторы обошлись без SQLAlchemy. Они напрямую отправляли несложные SQL-команды из Pandas в стандартный модуль SQLite.

На выполнение ушло 12 минут. Чуть быстрее варианта со словарем и намного быстрее первоначального подхода.

Что узнали?

Чаще всего за капремонт не платит бизнес. В центре Питера 85% задолженности образовано владельцами коммерческих помещений в многоквартирных домах.

Подробности читайте в статье на Хабре.

#sql #статьи
👍4🔥21
Колонки занимают на 87% меньше места, чем строки

Apache Parquet — бинарный, колоночно-ориентированный формат хранения данных, является независимым от языка. В отличие от CSV, Parquet оптимизирован для выполнения сложных запросов.

В каждой колонке данные должны быть строго одного типа. Parquet предоставляет возможность считывать не целиком весь файл, а только одну колонку, что может значительно минимизировать показатели ввода-вывода.

В статье сравнили Parquet и CSV:

- Уменьшает объем сканируемых данных на 99%: 2,51 ГБ vs 1,12 ТБ.

- Выполняет запросы в 34 раза быстрее: 4,78 сек vs 284 сек.

- Занимает на 87% меньше места: 130 ГБ vs 1 ТБ.

В тестах использовалось хранилище S3. У авторов получилась экономия в деньгах 99,7% при переходе с CSV на Parquet.

Parquet — оптимальный выбор для аналитических задач и больших данных, где критичны скорость, стоимость и эффективность хранения. CSV остается актуален для небольших наборов данных, простых задач и ручного анализа.

#статьи
❤‍🔥6👍2🔥2
Состояние и перспективы рынка СУБД в России

По данным ЦСР, в ближайшие семь лет среднегодовой темп роста мирового рынка СУБД составит 10%. В России в течение пяти лет он будет вдвое выше — 20%.

Российский рынок будет расти на фоне импортозамещения, предусмотренного в том числе нацпроектом «Экономика данных»: доля зарубежного ПО снизилась с 64% в 2021 году до 18% в 2023 году. К 2030 году она сократится до 1%.

Больше подробностей ищите в оригинале исследования.

#субд #деньги #исследования
👍101🥰1
Инструмент для автоматического документирования базы данных

Написанный на Go инструмент tbls анализирует структуру базы данных и автоматически генерирует красивую документацию в выбранном формате: Markdown, PlantUML, DOT, JSON или HTML.

Умеет создавать наглядные ER-диаграммы и визуализировать связи между таблицами. Интегрируется с CI/CD и автоматически обновляет документацию при изменении схемы.

Поддерживает большинство популярных СУБД: PostgreSQL, MySQL, SQLite и так далее.

Забирайте на Гитхабе.

#субд
🔥8👨‍💻3❤‍🔥2
Три архитектурных вопроса, которые считаются решенными по умолчанию

Техлид в команде разработки ИИ-инструментов столкнулся с проблемой: система централизованного мониторинга обрабатывала огромные потоки данных онлайн, но в распределенной среде возникли сложности.

Воркеры дублировали задачи или блокировали друг друга, сбои приводили к потере данных, а критические задержки нарушали работу сервиса.

Главное, что узнал автор статьи, решая эти проблемы:

1. Как правильно распределять задачи между воркерами?

Можно избежать дублирования и блокировок, если использовать группы консьюмеров Kafka. Они автоматически распределяют задачи между воркерами, следят за оффсетами и гарантируют, что каждый воркер получает свой уникальный набор данных. В случае сбоя одного воркера Kafka перераспределяет задачи без потерь.

2. Как гарантировать завершение задачи при сбоях?

Если воркер упал, важно, чтобы задача не потерялась и не выполнялась заново без необходимости. Помогает фиксация UUID успешно выполненных задач в отдельной таблице и отложенный коммит оффсетов Kafka, который предотвращает повторную обработку. Это снижает риск дублирования вычислений и потери данных.

3. Как соблюдать допустимую задержку выполнения?

В условиях жестких требований к задержке помогает параллельное выполнение одной и той же задачи в разных географически разнесенных дата-центрах. Даже если один кластер откажет, второй выполнит расчет в срок.

Если работаете с распределенными системами и хотите избежать неожиданных сбоев, дублирования задач и пропусков данных, читайте лонгрид с разбором реальных кейсов на Хабре.

#статьи
👍62🔥2
Как работать с большими данными в SEO и экономить 300 тысяч в месяц на Яндекс Метрике

Большие данные — это ценность, только если вы можете их обработать. У сайта Rusprofile 500 000 визитов в сутки, и владельцы столкнулись с диким сэмплированием в Яндекс Метрике, из-за которого нельзя посмотреть точные данные более чем за 2 дня.

Метрика Про стоит 300 тысяч в месяц. Однако в Rusprofile решили пойти другим путем и сэкономить:

- Стали выгружать данные из Метрики и Топвизора по API. Это 15 млн строк ежемесячно. В исходной таблице уже было 700 млн строк. Как решение использовали ClickHouse, заточенную под такое число записей.

- Настроили пайплайны с помощью Apache Airflow. Каждый день данные за предыдущие сутки выгружаются автоматически. Раз в неделю обновляются агрегированные данные по позициям из Топвизора.

- Использовали Yandex DataLens для визуализации. В мониторинге еженедельные данные по 515 000 поисковых запросов, которые можно отфильтровать и по сайту Rusprofile, и по конкурентам. 

Разработка решения окупилась за 5 месяцев.

Кейс показывает, как комбинация ETL-процессов, современных инструментов и гибкого подхода помогает решать сложные задачи SEO-аналитики даже при экстремальных объемах данных.

Подробности читайте на сайте SEO News.

#субд #деньги
👌4🔥32❤‍🔥1
Отчет о рисках для корпоративных данных за 2024 год

Компания Makves представила отчет по актуальным проблемам хранения, обработки и защиты неструктурированных данных в российских компаниях в 2024 году.

Разбираемся в цифрах и делаем выводы.

Главный инсайт:

У 100% российских компаний в общий доступ утекла конфиденциальная информация и персональные данные. При этом 95% не контролируют доступ уволенных сотрудников.

Другие ключевые цифры:

- 40% файлов в компаниях не используются более 5 лет.

- 60% компаний имеют аккаунты с уязвимыми паролями.

- 35% объема файловых хранилищ занимают неделовые данные — фото, видео, личные файлы.

- 26% файлов в типовой инфраструктуре — дубликаты.

Риски, связанные с пользователями:

- Неактивные более 2 месяцев аккаунты — потенциальные точки для атак.

- Уволенные сотрудники с активным доступом — ключевой риск утечки данных.

- Слабые пароли и отсутствие MFA — массовая проблема, особенно в крупных компаниях с текучкой кадров.

Риски, связанные с файлами:

- Дубликаты файлов повышают риск утечек и усложняют управление доступом.

- Ручное назначение прав приводит к избыточным привилегиям и ошибкам.

- Конфиденциальные данные в общем доступе — нарушение ФЗ-152, GDPR, PCI DSS, что грозит штрафами и приостановкой деятельности.

Всем компаниям показано:

Обучать сотрудников основам ИБ, регулярно архивировать и удалять устаревшие данные, внедрять системы для аудита прав доступа, удалять неактивные аккаунты и аккаунты уволенных сотрудников.

#безопасность #исследования
🔥5❤‍🔥3👏2
Как получить кредит на $5,5 млрд под залог данных о клиентах

Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства.

United Airlines

В 2020, во время пандемии доходы рухнули, авиакомпании грозило банкротство. Руководство запросило кредит у правительства США под залог данных о 100 млн клиентов программы лояльности MileagePlus.

При рыночной капитализации в $9 млрд независимые эксперты оценили данные в $22 млрд.

Кредиторы сочли данные высоколиквидным активом. Он генерировал стабильный доход через продажу миль партнерам и стимулировал повторные покупки.

Компания получила кредит на $5 млрд и избежала банкротства.

American Airlines

Тогда же, в пандемию на грани финансового коллапса оказалась авиакомпания American Airlines.

При капитализации в $8 млрд кредиторы оценили данные 115 млн клиентов программы лояльности AAdvantage в $24 млрд.

Правительство США выдало под залог данных льготный кредит на $5,5 млрд и спасло компанию от краха.

Caesars Entertainment

Помните «Дворец Цезаря», в котором кутили герои «Мальчишника в Вегасе»? В 2015 году владельцы казино накопили $18 млрд долгов и объявили о банкротстве.

При реструктуризации кредиторы требовали оценки всех активов, включая нематериальные, чтобы использовать их для погашения долга.

Вместе с независимыми экспертами кредиторы оценили данные о 45 млн клиентов программы лояльности в $1 млрд.

Данные — не просто информация. Компании, которые способны использовать данные в качестве финансового актива, более устойчивы в кризис.

#деньги
❤‍🔥43👌3
Progres Post
Как получить кредит на $5,5 млрд под залог данных о клиентах Программа лояльности может из инструмента продаж превратиться в финансовый актив и спасти компанию от банкротства. United Airlines В 2020, во время пандемии доходы рухнули, авиакомпании грозило…
Объясняем за 15 секунд, почему данные программ лояльности так много стоят

- Персонализация повышает доход: 65% случайных клиентов дают только 10% выручки, а всего 5% лояльных — 40%.

- Один участвующий в программе лояльности клиент приносит в 52 раза больше денег, чем один случайный.

- Платить больше за персонализированный сервис готовы 80% клиентов.

Это объясняет, почему при оценке компании в $8 млрд American Airlines оценила данные своей программы лояльности в $24 млрд.

Подробности и другие инсайты ищите в большом свежем исследовании Data Insight.

#деньги #исследования
👍4🔥32
Сборник лучших практик по Data Science от IBM

Если вы устали от бесконечных экспериментов в Jupyter и хотите научиться внедрять ML-модели в реальные системы — этот сборник для вас. Пригодится дата-сайентистам, которые хотят перейти от прототипов к промышленным решениям.

Это не пошаговое руководство, а методичка по стратегии работы с данными. Если вы только вырабатываете в компании техническую политику, методы и инструменты, этот сборник поможет.

Что внутри?

В сборнике сделали фокус на инженерию: версионирование, масштабируемость, мониторинг — все, что часто упускают в учебниках.

Сохраняйте себе и делитесь с теми, кто работает с данными.

Забирайте на Гитхабе.
🔥32❤‍🔥2🙏1
Open Source AI Tools.pdf
2.5 MB
Сохраняйте: 128 российских опенсорс-инструментов для ИИ-разработки

В ICT Moscow отобрали все российские опенсорсные инструменты для разработки ИИ, опубликованные с начала 2020 года. Ссылки собрали в один pdf-файл.

В файле:

- Библиотеки и фреймворки (42)

- Модели (32)

- Бенчмарки (20)

- Датасеты (15)

- Методы (10)

- Платформы (5)

- Архитектуры (4)

Можно быстро найти нужный инструмент, документацию и контакты разработчиков.

#ии #опенсорс
👍5❤‍🔥4🔥2