Progres Post
274 subscribers
37 photos
1 video
16 files
185 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Рынок инфраструктуры для высоконагруженных систем оценили в 1,3 трлн

Группа компаний Б1 и агентство HeadWork Analytics опубликовали исследование рынка инфраструктуры для высоконагруженных информационных систем (ИВНС) и программно-аппаратных комплексов (ПАК) для них.

Главное из исследования:

- По итогам 2024 года рынок ИВНС оценивается в 560 млрд рублей, а к 2030 году он вырастет до 1,3 трлн. Среднегодовой темп роста — 15%.

- В 2024 году на ПАК приходилось 17% рынка ИВНС — 96 млрд рублей. К 2030 году их доля вырастет до 22% и составит 287 млрд. Среднегодовой темп роста — 20%.

- В 2024 году доля российских ПАК на рынке составила 18%, а к 2030 году она вырастет до 45% за счет господдержки и роста доверия к отечественным разработкам.

Развитие цифровых сервисов перегружает айти-инфраструктуру, что заставляет сегмент ИВНС расти быстрее остального айти-рынка.
👍3🔥3😱2
Топ 7 проектов 2024 года по визуализации данных

Отвлекитесь от работы с данными и поиграйтесь с данными.

1. Parallel Lives
Скролим таймлайн и смотрим, какие известные люди жили на планете одновременно.

2. A torrent of trash
Как выглядят тысячи воздушных шаров с мусором, которые Северная Корея запустила на территорию Южной.

3. The United States of Abortion Mazes
Проходим лабиринты, чтобы сделать аборт в разных американских штатах. Попробуйте найти выход в Техасе.

4. When A.I.’s Output Is a Threat to A.I. Itself
Нейросети создают все больше контента. Его все труднее отличить от контента, созданного людьми. Смотрим, что будет, если ИИ продолжит учиться на созданных им же текстах.

5. I shrink 10x every 21s until I’m an atom
Посмотрите это со своими детьми. Что будет, если раз в 21 секунду уменьшаться в 10 раз. Крутой фильм про относительные размеры.

6. Your Name In Landsat
Составьте свое имя или любое слово из рек, лесов и гор со спутниковых снимков NASA.

7. Climate—Conflict—Vulnerability Index
Узнайте, где на планете прямо сейчас высокий риск пожаров и наводнений, где выше всего рождаемость, в каких регионах гендерное неравенство — норма жизни, а где повышенный риск циклонов.
🔥64👍3
Переход с HDD и SSD на LTO экономит до 50%

От 80% до 90% всей информации в интернете — архивные данные. Шанс, что они пригодятся после 90 дней хранения — 1%. Однако их все-таки нужно хранить, а это стоит денег.

Ради экономии дата-центры по всему миру переходят на ленточные накопители (LTO) вместо жестких дисков (HDD) и твердотельных накопителей (SSD).

Главное про ленточные хранилища:

- LTO служат по 30 лет, когда HDD только 4-5, а SSD — 5-10 лет.

- Объем LTO растет быстрее, чем увеличивается память HDD и SSD.

- LTO быстрее: HDD выдают до 150 МБ/с при чтении и записи, а LTO до 1000 МБ/с при чтении и до 400 МБ/с при записи.

Насколько дешевле хранить архивы на ленте?

Брэд Джонс из IBM посчитал:

За 10 лет дата-центр, использующий жесткие диски на 100 ПБ, потратит на электричество, ремонт и замену оборудования $17,7 млн.

Если бы этот же дата-центр использовал ленточные хранилища, то потратил бы почти вдвое меньше — $9,5 млн.

Есть и экологическая составляющая. Если переписать всю информацию, которая не используется каждый день, на ленточные носители, это снизит выбросы углекислого газа в атмосферу на 58%. Это 80 млн тонн в год.

Кто-то уже так делает?

Тренд реален:

В первом квартале 2023 года продажи ленточных хранилищ выросли на 5%, а продажи жестких дисков рухнули на 35%.

Среди компаний, использующих ленты, 80% отмечают долговечность, экономию электричества и простоту транспортировки накопителей из одного офиса в другой.

Источники: Tom's Hardware, CNews, Киберпротект
🔥8👏5👍1
DeepSeek выкатила очень быстрый фреймворк для дата-процессинга

Китайцы опубликовали фреймворк Smallpond на базе DuckDB и распределенной файловой системы 3FS.

Заявленные преимущества:

- Сверхбыстро обрабатывает данные.

- Легко масштабируется для работы с петабайтами данных.

- Не требует постоянных фоновых процессов.

Результаты теста:

- За 30 минут 14 секунд отсортировано 110,4 ТиБ данных.

- Средняя пропускная способность — 3,66 ТиБ/мин. Это 20 фильмов в 4К каждую секунду.

Тест проводили с помощью GraySort на кластере, состоящем из 50 вычислительных узлов и 25 узлов хранения, работающих под управлением 3FS.

Подробности теста смотрите на Гитхабе.
🔥10👍5❤‍🔥3
На смену пандам и полярным мишкам приходят утки

Pandas — самая популярная библиотека для обработки данных, но она уже давно страдает низкой производительностью.

Альтернативы типа Polars решают проблемы с производительностью, но переход на них требует изучения нового API.

FireDucks быстрее и предлагает полную совместимость с Pandas, а еще — многопоточную обработку и ускорение работы компилятора.

Для перехода с Pandas на FireDucks достаточно одной строки:


import fireducks.pandas as pd


- Скорость подтверждается бенчмарками.

- Сравнение FireDucks с Pandas и Polars.

- FireDucks на Гитхабе.
👍7🔥7👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Гугл выкатил ИИ для создания полноценных рабочих блокнотов в Colab

ИИ сам пишет код на пайтоне, создает блокноты, визуализирует данные и предлагает пошаговое решение.

Можно быстро писать запросы на естественном языке и получать результаты. На выходе получается готовый проект с кодом и графиками.

- Не нужна настройка.

- Бесплатный доступ к графическим процессорам.

- Блокноты хранятся в ваших гуглдоках.

- Можно загружать датасеты объемом до 1 ГБ.

Если не боитесь делиться датасетами с Гуглом, пробуйте.

Это еще один шаг в сторону запросов к БД на естественном языке. От рутины такой ИИ-ассистент спасет. Однако от необходимости учить SQL для более-менее сложных задач пока никуда не деться.
❤‍🔥33🤔3
Посмотрите за 15 минут сразу 3 доклада по базам данных

На нормальной скорости, не 2х и даже не 1,5х.

HYTRADBOI — онлайн-конференция с докладами длиной до 10 минут о базах данных и программировании.

Публикуем синопсисы первых трех докладов:

1. Shapeshifter: using LLMs inside a database for schema flexibility / 2:55

Shapeshifter — прототип базы данных, которая самостоятельно управляет эволюцией схемы и преобразованиями запросов с помощью LLM.

При незначительных изменениях (например, добавлении необязательных полей) схема мягко эволюционирует. В сложных случаях (смена типа данных, миграция) LLM выбирает стратегию — от преобразования входящих документов до полного обновления структуры данных.

Shapeshifter встраивает LLM в ядро системы, а не использует его как внешний слой для перевода запросов с естественного языка на SQL.

2. Good thing we're not writing a database / 8:43

Automerge — не база данных, а документное хранилище, построенное на конфликтобезопасных реплицируемых типах данных (CRDT). Оно не следует правилам ACID, SQL или CAP-теоремы, делая ставку на доступность и устойчивость к сетевым сбоям.

Это как если бы git был построен на потоковой передаче правок в JSON-файлы в реальном времени.

3. pghttp: backend-free, lowest latency web apps / 2:34

Небольшой доклад про reverse proxy, позволяющий рассматривать PostgreSQL как базу с параметризованным http-интерфейсом.

Pghttp позволяет создавать веб-приложения без серверной части, преобразовывая двоичный протокол Postgres в HTTP. Веб-приложения pghttp передают запросы Postgres и интерпретируют ответы в формате двоичного протокола. Прокси-сервер преобразует бинарный протокол Postgres в HTTP и обратно.

Клиентское приложение безопасно взаимодействует с базой данных в стиле клиент-сервер, но модернизированном для использования HTTP/2, HTTP/3 и QUIC. Можно думать об этом как о FCGI для баз данных, только быстрее и мощнее.

Все видео с конференции доступны на сайте.

За комментарии спасибо Михаилу Савину.
👍6🔥2👏1
Наденьте шляпу и станьте детективом, чтобы изучить SQL

Исследуйте места преступлений, изучайте протоколы допросов и списки подозреваемых. И все это с помощью SQL-запросов к датасету.

Игра SQL Noir — интерактивный учебник по SQL в жанре детектива.

Начать расследование.
❤‍🔥10🔥3👏3👍1
Как зарабатывать на данных в 5 раз больше аутсайдеров: кейс Wolters Kluwer

В исследовании MIT CISR описана трансформация голландской компании Wolters Kluwer. За 20 лет традиционное издательство стало лидером в монетизации данных.

Главные цифры:

- В 2003 году 10% выручки приходилось на цифровые продукты. Остальные 90% на бумажные справочники, кодексы и учебники.

- В 2023 году 94% выручки пришлось уже на цифровые решения, 58% из которых — продукты на основе данных.

- Гендиректор Нэнси Маккинстри ежегодно инвестировала 8-10% выручки в разработку цифровых решений.

- 8% ежегодного роста компании обеспечены жесткой привязкой данных к прибыльности.

- Исследователи опросили 349 компаний. В среднем лидеры получают 11% выручки от монетизации данных, а аутсайдеры только 2%.

Разница между лидерами и аутсайдерами:

- Лидеры встраивают данные в ядро бизнес-стратегии. Аутсайдеры используют данные лишь эпизодически.

- Лидеры инвестируют в ИИ, облака и аналитику. Аутсайдеры раздувают штат и не обновляют системы.

- Лидеры измеряют ROI данных на всех этапах. Аутсайдеры не отслеживают влияние данных на прибыль.

Три рабочих стратегии превращения данных в деньги от Wolters Kluwer:

1. Топ-менеджеры должны направлять инвестиции в работу с данными и на их монетизацию. Монетизация данных должна быть частью корпоративной стратегии, а не инициативой отдельного департамента.

2. Ценность данных должна превращаться в деньги. Все продуктовые гипотезы, связанные с данными, должны строиться в жесткой привязке к монетизации. Если основанный на данных продукт не монетизируется, его надо закрывать.

3. Нужно управлять данными как активом: отслеживать их путь от создания до получения прибыли, чтобы понять, окупаются ли вложения. Это позволит понять, как данные превращаются в продукты, которые приносят деньги.

#деньги #исследования
🔥4👏3💯1
Сколько получают и чем занимаются дата-аналитики на самом деле

В таблице результаты опроса 450 дата-аналитиков. Исследование провело в 2024 году кадровое агентство NEWHR.

Что еще интересного узнали:

- Среди дата-аналитиков почти поровну мужчин (51%) и женщин (49%).

- Среди аналитиков с небольшим стажем (1-3 года) больше всего именно дата-аналитиков. Вероятно, работа с данными — лучший вход в профессию.

- Дата-аналитики самые космополитичные из аналитиков — среди них 18,5% планируют релокацию.

- 7% дата-аналитиков работают на нескольких работах.

- Среди младших грейдов дата-аналитиков 76% недавно занимались чем-то другим.

- 62,5% дата-аналитиков сменили двух и более работодателей за 2 года.

#аналитика #исследования
👍5🔥3👏1
Почему однопоточный Redis работает настолько быстро

Когда слышишь, что Redis — однопоточный, кажется невероятным, что он обрабатывает до 100 000 запросов в секунду.

Разбираемся, откуда такая скорость:

1. Хранение данных в оперативной памяти

Redis хранит данные в RAM и получает доступ к ним за наносекунды. Это исключает задержки, связанные с SSD и HDD, которые на порядки медленнее.

2. Оптимизированные под оперативку типы данных

Redis поддерживает оптимизированные структуры: строки, хэши, списки и множества. У них низкая вычислительная сложность. Так что операции выполняются без избыточной нагрузки на CPU.

3. Мультиплексирование ввода-вывода

В Redis один поток управляет тысячами клиентских подключений. Механизмы с временной сложностью отслеживают активные сокеты и снижают задержки, избегая блокировок.

4. Преимущества однопоточной модели

В однопоточной модели нет затрат на переключение контекста между потоками. Это упрощает разработку. Redis использует CPU для операций с данными в памяти, избегая проблем с параллелизмом.

Если хотите знать, когда использовать кластеризацию вместо многопоточности и как оптимизировать работу с Redis на практике, читайте лонгрид на Хабре.

#субд #статьи
🔥8👍31
Как Давид побеждает Голиафа в математике и прочих узких областях

Языковые модели научились рассуждать. Перед финальным ответом они последовательно расширяют контекст, разбивая задачу на логические этапы и подсказывая себе промежуточные шаги.

Модели с огромным числом параметров круто продвинулись в математике и программировании.

В статье «Может ли модель с 1 млрд параметров обойти конкурента c 405 млрд?» показано, что для сложных задач в узких областях гигантские модели не нужны. Достаточно связки из двух моделей: глупого генератора и умного критика.

Генератор накидывает варианты цепочек рассуждений, а критик выбирает самую перспективную. Так можно обойтись без дообучения модели, но такой подход вычислительно более затратный. Это доказывает, что компактные модели могут решать сложные задачи.

Авторы приходят к выводу, что бесконечное увеличение параметров моделей не нужно.

Подтверждение этому — выход модели QwQ-32B от Alibaba. У нее 32 млрд параметров, а у DeepSeek R1 — 671 млрд. При этом QwQ-32B не уступает, а местами и побеждает по ключевым бенчмаркам.

Как и в DeepSeek, разработчики из Alibaba использовали обучение с подкреплением, но применяли более изощренные тактики. Это сделало модель меньше и умнее.

За комментарий спасибо Савелию Батурину, старшему инженеру по машинному обучению.

#ии #статьи
❤‍🔥5🔥42
Почему опасно обучать модели на настоящих данных

В MIT изучили более 1800 наборов данных для обучения ИИ и выявили тотальные проблемы с лицензиями.

Что выяснили авторы?

- В 50% случаев наборы данных классифицированы неверно. Некоторые наборы, не предназначенные для коммерческого использования, помечались как открытые для любых целей. Это приводит к инцидентам вроде иска NYT к OpenAI.

- В 70% наборов информация о лицензии вообще отсутствовала. Это приводит к тому, что разработчики действуют вслепую и нарушают законы, даже не зная об этом.

Что делать?

В MIT предлагают использовать Data Provenance Explorer — инструмент для отслеживания происхождения данных, фильтрации по лицензиям и создания документации.

Это поможет?

Для каких-то референсных и особенно критичных датасетов это будет использоваться, но глобально — вряд ли. Постановка проблемы верная, но никаких ресурсов не хватит, чтобы таким путем ее решить. Это как разметить весь индекс Гугла вручную.

Скорее всего проблему решит не Data Provenance Explorer, а использование синтетических данных для обучения моделей. Это очевидный тренд.

За комментарий спасибо Михаилу Савину, руководителю продукта.

#ии #исследования
❤‍🔥5👍2🔥1
Вас обманывают, когда предлагают бесплатные аналоги Bloomberg Terminal

По телеграм-каналам гуляют посты, где рассказывается про OpenBB как бесплатную альтернативу Bloomberg Terminal.

Это профанация. В реальности бесплатный OpenBB не может заменить институциональным клиентам Bloomberg Terminal, который стоит более $25 тысяч за пользователя в год.

Вот, что говорит основатель OpenBB Дидье Лопес:

Рассматривать OpenBB как бесплатную замену Bloomberg Terminal — это ошибка, потому что у них слишком много данных. В мире нет другой компании, у которой было бы столько данных, сколько есть у Bloomberg.


Если позиции основателя OpenBB по его же продукту недостаточно, давайте разбираться по фактам:

- OpenBB полагается на новости из открытых источников, а Bloomberg на эксклюзивы от ведущих информационных агентств.

- У Bloomberg есть уникальный чат, где трейдеры и аналитики общаются в реальном времени. Многие пользователи остаются с Bloomberg именно ради взаимодействия с коллегами и конкурентами.

- Интерфейсы и данные от Bloomberg стали частью рабочих процессов в 90% инвестиционных банков. Никто никогда заменит Terminal в этих компаниях на опенсорсную альтернативу без доступа к данным.

В OpenBB и не пытаются конкурировать с Bloomberg. Это альтернатива для нишевых пользователей, которые не готовы платить по $25 тысяч за эксклюзивы новостей и финансовых показателей. Просто потому, что они на этом столько не заработают, чтобы отбить вложения.

#опенсорс
🔥32👏1
Рентабельность вложений в DWH — 417% за 5 лет

Сделанное на деньги Оракла исследование показывает, насколько большие выгоды получает бизнес от использования Data Warehouse.

Главные инсайты в цифрах:

- ROI 417% за 5 лет.

- Сокращение расходов на управление DWH на 63% за 5 лет.

- Окупаемость 5 месяцев.

- Автоматизация задач с помощью DWH высвободила 68% времени у администраторов БД.

- Аналитики стали выполнять на 75% больше запросов ежедневно. Время на выполнение одного запроса сократилось на 82%.

- Продуктивность аналитиков выросла на 27%, а разработчиков на 33%.

Это были цифры из исследования. Теперь подключаем критическое мышление.

В разделе о методологии исследования упоминается опрос 10 компаний, а основные результаты приведены лишь для 7. Это наводит на мысли, что за бортом остались данные, не подтверждающие желаемых результатов. Хотя, может быть дело и в конфиденциальности.

Проблемы с выборкой:

- Глобальные выводы по результатам 7 компаний сделать невозможно.

- Все участники опросов уже использовали продукты Оракла, что могло повлиять на легкость и цену внедрения.

- Есть проблемы с усреднением. Среднее число сотрудников в компаниях из исследования — 5156. При этом в самой крупной их аж 15500, а в самой маленькой всего 38.

Считаем, что DWH, конечно, помогают компаниям экономить и зарабатывать. Однако Оракл чересчур приукрасил результаты исследования, чтобы привлечь клиентов.

#деньги #исследования
👍4❤‍🔥2🔥2
Forwarded from Data Science. SQL hub
🖥 Простыми словами: Как хранятся пароли в базах данных

В современном мире защиты данных крайне важно, чтобы пароли не хранились в виде обычного текста. Вместо этого используются их «закодированные отпечатки» – хеши, полученные в результате специального процесса хеширования. Это гарантирует, что даже при компрометации базы данных злоумышленник не сможет восстановить исходный пароль.

📌 Как это работает:
  • При регистрации пароль проходит хеширование с применением современных алгоритмов (например, bcrypt, scrypt или Argon2), часто с добавлением уникальной соли для каждого пользователя.
  • При авторизации введённый пароль снова хешируется, и полученный хеш сравнивается с тем, что хранится в базе. Совпадение означает, что введённый пароль верный.

📌 Почему так делают:
  • Безопасность: Даже если база будет взломана, злоумышленник увидит лишь набор случайных символов, из которых восстановить оригинальный пароль практически невозможно.
  • Секретность: Администраторы системы не имеют доступа к исходным паролям – хеши необратимы.
  • Надёжность: Использование соли и, при необходимости, перца, значительно усложняет атаки с помощью радужных таблиц и повышает общую стойкость системы.

В итоге, пароли в базах данных – это не сами пароли, а их «отпечатки», которые можно сравнивать, но никак не восстановить. Этот подход напоминает замок, который открывается лишь при наличии правильного ключа, при этом сам ключ нигде не хранится.

#базыданных #безопасность #хеширование #пароли

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥1
Восток — дело тонкое. И с цифровизацией там порядок

Разбираемся в результатах исследования PwC по рынку данных на Ближнем Востоке.

Глобальные выводы:

- Только 44% компаний с годовой выручкой свыше $3 млрд имеют хотя бы базовые возможности по монетизации данных. Средняя оценка для 315 компаний по пятибалльной шкале — 3.

- До 90% рыночной стоимости компаний из S&P 500 приходится на нематериальные активы, где данные — ключевой компонент.

- Рынок монетизации данных в период 2024–2034 будет расти со среднегодовым темпом 25% и увеличится в 10 раз.

Данные в Европе:

- Данные формируют 4–4,2% ВВП в Евросоюзе.

- Открытый рынок данных перевалит за $350 млрд в 2025 году.

- Германия: $157 млрд и 2,1 млн рабочих мест.

- Франция: $99 млрд и 1,3 млн рабочих мест.

- Италия: $62 млрд и 1 млн рабочих мест.

Данные в Саудовской Аравии:

- В рамках стратегии цифровизации Vision 2030 создаются институты для развития и регулирования рынка.

- 245 государственных учреждений имеют офисы по управлению данными.

- В Национальный банк данных интегрировано 320 правительственных систем.

- В стране работает маркетплейс для торговли анонимизированными данными.

Цифр по монетизации данных в Саудовской Аравии пока нет, но саудиты стараются вписаться в рынок. Сейчас 45% ВВП королевства приходится на углеводороды.

#деньги #исследования
🔥5🥰1👏1
Отправьте своим стажерам, пусть распечатают и над столом повесят

Шпаргалка по основным командам и функциям PostgreSQL.

- Скачать PDF / A4

- Скачать PDF / A3

- Скачать PDF / Для телефона

- Веб-версия

#субд
🔥12❤‍🔥5👍3
Можно ли работать с СУБД без промежуточного кэш-слоя

На Хабре задались вопросом: способны ли современные СУБД заменить кэш-слой приложения при нагрузке до 1 млн запросов в секунду (RPS)?

В тесте участвовали:

- СУБД PostgreSQL, MySQL и оптимизированные сборки типа MyDB.

- Кэши Redis, Valkey, Memcached.

Оценивали производительность, масштабируемость по ядрам и соединениям и способность выдерживать 1 млн RPS.

Результаты:

- PostgreSQL хорошо справляется с высокой нагрузкой, но в масштабировании ограничен числом соединений. Проблемы начинаются после 5000.

- MySQL показывает схожую производительность, но модель thread-per-connection лучше масштабируется по числу соединений.

- Redis масштабируется по ядрам, но не идеально. До 300–400 тысяч RPS при 8 io-threads.

- Valkey масштабируется лучше, чем Redis. Достигает почти 1 млн RPS, но прирост от увеличения числа ядер ограничен.

- Memcached самый быстрый среди кэшей. Выдает до 1,7 млн RPS, но используется только для кэширования.

Краткий вывод:

В большом диапазоне профилей нагрузки кэш-слой приложения не нужен — СУБД справляется сама.

В статье тестили разный кэширующий софт. Несмотря на то, что рассматривалась только читающая нагрузка на простых операциях, автор пишет:

В реальной жизни всегда присутствует какой-то процент операций не Read-Only, и когда нагрузка смешанная, перформанс СУБД значительно падает. Если нагрузка почти полностью на чтение или близка к этому, то можно обойтись без кэш-слоя, но при большой доле записи — надо смотреть, и вполне вероятно, что нет.

Если основная часть операций — это выборка по первичному ключу, СУБД справляются хорошо. Однако, в кэш можно «запихнуть» практически всё и хранить в key-value, а в базе данных не всё реализуется через point select, поэтому могут возникнуть ситуации, которые приведут к просадке производительности.


Этот фрагмент — просто теоретическое предположение. Никакими исследованиями автор этот тезис не подкрепляет.

Подробности читайте в лонгриде на Хабре.

За комментарий спасибо Василию Пучкову, архитектору решений.

#субд #статьи
🔥54❤‍🔥2