Рынок инфраструктуры для высоконагруженных систем оценили в 1,3 трлн
Группа компаний Б1 и агентство HeadWork Analytics опубликовали исследование рынка инфраструктуры для высоконагруженных информационных систем (ИВНС) и программно-аппаратных комплексов (ПАК) для них.
Главное из исследования:
- По итогам 2024 года рынок ИВНС оценивается в 560 млрд рублей, а к 2030 году он вырастет до 1,3 трлн. Среднегодовой темп роста — 15%.
- В 2024 году на ПАК приходилось 17% рынка ИВНС — 96 млрд рублей. К 2030 году их доля вырастет до 22% и составит 287 млрд. Среднегодовой темп роста — 20%.
- В 2024 году доля российских ПАК на рынке составила 18%, а к 2030 году она вырастет до 45% за счет господдержки и роста доверия к отечественным разработкам.
Развитие цифровых сервисов перегружает айти-инфраструктуру, что заставляет сегмент ИВНС расти быстрее остального айти-рынка.
Группа компаний Б1 и агентство HeadWork Analytics опубликовали исследование рынка инфраструктуры для высоконагруженных информационных систем (ИВНС) и программно-аппаратных комплексов (ПАК) для них.
Главное из исследования:
- По итогам 2024 года рынок ИВНС оценивается в 560 млрд рублей, а к 2030 году он вырастет до 1,3 трлн. Среднегодовой темп роста — 15%.
- В 2024 году на ПАК приходилось 17% рынка ИВНС — 96 млрд рублей. К 2030 году их доля вырастет до 22% и составит 287 млрд. Среднегодовой темп роста — 20%.
- В 2024 году доля российских ПАК на рынке составила 18%, а к 2030 году она вырастет до 45% за счет господдержки и роста доверия к отечественным разработкам.
Развитие цифровых сервисов перегружает айти-инфраструктуру, что заставляет сегмент ИВНС расти быстрее остального айти-рынка.
👍3🔥3😱2
Топ 7 проектов 2024 года по визуализации данных
Отвлекитесь от работы с данными и поиграйтесь с данными.
1. Parallel Lives
Скролим таймлайн и смотрим, какие известные люди жили на планете одновременно.
2. A torrent of trash
Как выглядят тысячи воздушных шаров с мусором, которые Северная Корея запустила на территорию Южной.
3. The United States of Abortion Mazes
Проходим лабиринты, чтобы сделать аборт в разных американских штатах. Попробуйте найти выход в Техасе.
4. When A.I.’s Output Is a Threat to A.I. Itself
Нейросети создают все больше контента. Его все труднее отличить от контента, созданного людьми. Смотрим, что будет, если ИИ продолжит учиться на созданных им же текстах.
5. I shrink 10x every 21s until I’m an atom
Посмотрите это со своими детьми. Что будет, если раз в 21 секунду уменьшаться в 10 раз. Крутой фильм про относительные размеры.
6. Your Name In Landsat
Составьте свое имя или любое слово из рек, лесов и гор со спутниковых снимков NASA.
7. Climate—Conflict—Vulnerability Index
Узнайте, где на планете прямо сейчас высокий риск пожаров и наводнений, где выше всего рождаемость, в каких регионах гендерное неравенство — норма жизни, а где повышенный риск циклонов.
Отвлекитесь от работы с данными и поиграйтесь с данными.
1. Parallel Lives
Скролим таймлайн и смотрим, какие известные люди жили на планете одновременно.
2. A torrent of trash
Как выглядят тысячи воздушных шаров с мусором, которые Северная Корея запустила на территорию Южной.
3. The United States of Abortion Mazes
Проходим лабиринты, чтобы сделать аборт в разных американских штатах. Попробуйте найти выход в Техасе.
4. When A.I.’s Output Is a Threat to A.I. Itself
Нейросети создают все больше контента. Его все труднее отличить от контента, созданного людьми. Смотрим, что будет, если ИИ продолжит учиться на созданных им же текстах.
5. I shrink 10x every 21s until I’m an atom
Посмотрите это со своими детьми. Что будет, если раз в 21 секунду уменьшаться в 10 раз. Крутой фильм про относительные размеры.
6. Your Name In Landsat
Составьте свое имя или любое слово из рек, лесов и гор со спутниковых снимков NASA.
7. Climate—Conflict—Vulnerability Index
Узнайте, где на планете прямо сейчас высокий риск пожаров и наводнений, где выше всего рождаемость, в каких регионах гендерное неравенство — норма жизни, а где повышенный риск циклонов.
🔥6❤4👍3
Переход с HDD и SSD на LTO экономит до 50%
От 80% до 90% всей информации в интернете — архивные данные. Шанс, что они пригодятся после 90 дней хранения — 1%. Однако их все-таки нужно хранить, а это стоит денег.
Ради экономии дата-центры по всему миру переходят на ленточные накопители (LTO) вместо жестких дисков (HDD) и твердотельных накопителей (SSD).
Главное про ленточные хранилища:
- LTO служат по 30 лет, когда HDD только 4-5, а SSD — 5-10 лет.
- Объем LTO растет быстрее, чем увеличивается память HDD и SSD.
- LTO быстрее: HDD выдают до 150 МБ/с при чтении и записи, а LTO до 1000 МБ/с при чтении и до 400 МБ/с при записи.
Насколько дешевле хранить архивы на ленте?
Брэд Джонс из IBM посчитал:
За 10 лет дата-центр, использующий жесткие диски на 100 ПБ, потратит на электричество, ремонт и замену оборудования $17,7 млн.
Если бы этот же дата-центр использовал ленточные хранилища, то потратил бы почти вдвое меньше — $9,5 млн.
Есть и экологическая составляющая. Если переписать всю информацию, которая не используется каждый день, на ленточные носители, это снизит выбросы углекислого газа в атмосферу на 58%. Это 80 млн тонн в год.
Кто-то уже так делает?
Тренд реален:
В первом квартале 2023 года продажи ленточных хранилищ выросли на 5%, а продажи жестких дисков рухнули на 35%.
Среди компаний, использующих ленты, 80% отмечают долговечность, экономию электричества и простоту транспортировки накопителей из одного офиса в другой.
Источники: Tom's Hardware, CNews, Киберпротект
От 80% до 90% всей информации в интернете — архивные данные. Шанс, что они пригодятся после 90 дней хранения — 1%. Однако их все-таки нужно хранить, а это стоит денег.
Ради экономии дата-центры по всему миру переходят на ленточные накопители (LTO) вместо жестких дисков (HDD) и твердотельных накопителей (SSD).
Главное про ленточные хранилища:
- LTO служат по 30 лет, когда HDD только 4-5, а SSD — 5-10 лет.
- Объем LTO растет быстрее, чем увеличивается память HDD и SSD.
- LTO быстрее: HDD выдают до 150 МБ/с при чтении и записи, а LTO до 1000 МБ/с при чтении и до 400 МБ/с при записи.
Насколько дешевле хранить архивы на ленте?
Брэд Джонс из IBM посчитал:
За 10 лет дата-центр, использующий жесткие диски на 100 ПБ, потратит на электричество, ремонт и замену оборудования $17,7 млн.
Если бы этот же дата-центр использовал ленточные хранилища, то потратил бы почти вдвое меньше — $9,5 млн.
Есть и экологическая составляющая. Если переписать всю информацию, которая не используется каждый день, на ленточные носители, это снизит выбросы углекислого газа в атмосферу на 58%. Это 80 млн тонн в год.
Кто-то уже так делает?
Тренд реален:
В первом квартале 2023 года продажи ленточных хранилищ выросли на 5%, а продажи жестких дисков рухнули на 35%.
Среди компаний, использующих ленты, 80% отмечают долговечность, экономию электричества и простоту транспортировки накопителей из одного офиса в другой.
Источники: Tom's Hardware, CNews, Киберпротект
🔥8👏5👍1
DeepSeek выкатила очень быстрый фреймворк для дата-процессинга
Китайцы опубликовали фреймворк Smallpond на базе DuckDB и распределенной файловой системы 3FS.
Заявленные преимущества:
- Сверхбыстро обрабатывает данные.
- Легко масштабируется для работы с петабайтами данных.
- Не требует постоянных фоновых процессов.
Результаты теста:
- За 30 минут 14 секунд отсортировано 110,4 ТиБ данных.
- Средняя пропускная способность — 3,66 ТиБ/мин. Это 20 фильмов в 4К каждую секунду.
Тест проводили с помощью GraySort на кластере, состоящем из 50 вычислительных узлов и 25 узлов хранения, работающих под управлением 3FS.
Подробности теста смотрите на Гитхабе.
Китайцы опубликовали фреймворк Smallpond на базе DuckDB и распределенной файловой системы 3FS.
Заявленные преимущества:
- Сверхбыстро обрабатывает данные.
- Легко масштабируется для работы с петабайтами данных.
- Не требует постоянных фоновых процессов.
Результаты теста:
- За 30 минут 14 секунд отсортировано 110,4 ТиБ данных.
- Средняя пропускная способность — 3,66 ТиБ/мин. Это 20 фильмов в 4К каждую секунду.
Тест проводили с помощью GraySort на кластере, состоящем из 50 вычислительных узлов и 25 узлов хранения, работающих под управлением 3FS.
Подробности теста смотрите на Гитхабе.
🔥10👍5❤🔥3
На смену пандам и полярным мишкам приходят утки
Pandas — самая популярная библиотека для обработки данных, но она уже давно страдает низкой производительностью.
Альтернативы типа Polars решают проблемы с производительностью, но переход на них требует изучения нового API.
FireDucks быстрее и предлагает полную совместимость с Pandas, а еще — многопоточную обработку и ускорение работы компилятора.
Для перехода с Pandas на FireDucks достаточно одной строки:
- Скорость подтверждается бенчмарками.
- Сравнение FireDucks с Pandas и Polars.
- FireDucks на Гитхабе.
Pandas — самая популярная библиотека для обработки данных, но она уже давно страдает низкой производительностью.
Альтернативы типа Polars решают проблемы с производительностью, но переход на них требует изучения нового API.
FireDucks быстрее и предлагает полную совместимость с Pandas, а еще — многопоточную обработку и ускорение работы компилятора.
Для перехода с Pandas на FireDucks достаточно одной строки:
import fireducks.pandas as pd
- Скорость подтверждается бенчмарками.
- Сравнение FireDucks с Pandas и Polars.
- FireDucks на Гитхабе.
👍7🔥7👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Гугл выкатил ИИ для создания полноценных рабочих блокнотов в Colab
ИИ сам пишет код на пайтоне, создает блокноты, визуализирует данные и предлагает пошаговое решение.
Можно быстро писать запросы на естественном языке и получать результаты. На выходе получается готовый проект с кодом и графиками.
- Не нужна настройка.
- Бесплатный доступ к графическим процессорам.
- Блокноты хранятся в ваших гуглдоках.
- Можно загружать датасеты объемом до 1 ГБ.
Если не боитесь делиться датасетами с Гуглом, пробуйте.
Это еще один шаг в сторону запросов к БД на естественном языке. От рутины такой ИИ-ассистент спасет. Однако от необходимости учить SQL для более-менее сложных задач пока никуда не деться.
ИИ сам пишет код на пайтоне, создает блокноты, визуализирует данные и предлагает пошаговое решение.
Можно быстро писать запросы на естественном языке и получать результаты. На выходе получается готовый проект с кодом и графиками.
- Не нужна настройка.
- Бесплатный доступ к графическим процессорам.
- Блокноты хранятся в ваших гуглдоках.
- Можно загружать датасеты объемом до 1 ГБ.
Если не боитесь делиться датасетами с Гуглом, пробуйте.
Это еще один шаг в сторону запросов к БД на естественном языке. От рутины такой ИИ-ассистент спасет. Однако от необходимости учить SQL для более-менее сложных задач пока никуда не деться.
❤🔥3⚡3🤔3
Посмотрите за 15 минут сразу 3 доклада по базам данных
На нормальной скорости, не 2х и даже не 1,5х.
HYTRADBOI — онлайн-конференция с докладами длиной до 10 минут о базах данных и программировании.
Публикуем синопсисы первых трех докладов:
1. Shapeshifter: using LLMs inside a database for schema flexibility / 2:55
Shapeshifter — прототип базы данных, которая самостоятельно управляет эволюцией схемы и преобразованиями запросов с помощью LLM.
При незначительных изменениях (например, добавлении необязательных полей) схема мягко эволюционирует. В сложных случаях (смена типа данных, миграция) LLM выбирает стратегию — от преобразования входящих документов до полного обновления структуры данных.
Shapeshifter встраивает LLM в ядро системы, а не использует его как внешний слой для перевода запросов с естественного языка на SQL.
2. Good thing we're not writing a database / 8:43
Automerge — не база данных, а документное хранилище, построенное на конфликтобезопасных реплицируемых типах данных (CRDT). Оно не следует правилам ACID, SQL или CAP-теоремы, делая ставку на доступность и устойчивость к сетевым сбоям.
Это как если бы git был построен на потоковой передаче правок в JSON-файлы в реальном времени.
3. pghttp: backend-free, lowest latency web apps / 2:34
Небольшой доклад про reverse proxy, позволяющий рассматривать PostgreSQL как базу с параметризованным http-интерфейсом.
Pghttp позволяет создавать веб-приложения без серверной части, преобразовывая двоичный протокол Postgres в HTTP. Веб-приложения pghttp передают запросы Postgres и интерпретируют ответы в формате двоичного протокола. Прокси-сервер преобразует бинарный протокол Postgres в HTTP и обратно.
Клиентское приложение безопасно взаимодействует с базой данных в стиле клиент-сервер, но модернизированном для использования HTTP/2, HTTP/3 и QUIC. Можно думать об этом как о FCGI для баз данных, только быстрее и мощнее.
Все видео с конференции доступны на сайте.
За комментарии спасибо Михаилу Савину.
На нормальной скорости, не 2х и даже не 1,5х.
HYTRADBOI — онлайн-конференция с докладами длиной до 10 минут о базах данных и программировании.
Публикуем синопсисы первых трех докладов:
1. Shapeshifter: using LLMs inside a database for schema flexibility / 2:55
Shapeshifter — прототип базы данных, которая самостоятельно управляет эволюцией схемы и преобразованиями запросов с помощью LLM.
При незначительных изменениях (например, добавлении необязательных полей) схема мягко эволюционирует. В сложных случаях (смена типа данных, миграция) LLM выбирает стратегию — от преобразования входящих документов до полного обновления структуры данных.
Shapeshifter встраивает LLM в ядро системы, а не использует его как внешний слой для перевода запросов с естественного языка на SQL.
2. Good thing we're not writing a database / 8:43
Automerge — не база данных, а документное хранилище, построенное на конфликтобезопасных реплицируемых типах данных (CRDT). Оно не следует правилам ACID, SQL или CAP-теоремы, делая ставку на доступность и устойчивость к сетевым сбоям.
Это как если бы git был построен на потоковой передаче правок в JSON-файлы в реальном времени.
3. pghttp: backend-free, lowest latency web apps / 2:34
Небольшой доклад про reverse proxy, позволяющий рассматривать PostgreSQL как базу с параметризованным http-интерфейсом.
Pghttp позволяет создавать веб-приложения без серверной части, преобразовывая двоичный протокол Postgres в HTTP. Веб-приложения pghttp передают запросы Postgres и интерпретируют ответы в формате двоичного протокола. Прокси-сервер преобразует бинарный протокол Postgres в HTTP и обратно.
Клиентское приложение безопасно взаимодействует с базой данных в стиле клиент-сервер, но модернизированном для использования HTTP/2, HTTP/3 и QUIC. Можно думать об этом как о FCGI для баз данных, только быстрее и мощнее.
Все видео с конференции доступны на сайте.
За комментарии спасибо Михаилу Савину.
👍6🔥2👏1
Наденьте шляпу и станьте детективом, чтобы изучить SQL
Исследуйте места преступлений, изучайте протоколы допросов и списки подозреваемых. И все это с помощью SQL-запросов к датасету.
Игра SQL Noir — интерактивный учебник по SQL в жанре детектива.
Начать расследование.
Исследуйте места преступлений, изучайте протоколы допросов и списки подозреваемых. И все это с помощью SQL-запросов к датасету.
Игра SQL Noir — интерактивный учебник по SQL в жанре детектива.
Начать расследование.
❤🔥10🔥3👏3👍1
Как зарабатывать на данных в 5 раз больше аутсайдеров: кейс Wolters Kluwer
В исследовании MIT CISR описана трансформация голландской компании Wolters Kluwer. За 20 лет традиционное издательство стало лидером в монетизации данных.
Главные цифры:
- В 2003 году 10% выручки приходилось на цифровые продукты. Остальные 90% на бумажные справочники, кодексы и учебники.
- В 2023 году 94% выручки пришлось уже на цифровые решения, 58% из которых — продукты на основе данных.
- Гендиректор Нэнси Маккинстри ежегодно инвестировала 8-10% выручки в разработку цифровых решений.
- 8% ежегодного роста компании обеспечены жесткой привязкой данных к прибыльности.
- Исследователи опросили 349 компаний. В среднем лидеры получают 11% выручки от монетизации данных, а аутсайдеры только 2%.
Разница между лидерами и аутсайдерами:
- Лидеры встраивают данные в ядро бизнес-стратегии. Аутсайдеры используют данные лишь эпизодически.
- Лидеры инвестируют в ИИ, облака и аналитику. Аутсайдеры раздувают штат и не обновляют системы.
- Лидеры измеряют ROI данных на всех этапах. Аутсайдеры не отслеживают влияние данных на прибыль.
Три рабочих стратегии превращения данных в деньги от Wolters Kluwer:
1. Топ-менеджеры должны направлять инвестиции в работу с данными и на их монетизацию. Монетизация данных должна быть частью корпоративной стратегии, а не инициативой отдельного департамента.
2. Ценность данных должна превращаться в деньги. Все продуктовые гипотезы, связанные с данными, должны строиться в жесткой привязке к монетизации. Если основанный на данных продукт не монетизируется, его надо закрывать.
3. Нужно управлять данными как активом: отслеживать их путь от создания до получения прибыли, чтобы понять, окупаются ли вложения. Это позволит понять, как данные превращаются в продукты, которые приносят деньги.
#деньги #исследования
В исследовании MIT CISR описана трансформация голландской компании Wolters Kluwer. За 20 лет традиционное издательство стало лидером в монетизации данных.
Главные цифры:
- В 2003 году 10% выручки приходилось на цифровые продукты. Остальные 90% на бумажные справочники, кодексы и учебники.
- В 2023 году 94% выручки пришлось уже на цифровые решения, 58% из которых — продукты на основе данных.
- Гендиректор Нэнси Маккинстри ежегодно инвестировала 8-10% выручки в разработку цифровых решений.
- 8% ежегодного роста компании обеспечены жесткой привязкой данных к прибыльности.
- Исследователи опросили 349 компаний. В среднем лидеры получают 11% выручки от монетизации данных, а аутсайдеры только 2%.
Разница между лидерами и аутсайдерами:
- Лидеры встраивают данные в ядро бизнес-стратегии. Аутсайдеры используют данные лишь эпизодически.
- Лидеры инвестируют в ИИ, облака и аналитику. Аутсайдеры раздувают штат и не обновляют системы.
- Лидеры измеряют ROI данных на всех этапах. Аутсайдеры не отслеживают влияние данных на прибыль.
Три рабочих стратегии превращения данных в деньги от Wolters Kluwer:
1. Топ-менеджеры должны направлять инвестиции в работу с данными и на их монетизацию. Монетизация данных должна быть частью корпоративной стратегии, а не инициативой отдельного департамента.
2. Ценность данных должна превращаться в деньги. Все продуктовые гипотезы, связанные с данными, должны строиться в жесткой привязке к монетизации. Если основанный на данных продукт не монетизируется, его надо закрывать.
3. Нужно управлять данными как активом: отслеживать их путь от создания до получения прибыли, чтобы понять, окупаются ли вложения. Это позволит понять, как данные превращаются в продукты, которые приносят деньги.
#деньги #исследования
🔥4👏3💯1
Сколько получают и чем занимаются дата-аналитики на самом деле
В таблице результаты опроса 450 дата-аналитиков. Исследование провело в 2024 году кадровое агентство NEWHR.
Что еще интересного узнали:
- Среди дата-аналитиков почти поровну мужчин (51%) и женщин (49%).
- Среди аналитиков с небольшим стажем (1-3 года) больше всего именно дата-аналитиков. Вероятно, работа с данными — лучший вход в профессию.
- Дата-аналитики самые космополитичные из аналитиков — среди них 18,5% планируют релокацию.
- 7% дата-аналитиков работают на нескольких работах.
- Среди младших грейдов дата-аналитиков 76% недавно занимались чем-то другим.
- 62,5% дата-аналитиков сменили двух и более работодателей за 2 года.
#аналитика #исследования
В таблице результаты опроса 450 дата-аналитиков. Исследование провело в 2024 году кадровое агентство NEWHR.
Что еще интересного узнали:
- Среди дата-аналитиков почти поровну мужчин (51%) и женщин (49%).
- Среди аналитиков с небольшим стажем (1-3 года) больше всего именно дата-аналитиков. Вероятно, работа с данными — лучший вход в профессию.
- Дата-аналитики самые космополитичные из аналитиков — среди них 18,5% планируют релокацию.
- 7% дата-аналитиков работают на нескольких работах.
- Среди младших грейдов дата-аналитиков 76% недавно занимались чем-то другим.
- 62,5% дата-аналитиков сменили двух и более работодателей за 2 года.
#аналитика #исследования
👍5🔥3👏1
Почему однопоточный Redis работает настолько быстро
Когда слышишь, что Redis — однопоточный, кажется невероятным, что он обрабатывает до 100 000 запросов в секунду.
Разбираемся, откуда такая скорость:
1. Хранение данных в оперативной памяти
Redis хранит данные в RAM и получает доступ к ним за наносекунды. Это исключает задержки, связанные с SSD и HDD, которые на порядки медленнее.
2. Оптимизированные под оперативку типы данных
Redis поддерживает оптимизированные структуры: строки, хэши, списки и множества. У них низкая вычислительная сложность. Так что операции выполняются без избыточной нагрузки на CPU.
3. Мультиплексирование ввода-вывода
В Redis один поток управляет тысячами клиентских подключений. Механизмы с временной сложностью отслеживают активные сокеты и снижают задержки, избегая блокировок.
4. Преимущества однопоточной модели
В однопоточной модели нет затрат на переключение контекста между потоками. Это упрощает разработку. Redis использует CPU для операций с данными в памяти, избегая проблем с параллелизмом.
Если хотите знать, когда использовать кластеризацию вместо многопоточности и как оптимизировать работу с Redis на практике, читайте лонгрид на Хабре.
#субд #статьи
Когда слышишь, что Redis — однопоточный, кажется невероятным, что он обрабатывает до 100 000 запросов в секунду.
Разбираемся, откуда такая скорость:
1. Хранение данных в оперативной памяти
Redis хранит данные в RAM и получает доступ к ним за наносекунды. Это исключает задержки, связанные с SSD и HDD, которые на порядки медленнее.
2. Оптимизированные под оперативку типы данных
Redis поддерживает оптимизированные структуры: строки, хэши, списки и множества. У них низкая вычислительная сложность. Так что операции выполняются без избыточной нагрузки на CPU.
3. Мультиплексирование ввода-вывода
В Redis один поток управляет тысячами клиентских подключений. Механизмы с временной сложностью отслеживают активные сокеты и снижают задержки, избегая блокировок.
4. Преимущества однопоточной модели
В однопоточной модели нет затрат на переключение контекста между потоками. Это упрощает разработку. Redis использует CPU для операций с данными в памяти, избегая проблем с параллелизмом.
Если хотите знать, когда использовать кластеризацию вместо многопоточности и как оптимизировать работу с Redis на практике, читайте лонгрид на Хабре.
#субд #статьи
🔥8👍3❤1
Как Давид побеждает Голиафа в математике и прочих узких областях
Языковые модели научились рассуждать. Перед финальным ответом они последовательно расширяют контекст, разбивая задачу на логические этапы и подсказывая себе промежуточные шаги.
Модели с огромным числом параметров круто продвинулись в математике и программировании.
В статье «Может ли модель с 1 млрд параметров обойти конкурента c 405 млрд?» показано, что для сложных задач в узких областях гигантские модели не нужны. Достаточно связки из двух моделей: глупого генератора и умного критика.
Генератор накидывает варианты цепочек рассуждений, а критик выбирает самую перспективную. Так можно обойтись без дообучения модели, но такой подход вычислительно более затратный. Это доказывает, что компактные модели могут решать сложные задачи.
Авторы приходят к выводу, что бесконечное увеличение параметров моделей не нужно.
Подтверждение этому — выход модели QwQ-32B от Alibaba. У нее 32 млрд параметров, а у DeepSeek R1 — 671 млрд. При этом QwQ-32B не уступает, а местами и побеждает по ключевым бенчмаркам.
Как и в DeepSeek, разработчики из Alibaba использовали обучение с подкреплением, но применяли более изощренные тактики. Это сделало модель меньше и умнее.
За комментарий спасибо Савелию Батурину, старшему инженеру по машинному обучению.
#ии #статьи
Языковые модели научились рассуждать. Перед финальным ответом они последовательно расширяют контекст, разбивая задачу на логические этапы и подсказывая себе промежуточные шаги.
Модели с огромным числом параметров круто продвинулись в математике и программировании.
В статье «Может ли модель с 1 млрд параметров обойти конкурента c 405 млрд?» показано, что для сложных задач в узких областях гигантские модели не нужны. Достаточно связки из двух моделей: глупого генератора и умного критика.
Генератор накидывает варианты цепочек рассуждений, а критик выбирает самую перспективную. Так можно обойтись без дообучения модели, но такой подход вычислительно более затратный. Это доказывает, что компактные модели могут решать сложные задачи.
Авторы приходят к выводу, что бесконечное увеличение параметров моделей не нужно.
Подтверждение этому — выход модели QwQ-32B от Alibaba. У нее 32 млрд параметров, а у DeepSeek R1 — 671 млрд. При этом QwQ-32B не уступает, а местами и побеждает по ключевым бенчмаркам.
Как и в DeepSeek, разработчики из Alibaba использовали обучение с подкреплением, но применяли более изощренные тактики. Это сделало модель меньше и умнее.
За комментарий спасибо Савелию Батурину, старшему инженеру по машинному обучению.
#ии #статьи
❤🔥5🔥4❤2
Почему опасно обучать модели на настоящих данных
В MIT изучили более 1800 наборов данных для обучения ИИ и выявили тотальные проблемы с лицензиями.
Что выяснили авторы?
- В 50% случаев наборы данных классифицированы неверно. Некоторые наборы, не предназначенные для коммерческого использования, помечались как открытые для любых целей. Это приводит к инцидентам вроде иска NYT к OpenAI.
- В 70% наборов информация о лицензии вообще отсутствовала. Это приводит к тому, что разработчики действуют вслепую и нарушают законы, даже не зная об этом.
Что делать?
В MIT предлагают использовать Data Provenance Explorer — инструмент для отслеживания происхождения данных, фильтрации по лицензиям и создания документации.
Это поможет?
Для каких-то референсных и особенно критичных датасетов это будет использоваться, но глобально — вряд ли. Постановка проблемы верная, но никаких ресурсов не хватит, чтобы таким путем ее решить. Это как разметить весь индекс Гугла вручную.
Скорее всего проблему решит не Data Provenance Explorer, а использование синтетических данных для обучения моделей. Это очевидный тренд.
За комментарий спасибо Михаилу Савину, руководителю продукта.
#ии #исследования
В MIT изучили более 1800 наборов данных для обучения ИИ и выявили тотальные проблемы с лицензиями.
Что выяснили авторы?
- В 50% случаев наборы данных классифицированы неверно. Некоторые наборы, не предназначенные для коммерческого использования, помечались как открытые для любых целей. Это приводит к инцидентам вроде иска NYT к OpenAI.
- В 70% наборов информация о лицензии вообще отсутствовала. Это приводит к тому, что разработчики действуют вслепую и нарушают законы, даже не зная об этом.
Что делать?
В MIT предлагают использовать Data Provenance Explorer — инструмент для отслеживания происхождения данных, фильтрации по лицензиям и создания документации.
Это поможет?
Для каких-то референсных и особенно критичных датасетов это будет использоваться, но глобально — вряд ли. Постановка проблемы верная, но никаких ресурсов не хватит, чтобы таким путем ее решить. Это как разметить весь индекс Гугла вручную.
Скорее всего проблему решит не Data Provenance Explorer, а использование синтетических данных для обучения моделей. Это очевидный тренд.
За комментарий спасибо Михаилу Савину, руководителю продукта.
#ии #исследования
❤🔥5👍2🔥1
Вас обманывают, когда предлагают бесплатные аналоги Bloomberg Terminal
По телеграм-каналам гуляют посты, где рассказывается про OpenBB как бесплатную альтернативу Bloomberg Terminal.
Это профанация. В реальности бесплатный OpenBB не может заменить институциональным клиентам Bloomberg Terminal, который стоит более $25 тысяч за пользователя в год.
Вот, что говорит основатель OpenBB Дидье Лопес:
Если позиции основателя OpenBB по его же продукту недостаточно, давайте разбираться по фактам:
- OpenBB полагается на новости из открытых источников, а Bloomberg на эксклюзивы от ведущих информационных агентств.
- У Bloomberg есть уникальный чат, где трейдеры и аналитики общаются в реальном времени. Многие пользователи остаются с Bloomberg именно ради взаимодействия с коллегами и конкурентами.
- Интерфейсы и данные от Bloomberg стали частью рабочих процессов в 90% инвестиционных банков. Никто никогда заменит Terminal в этих компаниях на опенсорсную альтернативу без доступа к данным.
В OpenBB и не пытаются конкурировать с Bloomberg. Это альтернатива для нишевых пользователей, которые не готовы платить по $25 тысяч за эксклюзивы новостей и финансовых показателей. Просто потому, что они на этом столько не заработают, чтобы отбить вложения.
#опенсорс
По телеграм-каналам гуляют посты, где рассказывается про OpenBB как бесплатную альтернативу Bloomberg Terminal.
Это профанация. В реальности бесплатный OpenBB не может заменить институциональным клиентам Bloomberg Terminal, который стоит более $25 тысяч за пользователя в год.
Вот, что говорит основатель OpenBB Дидье Лопес:
Рассматривать OpenBB как бесплатную замену Bloomberg Terminal — это ошибка, потому что у них слишком много данных. В мире нет другой компании, у которой было бы столько данных, сколько есть у Bloomberg.
Если позиции основателя OpenBB по его же продукту недостаточно, давайте разбираться по фактам:
- OpenBB полагается на новости из открытых источников, а Bloomberg на эксклюзивы от ведущих информационных агентств.
- У Bloomberg есть уникальный чат, где трейдеры и аналитики общаются в реальном времени. Многие пользователи остаются с Bloomberg именно ради взаимодействия с коллегами и конкурентами.
- Интерфейсы и данные от Bloomberg стали частью рабочих процессов в 90% инвестиционных банков. Никто никогда заменит Terminal в этих компаниях на опенсорсную альтернативу без доступа к данным.
В OpenBB и не пытаются конкурировать с Bloomberg. Это альтернатива для нишевых пользователей, которые не готовы платить по $25 тысяч за эксклюзивы новостей и финансовых показателей. Просто потому, что они на этом столько не заработают, чтобы отбить вложения.
#опенсорс
🔥3❤2👏1
Рентабельность вложений в DWH — 417% за 5 лет
Сделанное на деньги Оракла исследование показывает, насколько большие выгоды получает бизнес от использования Data Warehouse.
Главные инсайты в цифрах:
- ROI 417% за 5 лет.
- Сокращение расходов на управление DWH на 63% за 5 лет.
- Окупаемость 5 месяцев.
- Автоматизация задач с помощью DWH высвободила 68% времени у администраторов БД.
- Аналитики стали выполнять на 75% больше запросов ежедневно. Время на выполнение одного запроса сократилось на 82%.
- Продуктивность аналитиков выросла на 27%, а разработчиков на 33%.
Это были цифры из исследования. Теперь подключаем критическое мышление.
В разделе о методологии исследования упоминается опрос 10 компаний, а основные результаты приведены лишь для 7. Это наводит на мысли, что за бортом остались данные, не подтверждающие желаемых результатов. Хотя, может быть дело и в конфиденциальности.
Проблемы с выборкой:
- Глобальные выводы по результатам 7 компаний сделать невозможно.
- Все участники опросов уже использовали продукты Оракла, что могло повлиять на легкость и цену внедрения.
- Есть проблемы с усреднением. Среднее число сотрудников в компаниях из исследования — 5156. При этом в самой крупной их аж 15500, а в самой маленькой всего 38.
Считаем, что DWH, конечно, помогают компаниям экономить и зарабатывать. Однако Оракл чересчур приукрасил результаты исследования, чтобы привлечь клиентов.
#деньги #исследования
Сделанное на деньги Оракла исследование показывает, насколько большие выгоды получает бизнес от использования Data Warehouse.
Главные инсайты в цифрах:
- ROI 417% за 5 лет.
- Сокращение расходов на управление DWH на 63% за 5 лет.
- Окупаемость 5 месяцев.
- Автоматизация задач с помощью DWH высвободила 68% времени у администраторов БД.
- Аналитики стали выполнять на 75% больше запросов ежедневно. Время на выполнение одного запроса сократилось на 82%.
- Продуктивность аналитиков выросла на 27%, а разработчиков на 33%.
Это были цифры из исследования. Теперь подключаем критическое мышление.
В разделе о методологии исследования упоминается опрос 10 компаний, а основные результаты приведены лишь для 7. Это наводит на мысли, что за бортом остались данные, не подтверждающие желаемых результатов. Хотя, может быть дело и в конфиденциальности.
Проблемы с выборкой:
- Глобальные выводы по результатам 7 компаний сделать невозможно.
- Все участники опросов уже использовали продукты Оракла, что могло повлиять на легкость и цену внедрения.
- Есть проблемы с усреднением. Среднее число сотрудников в компаниях из исследования — 5156. При этом в самой крупной их аж 15500, а в самой маленькой всего 38.
Считаем, что DWH, конечно, помогают компаниям экономить и зарабатывать. Однако Оракл чересчур приукрасил результаты исследования, чтобы привлечь клиентов.
#деньги #исследования
👍4❤🔥2🔥2
Forwarded from Data Science. SQL hub
В современном мире защиты данных крайне важно, чтобы пароли не хранились в виде обычного текста. Вместо этого используются их «закодированные отпечатки» – хеши, полученные в результате специального процесса хеширования. Это гарантирует, что даже при компрометации базы данных злоумышленник не сможет восстановить исходный пароль.
📌 Как это работает:
• При регистрации пароль проходит хеширование с применением современных алгоритмов (например, bcrypt, scrypt или Argon2), часто с добавлением уникальной соли для каждого пользователя.
• При авторизации введённый пароль снова хешируется, и полученный хеш сравнивается с тем, что хранится в базе. Совпадение означает, что введённый пароль верный.
📌 Почему так делают:
• Безопасность: Даже если база будет взломана, злоумышленник увидит лишь набор случайных символов, из которых восстановить оригинальный пароль практически невозможно.
• Секретность: Администраторы системы не имеют доступа к исходным паролям – хеши необратимы.
• Надёжность: Использование соли и, при необходимости, перца, значительно усложняет атаки с помощью радужных таблиц и повышает общую стойкость системы.
В итоге, пароли в базах данных – это не сами пароли, а их «отпечатки», которые можно сравнивать, но никак не восстановить. Этот подход напоминает замок, который открывается лишь при наличии правильного ключа, при этом сам ключ нигде не хранится.
#базыданных #безопасность #хеширование #пароли
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1🔥1
Восток — дело тонкое. И с цифровизацией там порядок
Разбираемся в результатах исследования PwC по рынку данных на Ближнем Востоке.
Глобальные выводы:
- Только 44% компаний с годовой выручкой свыше $3 млрд имеют хотя бы базовые возможности по монетизации данных. Средняя оценка для 315 компаний по пятибалльной шкале — 3.
- До 90% рыночной стоимости компаний из S&P 500 приходится на нематериальные активы, где данные — ключевой компонент.
- Рынок монетизации данных в период 2024–2034 будет расти со среднегодовым темпом 25% и увеличится в 10 раз.
Данные в Европе:
- Данные формируют 4–4,2% ВВП в Евросоюзе.
- Открытый рынок данных перевалит за $350 млрд в 2025 году.
- Германия: $157 млрд и 2,1 млн рабочих мест.
- Франция: $99 млрд и 1,3 млн рабочих мест.
- Италия: $62 млрд и 1 млн рабочих мест.
Данные в Саудовской Аравии:
- В рамках стратегии цифровизации Vision 2030 создаются институты для развития и регулирования рынка.
- 245 государственных учреждений имеют офисы по управлению данными.
- В Национальный банк данных интегрировано 320 правительственных систем.
- В стране работает маркетплейс для торговли анонимизированными данными.
Цифр по монетизации данных в Саудовской Аравии пока нет, но саудиты стараются вписаться в рынок. Сейчас 45% ВВП королевства приходится на углеводороды.
#деньги #исследования
Разбираемся в результатах исследования PwC по рынку данных на Ближнем Востоке.
Глобальные выводы:
- Только 44% компаний с годовой выручкой свыше $3 млрд имеют хотя бы базовые возможности по монетизации данных. Средняя оценка для 315 компаний по пятибалльной шкале — 3.
- До 90% рыночной стоимости компаний из S&P 500 приходится на нематериальные активы, где данные — ключевой компонент.
- Рынок монетизации данных в период 2024–2034 будет расти со среднегодовым темпом 25% и увеличится в 10 раз.
Данные в Европе:
- Данные формируют 4–4,2% ВВП в Евросоюзе.
- Открытый рынок данных перевалит за $350 млрд в 2025 году.
- Германия: $157 млрд и 2,1 млн рабочих мест.
- Франция: $99 млрд и 1,3 млн рабочих мест.
- Италия: $62 млрд и 1 млн рабочих мест.
Данные в Саудовской Аравии:
- В рамках стратегии цифровизации Vision 2030 создаются институты для развития и регулирования рынка.
- 245 государственных учреждений имеют офисы по управлению данными.
- В Национальный банк данных интегрировано 320 правительственных систем.
- В стране работает маркетплейс для торговли анонимизированными данными.
Цифр по монетизации данных в Саудовской Аравии пока нет, но саудиты стараются вписаться в рынок. Сейчас 45% ВВП королевства приходится на углеводороды.
#деньги #исследования
🔥5🥰1👏1
Отправьте своим стажерам, пусть распечатают и над столом повесят
Шпаргалка по основным командам и функциям PostgreSQL.
- Скачать PDF / A4
- Скачать PDF / A3
- Скачать PDF / Для телефона
- Веб-версия
#субд
Шпаргалка по основным командам и функциям PostgreSQL.
- Скачать PDF / A4
- Скачать PDF / A3
- Скачать PDF / Для телефона
- Веб-версия
#субд
🔥12❤🔥5👍3
Можно ли работать с СУБД без промежуточного кэш-слоя
На Хабре задались вопросом: способны ли современные СУБД заменить кэш-слой приложения при нагрузке до 1 млн запросов в секунду (RPS)?
В тесте участвовали:
- СУБД PostgreSQL, MySQL и оптимизированные сборки типа MyDB.
- Кэши Redis, Valkey, Memcached.
Оценивали производительность, масштабируемость по ядрам и соединениям и способность выдерживать 1 млн RPS.
Результаты:
- PostgreSQL хорошо справляется с высокой нагрузкой, но в масштабировании ограничен числом соединений. Проблемы начинаются после 5000.
- MySQL показывает схожую производительность, но модель thread-per-connection лучше масштабируется по числу соединений.
- Redis масштабируется по ядрам, но не идеально. До 300–400 тысяч RPS при 8 io-threads.
- Valkey масштабируется лучше, чем Redis. Достигает почти 1 млн RPS, но прирост от увеличения числа ядер ограничен.
- Memcached самый быстрый среди кэшей. Выдает до 1,7 млн RPS, но используется только для кэширования.
Краткий вывод:
В большом диапазоне профилей нагрузки кэш-слой приложения не нужен — СУБД справляется сама.
В статье тестили разный кэширующий софт. Несмотря на то, что рассматривалась только читающая нагрузка на простых операциях, автор пишет:
Этот фрагмент — просто теоретическое предположение. Никакими исследованиями автор этот тезис не подкрепляет.
Подробности читайте в лонгриде на Хабре.
За комментарий спасибо Василию Пучкову, архитектору решений.
#субд #статьи
На Хабре задались вопросом: способны ли современные СУБД заменить кэш-слой приложения при нагрузке до 1 млн запросов в секунду (RPS)?
В тесте участвовали:
- СУБД PostgreSQL, MySQL и оптимизированные сборки типа MyDB.
- Кэши Redis, Valkey, Memcached.
Оценивали производительность, масштабируемость по ядрам и соединениям и способность выдерживать 1 млн RPS.
Результаты:
- PostgreSQL хорошо справляется с высокой нагрузкой, но в масштабировании ограничен числом соединений. Проблемы начинаются после 5000.
- MySQL показывает схожую производительность, но модель thread-per-connection лучше масштабируется по числу соединений.
- Redis масштабируется по ядрам, но не идеально. До 300–400 тысяч RPS при 8 io-threads.
- Valkey масштабируется лучше, чем Redis. Достигает почти 1 млн RPS, но прирост от увеличения числа ядер ограничен.
- Memcached самый быстрый среди кэшей. Выдает до 1,7 млн RPS, но используется только для кэширования.
Краткий вывод:
В большом диапазоне профилей нагрузки кэш-слой приложения не нужен — СУБД справляется сама.
В статье тестили разный кэширующий софт. Несмотря на то, что рассматривалась только читающая нагрузка на простых операциях, автор пишет:
В реальной жизни всегда присутствует какой-то процент операций не Read-Only, и когда нагрузка смешанная, перформанс СУБД значительно падает. Если нагрузка почти полностью на чтение или близка к этому, то можно обойтись без кэш-слоя, но при большой доле записи — надо смотреть, и вполне вероятно, что нет.
Если основная часть операций — это выборка по первичному ключу, СУБД справляются хорошо. Однако, в кэш можно «запихнуть» практически всё и хранить в key-value, а в базе данных не всё реализуется через point select, поэтому могут возникнуть ситуации, которые приведут к просадке производительности.
Этот фрагмент — просто теоретическое предположение. Никакими исследованиями автор этот тезис не подкрепляет.
Подробности читайте в лонгриде на Хабре.
За комментарий спасибо Василию Пучкову, архитектору решений.
#субд #статьи
🔥5❤4❤🔥2