Маркетологи утопают в данных, не получая инсайтов
Маркетологи собирают все больше данных, но это не помогает принимать решения — скорее наоборот. Разбираем главные тренды и выводы отчета Supermetrics.
Что происходит?
- За 4 года объем используемых маркетологами данных вырос на 230%.
- 56% маркетологов говорят, что у них нет времени на полноценный анализ данных.
- 32% смотрят маркетинговые отчеты раз в месяц или реже.
- 38% испытывают трудности из-за отсутствия интеграции данных и инструментов отчетности.
Что делать?
Самый очевидный вариант — внедрять ИИ, 57% маркетинговых лидеров рассчитывают на нейросети, делегируя им работу с данными.
Еще один важный момент, на котором в Supermetrics заостряют внимание — наступление эры без cookies.
Третьесторонние cookies (те, что отслеживают пользователей между сайтами) постепенно уходят в прошлое. GDPR, Apple, а теперь и Google сокращают возможности трекинга, чтобы защитить данные пользователей. В 2024 году Google начал отключать third-party cookies в Chrome, а в 2025-м планирует убрать их полностью.
По данным Supermetrics, 66% маркетологов ожидают сложностей с отслеживанием поведения пользователей. Растет необходимость перехода на новые методы: first-party data, zero-party data, privacy sandbox, контекстный таргетинг и все такое.
Не гонитесь за количеством данных — сосредоточьтесь на их качестве. Важно не собирать тонны информации, а фокусироваться на ключевых метриках.
Маркетологи собирают все больше данных, но это не помогает принимать решения — скорее наоборот. Разбираем главные тренды и выводы отчета Supermetrics.
Что происходит?
- За 4 года объем используемых маркетологами данных вырос на 230%.
- 56% маркетологов говорят, что у них нет времени на полноценный анализ данных.
- 32% смотрят маркетинговые отчеты раз в месяц или реже.
- 38% испытывают трудности из-за отсутствия интеграции данных и инструментов отчетности.
Что делать?
Самый очевидный вариант — внедрять ИИ, 57% маркетинговых лидеров рассчитывают на нейросети, делегируя им работу с данными.
Еще один важный момент, на котором в Supermetrics заостряют внимание — наступление эры без cookies.
Третьесторонние cookies (те, что отслеживают пользователей между сайтами) постепенно уходят в прошлое. GDPR, Apple, а теперь и Google сокращают возможности трекинга, чтобы защитить данные пользователей. В 2024 году Google начал отключать third-party cookies в Chrome, а в 2025-м планирует убрать их полностью.
По данным Supermetrics, 66% маркетологов ожидают сложностей с отслеживанием поведения пользователей. Растет необходимость перехода на новые методы: first-party data, zero-party data, privacy sandbox, контекстный таргетинг и все такое.
Не гонитесь за количеством данных — сосредоточьтесь на их качестве. Важно не собирать тонны информации, а фокусироваться на ключевых метриках.
🔥1
Больших данных все больше
Краткие факты:
- 400 млн терабайт данных создается ежедневно, это 150 зеттабайт в год.
- Больше 50% всех данных в интернете — видео.
- 90% всех данных в мире было создано за последние 2 года.
- За 10 лет общий объем данных увеличился в 66 раз.
- В США в 10 раз больше дата-центров, чем в любой другой стране — 5388, в России их 251 — это 9 место в мире.
- В мире 60% компаний использовали большие данные для внедрения инноваций, а 40% компаний управляют данными как бизнес-активом.
Источники: Exploding Topics, Statista, Cloudscene
Краткие факты:
- 400 млн терабайт данных создается ежедневно, это 150 зеттабайт в год.
- Больше 50% всех данных в интернете — видео.
- 90% всех данных в мире было создано за последние 2 года.
- За 10 лет общий объем данных увеличился в 66 раз.
- В США в 10 раз больше дата-центров, чем в любой другой стране — 5388, в России их 251 — это 9 место в мире.
- В мире 60% компаний использовали большие данные для внедрения инноваций, а 40% компаний управляют данными как бизнес-активом.
Источники: Exploding Topics, Statista, Cloudscene
👍5
Яндекс выложил в открытый доступ код YandexGPT-5-Lite
Pro-версия нового поколения моделей уже работает в Алисе и доступна по API в Yandex Cloud. В открытый доступ попала только pretrain-версия YandexGPT-5-Lite на 8 млрд параметров с длиной контекста 32 тысячи токенов.
Про последнюю и поговорим.
Как обучали модель?
На первом этапе модель обучалась на текстах общим объемом 15 трлн токенов с длиной контекста 8 тысяч токенов. Более 70% датасета составляли материалы на русском.
Состав датасета:
60% — веб-страницы
15% — код
15% — синтетика и датасеты сервисов Яндекса
10% — математика
На втором этапе, который в Яндексе называют Powerup, модель обучалась на высококачественных данных объемом 320 млрд токенов с длиной контекста 32 тысячи токенов.
Состав Powerup-датасета:
25% — веб-страницы
20% — синтетика, датасеты сервисов и качественные тексты
19% — математика
18% — код
18% — образовательные данные
В Яндексе обращают внимание на оптимизацию токенизатора под русский язык. Так что 32 тысячи токенов этой модели соответствуют примерно 48 тысячам токенов Qwen-2,5.
У модели llama-like архитектура, так что ее легко можно обучить под свои задачи с помощью большинства существующих фреймворков, например, torchtune.
Модель уже доступна на Hugging Face, там же можно посмотреть на результаты бенчмарков. Подробный разбор новой версии читайте в блоге Яндекса на Хабре.
Pro-версия нового поколения моделей уже работает в Алисе и доступна по API в Yandex Cloud. В открытый доступ попала только pretrain-версия YandexGPT-5-Lite на 8 млрд параметров с длиной контекста 32 тысячи токенов.
Про последнюю и поговорим.
Как обучали модель?
На первом этапе модель обучалась на текстах общим объемом 15 трлн токенов с длиной контекста 8 тысяч токенов. Более 70% датасета составляли материалы на русском.
Состав датасета:
60% — веб-страницы
15% — код
15% — синтетика и датасеты сервисов Яндекса
10% — математика
На втором этапе, который в Яндексе называют Powerup, модель обучалась на высококачественных данных объемом 320 млрд токенов с длиной контекста 32 тысячи токенов.
Состав Powerup-датасета:
25% — веб-страницы
20% — синтетика, датасеты сервисов и качественные тексты
19% — математика
18% — код
18% — образовательные данные
В Яндексе обращают внимание на оптимизацию токенизатора под русский язык. Так что 32 тысячи токенов этой модели соответствуют примерно 48 тысячам токенов Qwen-2,5.
У модели llama-like архитектура, так что ее легко можно обучить под свои задачи с помощью большинства существующих фреймворков, например, torchtune.
Модель уже доступна на Hugging Face, там же можно посмотреть на результаты бенчмарков. Подробный разбор новой версии читайте в блоге Яндекса на Хабре.
❤🔥5🔥1👏1
Запросы на естественном языке вытеснят SQL уже в 2026 году
По прогнозу Gartner, к 2026 году естественный язык станет основным способом работы с данными. Прогноз больно уж оптимистичный, но тренд реален. Разбираемся в предпосылках революции и ее перспективах.
Какие есть предпосылки?
- Рост объемов данных. SQL хорош, но писать сложные запросы становится все более трудоемко, особенно при работе с распределенными хранилищами типа Data Lakes, Lakehouses и Data Fabric.
- Популярность генеративных моделей. Нейросети уже умеют преобразовывать запросы на естественном языке в SQL. И будут делать это все лучше.
- Снижение порога входа. Простой доступ к данным хотят получать не только аналитики и инженеры, но и обычные пользователи без знания SQL — маркетологи, финансисты и менеджеры.
Что может пойти не так?
- Неоптимизированные SQL-запросы, сгенерированные нейросетями, могут перегружать базы данных.
- Нейросети могут неправильно интерпретировать структуру данных, от чего может страдать точность запросов. Это сильно повышает требования к управлению метаданными.
- Если дать всем пользователям свободный доступ к данным через запросы на естественном языке, это ударит по безопасности и повысит риск утечек.
Какого будущего ждать?
SQL был и остается ключевым языком работы с данными, но мы наблюдаем тренд, который может все изменить. SQL не умрет, но станет бэкендом для интерфейсов на естественном языке.
Роль инженеров изменится, вместо написания SQL-запросов они будут настраивать модели, управлять метаданными и обучать ИИ.
По прогнозу Gartner, к 2026 году естественный язык станет основным способом работы с данными. Прогноз больно уж оптимистичный, но тренд реален. Разбираемся в предпосылках революции и ее перспективах.
Какие есть предпосылки?
- Рост объемов данных. SQL хорош, но писать сложные запросы становится все более трудоемко, особенно при работе с распределенными хранилищами типа Data Lakes, Lakehouses и Data Fabric.
- Популярность генеративных моделей. Нейросети уже умеют преобразовывать запросы на естественном языке в SQL. И будут делать это все лучше.
- Снижение порога входа. Простой доступ к данным хотят получать не только аналитики и инженеры, но и обычные пользователи без знания SQL — маркетологи, финансисты и менеджеры.
Что может пойти не так?
- Неоптимизированные SQL-запросы, сгенерированные нейросетями, могут перегружать базы данных.
- Нейросети могут неправильно интерпретировать структуру данных, от чего может страдать точность запросов. Это сильно повышает требования к управлению метаданными.
- Если дать всем пользователям свободный доступ к данным через запросы на естественном языке, это ударит по безопасности и повысит риск утечек.
Какого будущего ждать?
SQL был и остается ключевым языком работы с данными, но мы наблюдаем тренд, который может все изменить. SQL не умрет, но станет бэкендом для интерфейсов на естественном языке.
Роль инженеров изменится, вместо написания SQL-запросов они будут настраивать модели, управлять метаданными и обучать ИИ.
🔥8🥱4✍3👍2
Рынок инфраструктуры для высоконагруженных систем оценили в 1,3 трлн
Группа компаний Б1 и агентство HeadWork Analytics опубликовали исследование рынка инфраструктуры для высоконагруженных информационных систем (ИВНС) и программно-аппаратных комплексов (ПАК) для них.
Главное из исследования:
- По итогам 2024 года рынок ИВНС оценивается в 560 млрд рублей, а к 2030 году он вырастет до 1,3 трлн. Среднегодовой темп роста — 15%.
- В 2024 году на ПАК приходилось 17% рынка ИВНС — 96 млрд рублей. К 2030 году их доля вырастет до 22% и составит 287 млрд. Среднегодовой темп роста — 20%.
- В 2024 году доля российских ПАК на рынке составила 18%, а к 2030 году она вырастет до 45% за счет господдержки и роста доверия к отечественным разработкам.
Развитие цифровых сервисов перегружает айти-инфраструктуру, что заставляет сегмент ИВНС расти быстрее остального айти-рынка.
Группа компаний Б1 и агентство HeadWork Analytics опубликовали исследование рынка инфраструктуры для высоконагруженных информационных систем (ИВНС) и программно-аппаратных комплексов (ПАК) для них.
Главное из исследования:
- По итогам 2024 года рынок ИВНС оценивается в 560 млрд рублей, а к 2030 году он вырастет до 1,3 трлн. Среднегодовой темп роста — 15%.
- В 2024 году на ПАК приходилось 17% рынка ИВНС — 96 млрд рублей. К 2030 году их доля вырастет до 22% и составит 287 млрд. Среднегодовой темп роста — 20%.
- В 2024 году доля российских ПАК на рынке составила 18%, а к 2030 году она вырастет до 45% за счет господдержки и роста доверия к отечественным разработкам.
Развитие цифровых сервисов перегружает айти-инфраструктуру, что заставляет сегмент ИВНС расти быстрее остального айти-рынка.
👍3🔥3😱2
Топ 7 проектов 2024 года по визуализации данных
Отвлекитесь от работы с данными и поиграйтесь с данными.
1. Parallel Lives
Скролим таймлайн и смотрим, какие известные люди жили на планете одновременно.
2. A torrent of trash
Как выглядят тысячи воздушных шаров с мусором, которые Северная Корея запустила на территорию Южной.
3. The United States of Abortion Mazes
Проходим лабиринты, чтобы сделать аборт в разных американских штатах. Попробуйте найти выход в Техасе.
4. When A.I.’s Output Is a Threat to A.I. Itself
Нейросети создают все больше контента. Его все труднее отличить от контента, созданного людьми. Смотрим, что будет, если ИИ продолжит учиться на созданных им же текстах.
5. I shrink 10x every 21s until I’m an atom
Посмотрите это со своими детьми. Что будет, если раз в 21 секунду уменьшаться в 10 раз. Крутой фильм про относительные размеры.
6. Your Name In Landsat
Составьте свое имя или любое слово из рек, лесов и гор со спутниковых снимков NASA.
7. Climate—Conflict—Vulnerability Index
Узнайте, где на планете прямо сейчас высокий риск пожаров и наводнений, где выше всего рождаемость, в каких регионах гендерное неравенство — норма жизни, а где повышенный риск циклонов.
Отвлекитесь от работы с данными и поиграйтесь с данными.
1. Parallel Lives
Скролим таймлайн и смотрим, какие известные люди жили на планете одновременно.
2. A torrent of trash
Как выглядят тысячи воздушных шаров с мусором, которые Северная Корея запустила на территорию Южной.
3. The United States of Abortion Mazes
Проходим лабиринты, чтобы сделать аборт в разных американских штатах. Попробуйте найти выход в Техасе.
4. When A.I.’s Output Is a Threat to A.I. Itself
Нейросети создают все больше контента. Его все труднее отличить от контента, созданного людьми. Смотрим, что будет, если ИИ продолжит учиться на созданных им же текстах.
5. I shrink 10x every 21s until I’m an atom
Посмотрите это со своими детьми. Что будет, если раз в 21 секунду уменьшаться в 10 раз. Крутой фильм про относительные размеры.
6. Your Name In Landsat
Составьте свое имя или любое слово из рек, лесов и гор со спутниковых снимков NASA.
7. Climate—Conflict—Vulnerability Index
Узнайте, где на планете прямо сейчас высокий риск пожаров и наводнений, где выше всего рождаемость, в каких регионах гендерное неравенство — норма жизни, а где повышенный риск циклонов.
🔥6❤4👍3
Переход с HDD и SSD на LTO экономит до 50%
От 80% до 90% всей информации в интернете — архивные данные. Шанс, что они пригодятся после 90 дней хранения — 1%. Однако их все-таки нужно хранить, а это стоит денег.
Ради экономии дата-центры по всему миру переходят на ленточные накопители (LTO) вместо жестких дисков (HDD) и твердотельных накопителей (SSD).
Главное про ленточные хранилища:
- LTO служат по 30 лет, когда HDD только 4-5, а SSD — 5-10 лет.
- Объем LTO растет быстрее, чем увеличивается память HDD и SSD.
- LTO быстрее: HDD выдают до 150 МБ/с при чтении и записи, а LTO до 1000 МБ/с при чтении и до 400 МБ/с при записи.
Насколько дешевле хранить архивы на ленте?
Брэд Джонс из IBM посчитал:
За 10 лет дата-центр, использующий жесткие диски на 100 ПБ, потратит на электричество, ремонт и замену оборудования $17,7 млн.
Если бы этот же дата-центр использовал ленточные хранилища, то потратил бы почти вдвое меньше — $9,5 млн.
Есть и экологическая составляющая. Если переписать всю информацию, которая не используется каждый день, на ленточные носители, это снизит выбросы углекислого газа в атмосферу на 58%. Это 80 млн тонн в год.
Кто-то уже так делает?
Тренд реален:
В первом квартале 2023 года продажи ленточных хранилищ выросли на 5%, а продажи жестких дисков рухнули на 35%.
Среди компаний, использующих ленты, 80% отмечают долговечность, экономию электричества и простоту транспортировки накопителей из одного офиса в другой.
Источники: Tom's Hardware, CNews, Киберпротект
От 80% до 90% всей информации в интернете — архивные данные. Шанс, что они пригодятся после 90 дней хранения — 1%. Однако их все-таки нужно хранить, а это стоит денег.
Ради экономии дата-центры по всему миру переходят на ленточные накопители (LTO) вместо жестких дисков (HDD) и твердотельных накопителей (SSD).
Главное про ленточные хранилища:
- LTO служат по 30 лет, когда HDD только 4-5, а SSD — 5-10 лет.
- Объем LTO растет быстрее, чем увеличивается память HDD и SSD.
- LTO быстрее: HDD выдают до 150 МБ/с при чтении и записи, а LTO до 1000 МБ/с при чтении и до 400 МБ/с при записи.
Насколько дешевле хранить архивы на ленте?
Брэд Джонс из IBM посчитал:
За 10 лет дата-центр, использующий жесткие диски на 100 ПБ, потратит на электричество, ремонт и замену оборудования $17,7 млн.
Если бы этот же дата-центр использовал ленточные хранилища, то потратил бы почти вдвое меньше — $9,5 млн.
Есть и экологическая составляющая. Если переписать всю информацию, которая не используется каждый день, на ленточные носители, это снизит выбросы углекислого газа в атмосферу на 58%. Это 80 млн тонн в год.
Кто-то уже так делает?
Тренд реален:
В первом квартале 2023 года продажи ленточных хранилищ выросли на 5%, а продажи жестких дисков рухнули на 35%.
Среди компаний, использующих ленты, 80% отмечают долговечность, экономию электричества и простоту транспортировки накопителей из одного офиса в другой.
Источники: Tom's Hardware, CNews, Киберпротект
🔥8👏5👍1
DeepSeek выкатила очень быстрый фреймворк для дата-процессинга
Китайцы опубликовали фреймворк Smallpond на базе DuckDB и распределенной файловой системы 3FS.
Заявленные преимущества:
- Сверхбыстро обрабатывает данные.
- Легко масштабируется для работы с петабайтами данных.
- Не требует постоянных фоновых процессов.
Результаты теста:
- За 30 минут 14 секунд отсортировано 110,4 ТиБ данных.
- Средняя пропускная способность — 3,66 ТиБ/мин. Это 20 фильмов в 4К каждую секунду.
Тест проводили с помощью GraySort на кластере, состоящем из 50 вычислительных узлов и 25 узлов хранения, работающих под управлением 3FS.
Подробности теста смотрите на Гитхабе.
Китайцы опубликовали фреймворк Smallpond на базе DuckDB и распределенной файловой системы 3FS.
Заявленные преимущества:
- Сверхбыстро обрабатывает данные.
- Легко масштабируется для работы с петабайтами данных.
- Не требует постоянных фоновых процессов.
Результаты теста:
- За 30 минут 14 секунд отсортировано 110,4 ТиБ данных.
- Средняя пропускная способность — 3,66 ТиБ/мин. Это 20 фильмов в 4К каждую секунду.
Тест проводили с помощью GraySort на кластере, состоящем из 50 вычислительных узлов и 25 узлов хранения, работающих под управлением 3FS.
Подробности теста смотрите на Гитхабе.
🔥10👍5❤🔥3
На смену пандам и полярным мишкам приходят утки
Pandas — самая популярная библиотека для обработки данных, но она уже давно страдает низкой производительностью.
Альтернативы типа Polars решают проблемы с производительностью, но переход на них требует изучения нового API.
FireDucks быстрее и предлагает полную совместимость с Pandas, а еще — многопоточную обработку и ускорение работы компилятора.
Для перехода с Pandas на FireDucks достаточно одной строки:
- Скорость подтверждается бенчмарками.
- Сравнение FireDucks с Pandas и Polars.
- FireDucks на Гитхабе.
Pandas — самая популярная библиотека для обработки данных, но она уже давно страдает низкой производительностью.
Альтернативы типа Polars решают проблемы с производительностью, но переход на них требует изучения нового API.
FireDucks быстрее и предлагает полную совместимость с Pandas, а еще — многопоточную обработку и ускорение работы компилятора.
Для перехода с Pandas на FireDucks достаточно одной строки:
import fireducks.pandas as pd
- Скорость подтверждается бенчмарками.
- Сравнение FireDucks с Pandas и Polars.
- FireDucks на Гитхабе.
👍7🔥7👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Гугл выкатил ИИ для создания полноценных рабочих блокнотов в Colab
ИИ сам пишет код на пайтоне, создает блокноты, визуализирует данные и предлагает пошаговое решение.
Можно быстро писать запросы на естественном языке и получать результаты. На выходе получается готовый проект с кодом и графиками.
- Не нужна настройка.
- Бесплатный доступ к графическим процессорам.
- Блокноты хранятся в ваших гуглдоках.
- Можно загружать датасеты объемом до 1 ГБ.
Если не боитесь делиться датасетами с Гуглом, пробуйте.
Это еще один шаг в сторону запросов к БД на естественном языке. От рутины такой ИИ-ассистент спасет. Однако от необходимости учить SQL для более-менее сложных задач пока никуда не деться.
ИИ сам пишет код на пайтоне, создает блокноты, визуализирует данные и предлагает пошаговое решение.
Можно быстро писать запросы на естественном языке и получать результаты. На выходе получается готовый проект с кодом и графиками.
- Не нужна настройка.
- Бесплатный доступ к графическим процессорам.
- Блокноты хранятся в ваших гуглдоках.
- Можно загружать датасеты объемом до 1 ГБ.
Если не боитесь делиться датасетами с Гуглом, пробуйте.
Это еще один шаг в сторону запросов к БД на естественном языке. От рутины такой ИИ-ассистент спасет. Однако от необходимости учить SQL для более-менее сложных задач пока никуда не деться.
❤🔥3⚡3🤔3
Посмотрите за 15 минут сразу 3 доклада по базам данных
На нормальной скорости, не 2х и даже не 1,5х.
HYTRADBOI — онлайн-конференция с докладами длиной до 10 минут о базах данных и программировании.
Публикуем синопсисы первых трех докладов:
1. Shapeshifter: using LLMs inside a database for schema flexibility / 2:55
Shapeshifter — прототип базы данных, которая самостоятельно управляет эволюцией схемы и преобразованиями запросов с помощью LLM.
При незначительных изменениях (например, добавлении необязательных полей) схема мягко эволюционирует. В сложных случаях (смена типа данных, миграция) LLM выбирает стратегию — от преобразования входящих документов до полного обновления структуры данных.
Shapeshifter встраивает LLM в ядро системы, а не использует его как внешний слой для перевода запросов с естественного языка на SQL.
2. Good thing we're not writing a database / 8:43
Automerge — не база данных, а документное хранилище, построенное на конфликтобезопасных реплицируемых типах данных (CRDT). Оно не следует правилам ACID, SQL или CAP-теоремы, делая ставку на доступность и устойчивость к сетевым сбоям.
Это как если бы git был построен на потоковой передаче правок в JSON-файлы в реальном времени.
3. pghttp: backend-free, lowest latency web apps / 2:34
Небольшой доклад про reverse proxy, позволяющий рассматривать PostgreSQL как базу с параметризованным http-интерфейсом.
Pghttp позволяет создавать веб-приложения без серверной части, преобразовывая двоичный протокол Postgres в HTTP. Веб-приложения pghttp передают запросы Postgres и интерпретируют ответы в формате двоичного протокола. Прокси-сервер преобразует бинарный протокол Postgres в HTTP и обратно.
Клиентское приложение безопасно взаимодействует с базой данных в стиле клиент-сервер, но модернизированном для использования HTTP/2, HTTP/3 и QUIC. Можно думать об этом как о FCGI для баз данных, только быстрее и мощнее.
Все видео с конференции доступны на сайте.
За комментарии спасибо Михаилу Савину.
На нормальной скорости, не 2х и даже не 1,5х.
HYTRADBOI — онлайн-конференция с докладами длиной до 10 минут о базах данных и программировании.
Публикуем синопсисы первых трех докладов:
1. Shapeshifter: using LLMs inside a database for schema flexibility / 2:55
Shapeshifter — прототип базы данных, которая самостоятельно управляет эволюцией схемы и преобразованиями запросов с помощью LLM.
При незначительных изменениях (например, добавлении необязательных полей) схема мягко эволюционирует. В сложных случаях (смена типа данных, миграция) LLM выбирает стратегию — от преобразования входящих документов до полного обновления структуры данных.
Shapeshifter встраивает LLM в ядро системы, а не использует его как внешний слой для перевода запросов с естественного языка на SQL.
2. Good thing we're not writing a database / 8:43
Automerge — не база данных, а документное хранилище, построенное на конфликтобезопасных реплицируемых типах данных (CRDT). Оно не следует правилам ACID, SQL или CAP-теоремы, делая ставку на доступность и устойчивость к сетевым сбоям.
Это как если бы git был построен на потоковой передаче правок в JSON-файлы в реальном времени.
3. pghttp: backend-free, lowest latency web apps / 2:34
Небольшой доклад про reverse proxy, позволяющий рассматривать PostgreSQL как базу с параметризованным http-интерфейсом.
Pghttp позволяет создавать веб-приложения без серверной части, преобразовывая двоичный протокол Postgres в HTTP. Веб-приложения pghttp передают запросы Postgres и интерпретируют ответы в формате двоичного протокола. Прокси-сервер преобразует бинарный протокол Postgres в HTTP и обратно.
Клиентское приложение безопасно взаимодействует с базой данных в стиле клиент-сервер, но модернизированном для использования HTTP/2, HTTP/3 и QUIC. Можно думать об этом как о FCGI для баз данных, только быстрее и мощнее.
Все видео с конференции доступны на сайте.
За комментарии спасибо Михаилу Савину.
👍6🔥2👏1
Наденьте шляпу и станьте детективом, чтобы изучить SQL
Исследуйте места преступлений, изучайте протоколы допросов и списки подозреваемых. И все это с помощью SQL-запросов к датасету.
Игра SQL Noir — интерактивный учебник по SQL в жанре детектива.
Начать расследование.
Исследуйте места преступлений, изучайте протоколы допросов и списки подозреваемых. И все это с помощью SQL-запросов к датасету.
Игра SQL Noir — интерактивный учебник по SQL в жанре детектива.
Начать расследование.
❤🔥10🔥3👏3👍1
Как зарабатывать на данных в 5 раз больше аутсайдеров: кейс Wolters Kluwer
В исследовании MIT CISR описана трансформация голландской компании Wolters Kluwer. За 20 лет традиционное издательство стало лидером в монетизации данных.
Главные цифры:
- В 2003 году 10% выручки приходилось на цифровые продукты. Остальные 90% на бумажные справочники, кодексы и учебники.
- В 2023 году 94% выручки пришлось уже на цифровые решения, 58% из которых — продукты на основе данных.
- Гендиректор Нэнси Маккинстри ежегодно инвестировала 8-10% выручки в разработку цифровых решений.
- 8% ежегодного роста компании обеспечены жесткой привязкой данных к прибыльности.
- Исследователи опросили 349 компаний. В среднем лидеры получают 11% выручки от монетизации данных, а аутсайдеры только 2%.
Разница между лидерами и аутсайдерами:
- Лидеры встраивают данные в ядро бизнес-стратегии. Аутсайдеры используют данные лишь эпизодически.
- Лидеры инвестируют в ИИ, облака и аналитику. Аутсайдеры раздувают штат и не обновляют системы.
- Лидеры измеряют ROI данных на всех этапах. Аутсайдеры не отслеживают влияние данных на прибыль.
Три рабочих стратегии превращения данных в деньги от Wolters Kluwer:
1. Топ-менеджеры должны направлять инвестиции в работу с данными и на их монетизацию. Монетизация данных должна быть частью корпоративной стратегии, а не инициативой отдельного департамента.
2. Ценность данных должна превращаться в деньги. Все продуктовые гипотезы, связанные с данными, должны строиться в жесткой привязке к монетизации. Если основанный на данных продукт не монетизируется, его надо закрывать.
3. Нужно управлять данными как активом: отслеживать их путь от создания до получения прибыли, чтобы понять, окупаются ли вложения. Это позволит понять, как данные превращаются в продукты, которые приносят деньги.
#деньги #исследования
В исследовании MIT CISR описана трансформация голландской компании Wolters Kluwer. За 20 лет традиционное издательство стало лидером в монетизации данных.
Главные цифры:
- В 2003 году 10% выручки приходилось на цифровые продукты. Остальные 90% на бумажные справочники, кодексы и учебники.
- В 2023 году 94% выручки пришлось уже на цифровые решения, 58% из которых — продукты на основе данных.
- Гендиректор Нэнси Маккинстри ежегодно инвестировала 8-10% выручки в разработку цифровых решений.
- 8% ежегодного роста компании обеспечены жесткой привязкой данных к прибыльности.
- Исследователи опросили 349 компаний. В среднем лидеры получают 11% выручки от монетизации данных, а аутсайдеры только 2%.
Разница между лидерами и аутсайдерами:
- Лидеры встраивают данные в ядро бизнес-стратегии. Аутсайдеры используют данные лишь эпизодически.
- Лидеры инвестируют в ИИ, облака и аналитику. Аутсайдеры раздувают штат и не обновляют системы.
- Лидеры измеряют ROI данных на всех этапах. Аутсайдеры не отслеживают влияние данных на прибыль.
Три рабочих стратегии превращения данных в деньги от Wolters Kluwer:
1. Топ-менеджеры должны направлять инвестиции в работу с данными и на их монетизацию. Монетизация данных должна быть частью корпоративной стратегии, а не инициативой отдельного департамента.
2. Ценность данных должна превращаться в деньги. Все продуктовые гипотезы, связанные с данными, должны строиться в жесткой привязке к монетизации. Если основанный на данных продукт не монетизируется, его надо закрывать.
3. Нужно управлять данными как активом: отслеживать их путь от создания до получения прибыли, чтобы понять, окупаются ли вложения. Это позволит понять, как данные превращаются в продукты, которые приносят деньги.
#деньги #исследования
🔥4👏3💯1
Сколько получают и чем занимаются дата-аналитики на самом деле
В таблице результаты опроса 450 дата-аналитиков. Исследование провело в 2024 году кадровое агентство NEWHR.
Что еще интересного узнали:
- Среди дата-аналитиков почти поровну мужчин (51%) и женщин (49%).
- Среди аналитиков с небольшим стажем (1-3 года) больше всего именно дата-аналитиков. Вероятно, работа с данными — лучший вход в профессию.
- Дата-аналитики самые космополитичные из аналитиков — среди них 18,5% планируют релокацию.
- 7% дата-аналитиков работают на нескольких работах.
- Среди младших грейдов дата-аналитиков 76% недавно занимались чем-то другим.
- 62,5% дата-аналитиков сменили двух и более работодателей за 2 года.
#аналитика #исследования
В таблице результаты опроса 450 дата-аналитиков. Исследование провело в 2024 году кадровое агентство NEWHR.
Что еще интересного узнали:
- Среди дата-аналитиков почти поровну мужчин (51%) и женщин (49%).
- Среди аналитиков с небольшим стажем (1-3 года) больше всего именно дата-аналитиков. Вероятно, работа с данными — лучший вход в профессию.
- Дата-аналитики самые космополитичные из аналитиков — среди них 18,5% планируют релокацию.
- 7% дата-аналитиков работают на нескольких работах.
- Среди младших грейдов дата-аналитиков 76% недавно занимались чем-то другим.
- 62,5% дата-аналитиков сменили двух и более работодателей за 2 года.
#аналитика #исследования
👍5🔥3👏1
Почему однопоточный Redis работает настолько быстро
Когда слышишь, что Redis — однопоточный, кажется невероятным, что он обрабатывает до 100 000 запросов в секунду.
Разбираемся, откуда такая скорость:
1. Хранение данных в оперативной памяти
Redis хранит данные в RAM и получает доступ к ним за наносекунды. Это исключает задержки, связанные с SSD и HDD, которые на порядки медленнее.
2. Оптимизированные под оперативку типы данных
Redis поддерживает оптимизированные структуры: строки, хэши, списки и множества. У них низкая вычислительная сложность. Так что операции выполняются без избыточной нагрузки на CPU.
3. Мультиплексирование ввода-вывода
В Redis один поток управляет тысячами клиентских подключений. Механизмы с временной сложностью отслеживают активные сокеты и снижают задержки, избегая блокировок.
4. Преимущества однопоточной модели
В однопоточной модели нет затрат на переключение контекста между потоками. Это упрощает разработку. Redis использует CPU для операций с данными в памяти, избегая проблем с параллелизмом.
Если хотите знать, когда использовать кластеризацию вместо многопоточности и как оптимизировать работу с Redis на практике, читайте лонгрид на Хабре.
#субд #статьи
Когда слышишь, что Redis — однопоточный, кажется невероятным, что он обрабатывает до 100 000 запросов в секунду.
Разбираемся, откуда такая скорость:
1. Хранение данных в оперативной памяти
Redis хранит данные в RAM и получает доступ к ним за наносекунды. Это исключает задержки, связанные с SSD и HDD, которые на порядки медленнее.
2. Оптимизированные под оперативку типы данных
Redis поддерживает оптимизированные структуры: строки, хэши, списки и множества. У них низкая вычислительная сложность. Так что операции выполняются без избыточной нагрузки на CPU.
3. Мультиплексирование ввода-вывода
В Redis один поток управляет тысячами клиентских подключений. Механизмы с временной сложностью отслеживают активные сокеты и снижают задержки, избегая блокировок.
4. Преимущества однопоточной модели
В однопоточной модели нет затрат на переключение контекста между потоками. Это упрощает разработку. Redis использует CPU для операций с данными в памяти, избегая проблем с параллелизмом.
Если хотите знать, когда использовать кластеризацию вместо многопоточности и как оптимизировать работу с Redis на практике, читайте лонгрид на Хабре.
#субд #статьи
🔥8👍3❤1
Как Давид побеждает Голиафа в математике и прочих узких областях
Языковые модели научились рассуждать. Перед финальным ответом они последовательно расширяют контекст, разбивая задачу на логические этапы и подсказывая себе промежуточные шаги.
Модели с огромным числом параметров круто продвинулись в математике и программировании.
В статье «Может ли модель с 1 млрд параметров обойти конкурента c 405 млрд?» показано, что для сложных задач в узких областях гигантские модели не нужны. Достаточно связки из двух моделей: глупого генератора и умного критика.
Генератор накидывает варианты цепочек рассуждений, а критик выбирает самую перспективную. Так можно обойтись без дообучения модели, но такой подход вычислительно более затратный. Это доказывает, что компактные модели могут решать сложные задачи.
Авторы приходят к выводу, что бесконечное увеличение параметров моделей не нужно.
Подтверждение этому — выход модели QwQ-32B от Alibaba. У нее 32 млрд параметров, а у DeepSeek R1 — 671 млрд. При этом QwQ-32B не уступает, а местами и побеждает по ключевым бенчмаркам.
Как и в DeepSeek, разработчики из Alibaba использовали обучение с подкреплением, но применяли более изощренные тактики. Это сделало модель меньше и умнее.
За комментарий спасибо Савелию Батурину, старшему инженеру по машинному обучению.
#ии #статьи
Языковые модели научились рассуждать. Перед финальным ответом они последовательно расширяют контекст, разбивая задачу на логические этапы и подсказывая себе промежуточные шаги.
Модели с огромным числом параметров круто продвинулись в математике и программировании.
В статье «Может ли модель с 1 млрд параметров обойти конкурента c 405 млрд?» показано, что для сложных задач в узких областях гигантские модели не нужны. Достаточно связки из двух моделей: глупого генератора и умного критика.
Генератор накидывает варианты цепочек рассуждений, а критик выбирает самую перспективную. Так можно обойтись без дообучения модели, но такой подход вычислительно более затратный. Это доказывает, что компактные модели могут решать сложные задачи.
Авторы приходят к выводу, что бесконечное увеличение параметров моделей не нужно.
Подтверждение этому — выход модели QwQ-32B от Alibaba. У нее 32 млрд параметров, а у DeepSeek R1 — 671 млрд. При этом QwQ-32B не уступает, а местами и побеждает по ключевым бенчмаркам.
Как и в DeepSeek, разработчики из Alibaba использовали обучение с подкреплением, но применяли более изощренные тактики. Это сделало модель меньше и умнее.
За комментарий спасибо Савелию Батурину, старшему инженеру по машинному обучению.
#ии #статьи
❤🔥5🔥4❤2
Почему опасно обучать модели на настоящих данных
В MIT изучили более 1800 наборов данных для обучения ИИ и выявили тотальные проблемы с лицензиями.
Что выяснили авторы?
- В 50% случаев наборы данных классифицированы неверно. Некоторые наборы, не предназначенные для коммерческого использования, помечались как открытые для любых целей. Это приводит к инцидентам вроде иска NYT к OpenAI.
- В 70% наборов информация о лицензии вообще отсутствовала. Это приводит к тому, что разработчики действуют вслепую и нарушают законы, даже не зная об этом.
Что делать?
В MIT предлагают использовать Data Provenance Explorer — инструмент для отслеживания происхождения данных, фильтрации по лицензиям и создания документации.
Это поможет?
Для каких-то референсных и особенно критичных датасетов это будет использоваться, но глобально — вряд ли. Постановка проблемы верная, но никаких ресурсов не хватит, чтобы таким путем ее решить. Это как разметить весь индекс Гугла вручную.
Скорее всего проблему решит не Data Provenance Explorer, а использование синтетических данных для обучения моделей. Это очевидный тренд.
За комментарий спасибо Михаилу Савину, руководителю продукта.
#ии #исследования
В MIT изучили более 1800 наборов данных для обучения ИИ и выявили тотальные проблемы с лицензиями.
Что выяснили авторы?
- В 50% случаев наборы данных классифицированы неверно. Некоторые наборы, не предназначенные для коммерческого использования, помечались как открытые для любых целей. Это приводит к инцидентам вроде иска NYT к OpenAI.
- В 70% наборов информация о лицензии вообще отсутствовала. Это приводит к тому, что разработчики действуют вслепую и нарушают законы, даже не зная об этом.
Что делать?
В MIT предлагают использовать Data Provenance Explorer — инструмент для отслеживания происхождения данных, фильтрации по лицензиям и создания документации.
Это поможет?
Для каких-то референсных и особенно критичных датасетов это будет использоваться, но глобально — вряд ли. Постановка проблемы верная, но никаких ресурсов не хватит, чтобы таким путем ее решить. Это как разметить весь индекс Гугла вручную.
Скорее всего проблему решит не Data Provenance Explorer, а использование синтетических данных для обучения моделей. Это очевидный тренд.
За комментарий спасибо Михаилу Савину, руководителю продукта.
#ии #исследования
❤🔥5👍2🔥1
Вас обманывают, когда предлагают бесплатные аналоги Bloomberg Terminal
По телеграм-каналам гуляют посты, где рассказывается про OpenBB как бесплатную альтернативу Bloomberg Terminal.
Это профанация. В реальности бесплатный OpenBB не может заменить институциональным клиентам Bloomberg Terminal, который стоит более $25 тысяч за пользователя в год.
Вот, что говорит основатель OpenBB Дидье Лопес:
Если позиции основателя OpenBB по его же продукту недостаточно, давайте разбираться по фактам:
- OpenBB полагается на новости из открытых источников, а Bloomberg на эксклюзивы от ведущих информационных агентств.
- У Bloomberg есть уникальный чат, где трейдеры и аналитики общаются в реальном времени. Многие пользователи остаются с Bloomberg именно ради взаимодействия с коллегами и конкурентами.
- Интерфейсы и данные от Bloomberg стали частью рабочих процессов в 90% инвестиционных банков. Никто никогда заменит Terminal в этих компаниях на опенсорсную альтернативу без доступа к данным.
В OpenBB и не пытаются конкурировать с Bloomberg. Это альтернатива для нишевых пользователей, которые не готовы платить по $25 тысяч за эксклюзивы новостей и финансовых показателей. Просто потому, что они на этом столько не заработают, чтобы отбить вложения.
#опенсорс
По телеграм-каналам гуляют посты, где рассказывается про OpenBB как бесплатную альтернативу Bloomberg Terminal.
Это профанация. В реальности бесплатный OpenBB не может заменить институциональным клиентам Bloomberg Terminal, который стоит более $25 тысяч за пользователя в год.
Вот, что говорит основатель OpenBB Дидье Лопес:
Рассматривать OpenBB как бесплатную замену Bloomberg Terminal — это ошибка, потому что у них слишком много данных. В мире нет другой компании, у которой было бы столько данных, сколько есть у Bloomberg.
Если позиции основателя OpenBB по его же продукту недостаточно, давайте разбираться по фактам:
- OpenBB полагается на новости из открытых источников, а Bloomberg на эксклюзивы от ведущих информационных агентств.
- У Bloomberg есть уникальный чат, где трейдеры и аналитики общаются в реальном времени. Многие пользователи остаются с Bloomberg именно ради взаимодействия с коллегами и конкурентами.
- Интерфейсы и данные от Bloomberg стали частью рабочих процессов в 90% инвестиционных банков. Никто никогда заменит Terminal в этих компаниях на опенсорсную альтернативу без доступа к данным.
В OpenBB и не пытаются конкурировать с Bloomberg. Это альтернатива для нишевых пользователей, которые не готовы платить по $25 тысяч за эксклюзивы новостей и финансовых показателей. Просто потому, что они на этом столько не заработают, чтобы отбить вложения.
#опенсорс
🔥3❤2👏1
Рентабельность вложений в DWH — 417% за 5 лет
Сделанное на деньги Оракла исследование показывает, насколько большие выгоды получает бизнес от использования Data Warehouse.
Главные инсайты в цифрах:
- ROI 417% за 5 лет.
- Сокращение расходов на управление DWH на 63% за 5 лет.
- Окупаемость 5 месяцев.
- Автоматизация задач с помощью DWH высвободила 68% времени у администраторов БД.
- Аналитики стали выполнять на 75% больше запросов ежедневно. Время на выполнение одного запроса сократилось на 82%.
- Продуктивность аналитиков выросла на 27%, а разработчиков на 33%.
Это были цифры из исследования. Теперь подключаем критическое мышление.
В разделе о методологии исследования упоминается опрос 10 компаний, а основные результаты приведены лишь для 7. Это наводит на мысли, что за бортом остались данные, не подтверждающие желаемых результатов. Хотя, может быть дело и в конфиденциальности.
Проблемы с выборкой:
- Глобальные выводы по результатам 7 компаний сделать невозможно.
- Все участники опросов уже использовали продукты Оракла, что могло повлиять на легкость и цену внедрения.
- Есть проблемы с усреднением. Среднее число сотрудников в компаниях из исследования — 5156. При этом в самой крупной их аж 15500, а в самой маленькой всего 38.
Считаем, что DWH, конечно, помогают компаниям экономить и зарабатывать. Однако Оракл чересчур приукрасил результаты исследования, чтобы привлечь клиентов.
#деньги #исследования
Сделанное на деньги Оракла исследование показывает, насколько большие выгоды получает бизнес от использования Data Warehouse.
Главные инсайты в цифрах:
- ROI 417% за 5 лет.
- Сокращение расходов на управление DWH на 63% за 5 лет.
- Окупаемость 5 месяцев.
- Автоматизация задач с помощью DWH высвободила 68% времени у администраторов БД.
- Аналитики стали выполнять на 75% больше запросов ежедневно. Время на выполнение одного запроса сократилось на 82%.
- Продуктивность аналитиков выросла на 27%, а разработчиков на 33%.
Это были цифры из исследования. Теперь подключаем критическое мышление.
В разделе о методологии исследования упоминается опрос 10 компаний, а основные результаты приведены лишь для 7. Это наводит на мысли, что за бортом остались данные, не подтверждающие желаемых результатов. Хотя, может быть дело и в конфиденциальности.
Проблемы с выборкой:
- Глобальные выводы по результатам 7 компаний сделать невозможно.
- Все участники опросов уже использовали продукты Оракла, что могло повлиять на легкость и цену внедрения.
- Есть проблемы с усреднением. Среднее число сотрудников в компаниях из исследования — 5156. При этом в самой крупной их аж 15500, а в самой маленькой всего 38.
Считаем, что DWH, конечно, помогают компаниям экономить и зарабатывать. Однако Оракл чересчур приукрасил результаты исследования, чтобы привлечь клиентов.
#деньги #исследования
👍4❤🔥2🔥2
Forwarded from Data Science. SQL hub
В современном мире защиты данных крайне важно, чтобы пароли не хранились в виде обычного текста. Вместо этого используются их «закодированные отпечатки» – хеши, полученные в результате специального процесса хеширования. Это гарантирует, что даже при компрометации базы данных злоумышленник не сможет восстановить исходный пароль.
📌 Как это работает:
• При регистрации пароль проходит хеширование с применением современных алгоритмов (например, bcrypt, scrypt или Argon2), часто с добавлением уникальной соли для каждого пользователя.
• При авторизации введённый пароль снова хешируется, и полученный хеш сравнивается с тем, что хранится в базе. Совпадение означает, что введённый пароль верный.
📌 Почему так делают:
• Безопасность: Даже если база будет взломана, злоумышленник увидит лишь набор случайных символов, из которых восстановить оригинальный пароль практически невозможно.
• Секретность: Администраторы системы не имеют доступа к исходным паролям – хеши необратимы.
• Надёжность: Использование соли и, при необходимости, перца, значительно усложняет атаки с помощью радужных таблиц и повышает общую стойкость системы.
В итоге, пароли в базах данных – это не сами пароли, а их «отпечатки», которые можно сравнивать, но никак не восстановить. Этот подход напоминает замок, который открывается лишь при наличии правильного ключа, при этом сам ключ нигде не хранится.
#базыданных #безопасность #хеширование #пароли
@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1🔥1