Progres Post
274 subscribers
37 photos
1 video
16 files
186 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Государство будет следить за каждым шагом, буквально

Минцифры создает на платформе «Гостех» сервис для сбора и обработки обезличенных геотреков абонентов от операторов мобильной связи.

На прошедшей 11-13 декабря международной конференции по ИИ Artificial Intelligence Journey 2024 глава Минцифры Максут Шадаев заявил, что сервис могут запустить уже в начале 2025 года.

В 2023 году Максут Шадаев подчеркивал:

Государство должно иметь возможность для цели госуправления получать бесплатно данные от бизнеса. Обезличенные геотреки позволяют регионам планировать, где лучше построить дороги, где школ не хватает, как оптимально выстроить маршруты общественного транспорта. Государство получает доступ к этим данным, чтобы повышать качество жизни граждан. Мы эти данные продавать не собираемся, мы берем эти данные для собственных целей.


Кстати.

В опубликованной на сайте Росавтодора транспортной стратегии РФ на период до 2030 года словосочетание большие данные упоминается 5 раз за 285 страниц — много это или мало, судите сами.

Пропадут ли в районах типа Некрасовки бомбилы по 70₽ на фоне того, что автобусные маршруты и дороги будут прокладывать с учетом геотреков жителей?
😱2
Маркетологи утопают в данных, не получая инсайтов

Маркетологи собирают все больше данных, но это не помогает принимать решения — скорее наоборот. Разбираем главные тренды и выводы отчета Supermetrics.

Что происходит?

- За 4 года объем используемых маркетологами данных вырос на 230%.

- 56% маркетологов говорят, что у них нет времени на полноценный анализ данных.

- 32% смотрят маркетинговые отчеты раз в месяц или реже.

- 38% испытывают трудности из-за отсутствия интеграции данных и инструментов отчетности.

Что делать?

Самый очевидный вариант — внедрять ИИ, 57% маркетинговых лидеров рассчитывают на нейросети, делегируя им работу с данными.

Еще один важный момент, на котором в Supermetrics заостряют внимание — наступление эры без cookies.

Третьесторонние cookies (те, что отслеживают пользователей между сайтами) постепенно уходят в прошлое. GDPR, Apple, а теперь и Google сокращают возможности трекинга, чтобы защитить данные пользователей. В 2024 году Google начал отключать third-party cookies в Chrome, а в 2025-м планирует убрать их полностью.

По данным Supermetrics, 66% маркетологов ожидают сложностей с отслеживанием поведения пользователей. Растет необходимость перехода на новые методы: first-party data, zero-party data, privacy sandbox, контекстный таргетинг и все такое.

Не гонитесь за количеством данных — сосредоточьтесь на их качестве. Важно не собирать тонны информации, а фокусироваться на ключевых метриках.
🔥1
Больших данных все больше

Краткие факты:

- 400 млн терабайт данных создается ежедневно, это 150 зеттабайт в год.

- Больше 50% всех данных в интернете — видео.

- 90% всех данных в мире было создано за последние 2 года.

- За 10 лет общий объем данных увеличился в 66 раз.

- В США в 10 раз больше дата-центров, чем в любой другой стране — 5388, в России их 251 — это 9 место в мире.

- В мире 60% компаний использовали большие данные для внедрения инноваций, а 40% компаний управляют данными как бизнес-активом.

Источники: Exploding Topics, Statista, Cloudscene
👍5
Яндекс выложил в открытый доступ код YandexGPT-5-Lite

Pro-версия нового поколения моделей уже работает в Алисе и доступна по API в Yandex Cloud. В открытый доступ попала только pretrain-версия YandexGPT-5-Lite на 8 млрд параметров с длиной контекста 32 тысячи токенов.

Про последнюю и поговорим.

Как обучали модель?

На первом этапе модель обучалась на текстах общим объемом 15 трлн токенов с длиной контекста 8 тысяч токенов. Более 70% датасета составляли материалы на русском.

Состав датасета:

60% — веб-страницы
15% — код
15% — синтетика и датасеты сервисов Яндекса
10% — математика

На втором этапе, который в Яндексе называют Powerup, модель обучалась на высококачественных данных объемом 320 млрд токенов с длиной контекста 32 тысячи токенов.

Состав Powerup-датасета:

25% — веб-страницы
20% — синтетика, датасеты сервисов и качественные тексты
19% — математика
18% — код
18% — образовательные данные

В Яндексе обращают внимание на оптимизацию токенизатора под русский язык. Так что 32 тысячи токенов этой модели соответствуют примерно 48 тысячам токенов Qwen-2,5.

У модели llama-like архитектура, так что ее легко можно обучить под свои задачи с помощью большинства существующих фреймворков, например, torchtune.

Модель уже доступна на Hugging Face, там же можно посмотреть на результаты бенчмарков. Подробный разбор новой версии читайте в блоге Яндекса на Хабре.
❤‍🔥5🔥1👏1
Запросы на естественном языке вытеснят SQL уже в 2026 году

По прогнозу Gartner, к 2026 году естественный язык станет основным способом работы с данными. Прогноз больно уж оптимистичный, но тренд реален. Разбираемся в предпосылках революции и ее перспективах.

Какие есть предпосылки?

- Рост объемов данных. SQL хорош, но писать сложные запросы становится все более трудоемко, особенно при работе с распределенными хранилищами типа Data Lakes, Lakehouses и Data Fabric.

- Популярность генеративных моделей. Нейросети уже умеют преобразовывать запросы на естественном языке в SQL. И будут делать это все лучше.

- Снижение порога входа. Простой доступ к данным хотят получать не только аналитики и инженеры, но и обычные пользователи без знания SQL — маркетологи, финансисты и менеджеры.

Что может пойти не так?

- Неоптимизированные SQL-запросы, сгенерированные нейросетями, могут перегружать базы данных.

- Нейросети могут неправильно интерпретировать структуру данных, от чего может страдать точность запросов. Это сильно повышает требования к управлению метаданными.

- Если дать всем пользователям свободный доступ к данным через запросы на естественном языке, это ударит по безопасности и повысит риск утечек.

Какого будущего ждать?

SQL был и остается ключевым языком работы с данными, но мы наблюдаем тренд, который может все изменить. SQL не умрет, но станет бэкендом для интерфейсов на естественном языке.

Роль инженеров изменится, вместо написания SQL-запросов они будут настраивать модели, управлять метаданными и обучать ИИ.
🔥8🥱43👍2
Рынок инфраструктуры для высоконагруженных систем оценили в 1,3 трлн

Группа компаний Б1 и агентство HeadWork Analytics опубликовали исследование рынка инфраструктуры для высоконагруженных информационных систем (ИВНС) и программно-аппаратных комплексов (ПАК) для них.

Главное из исследования:

- По итогам 2024 года рынок ИВНС оценивается в 560 млрд рублей, а к 2030 году он вырастет до 1,3 трлн. Среднегодовой темп роста — 15%.

- В 2024 году на ПАК приходилось 17% рынка ИВНС — 96 млрд рублей. К 2030 году их доля вырастет до 22% и составит 287 млрд. Среднегодовой темп роста — 20%.

- В 2024 году доля российских ПАК на рынке составила 18%, а к 2030 году она вырастет до 45% за счет господдержки и роста доверия к отечественным разработкам.

Развитие цифровых сервисов перегружает айти-инфраструктуру, что заставляет сегмент ИВНС расти быстрее остального айти-рынка.
👍3🔥3😱2
Топ 7 проектов 2024 года по визуализации данных

Отвлекитесь от работы с данными и поиграйтесь с данными.

1. Parallel Lives
Скролим таймлайн и смотрим, какие известные люди жили на планете одновременно.

2. A torrent of trash
Как выглядят тысячи воздушных шаров с мусором, которые Северная Корея запустила на территорию Южной.

3. The United States of Abortion Mazes
Проходим лабиринты, чтобы сделать аборт в разных американских штатах. Попробуйте найти выход в Техасе.

4. When A.I.’s Output Is a Threat to A.I. Itself
Нейросети создают все больше контента. Его все труднее отличить от контента, созданного людьми. Смотрим, что будет, если ИИ продолжит учиться на созданных им же текстах.

5. I shrink 10x every 21s until I’m an atom
Посмотрите это со своими детьми. Что будет, если раз в 21 секунду уменьшаться в 10 раз. Крутой фильм про относительные размеры.

6. Your Name In Landsat
Составьте свое имя или любое слово из рек, лесов и гор со спутниковых снимков NASA.

7. Climate—Conflict—Vulnerability Index
Узнайте, где на планете прямо сейчас высокий риск пожаров и наводнений, где выше всего рождаемость, в каких регионах гендерное неравенство — норма жизни, а где повышенный риск циклонов.
🔥64👍3
Переход с HDD и SSD на LTO экономит до 50%

От 80% до 90% всей информации в интернете — архивные данные. Шанс, что они пригодятся после 90 дней хранения — 1%. Однако их все-таки нужно хранить, а это стоит денег.

Ради экономии дата-центры по всему миру переходят на ленточные накопители (LTO) вместо жестких дисков (HDD) и твердотельных накопителей (SSD).

Главное про ленточные хранилища:

- LTO служат по 30 лет, когда HDD только 4-5, а SSD — 5-10 лет.

- Объем LTO растет быстрее, чем увеличивается память HDD и SSD.

- LTO быстрее: HDD выдают до 150 МБ/с при чтении и записи, а LTO до 1000 МБ/с при чтении и до 400 МБ/с при записи.

Насколько дешевле хранить архивы на ленте?

Брэд Джонс из IBM посчитал:

За 10 лет дата-центр, использующий жесткие диски на 100 ПБ, потратит на электричество, ремонт и замену оборудования $17,7 млн.

Если бы этот же дата-центр использовал ленточные хранилища, то потратил бы почти вдвое меньше — $9,5 млн.

Есть и экологическая составляющая. Если переписать всю информацию, которая не используется каждый день, на ленточные носители, это снизит выбросы углекислого газа в атмосферу на 58%. Это 80 млн тонн в год.

Кто-то уже так делает?

Тренд реален:

В первом квартале 2023 года продажи ленточных хранилищ выросли на 5%, а продажи жестких дисков рухнули на 35%.

Среди компаний, использующих ленты, 80% отмечают долговечность, экономию электричества и простоту транспортировки накопителей из одного офиса в другой.

Источники: Tom's Hardware, CNews, Киберпротект
🔥8👏5👍1
DeepSeek выкатила очень быстрый фреймворк для дата-процессинга

Китайцы опубликовали фреймворк Smallpond на базе DuckDB и распределенной файловой системы 3FS.

Заявленные преимущества:

- Сверхбыстро обрабатывает данные.

- Легко масштабируется для работы с петабайтами данных.

- Не требует постоянных фоновых процессов.

Результаты теста:

- За 30 минут 14 секунд отсортировано 110,4 ТиБ данных.

- Средняя пропускная способность — 3,66 ТиБ/мин. Это 20 фильмов в 4К каждую секунду.

Тест проводили с помощью GraySort на кластере, состоящем из 50 вычислительных узлов и 25 узлов хранения, работающих под управлением 3FS.

Подробности теста смотрите на Гитхабе.
🔥10👍5❤‍🔥3
На смену пандам и полярным мишкам приходят утки

Pandas — самая популярная библиотека для обработки данных, но она уже давно страдает низкой производительностью.

Альтернативы типа Polars решают проблемы с производительностью, но переход на них требует изучения нового API.

FireDucks быстрее и предлагает полную совместимость с Pandas, а еще — многопоточную обработку и ускорение работы компилятора.

Для перехода с Pandas на FireDucks достаточно одной строки:


import fireducks.pandas as pd


- Скорость подтверждается бенчмарками.

- Сравнение FireDucks с Pandas и Polars.

- FireDucks на Гитхабе.
👍7🔥7👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Гугл выкатил ИИ для создания полноценных рабочих блокнотов в Colab

ИИ сам пишет код на пайтоне, создает блокноты, визуализирует данные и предлагает пошаговое решение.

Можно быстро писать запросы на естественном языке и получать результаты. На выходе получается готовый проект с кодом и графиками.

- Не нужна настройка.

- Бесплатный доступ к графическим процессорам.

- Блокноты хранятся в ваших гуглдоках.

- Можно загружать датасеты объемом до 1 ГБ.

Если не боитесь делиться датасетами с Гуглом, пробуйте.

Это еще один шаг в сторону запросов к БД на естественном языке. От рутины такой ИИ-ассистент спасет. Однако от необходимости учить SQL для более-менее сложных задач пока никуда не деться.
❤‍🔥33🤔3
Посмотрите за 15 минут сразу 3 доклада по базам данных

На нормальной скорости, не 2х и даже не 1,5х.

HYTRADBOI — онлайн-конференция с докладами длиной до 10 минут о базах данных и программировании.

Публикуем синопсисы первых трех докладов:

1. Shapeshifter: using LLMs inside a database for schema flexibility / 2:55

Shapeshifter — прототип базы данных, которая самостоятельно управляет эволюцией схемы и преобразованиями запросов с помощью LLM.

При незначительных изменениях (например, добавлении необязательных полей) схема мягко эволюционирует. В сложных случаях (смена типа данных, миграция) LLM выбирает стратегию — от преобразования входящих документов до полного обновления структуры данных.

Shapeshifter встраивает LLM в ядро системы, а не использует его как внешний слой для перевода запросов с естественного языка на SQL.

2. Good thing we're not writing a database / 8:43

Automerge — не база данных, а документное хранилище, построенное на конфликтобезопасных реплицируемых типах данных (CRDT). Оно не следует правилам ACID, SQL или CAP-теоремы, делая ставку на доступность и устойчивость к сетевым сбоям.

Это как если бы git был построен на потоковой передаче правок в JSON-файлы в реальном времени.

3. pghttp: backend-free, lowest latency web apps / 2:34

Небольшой доклад про reverse proxy, позволяющий рассматривать PostgreSQL как базу с параметризованным http-интерфейсом.

Pghttp позволяет создавать веб-приложения без серверной части, преобразовывая двоичный протокол Postgres в HTTP. Веб-приложения pghttp передают запросы Postgres и интерпретируют ответы в формате двоичного протокола. Прокси-сервер преобразует бинарный протокол Postgres в HTTP и обратно.

Клиентское приложение безопасно взаимодействует с базой данных в стиле клиент-сервер, но модернизированном для использования HTTP/2, HTTP/3 и QUIC. Можно думать об этом как о FCGI для баз данных, только быстрее и мощнее.

Все видео с конференции доступны на сайте.

За комментарии спасибо Михаилу Савину.
👍6🔥2👏1
Наденьте шляпу и станьте детективом, чтобы изучить SQL

Исследуйте места преступлений, изучайте протоколы допросов и списки подозреваемых. И все это с помощью SQL-запросов к датасету.

Игра SQL Noir — интерактивный учебник по SQL в жанре детектива.

Начать расследование.
❤‍🔥10🔥3👏3👍1
Как зарабатывать на данных в 5 раз больше аутсайдеров: кейс Wolters Kluwer

В исследовании MIT CISR описана трансформация голландской компании Wolters Kluwer. За 20 лет традиционное издательство стало лидером в монетизации данных.

Главные цифры:

- В 2003 году 10% выручки приходилось на цифровые продукты. Остальные 90% на бумажные справочники, кодексы и учебники.

- В 2023 году 94% выручки пришлось уже на цифровые решения, 58% из которых — продукты на основе данных.

- Гендиректор Нэнси Маккинстри ежегодно инвестировала 8-10% выручки в разработку цифровых решений.

- 8% ежегодного роста компании обеспечены жесткой привязкой данных к прибыльности.

- Исследователи опросили 349 компаний. В среднем лидеры получают 11% выручки от монетизации данных, а аутсайдеры только 2%.

Разница между лидерами и аутсайдерами:

- Лидеры встраивают данные в ядро бизнес-стратегии. Аутсайдеры используют данные лишь эпизодически.

- Лидеры инвестируют в ИИ, облака и аналитику. Аутсайдеры раздувают штат и не обновляют системы.

- Лидеры измеряют ROI данных на всех этапах. Аутсайдеры не отслеживают влияние данных на прибыль.

Три рабочих стратегии превращения данных в деньги от Wolters Kluwer:

1. Топ-менеджеры должны направлять инвестиции в работу с данными и на их монетизацию. Монетизация данных должна быть частью корпоративной стратегии, а не инициативой отдельного департамента.

2. Ценность данных должна превращаться в деньги. Все продуктовые гипотезы, связанные с данными, должны строиться в жесткой привязке к монетизации. Если основанный на данных продукт не монетизируется, его надо закрывать.

3. Нужно управлять данными как активом: отслеживать их путь от создания до получения прибыли, чтобы понять, окупаются ли вложения. Это позволит понять, как данные превращаются в продукты, которые приносят деньги.

#деньги #исследования
🔥4👏3💯1
Сколько получают и чем занимаются дата-аналитики на самом деле

В таблице результаты опроса 450 дата-аналитиков. Исследование провело в 2024 году кадровое агентство NEWHR.

Что еще интересного узнали:

- Среди дата-аналитиков почти поровну мужчин (51%) и женщин (49%).

- Среди аналитиков с небольшим стажем (1-3 года) больше всего именно дата-аналитиков. Вероятно, работа с данными — лучший вход в профессию.

- Дата-аналитики самые космополитичные из аналитиков — среди них 18,5% планируют релокацию.

- 7% дата-аналитиков работают на нескольких работах.

- Среди младших грейдов дата-аналитиков 76% недавно занимались чем-то другим.

- 62,5% дата-аналитиков сменили двух и более работодателей за 2 года.

#аналитика #исследования
👍5🔥3👏1
Почему однопоточный Redis работает настолько быстро

Когда слышишь, что Redis — однопоточный, кажется невероятным, что он обрабатывает до 100 000 запросов в секунду.

Разбираемся, откуда такая скорость:

1. Хранение данных в оперативной памяти

Redis хранит данные в RAM и получает доступ к ним за наносекунды. Это исключает задержки, связанные с SSD и HDD, которые на порядки медленнее.

2. Оптимизированные под оперативку типы данных

Redis поддерживает оптимизированные структуры: строки, хэши, списки и множества. У них низкая вычислительная сложность. Так что операции выполняются без избыточной нагрузки на CPU.

3. Мультиплексирование ввода-вывода

В Redis один поток управляет тысячами клиентских подключений. Механизмы с временной сложностью отслеживают активные сокеты и снижают задержки, избегая блокировок.

4. Преимущества однопоточной модели

В однопоточной модели нет затрат на переключение контекста между потоками. Это упрощает разработку. Redis использует CPU для операций с данными в памяти, избегая проблем с параллелизмом.

Если хотите знать, когда использовать кластеризацию вместо многопоточности и как оптимизировать работу с Redis на практике, читайте лонгрид на Хабре.

#субд #статьи
🔥8👍31
Как Давид побеждает Голиафа в математике и прочих узких областях

Языковые модели научились рассуждать. Перед финальным ответом они последовательно расширяют контекст, разбивая задачу на логические этапы и подсказывая себе промежуточные шаги.

Модели с огромным числом параметров круто продвинулись в математике и программировании.

В статье «Может ли модель с 1 млрд параметров обойти конкурента c 405 млрд?» показано, что для сложных задач в узких областях гигантские модели не нужны. Достаточно связки из двух моделей: глупого генератора и умного критика.

Генератор накидывает варианты цепочек рассуждений, а критик выбирает самую перспективную. Так можно обойтись без дообучения модели, но такой подход вычислительно более затратный. Это доказывает, что компактные модели могут решать сложные задачи.

Авторы приходят к выводу, что бесконечное увеличение параметров моделей не нужно.

Подтверждение этому — выход модели QwQ-32B от Alibaba. У нее 32 млрд параметров, а у DeepSeek R1 — 671 млрд. При этом QwQ-32B не уступает, а местами и побеждает по ключевым бенчмаркам.

Как и в DeepSeek, разработчики из Alibaba использовали обучение с подкреплением, но применяли более изощренные тактики. Это сделало модель меньше и умнее.

За комментарий спасибо Савелию Батурину, старшему инженеру по машинному обучению.

#ии #статьи
❤‍🔥5🔥42
Почему опасно обучать модели на настоящих данных

В MIT изучили более 1800 наборов данных для обучения ИИ и выявили тотальные проблемы с лицензиями.

Что выяснили авторы?

- В 50% случаев наборы данных классифицированы неверно. Некоторые наборы, не предназначенные для коммерческого использования, помечались как открытые для любых целей. Это приводит к инцидентам вроде иска NYT к OpenAI.

- В 70% наборов информация о лицензии вообще отсутствовала. Это приводит к тому, что разработчики действуют вслепую и нарушают законы, даже не зная об этом.

Что делать?

В MIT предлагают использовать Data Provenance Explorer — инструмент для отслеживания происхождения данных, фильтрации по лицензиям и создания документации.

Это поможет?

Для каких-то референсных и особенно критичных датасетов это будет использоваться, но глобально — вряд ли. Постановка проблемы верная, но никаких ресурсов не хватит, чтобы таким путем ее решить. Это как разметить весь индекс Гугла вручную.

Скорее всего проблему решит не Data Provenance Explorer, а использование синтетических данных для обучения моделей. Это очевидный тренд.

За комментарий спасибо Михаилу Савину, руководителю продукта.

#ии #исследования
❤‍🔥5👍2🔥1
Вас обманывают, когда предлагают бесплатные аналоги Bloomberg Terminal

По телеграм-каналам гуляют посты, где рассказывается про OpenBB как бесплатную альтернативу Bloomberg Terminal.

Это профанация. В реальности бесплатный OpenBB не может заменить институциональным клиентам Bloomberg Terminal, который стоит более $25 тысяч за пользователя в год.

Вот, что говорит основатель OpenBB Дидье Лопес:

Рассматривать OpenBB как бесплатную замену Bloomberg Terminal — это ошибка, потому что у них слишком много данных. В мире нет другой компании, у которой было бы столько данных, сколько есть у Bloomberg.


Если позиции основателя OpenBB по его же продукту недостаточно, давайте разбираться по фактам:

- OpenBB полагается на новости из открытых источников, а Bloomberg на эксклюзивы от ведущих информационных агентств.

- У Bloomberg есть уникальный чат, где трейдеры и аналитики общаются в реальном времени. Многие пользователи остаются с Bloomberg именно ради взаимодействия с коллегами и конкурентами.

- Интерфейсы и данные от Bloomberg стали частью рабочих процессов в 90% инвестиционных банков. Никто никогда заменит Terminal в этих компаниях на опенсорсную альтернативу без доступа к данным.

В OpenBB и не пытаются конкурировать с Bloomberg. Это альтернатива для нишевых пользователей, которые не готовы платить по $25 тысяч за эксклюзивы новостей и финансовых показателей. Просто потому, что они на этом столько не заработают, чтобы отбить вложения.

#опенсорс
🔥32👏1
Рентабельность вложений в DWH — 417% за 5 лет

Сделанное на деньги Оракла исследование показывает, насколько большие выгоды получает бизнес от использования Data Warehouse.

Главные инсайты в цифрах:

- ROI 417% за 5 лет.

- Сокращение расходов на управление DWH на 63% за 5 лет.

- Окупаемость 5 месяцев.

- Автоматизация задач с помощью DWH высвободила 68% времени у администраторов БД.

- Аналитики стали выполнять на 75% больше запросов ежедневно. Время на выполнение одного запроса сократилось на 82%.

- Продуктивность аналитиков выросла на 27%, а разработчиков на 33%.

Это были цифры из исследования. Теперь подключаем критическое мышление.

В разделе о методологии исследования упоминается опрос 10 компаний, а основные результаты приведены лишь для 7. Это наводит на мысли, что за бортом остались данные, не подтверждающие желаемых результатов. Хотя, может быть дело и в конфиденциальности.

Проблемы с выборкой:

- Глобальные выводы по результатам 7 компаний сделать невозможно.

- Все участники опросов уже использовали продукты Оракла, что могло повлиять на легкость и цену внедрения.

- Есть проблемы с усреднением. Среднее число сотрудников в компаниях из исследования — 5156. При этом в самой крупной их аж 15500, а в самой маленькой всего 38.

Считаем, что DWH, конечно, помогают компаниям экономить и зарабатывать. Однако Оракл чересчур приукрасил результаты исследования, чтобы привлечь клиентов.

#деньги #исследования
👍4❤‍🔥2🔥2