Progres Post – Telegram

Progres Post

301 subscribers

39 photos

1 video

17 files

204 links

Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism

Download Telegram

About

Blog

Apps

Platform

301 subscribers

Channel created

14:41

Нету тела — нету дела, нет данных — нет проблем

Как такой подход помогает защищать пользовательские данные, рассказала Татьяна Фомина, директор по информационным технологиям и кибербезопасности HeadHunter.

На вопрос «Каких стандартов и мер в области обработки и хранения данных вы придерживаетесь?» Татьяна ответила:

Мы придерживаемся подхода: «Нет данных – нет проблем». Он предполагает подготовку обезличенных и безопасных данных, которые учитывают аналитические потребности сотрудников, но не представляют угрозы для компании.

Помимо уже известных методов, таких как маскировка данных, мы рассматриваем и более продвинутые технологии, например перемешивание. Снижаем поверхность атаки: доступ получают только те, кому действительно необходимы данные из продакшн-контуров.

В HeadHunter считают, что лучшее средство борьбы с утечками — ограничение доступа. Нечего раздавать права кому попало, если потом не хотите оправдываться перед пользователями и органами за утечку.

Если ищете решение для контроля доступа привилегированных пользователей, читайте полный текст интервью на сайте ITSec. В нем Татьяна рассказывает про опыт HeadHunter в работе с PAM-системой от российского разработчика «Индид».

❤‍🔥3

116 views14:00

Новые штрафы за утечку данных

С 30 мая 2025 года введут новые штрафы за утечку персональных данных. Рассказываем, сколько и за что придется заплатить, если у вас проблемы с безопасностью.

Если утечка затронула от 1 до 10 тысяч человек:

- от 100 до 200 тысяч для физлиц
- от 3 до 5 млн для ИП и юрлиц

Если утечка затронула свыше 100 тысяч человек:

- от 300 до 400 тысяч для физлиц
- от 400 до 600 тысяч для должностных лиц
- от 10 до 15 млн для ИП и юрлиц

Штрафы за повторные нарушения могут составлять от 20 до 500 млн.

Если не уведомить Роскомнадзор об утечке за 24 часа, получите дополнительный штраф:

- от 50 до 100 тысяч для физлиц
- от 400 до 800 тысяч для должностных лиц
- от 1 до 3 млн для ИП и юрлиц

За утечку биометрических данных штрафы еще выше:

- от 400 до 500 тысяч для физлиц
- от 1,3 до 1,5 млн для должностных лиц
- от 15 до 20 млн для ИП и юрлиц

За повторную утечку биометрии минимальный штраф — 25 млн, а максимальный — 500 млн.

Защита данных — не формальная юридическая обязанность, а фактор риска. Будьте внимательны, следите за изменениями закона.

👍3🤯2

153 views14:01

Специалисты по данным разбогатеют в 2025 году

Редактору канала в день рождения зарплату не подняли, и он решил хоть за кого-то порадоваться. Отовсюду приходят новости, что зарплаты специалистов по данным растут — их гонорары в Японии и США выросли на 18% за год.

За чей счет банкет?

За счет роста рынка монетизации данных с $3,6 млрд в 2023 до $12,4 млрд к 2030 году. На рынок приходят игроки, которые понимают, что данные — новая нефть. Набурили скважин и начинают качать. Ну и работникам скважин тоже достанется немного недр.

Если хотите стать специалистом по данным или нанять такого специалиста, читайте лонгрид про карьеру в этой области на LinkedIn.

👍3

132 views14:01

Нейросеть научили предсказывать эмоции зрителей на рекламу

В журнале Nature вышла статья о предсказании эмоций зрителей на видеорекламу. Группа исследователей обучила нейросеть анализировать видео и предсказывать, какие эмоции оно вызовет. Они использовали 30 000 роликов, разметку каждого из которых сделали 75 человек. Всего накопилось 2,3 млн эмоциональных меток.

Какие результаты?

- Эмоциональную реакцию на видео можно предсказать без человека.

- Эмоциональные скачки помогают оценивать эффективность рекламы. Скачок — это резкий рост интенсивности отдельной эмоции в течение короткого фрагмента видео. В половине роликов, получивших наивысшую оценку, был хотя бы один эмоциональный скачок.

- Эмоции счастья, радости, страха, грусти и удивления предсказываются лучше прочих — с вероятностью 40-60%, что существенно выше случайного угадывания.

Кому и зачем это надо?

- Креативные агентства смогут оптимизировать написание сценариев, предсказывая эмоциональную реакцию на ролики, которые еще даже не сняты.

- Компании смогут тестировать рекламу еще до выпуска роликов.

- Маркетологи получили обученную модель и одно из крупнейших размеченных хранилищ данных о восприятии видео — 2,3 млн эмоций.

- Стартапы в области психологии получили инструмент, который можно научить распознавать эмоции не хуже, чем это делают сами люди.

- Все, кто работает с большими данными, могут перенять опыт и научиться анализировать видео без предварительной ручной разметки.

Хотите использовать результаты? Обученная модель доступна в репозитории на Гитхабе. Чтобы получить архив роликов, пишите на [email protected] автору исследования.

❤‍🔥2👍2

175 views14:01

Государство будет следить за каждым шагом, буквально

Минцифры создает на платформе «Гостех» сервис для сбора и обработки обезличенных геотреков абонентов от операторов мобильной связи.

На прошедшей 11-13 декабря международной конференции по ИИ Artificial Intelligence Journey 2024 глава Минцифры Максут Шадаев заявил, что сервис могут запустить уже в начале 2025 года.

В 2023 году Максут Шадаев подчеркивал:

Государство должно иметь возможность для цели госуправления получать бесплатно данные от бизнеса. Обезличенные геотреки позволяют регионам планировать, где лучше построить дороги, где школ не хватает, как оптимально выстроить маршруты общественного транспорта. Государство получает доступ к этим данным, чтобы повышать качество жизни граждан. Мы эти данные продавать не собираемся, мы берем эти данные для собственных целей.

Кстати.

В опубликованной на сайте Росавтодора транспортной стратегии РФ на период до 2030 года словосочетание большие данные упоминается 5 раз за 285 страниц — много это или мало, судите сами.

Пропадут ли в районах типа Некрасовки бомбилы по 70₽ на фоне того, что автобусные маршруты и дороги будут прокладывать с учетом геотреков жителей?

😱2

167 views14:01

Маркетологи утопают в данных, не получая инсайтов

Маркетологи собирают все больше данных, но это не помогает принимать решения — скорее наоборот. Разбираем главные тренды и выводы отчета Supermetrics.

Что происходит?

- За 4 года объем используемых маркетологами данных вырос на 230%.

- 56% маркетологов говорят, что у них нет времени на полноценный анализ данных.

- 32% смотрят маркетинговые отчеты раз в месяц или реже.

- 38% испытывают трудности из-за отсутствия интеграции данных и инструментов отчетности.

Что делать?

Самый очевидный вариант — внедрять ИИ, 57% маркетинговых лидеров рассчитывают на нейросети, делегируя им работу с данными.

Еще один важный момент, на котором в Supermetrics заостряют внимание — наступление эры без cookies.

Третьесторонние cookies (те, что отслеживают пользователей между сайтами) постепенно уходят в прошлое. GDPR, Apple, а теперь и Google сокращают возможности трекинга, чтобы защитить данные пользователей. В 2024 году Google начал отключать third-party cookies в Chrome, а в 2025-м планирует убрать их полностью.

По данным Supermetrics, 66% маркетологов ожидают сложностей с отслеживанием поведения пользователей. Растет необходимость перехода на новые методы: first-party data, zero-party data, privacy sandbox, контекстный таргетинг и все такое.

Не гонитесь за количеством данных — сосредоточьтесь на их качестве. Важно не собирать тонны информации, а фокусироваться на ключевых метриках.

🔥1

256 views14:01

Больших данных все больше

Краткие факты:

- 400 млн терабайт данных создается ежедневно, это 150 зеттабайт в год.

- Больше 50% всех данных в интернете — видео.

- 90% всех данных в мире было создано за последние 2 года.

- За 10 лет общий объем данных увеличился в 66 раз.

- В США в 10 раз больше дата-центров, чем в любой другой стране — 5388, в России их 251 — это 9 место в мире.

- В мире 60% компаний использовали большие данные для внедрения инноваций, а 40% компаний управляют данными как бизнес-активом.

Источники: Exploding Topics, Statista, Cloudscene

👍5

313 views14:01

Яндекс выложил в открытый доступ код YandexGPT-5-Lite

Pro-версия нового поколения моделей уже работает в Алисе и доступна по API в Yandex Cloud. В открытый доступ попала только pretrain-версия YandexGPT-5-Lite на 8 млрд параметров с длиной контекста 32 тысячи токенов.

Про последнюю и поговорим.

Как обучали модель?

На первом этапе модель обучалась на текстах общим объемом 15 трлн токенов с длиной контекста 8 тысяч токенов. Более 70% датасета составляли материалы на русском.

Состав датасета:

60% — веб-страницы
15% — код
15% — синтетика и датасеты сервисов Яндекса
10% — математика

На втором этапе, который в Яндексе называют Powerup, модель обучалась на высококачественных данных объемом 320 млрд токенов с длиной контекста 32 тысячи токенов.

Состав Powerup-датасета:

25% — веб-страницы
20% — синтетика, датасеты сервисов и качественные тексты
19% — математика
18% — код
18% — образовательные данные

В Яндексе обращают внимание на оптимизацию токенизатора под русский язык. Так что 32 тысячи токенов этой модели соответствуют примерно 48 тысячам токенов Qwen-2,5.

У модели llama-like архитектура, так что ее легко можно обучить под свои задачи с помощью большинства существующих фреймворков, например, torchtune.

Модель уже доступна на Hugging Face, там же можно посмотреть на результаты бенчмарков. Подробный разбор новой версии читайте в блоге Яндекса на Хабре.

❤‍🔥5🔥1👏1

346 views10:30

Запросы на естественном языке вытеснят SQL уже в 2026 году

По прогнозу Gartner, к 2026 году естественный язык станет основным способом работы с данными. Прогноз больно уж оптимистичный, но тренд реален. Разбираемся в предпосылках революции и ее перспективах.

Какие есть предпосылки?

- Рост объемов данных. SQL хорош, но писать сложные запросы становится все более трудоемко, особенно при работе с распределенными хранилищами типа Data Lakes, Lakehouses и Data Fabric.

- Популярность генеративных моделей. Нейросети уже умеют преобразовывать запросы на естественном языке в SQL. И будут делать это все лучше.

- Снижение порога входа. Простой доступ к данным хотят получать не только аналитики и инженеры, но и обычные пользователи без знания SQL — маркетологи, финансисты и менеджеры.

Что может пойти не так?

- Неоптимизированные SQL-запросы, сгенерированные нейросетями, могут перегружать базы данных.

- Нейросети могут неправильно интерпретировать структуру данных, от чего может страдать точность запросов. Это сильно повышает требования к управлению метаданными.

- Если дать всем пользователям свободный доступ к данным через запросы на естественном языке, это ударит по безопасности и повысит риск утечек.

Какого будущего ждать?

SQL был и остается ключевым языком работы с данными, но мы наблюдаем тренд, который может все изменить. SQL не умрет, но станет бэкендом для интерфейсов на естественном языке.

Роль инженеров изменится, вместо написания SQL-запросов они будут настраивать модели, управлять метаданными и обучать ИИ.

🔥8🥱4✍3👍2

468 views13:03

Рынок инфраструктуры для высоконагруженных систем оценили в 1,3 трлн

Группа компаний Б1 и агентство HeadWork Analytics опубликовали исследование рынка инфраструктуры для высоконагруженных информационных систем (ИВНС) и программно-аппаратных комплексов (ПАК) для них.

Главное из исследования:

- По итогам 2024 года рынок ИВНС оценивается в 560 млрд рублей, а к 2030 году он вырастет до 1,3 трлн. Среднегодовой темп роста — 15%.

- В 2024 году на ПАК приходилось 17% рынка ИВНС — 96 млрд рублей. К 2030 году их доля вырастет до 22% и составит 287 млрд. Среднегодовой темп роста — 20%.

- В 2024 году доля российских ПАК на рынке составила 18%, а к 2030 году она вырастет до 45% за счет господдержки и роста доверия к отечественным разработкам.

Развитие цифровых сервисов перегружает айти-инфраструктуру, что заставляет сегмент ИВНС расти быстрее остального айти-рынка.

👍3🔥3😱2

335 views12:19

Топ 7 проектов 2024 года по визуализации данных

Отвлекитесь от работы с данными и поиграйтесь с данными.

1. Parallel Lives
Скролим таймлайн и смотрим, какие известные люди жили на планете одновременно.

2. A torrent of trash
Как выглядят тысячи воздушных шаров с мусором, которые Северная Корея запустила на территорию Южной.

3. The United States of Abortion Mazes
Проходим лабиринты, чтобы сделать аборт в разных американских штатах. Попробуйте найти выход в Техасе.

4. When A.I.’s Output Is a Threat to A.I. Itself
Нейросети создают все больше контента. Его все труднее отличить от контента, созданного людьми. Смотрим, что будет, если ИИ продолжит учиться на созданных им же текстах.

5. I shrink 10x every 21s until I’m an atom
Посмотрите это со своими детьми. Что будет, если раз в 21 секунду уменьшаться в 10 раз. Крутой фильм про относительные размеры.

6. Your Name In Landsat
Составьте свое имя или любое слово из рек, лесов и гор со спутниковых снимков NASA.

7. Climate—Conflict—Vulnerability Index
Узнайте, где на планете прямо сейчас высокий риск пожаров и наводнений, где выше всего рождаемость, в каких регионах гендерное неравенство — норма жизни, а где повышенный риск циклонов.

🔥6❤4👍3

301 views14:03

Переход с HDD и SSD на LTO экономит до 50%

От 80% до 90% всей информации в интернете — архивные данные. Шанс, что они пригодятся после 90 дней хранения — 1%. Однако их все-таки нужно хранить, а это стоит денег.

Ради экономии дата-центры по всему миру переходят на ленточные накопители (LTO) вместо жестких дисков (HDD) и твердотельных накопителей (SSD).

Главное про ленточные хранилища:

- LTO служат по 30 лет, когда HDD только 4-5, а SSD — 5-10 лет.

- Объем LTO растет быстрее, чем увеличивается память HDD и SSD.

- LTO быстрее: HDD выдают до 150 МБ/с при чтении и записи, а LTO до 1000 МБ/с при чтении и до 400 МБ/с при записи.

Насколько дешевле хранить архивы на ленте?

Брэд Джонс из IBM посчитал:

За 10 лет дата-центр, использующий жесткие диски на 100 ПБ, потратит на электричество, ремонт и замену оборудования $17,7 млн.

Если бы этот же дата-центр использовал ленточные хранилища, то потратил бы почти вдвое меньше — $9,5 млн.

Есть и экологическая составляющая. Если переписать всю информацию, которая не используется каждый день, на ленточные носители, это снизит выбросы углекислого газа в атмосферу на 58%. Это 80 млн тонн в год.

Кто-то уже так делает?

Тренд реален:

В первом квартале 2023 года продажи ленточных хранилищ выросли на 5%, а продажи жестких дисков рухнули на 35%.

Среди компаний, использующих ленты, 80% отмечают долговечность, экономию электричества и простоту транспортировки накопителей из одного офиса в другой.

Источники: Tom's Hardware, CNews, Киберпротект

🔥8👏5👍1

319 views15:59

DeepSeek выкатила очень быстрый фреймворк для дата-процессинга

Китайцы опубликовали фреймворк Smallpond на базе DuckDB и распределенной файловой системы 3FS.

Заявленные преимущества:

- Сверхбыстро обрабатывает данные.

- Легко масштабируется для работы с петабайтами данных.

- Не требует постоянных фоновых процессов.

Результаты теста:

- За 30 минут 14 секунд отсортировано 110,4 ТиБ данных.

- Средняя пропускная способность — 3,66 ТиБ/мин. Это 20 фильмов в 4К каждую секунду.

Тест проводили с помощью GraySort на кластере, состоящем из 50 вычислительных узлов и 25 узлов хранения, работающих под управлением 3FS.

Подробности теста смотрите на Гитхабе.

🔥10👍5❤‍🔥3

275 views12:20

На смену пандам и полярным мишкам приходят утки

Pandas — самая популярная библиотека для обработки данных, но она уже давно страдает низкой производительностью.

Альтернативы типа Polars решают проблемы с производительностью, но переход на них требует изучения нового API.

FireDucks быстрее и предлагает полную совместимость с Pandas, а еще — многопоточную обработку и ускорение работы компилятора.

Для перехода с Pandas на FireDucks достаточно одной строки:


import fireducks.pandas as pd

- Скорость подтверждается бенчмарками.

- Сравнение FireDucks с Pandas и Polars.

- FireDucks на Гитхабе.

👍7🔥7👏1

259 views14:26

This media is not supported in your browser

VIEW IN TELEGRAM

Гугл выкатил ИИ для создания полноценных рабочих блокнотов в Colab

ИИ сам пишет код на пайтоне, создает блокноты, визуализирует данные и предлагает пошаговое решение.

Можно быстро писать запросы на естественном языке и получать результаты. На выходе получается готовый проект с кодом и графиками.

- Не нужна настройка.

- Бесплатный доступ к графическим процессорам.

- Блокноты хранятся в ваших гуглдоках.

- Можно загружать датасеты объемом до 1 ГБ.

Если не боитесь делиться датасетами с Гуглом, пробуйте.

Это еще один шаг в сторону запросов к БД на естественном языке. От рутины такой ИИ-ассистент спасет. Однако от необходимости учить SQL для более-менее сложных задач пока никуда не деться.

❤‍🔥3⚡3🤔3

227 views12:15

Посмотрите за 15 минут сразу 3 доклада по базам данных

На нормальной скорости, не 2х и даже не 1,5х.

HYTRADBOI — онлайн-конференция с докладами длиной до 10 минут о базах данных и программировании.

Публикуем синопсисы первых трех докладов:

1. Shapeshifter: using LLMs inside a database for schema flexibility / 2:55

Shapeshifter — прототип базы данных, которая самостоятельно управляет эволюцией схемы и преобразованиями запросов с помощью LLM.

При незначительных изменениях (например, добавлении необязательных полей) схема мягко эволюционирует. В сложных случаях (смена типа данных, миграция) LLM выбирает стратегию — от преобразования входящих документов до полного обновления структуры данных.

Shapeshifter встраивает LLM в ядро системы, а не использует его как внешний слой для перевода запросов с естественного языка на SQL.

2. Good thing we're not writing a database / 8:43

Automerge — не база данных, а документное хранилище, построенное на конфликтобезопасных реплицируемых типах данных (CRDT). Оно не следует правилам ACID, SQL или CAP-теоремы, делая ставку на доступность и устойчивость к сетевым сбоям.

Это как если бы git был построен на потоковой передаче правок в JSON-файлы в реальном времени.

3. pghttp: backend-free, lowest latency web apps / 2:34

Небольшой доклад про reverse proxy, позволяющий рассматривать PostgreSQL как базу с параметризованным http-интерфейсом.

Pghttp позволяет создавать веб-приложения без серверной части, преобразовывая двоичный протокол Postgres в HTTP. Веб-приложения pghttp передают запросы Postgres и интерпретируют ответы в формате двоичного протокола. Прокси-сервер преобразует бинарный протокол Postgres в HTTP и обратно.

Клиентское приложение безопасно взаимодействует с базой данных в стиле клиент-сервер, но модернизированном для использования HTTP/2, HTTP/3 и QUIC. Можно думать об этом как о FCGI для баз данных, только быстрее и мощнее.

Все видео с конференции доступны на сайте.

За комментарии спасибо Михаилу Савину.

👍6🔥2👏1

268 views14:15

Наденьте шляпу и станьте детективом, чтобы изучить SQL

Исследуйте места преступлений, изучайте протоколы допросов и списки подозреваемых. И все это с помощью SQL-запросов к датасету.

Игра SQL Noir — интерактивный учебник по SQL в жанре детектива.

Начать расследование.

❤‍🔥10🔥3👏3👍1

302 views15:55

Как зарабатывать на данных в 5 раз больше аутсайдеров: кейс Wolters Kluwer

В исследовании MIT CISR описана трансформация голландской компании Wolters Kluwer. За 20 лет традиционное издательство стало лидером в монетизации данных.

Главные цифры:

- В 2003 году 10% выручки приходилось на цифровые продукты. Остальные 90% на бумажные справочники, кодексы и учебники.

- В 2023 году 94% выручки пришлось уже на цифровые решения, 58% из которых — продукты на основе данных.

- Гендиректор Нэнси Маккинстри ежегодно инвестировала 8-10% выручки в разработку цифровых решений.

- 8% ежегодного роста компании обеспечены жесткой привязкой данных к прибыльности.

- Исследователи опросили 349 компаний. В среднем лидеры получают 11% выручки от монетизации данных, а аутсайдеры только 2%.

Разница между лидерами и аутсайдерами:

- Лидеры встраивают данные в ядро бизнес-стратегии. Аутсайдеры используют данные лишь эпизодически.

- Лидеры инвестируют в ИИ, облака и аналитику. Аутсайдеры раздувают штат и не обновляют системы.

- Лидеры измеряют ROI данных на всех этапах. Аутсайдеры не отслеживают влияние данных на прибыль.

Три рабочих стратегии превращения данных в деньги от Wolters Kluwer:

1. Топ-менеджеры должны направлять инвестиции в работу с данными и на их монетизацию. Монетизация данных должна быть частью корпоративной стратегии, а не инициативой отдельного департамента.

2. Ценность данных должна превращаться в деньги. Все продуктовые гипотезы, связанные с данными, должны строиться в жесткой привязке к монетизации. Если основанный на данных продукт не монетизируется, его надо закрывать.

3. Нужно управлять данными как активом: отслеживать их путь от создания до получения прибыли, чтобы понять, окупаются ли вложения. Это позволит понять, как данные превращаются в продукты, которые приносят деньги.

#деньги #исследования

🔥4👏3💯1

336 views14:06

Сколько получают и чем занимаются дата-аналитики на самом деле

В таблице результаты опроса 450 дата-аналитиков. Исследование провело в 2024 году кадровое агентство NEWHR.

Что еще интересного узнали:

- Среди дата-аналитиков почти поровну мужчин (51%) и женщин (49%).

- Среди аналитиков с небольшим стажем (1-3 года) больше всего именно дата-аналитиков. Вероятно, работа с данными — лучший вход в профессию.

- Дата-аналитики самые космополитичные из аналитиков — среди них 18,5% планируют релокацию.

- 7% дата-аналитиков работают на нескольких работах.

- Среди младших грейдов дата-аналитиков 76% недавно занимались чем-то другим.

- 62,5% дата-аналитиков сменили двух и более работодателей за 2 года.

#аналитика #исследования

👍5🔥3👏1

307 views15:44