Реальная стоимость данных: как управление автопарком превращает Big Data в экономию
Компания ID20 рассказала на примере автопарка, как данные становятся не просто отчетностью, а рабочим инструментом, который оптимизирует управление и сокращает расходы бизнеса.
Главные результаты из кейса:
- С помощью аналитики больших данных, собранных с GPS-трекеров, в среднем на 15-20% сокращаются незапланированные ремонты, и техническое обслуживание становится по-настоящему прогнозируемым и эффективным.
- Реализация больших данных в работе позволяет анализировать маршруты, выявлять неэффективные поездки, сокращать холостые пробеги и избегать загруженных дорог. Внедрение алгоритмов оптимизации маршрутов позволяет снизить затраты на топливо до 30%.
- Отклонение от маршрута, манипуляции с топливными картами — все это фиксируется и анализируется. Предприятия, применяющие системы управления, в среднем на 25% снижают нецелевое использование автомобилей и корпоративные потери.
- Компании, внедрившие системы мониторинга, фиксируют снижение затрат на страхование на 5-15% за счет сокращения аварийности, а некоторые страховые компании вообще предоставляют скидки для тех, кто внедрил телематику.
Кажется, последний инсайт — самое интересное из кейса. Государство вполне может субсидировать подобные скидки, что заметно ускорит цифровую трансформацию и повысит спрос на подобные решения.
В России половина компаний, внедривших большие данные, оптимизировали запасы и повысили продуктивность основных активов. По данным опроса, треть компаний планирует внедрить такие решения в ближайшее время.
#деньги #статьи
Компания ID20 рассказала на примере автопарка, как данные становятся не просто отчетностью, а рабочим инструментом, который оптимизирует управление и сокращает расходы бизнеса.
Главные результаты из кейса:
- С помощью аналитики больших данных, собранных с GPS-трекеров, в среднем на 15-20% сокращаются незапланированные ремонты, и техническое обслуживание становится по-настоящему прогнозируемым и эффективным.
- Реализация больших данных в работе позволяет анализировать маршруты, выявлять неэффективные поездки, сокращать холостые пробеги и избегать загруженных дорог. Внедрение алгоритмов оптимизации маршрутов позволяет снизить затраты на топливо до 30%.
- Отклонение от маршрута, манипуляции с топливными картами — все это фиксируется и анализируется. Предприятия, применяющие системы управления, в среднем на 25% снижают нецелевое использование автомобилей и корпоративные потери.
- Компании, внедрившие системы мониторинга, фиксируют снижение затрат на страхование на 5-15% за счет сокращения аварийности, а некоторые страховые компании вообще предоставляют скидки для тех, кто внедрил телематику.
Кажется, последний инсайт — самое интересное из кейса. Государство вполне может субсидировать подобные скидки, что заметно ускорит цифровую трансформацию и повысит спрос на подобные решения.
В России половина компаний, внедривших большие данные, оптимизировали запасы и повысили продуктивность основных активов. По данным опроса, треть компаний планирует внедрить такие решения в ближайшее время.
#деньги #статьи
🔥5👍4❤🔥2🤩1
Криптовалюты за это ругают, а ИИ по головке гладят
Российский антрополог и популяризатор науки Станислав Дробышевский, кандидат биологических наук, выступил с резкой критикой майнинга криптовалют. Он предложил ставить к стенке майнеров.
У Дробышевского, чью книгу «Палеонтология антрополога» редактор с большим удовольствием прочитал, сильно подгорело из-за того, сколько электричества майнеры тратят ни на что — просто на вычисление следующего блока.
Это не совсем так: энергия тратится преимущественно на поддержку работы сети — на обслуживание транзакций. Между прочим, свет в отделениях банков тоже денег стоит.
Интересно, как Дробышевский отреагировал бы на новый доклад International Energy Agency о связи искусственного интеллекта с энергетической отраслью?
Ключевые цифры:
- К 2030 году дата-центры во всем мире будут потреблять около 945 ТВт/ч в год — это почти вдвое больше, чем сейчас. Главным драйвером этого роста станет ИИ.
- Дата-центры, специально настроенные под ИИ, увеличат свое энергопотребление более чем в четыре раза к 2030 году. В развитых экономиках около 20% роста потребления электроэнергии до 2030 года будет связано с дата-центрами.
Смелые предположения:
В докладе авторы предполагают, что часть проблем, связанных с ростом расходов энергии на ИИ, сможет решить сам ИИ.
- ИИ активно используется в исследованиях и может ускорить разработку новых технологий, от батарей до солнечных панелей. Это может привести к более устойчивой и эффективной энергетике в будущем.
- Увеличение потребления энергии дата-центрами может повысить выбросы парниковых газов, но в масштабе всей энергетики рост будет незначительным. Более того, ИИ может способствовать снижению выбросов, помогая оптимизировать потребление и находить новые решения.
Сектор ИИ превзойдет майнинг по потребляемой энергии. При этом до 20% майнинг-мощностей перейдут на обработку ИИ-запросов, потому что это прибыльнее: искусственный интеллект предлагает в 17-25 раз больше дохода на затраченный кВт/ч по сравнению с майнингом биткоина.
#ии #исследования
Российский антрополог и популяризатор науки Станислав Дробышевский, кандидат биологических наук, выступил с резкой критикой майнинга криптовалют. Он предложил ставить к стенке майнеров.
У Дробышевского, чью книгу «Палеонтология антрополога» редактор с большим удовольствием прочитал, сильно подгорело из-за того, сколько электричества майнеры тратят ни на что — просто на вычисление следующего блока.
Это не совсем так: энергия тратится преимущественно на поддержку работы сети — на обслуживание транзакций. Между прочим, свет в отделениях банков тоже денег стоит.
Интересно, как Дробышевский отреагировал бы на новый доклад International Energy Agency о связи искусственного интеллекта с энергетической отраслью?
Ключевые цифры:
- К 2030 году дата-центры во всем мире будут потреблять около 945 ТВт/ч в год — это почти вдвое больше, чем сейчас. Главным драйвером этого роста станет ИИ.
- Дата-центры, специально настроенные под ИИ, увеличат свое энергопотребление более чем в четыре раза к 2030 году. В развитых экономиках около 20% роста потребления электроэнергии до 2030 года будет связано с дата-центрами.
Смелые предположения:
В докладе авторы предполагают, что часть проблем, связанных с ростом расходов энергии на ИИ, сможет решить сам ИИ.
- ИИ активно используется в исследованиях и может ускорить разработку новых технологий, от батарей до солнечных панелей. Это может привести к более устойчивой и эффективной энергетике в будущем.
- Увеличение потребления энергии дата-центрами может повысить выбросы парниковых газов, но в масштабе всей энергетики рост будет незначительным. Более того, ИИ может способствовать снижению выбросов, помогая оптимизировать потребление и находить новые решения.
Сектор ИИ превзойдет майнинг по потребляемой энергии. При этом до 20% майнинг-мощностей перейдут на обработку ИИ-запросов, потому что это прибыльнее: искусственный интеллект предлагает в 17-25 раз больше дохода на затраченный кВт/ч по сравнению с майнингом биткоина.
#ии #исследования
🔥4👍3❤🔥2👾1
Без асцендента и кофейной гущи
В 2021 году в McKinsey представили прогноз того, каким станет основанный на данных бизнес к 2025 году.
Прошло время, и мы решили проверить: что из семи ключевых предсказаний сбылось, а где индустрия еще не дотянула до ожиданий.
Краткий разбор каждого пункта и его текущее состояние:
1. Практически все сотрудники будут регулярно использовать данные для оптимизации работы.
Частично сбылось: крупные компании достигли этого, но уровень навыков варьируется.
2. Сети подключенных устройств будут собирать и передавать данные и инсайты в реальном времени.
Частично сбылось: IoT и 5G развиты, но покрытие еще не универсально.
3. Различные типы гибких хранилищ (NoSQL, графовые, time-series) будут интегрировать готовые к использованию данные.
Сбылось: NoSQL и графовые базы стали стандартом для customer 360-платформ.
4. Данные будут управляться как продукты командами, отвечающими за качество, безопасность и развитие.
Частично сбылось: передовые организации внедрили продуктовые команды по работе с данными, но большинство остается на традиционном подходе.
5. Директора по данным будут нести P&L-ответственность и генерировать новые источники дохода.
Не сбылось: лишь единицы CDO получили полномочия profit-and-loss.
6. Компании будут участвовать в экосистемах обмена данными, совместно создавая более ценные инсайты.
Не сбылось: риски безопасности и конкурентные барьеры ограничивают шаринг.
7. Управление данными будет автоматически обеспечивать приватность, безопасность и быстрое восстановление.
Частично сбылось: автоматическое резервирование и доступ внедрены, но зрелость процессов сильно различается.
Вообще, если натягивать сову на глобус, то попадания можно найти по всем пунктам, но если честно, то в McKinsey были излишне оптимистичны. Нужно еще время.
#исследования
В 2021 году в McKinsey представили прогноз того, каким станет основанный на данных бизнес к 2025 году.
Прошло время, и мы решили проверить: что из семи ключевых предсказаний сбылось, а где индустрия еще не дотянула до ожиданий.
Краткий разбор каждого пункта и его текущее состояние:
1. Практически все сотрудники будут регулярно использовать данные для оптимизации работы.
Частично сбылось: крупные компании достигли этого, но уровень навыков варьируется.
2. Сети подключенных устройств будут собирать и передавать данные и инсайты в реальном времени.
Частично сбылось: IoT и 5G развиты, но покрытие еще не универсально.
3. Различные типы гибких хранилищ (NoSQL, графовые, time-series) будут интегрировать готовые к использованию данные.
Сбылось: NoSQL и графовые базы стали стандартом для customer 360-платформ.
4. Данные будут управляться как продукты командами, отвечающими за качество, безопасность и развитие.
Частично сбылось: передовые организации внедрили продуктовые команды по работе с данными, но большинство остается на традиционном подходе.
5. Директора по данным будут нести P&L-ответственность и генерировать новые источники дохода.
Не сбылось: лишь единицы CDO получили полномочия profit-and-loss.
6. Компании будут участвовать в экосистемах обмена данными, совместно создавая более ценные инсайты.
Не сбылось: риски безопасности и конкурентные барьеры ограничивают шаринг.
7. Управление данными будет автоматически обеспечивать приватность, безопасность и быстрое восстановление.
Частично сбылось: автоматическое резервирование и доступ внедрены, но зрелость процессов сильно различается.
Вообще, если натягивать сову на глобус, то попадания можно найти по всем пунктам, но если честно, то в McKinsey были излишне оптимистичны. Нужно еще время.
#исследования
👍4❤🔥3😁3
Межсетевые экраны нового поколения
АНО «Цифровая экономика» совместно с проектом «Кибердом» представила обзор российских межсетевых экранов нового поколения (NGFW) и их функций, включая механизмы обработки трафика, обнаружения угроз и предотвращения вторжений.
Каталог представляет собой актуальный обзор российских решений в области средств защиты информации типа межсетевые экраны нового поколения.
В нем собрана информация о доступных и перспективных продуктах, обеспечивающих защиту информационных потоков с поддержкой современных механизмов обработки трафика, функционала обнаружения, предотвращения вторжений, авторизации пользователей и других функций.
Каталог будет полезен заказчикам, специалистам по информационной безопасности, айти-архитекторам и всем, кто заинтересован в импортозамещении и развитии отечественных киберзащитных технологий.
Делитесь.
#безопасность
АНО «Цифровая экономика» совместно с проектом «Кибердом» представила обзор российских межсетевых экранов нового поколения (NGFW) и их функций, включая механизмы обработки трафика, обнаружения угроз и предотвращения вторжений.
Каталог представляет собой актуальный обзор российских решений в области средств защиты информации типа межсетевые экраны нового поколения.
В нем собрана информация о доступных и перспективных продуктах, обеспечивающих защиту информационных потоков с поддержкой современных механизмов обработки трафика, функционала обнаружения, предотвращения вторжений, авторизации пользователей и других функций.
Каталог будет полезен заказчикам, специалистам по информационной безопасности, айти-архитекторам и всем, кто заинтересован в импортозамещении и развитии отечественных киберзащитных технологий.
Делитесь.
#безопасность
❤🔥3👍3❤2🔥2
Старший вице-президент Сбера: что ждет рынок больших данных
В 2023 году вице-премьер Дмитрий Чернышенко предрек бурный рост рынка данных в РФ:
С тех пор представителей правительства и корпораций по поводу и без мучают вопросами про это.
Публикуем цитаты из недавнего интервью Кирилла Меньшова, старшего вице-президента и руководителя блока «Технологии» Сбера.
Он рассказал про 4 главных тренда:
1. ИИ-ассистенты возьмут на себя рутину
2. Инфраструктура для генеративного ИИ
3. Интернет вещей и не только
4. ИИ-агенты — клиенты дата-платформ
Роли аналитиков и инженеров изменятся, как и задачи, которые они будут решать. Кто с этими трансформациями лучше справится, тот и в дамках.
#аналитика #ии
В 2023 году вице-премьер Дмитрий Чернышенко предрек бурный рост рынка данных в РФ:
Российский рынок данных — быстрорастущий и перспективный. По прогнозам экспертов, к 2030 году его объем достигнет 800 миллиардов рублей, а применение технологий искусственного интеллекта добавит более 11 триллионов рублей к ВВП.
С тех пор представителей правительства и корпораций по поводу и без мучают вопросами про это.
Публикуем цитаты из недавнего интервью Кирилла Меньшова, старшего вице-президента и руководителя блока «Технологии» Сбера.
Он рассказал про 4 главных тренда:
1. ИИ-ассистенты возьмут на себя рутину
Сегодня на первый план выходит автоматизация задач. Возможности генеративного искусственного интеллекта позволяют внедрять новые решения, которые упрощают и автоматизируют рутинные действия. Многие компании уже внедряют решения, основанные на технологии speech2SQL и text2SQL.
По сути это AI-ассистент, которому можно поставить задачу на естественном языке. Он воспримет ее и преобразует в готовый SQL-код, который затем отправит на исполнение и предоставит пользователю результат в виде графика, выборки данных или таблицы.
2. Инфраструктура для генеративного ИИ
Во всем мире растет сегмент нереляционных баз данных. Мы видим тренд на применении векторных баз данных и видим большой потенциал в развитии графовых. Такие инструменты адаптированы для GenAI и отличаются высокой производительностью.
Не менее важное требование — поставка и обмен большими массивами данных в реальном времени (real time data). Все сервисы компании должны поддерживать поставку данных в моменте. Это большой вызов с точки зрения инфраструктуры и технологий, но другого пути нет.
3. Интернет вещей и не только
К 2035 году данные интернета вещей составят 40% всех доступных данных. Работа с ними потребует значительных инвестиций в технологии и инфраструктуру обработки. Благодаря инструментам генеративного AI удается эффективно справляться с обработкой огромных объемов данных, которые ранее казались неподъемными.
На основе искусственного интеллекта Сбера GigaChat разработали сервис, который восстанавливает описания атрибутов в наших базах данных. Технологии генеративного ИИ позволили решить задачу описания физической модели семи тысяч баз данных и примерно 67,5 млн атрибутов. ИИ справляется с этой работой в 290 раз быстрее человека, восстанавливает 99,6% описаний полей базы данных и генерирует 89% точных и качественных смысловых описаний.
4. ИИ-агенты — клиенты дата-платформ
Основными пользователями дата-платформ будут не аналитики, дата-инженеры и исследователи, а ИИ-агенты. Они решают поставленную задачу под ключ, заменяя типовые ручные рутинные операции. По нашим расчетам, ИИ-агенты увеличат нагрузку на инфраструктуру примерно в пять раз больше других пользователей.
Сегодня ИИ-агенты помогают инженерам и аналитикам быстрее написать код, найти данные, проверить качество, построить графики. А уже завтра по запросу бизнес-пользователей они смогут находить тренды, делать выборки, проверять гипотезы, искать инсайты и строить модели.
Роли аналитиков и инженеров изменятся, как и задачи, которые они будут решать. Кто с этими трансформациями лучше справится, тот и в дамках.
#аналитика #ии
👍5⚡3❤🔥2🔥1
Как посчитать профит дата-команды
Однажды аналитик Максим получил задачу от продуктового директора Марии: «Максим, докажи, что ваша дата-команда реально приносит пользу». Максим вспомнил статью How to think about the ROI of data work и решил с помощью простой формулы и эмодзи доказать зумеру Марии, что его команда не зря получает зарплату.
Максим объяснил Марии:
🎳 — Это число специалистов или систем, которые пользуются нашим решением.
🖇 — Насколько наша работа ускоряет или упрощает их жизнь.
💰 — Сколько каждая единица этой экономии стоит для бизнеса.
⏳ — Сколько человеко-дней мы потратили.
Чтобы убедить Марию, Максим привел свой недавний кейс:
Он автоматизировал отчет, который раньше вручную собирали шесть аналитиков по два часа каждый рабочий день. Новая система стала делать все сама — экономия 100% времени. Один час работы аналитика в их компании стоит примерно $50, значит каждый из шести коллег теперь зарабатывал для бизнеса по $100 в день. Сам проект занял у команды 8 человеко-дней.
Подставив все это в формулу, Максим получил:
Столько выгоды в день получает компания от работы команды.
Когда Мария увидела цифру, она улыбнулась: «Понятно и наглядно!»
Но Максим предупредил: «Не все так просто. Вендоры часто рисуют красивые ROI-презентации, обещают сверхприбыль от еще несуществующих фич — это больше маркетинг, чем реальность. Реальный ROI всегда ниже, потому что мы забываем учесть скрытые издержки: зарплаты, поддержку, последующие доработки».
Вместо того, чтобы увязнуть в бесконечных расчетах, Максим предложил переходить на OKR-подход: привязывать каждую задачу к бизнес-целям и ключевым результатам, чтобы уже по факту спринта можно было увидеть Impact и Value. Так дата-команда получала четкий фокус на самых окупаемых задачах и одновременно создавала платформы и инструменты для масштабного эффекта.
Когда в конце встречи Мария спросила: «А как быть с ROI, например, от покупки нового iPhone для работы?»
Максим улыбнулся и ответил: «Здесь та же формула: посчитайте, сколько вы сэкономите времени и получите пользы, и поделите на затраты. Но сначала лучше завести OKR и измерять настоящий вклад данных!»
И с тех пор в их команде ROI перестал быть пугающим набором цифр — он превратился в понятный инструмент, который помогает выбирать правильные проекты и показывать реальную ценность данных.
#аналитика #деньги #статьи
Однажды аналитик Максим получил задачу от продуктового директора Марии: «Максим, докажи, что ваша дата-команда реально приносит пользу». Максим вспомнил статью How to think about the ROI of data work и решил с помощью простой формулы и эмодзи доказать зумеру Марии, что его команда не зря получает зарплату.
ROI = (🎳 × 🖇 × 💰) / ⏳
Максим объяснил Марии:
🎳 — Это число специалистов или систем, которые пользуются нашим решением.
🖇 — Насколько наша работа ускоряет или упрощает их жизнь.
💰 — Сколько каждая единица этой экономии стоит для бизнеса.
⏳ — Сколько человеко-дней мы потратили.
Чтобы убедить Марию, Максим привел свой недавний кейс:
Он автоматизировал отчет, который раньше вручную собирали шесть аналитиков по два часа каждый рабочий день. Новая система стала делать все сама — экономия 100% времени. Один час работы аналитика в их компании стоит примерно $50, значит каждый из шести коллег теперь зарабатывал для бизнеса по $100 в день. Сам проект занял у команды 8 человеко-дней.
Подставив все это в формулу, Максим получил:
ROI = (6 🎳 × 1 🖇 × $50 💰) / 8 дн ⏳ ≈ $37,5
Столько выгоды в день получает компания от работы команды.
Когда Мария увидела цифру, она улыбнулась: «Понятно и наглядно!»
Но Максим предупредил: «Не все так просто. Вендоры часто рисуют красивые ROI-презентации, обещают сверхприбыль от еще несуществующих фич — это больше маркетинг, чем реальность. Реальный ROI всегда ниже, потому что мы забываем учесть скрытые издержки: зарплаты, поддержку, последующие доработки».
Вместо того, чтобы увязнуть в бесконечных расчетах, Максим предложил переходить на OKR-подход: привязывать каждую задачу к бизнес-целям и ключевым результатам, чтобы уже по факту спринта можно было увидеть Impact и Value. Так дата-команда получала четкий фокус на самых окупаемых задачах и одновременно создавала платформы и инструменты для масштабного эффекта.
Когда в конце встречи Мария спросила: «А как быть с ROI, например, от покупки нового iPhone для работы?»
Максим улыбнулся и ответил: «Здесь та же формула: посчитайте, сколько вы сэкономите времени и получите пользы, и поделите на затраты. Но сначала лучше завести OKR и измерять настоящий вклад данных!»
И с тех пор в их команде ROI перестал быть пугающим набором цифр — он превратился в понятный инструмент, который помогает выбирать правильные проекты и показывать реальную ценность данных.
#аналитика #деньги #статьи
👍5🙏3❤🔥2🔥1
SQL Basics.pdf
102.8 KB
Если майские праздники пройдут по плану
И после вам понадобятся шпаргалки по SQL, вы знаете, где их найти.
- SQL для дата-аналитиков.
- Простые и сложные JOIN-операции.
- Оконные функции.
- SQL для самых маленьких.
Сохраняйте и поделитесь с коллегами.
#sql
И после вам понадобятся шпаргалки по SQL, вы знаете, где их найти.
- SQL для дата-аналитиков.
- Простые и сложные JOIN-операции.
- Оконные функции.
- SQL для самых маленьких.
Сохраняйте и поделитесь с коллегами.
#sql
👍6 5🔥3❤2❤🔥1💯1
Будущее трансформеров: без Майкла Бэя и Оптимуса Прайма
На Хабре вышла статья про ограниченность крупных языковых моделей в части хранения контекста и адаптации в реальном времени. Автор рассказывает, как семантический поиск, квантование и внешние базы знаний помогают создавать компактные и обучаемые агенты, готовые работать прямо на устройствах пользователя.
Разбираем главные тезисы и инсайты:
Mem-векторы: долгосрочная память для LLM
Большие языковые модели не запоминают информацию за пределами фиксированного окна контекста. Решение — внедрение долговременной памяти в виде специальных mem-векторов. Архитектуры вроде LongMem сохраняют промежуточные представления из внутренних слоев модели, которые позже можно извлекать. Это позволяет расширять контекст до десятков тысяч токенов без потери качества и сдерживать рост вычислительных затрат. Новые методы позволяют также эффективно сжимать контекст до 20-70 раз, сохраняя смысл.
Модульные трансформеры: разделение знаний и мышления
Трансформеры становятся более модульными. В новых архитектурах знания выносятся в отдельные модули, а ризонинг — в ядро модели. Концепция Transformer 2.0 предполагает замену жестко запрограммированного feed-forward слоя на вызов внешней базы знаний через механизм внимания. Подход Mixture-of-Experts (MoE) активирует при запросе только те подсети, которые действительно нужны, позволяя сильно увеличить объём доступных знаний без пропорционального роста вычислений.
Персонализация без полного переобучения
Дообучение больших моделей с нуля невозможно для большинства пользователей. Вместо этого применяются методы параметро-эффективного обучения (PEFT) — такие как LoRA, адаптеры и prompt-tuning. Они позволяют дообучать только небольшую часть параметров модели (1–2%) без изменения базовых весов. Это дает возможность быстро адаптировать модель под задачи конкретного пользователя, избегая катастрофического забывания и сохраняя приватность.
Семантическая память: ключ-значение и поиск знаний
Вместо того чтобы хранить все знания в весах модели, современный подход использует Retrieval-Augmented Generation (RAG). Модель запрашивает информацию из внешних векторных баз знаний, таких как FAISS, Milvus или Qdrant, и генерирует ответы на основе релевантных документов. Семантический поиск по векторам ключ-значение позволяет интегрировать внешнюю память в работу модели, обеспечивая масштабируемость и свежесть знаний.
Эффективность и запуск на устройствах пользователя
Модели становятся компактнее. С помощью методов вроде квантования (например, 4-битные QLoRA) и дистилляции их можно запускать на ноутбуках и даже смартфонах без значительных потерь качества. Это открывает возможность создания автономных ИИ-агентов, которые работают локально, быстрее реагируют и не передают данные в облако — важный шаг в сторону приватности и персонального контроля над ИИ.
Конфликт знаний и галлюцинации: вызовы большого мозга
С ростом объема знаний возникает проблема противоречий и галлюцинаций. Модели могут воспроизводить устаревшие, выдуманные или конфликтующие факты. Чтобы с этим бороться, предлагается внедрять механизмы явного управления источниками, верификации информации и приоритезации. Это особенно важно для систем, которые хранят долгосрочную память и работают в реальных приложениях.
Заключение: от больших моделей к умным агентам
Будущее — не за все более громоздкими моделями, а за умными агентами, которые умеют учиться на ходу, помнить прошлый опыт, обращаться к внешним базам знаний и работать на пользовательских устройствах. Такие ИИ-системы будут адаптивными, эффективными и персонализированными. Это шаг от просто большого мозга к осмысленному и автономному мышлению в реальном времени.
#ии #статьи
На Хабре вышла статья про ограниченность крупных языковых моделей в части хранения контекста и адаптации в реальном времени. Автор рассказывает, как семантический поиск, квантование и внешние базы знаний помогают создавать компактные и обучаемые агенты, готовые работать прямо на устройствах пользователя.
Разбираем главные тезисы и инсайты:
Mem-векторы: долгосрочная память для LLM
Большие языковые модели не запоминают информацию за пределами фиксированного окна контекста. Решение — внедрение долговременной памяти в виде специальных mem-векторов. Архитектуры вроде LongMem сохраняют промежуточные представления из внутренних слоев модели, которые позже можно извлекать. Это позволяет расширять контекст до десятков тысяч токенов без потери качества и сдерживать рост вычислительных затрат. Новые методы позволяют также эффективно сжимать контекст до 20-70 раз, сохраняя смысл.
Модульные трансформеры: разделение знаний и мышления
Трансформеры становятся более модульными. В новых архитектурах знания выносятся в отдельные модули, а ризонинг — в ядро модели. Концепция Transformer 2.0 предполагает замену жестко запрограммированного feed-forward слоя на вызов внешней базы знаний через механизм внимания. Подход Mixture-of-Experts (MoE) активирует при запросе только те подсети, которые действительно нужны, позволяя сильно увеличить объём доступных знаний без пропорционального роста вычислений.
Персонализация без полного переобучения
Дообучение больших моделей с нуля невозможно для большинства пользователей. Вместо этого применяются методы параметро-эффективного обучения (PEFT) — такие как LoRA, адаптеры и prompt-tuning. Они позволяют дообучать только небольшую часть параметров модели (1–2%) без изменения базовых весов. Это дает возможность быстро адаптировать модель под задачи конкретного пользователя, избегая катастрофического забывания и сохраняя приватность.
Семантическая память: ключ-значение и поиск знаний
Вместо того чтобы хранить все знания в весах модели, современный подход использует Retrieval-Augmented Generation (RAG). Модель запрашивает информацию из внешних векторных баз знаний, таких как FAISS, Milvus или Qdrant, и генерирует ответы на основе релевантных документов. Семантический поиск по векторам ключ-значение позволяет интегрировать внешнюю память в работу модели, обеспечивая масштабируемость и свежесть знаний.
Эффективность и запуск на устройствах пользователя
Модели становятся компактнее. С помощью методов вроде квантования (например, 4-битные QLoRA) и дистилляции их можно запускать на ноутбуках и даже смартфонах без значительных потерь качества. Это открывает возможность создания автономных ИИ-агентов, которые работают локально, быстрее реагируют и не передают данные в облако — важный шаг в сторону приватности и персонального контроля над ИИ.
Конфликт знаний и галлюцинации: вызовы большого мозга
С ростом объема знаний возникает проблема противоречий и галлюцинаций. Модели могут воспроизводить устаревшие, выдуманные или конфликтующие факты. Чтобы с этим бороться, предлагается внедрять механизмы явного управления источниками, верификации информации и приоритезации. Это особенно важно для систем, которые хранят долгосрочную память и работают в реальных приложениях.
Заключение: от больших моделей к умным агентам
Будущее — не за все более громоздкими моделями, а за умными агентами, которые умеют учиться на ходу, помнить прошлый опыт, обращаться к внешним базам знаний и работать на пользовательских устройствах. Такие ИИ-системы будут адаптивными, эффективными и персонализированными. Это шаг от просто большого мозга к осмысленному и автономному мышлению в реальном времени.
#ии #статьи
🔥7❤🔥3 3❤2
Сколько денег уйдет на модернизацию дата-центров в ближайшие 5 лет
По прогнозам McKinsey, к 2030 году мировые расходы на расширение и модернизацию дата-центров достигнут $6,7 трлн, из которых $5,2 трлн — только на удовлетворение потребностей ИИ.
Это базовый сценарий. При ускоренном росте к 2030 году на покрытие ИИ-потребностей уйдет и того больше — $7,9 трлн.
Откуда такие цифры?
Потребление искусственным интеллектом электричества стабильно растет. Если график этого роста продлить до 2030 года, то выйдет, что через 5 лет ИИ потребует дополнительных 156 ГВт.
Остается посчитать, сколько будет стоить произвести 156 ГВт энергии и нарастить сами вычислительные мощности.
И в McKinsey посчитали:
- $0,8 трлн на землю и строительство.
- $1,3 трлн на электроснабжение и охлаждение.
- $3,1 трлн на оборудование.
Итого $5,2 трлн.
Очевидное невероятное:
На возобновляемые источники приходится 33% в энергетическом балансе дата-центров. К 2030 году их доля может вырасти до 50%, если вложить еще $1 трлн в чистую энергогенерацию и сеть.
Верим?
#ии #деньги #исследования
По прогнозам McKinsey, к 2030 году мировые расходы на расширение и модернизацию дата-центров достигнут $6,7 трлн, из которых $5,2 трлн — только на удовлетворение потребностей ИИ.
Это базовый сценарий. При ускоренном росте к 2030 году на покрытие ИИ-потребностей уйдет и того больше — $7,9 трлн.
Откуда такие цифры?
Потребление искусственным интеллектом электричества стабильно растет. Если график этого роста продлить до 2030 года, то выйдет, что через 5 лет ИИ потребует дополнительных 156 ГВт.
Остается посчитать, сколько будет стоить произвести 156 ГВт энергии и нарастить сами вычислительные мощности.
И в McKinsey посчитали:
- $0,8 трлн на землю и строительство.
- $1,3 трлн на электроснабжение и охлаждение.
- $3,1 трлн на оборудование.
Итого $5,2 трлн.
Очевидное невероятное:
На возобновляемые источники приходится 33% в энергетическом балансе дата-центров. К 2030 году их доля может вырасти до 50%, если вложить еще $1 трлн в чистую энергогенерацию и сеть.
Верим?
#ии #деньги #исследования
👍4❤🔥2⚡2🔥2
Рейтинг стран по доступности и открытости статистических данных
На Open Data Watch подъехал обзор по 197 странам за 2024 год.
Глобальный вывод: в мире тренд на рост открытости и доступности статистических данных.
К методологии можно придираться: составители отчета не роют носом всевозможные источники статистики, а учитывают только то, что на поверхности и давно известно. Так что с конкретными местами стран в рейтинге можно спорить, но в целом картина довольно достоверная.
В аутсайдерах Южный Судан (196 место) и Туркменистан (197).
В лидерах Малайзия (1) и Северная Европа: Финляндия (3), Дания (4), Норвегия (6).
Все неплохо и в арабском мире: Оман (9), ОАЭ (10).
Интересна разница между соседними Туркменистаном (197) и Узбекистаном (12). Больше разница могла бы быть только между Северной и Южной Кореей (35), но по КНДР данных нет.
Кто на каком месте из больших ребят:
- США и Канада (21)
- Россия (76)
- Китай (159)
Интересно отметить Сальвадор (185), который такой весь из себя про блокчейн, биткоин, свободу и все такое, а вот с открытостью данных у него так себе.
#исследования
На Open Data Watch подъехал обзор по 197 странам за 2024 год.
Глобальный вывод: в мире тренд на рост открытости и доступности статистических данных.
К методологии можно придираться: составители отчета не роют носом всевозможные источники статистики, а учитывают только то, что на поверхности и давно известно. Так что с конкретными местами стран в рейтинге можно спорить, но в целом картина довольно достоверная.
В аутсайдерах Южный Судан (196 место) и Туркменистан (197).
В лидерах Малайзия (1) и Северная Европа: Финляндия (3), Дания (4), Норвегия (6).
Все неплохо и в арабском мире: Оман (9), ОАЭ (10).
Интересна разница между соседними Туркменистаном (197) и Узбекистаном (12). Больше разница могла бы быть только между Северной и Южной Кореей (35), но по КНДР данных нет.
Кто на каком месте из больших ребят:
- США и Канада (21)
- Россия (76)
- Китай (159)
Интересно отметить Сальвадор (185), который такой весь из себя про блокчейн, биткоин, свободу и все такое, а вот с открытостью данных у него так себе.
#исследования
👍5🔥3❤🔥2🏆2
Кейс: как наружка заменяет таргетинг. И причем тут большие данные и нейросети
Рекламные бюджеты все чаще уходят в цифру, но коллаборация Билайна и Делимобиля показывает: наружная реклама может быть не менее эффективной, особенно когда ее подкрепляет аналитика больших данных и ИИ.
Суть проекта
Делимобиль разместил стикеры на 300 авто в Москве, чтобы продвинуть новый сервис. Раньше метрики ограничивались подсчетом арендаторов оклеенных машин каршеринга, но это не отражало реального охвата — рекламу видели и пешеходы, и другие водители. Задача была амбициозной: оцифровать охват, частоту контактов и процент аудитории, которая фактически видела сообщение.
Роль больших данных и искусственного интеллекта
1. Геоданные от Делимобиля
Автомобили оснащены телематикой, фиксирующей их местоположение каждые 5–10 секунд. Это дало точную карту маршрутов.
2. Анонимизированные данные Билайна
Сотовый оператор предоставил агрегированные данные о перемещении людей через нагрузку на базовые станции. Так можно было определить, сколько пользователей находились рядом с рекламными авто.
3. Искусственный интеллект для очистки данных
Алгоритмы исключили шум — места вроде торговых центров или развязок, где высокая проходимость не гарантирует внимания к рекламе. Также ИИ сегментировал аудиторию и рассчитал частоту контактов.
Результаты, которые перевернули подход к наружке
Охват: 7,6 млн уникальных пользователей за кампанию против прежних 100 тысяч (только арендаторы).
Частота: до 20 контактов с сообщением на человека.
39% жителей Москвы увидели рекламу уже в первый месяц.
Парковки против движения: припаркованные машины генерировали на 16% больше просмотров благодаря пешеходному трафику. Старыми методами аналитики это вообще не учитывалось.
Вывод
Этот кейс — пример того, как большие данные и ИИ превращают наружную рекламу в умный инструмент с измеримой эффективностью. Вместо точечного таргетинга — широкий охват с аналитикой, которая раньше была недоступна. Для брендов это шанс выйти за рамки диджитал-пузыря и достучаться до аудитории там, где она живет: в офлайне.
Поделитесь со знакомыми таргетологами. Интересно, что они скажут.
#ии #аналитика #деньги
Рекламные бюджеты все чаще уходят в цифру, но коллаборация Билайна и Делимобиля показывает: наружная реклама может быть не менее эффективной, особенно когда ее подкрепляет аналитика больших данных и ИИ.
Суть проекта
Делимобиль разместил стикеры на 300 авто в Москве, чтобы продвинуть новый сервис. Раньше метрики ограничивались подсчетом арендаторов оклеенных машин каршеринга, но это не отражало реального охвата — рекламу видели и пешеходы, и другие водители. Задача была амбициозной: оцифровать охват, частоту контактов и процент аудитории, которая фактически видела сообщение.
Роль больших данных и искусственного интеллекта
1. Геоданные от Делимобиля
Автомобили оснащены телематикой, фиксирующей их местоположение каждые 5–10 секунд. Это дало точную карту маршрутов.
2. Анонимизированные данные Билайна
Сотовый оператор предоставил агрегированные данные о перемещении людей через нагрузку на базовые станции. Так можно было определить, сколько пользователей находились рядом с рекламными авто.
3. Искусственный интеллект для очистки данных
Алгоритмы исключили шум — места вроде торговых центров или развязок, где высокая проходимость не гарантирует внимания к рекламе. Также ИИ сегментировал аудиторию и рассчитал частоту контактов.
Результаты, которые перевернули подход к наружке
Охват: 7,6 млн уникальных пользователей за кампанию против прежних 100 тысяч (только арендаторы).
Частота: до 20 контактов с сообщением на человека.
39% жителей Москвы увидели рекламу уже в первый месяц.
Парковки против движения: припаркованные машины генерировали на 16% больше просмотров благодаря пешеходному трафику. Старыми методами аналитики это вообще не учитывалось.
Вывод
Этот кейс — пример того, как большие данные и ИИ превращают наружную рекламу в умный инструмент с измеримой эффективностью. Вместо точечного таргетинга — широкий охват с аналитикой, которая раньше была недоступна. Для брендов это шанс выйти за рамки диджитал-пузыря и достучаться до аудитории там, где она живет: в офлайне.
Поделитесь со знакомыми таргетологами. Интересно, что они скажут.
#ии #аналитика #деньги
👍5❤🔥4🔥3👌1
Как-то не ладится в логистике ни с большими, ни с персональными данными
Мы уже писали, что пока Амазон оптимизирует логистику с помощью больших данных, российские логистические компании этого по каким-то причинам чураются.
И вот сфера российской логистики снова в повестке больших данных в дурном свете.
Федеральный координатор проекта «Цифровая Россия» Антон Немкин заявил, что наибольшее количество утечек персональных данных в 2025 году связано с логистическими компаниями:
Что дальше?
Хочется верить, что на фоне сильно выросших штрафов и повышенного внимания к отрасли логистические компании займутся данными по-взрослому и достигнут с их помощью результатов, как это вышло у того же Амазона.
#безопасность
Мы уже писали, что пока Амазон оптимизирует логистику с помощью больших данных, российские логистические компании этого по каким-то причинам чураются.
И вот сфера российской логистики снова в повестке больших данных в дурном свете.
Федеральный координатор проекта «Цифровая Россия» Антон Немкин заявил, что наибольшее количество утечек персональных данных в 2025 году связано с логистическими компаниями:
В логистике много подрядчиков, внутренних платформ и мобильных приложений, что создает уязвимую среду с большим числом потенциальных точек входа.
Что дальше?
Хочется верить, что на фоне сильно выросших штрафов и повышенного внимания к отрасли логистические компании займутся данными по-взрослому и достигнут с их помощью результатов, как это вышло у того же Амазона.
#безопасность
👍5❤3❤🔥2🔥2 1
Архитектура_и_моделирование_данных.pdf
560 KB
Рекомендации по архитектуре и моделированию данных от Банка России
Свежее руководство для организаций, стремящихся систематизировать работу с данными и повысить их ценность для бизнеса.
Что внутри?
Практические инструменты: шаблоны, концептуальные модели, регламенты, метрики эффективности, примеры типовых проблем и решений.
В рекомендациях учитывается как внутренняя разработка, так и интеграция с коробочными айти-решениями. Авторы сделали акцент на гибкость и адаптивность архитектуры данных к изменениям бизнес-требований.
Кому пригодится?
Участникам финансового рынка: банкам, страховым компаниям, инвестиционным фондам.
Специалистам по данным: архитекторам, руководителям айти-проектов, аналитикам.
Руководителям, заинтересованным в трансформации управления данными и повышении зрелости СУД.
Делитесь с коллегами из финансового сектора.
#деньги
Свежее руководство для организаций, стремящихся систематизировать работу с данными и повысить их ценность для бизнеса.
Что внутри?
Практические инструменты: шаблоны, концептуальные модели, регламенты, метрики эффективности, примеры типовых проблем и решений.
В рекомендациях учитывается как внутренняя разработка, так и интеграция с коробочными айти-решениями. Авторы сделали акцент на гибкость и адаптивность архитектуры данных к изменениям бизнес-требований.
Кому пригодится?
Участникам финансового рынка: банкам, страховым компаниям, инвестиционным фондам.
Специалистам по данным: архитекторам, руководителям айти-проектов, аналитикам.
Руководителям, заинтересованным в трансформации управления данными и повышении зрелости СУД.
Делитесь с коллегами из финансового сектора.
#деньги
👍5🙏4🔥2❤🔥1
456 страниц отчета об ИИ в 1 посте
В Стэнфордском институте человеко-ориентированного искусственного интеллекта выпустили большой отчет о рынке ИИ в 2025 году.
Главные выводы:
1. Малые модели становятся лучше
В 2022 году единственной моделью с показателем выше 60% по бенчмарку MMLU была PaLM с 540 млрд параметров. К 2024 году Phi-3-mini от Microsoft с 3,8 млрд параметров достиг того же порога — это сокращение в 142 раза за два года.
2. Модели становятся дешевле в эксплуатации
Стоимость запроса к модели с точностью 64,8% по MMLU (аналог GPT-3.5) упала с $20 за миллион токенов в ноябре 2022 до $0,07 к октябрю 2024 (Gemini-1.5-Flash-8B) — это снижение более чем в 280 раз за 18 месяцев.
3. Китайские модели сокращают отставание
В 2024 году в США было разработано 40 заметных моделей ИИ, в Китае — 15, в Европе — 3. Хотя США сохраняют лидерство по количеству, китайские модели практически сравнялись по качеству: разрыв по MMLU и HumanEval сократился с двузначных чисел в 2023 до почти паритета в 2024.
4. Увеличение числа проблемных инцидентов с ИИ
По данным AI Incidents Database, число инцидентов, связанных с ИИ, включая дипфейки и случаи, когда чат-боты якобы способствовали суициду подростка, в 2024 году достигло 233 — это рекордный показатель и рост на 56,4% по сравнению с 2023.
5. Появление более полезных ИИ-агентов
В 2024 году запущен бенчмарк RE-Bench для оценки сложных задач ИИ-агентов. В краткосрочных сценариях (до 2 часов) лучшие системы обходят экспертов в 4 раза, но при более длительной работе (32 часа) люди опережают ИИ в 2 раза. Тем не менее в отдельных задачах, например в написании кода, ИИ-агенты уже сопоставимы с людьми и работают быстрее.
6. Колоссальные инвестиции в ИИ
В 2024 году частные инвестиции в ИИ в США достигли $109 млрд — это в 12 раз больше, чем в Китае ($9,3 млрд), и в 24 раз больше, чем в Великобритании ($4,5 млрд). В генеративном ИИ разрыв США и союзников (ЕС и Великобритания) вырос до $25,5 млрд.
7. ИИ проникает в корпорации
Доля организаций, использующих ИИ, выросла с 55% в 2023 году до 78% в 2024. Применение генеративного ИИ в хотя бы одной бизнес-функции выросло с 33% до 71%.
8. Одобрение медицинских ИИ-устройств FDA
FDA одобрило первое медицинское ИИ-устройство в 1995. К 2015 году их было всего 6, а к 2023 — уже 223.
9. В США регулирование переходит на уровень штатов
В 2016 году принят лишь один штатный закон об ИИ, к 2023 году их стало 49, а за последний год число более чем удвоилось до 131. На федеральном уровне количество предложений растет, но принятие законов остается низким.
10. Азия оптимистична в отношении ИИ
Большинство жителей Китая (83%), Индонезии (80%) и Таиланда (77%) считают, что выгоды ИИ-продуктов перевешивают риски. В США (39%), Канаде (40%) и Нидерландах (36%) большинство не разделяют этого мнения.
Проверьте, насколько круто вы знаете рынок ИИ: пройдите квиз на сайте Стэнфорда. Ну и с коллегами посоревнуйтесь.
#ии #исследования
В Стэнфордском институте человеко-ориентированного искусственного интеллекта выпустили большой отчет о рынке ИИ в 2025 году.
Главные выводы:
1. Малые модели становятся лучше
В 2022 году единственной моделью с показателем выше 60% по бенчмарку MMLU была PaLM с 540 млрд параметров. К 2024 году Phi-3-mini от Microsoft с 3,8 млрд параметров достиг того же порога — это сокращение в 142 раза за два года.
2. Модели становятся дешевле в эксплуатации
Стоимость запроса к модели с точностью 64,8% по MMLU (аналог GPT-3.5) упала с $20 за миллион токенов в ноябре 2022 до $0,07 к октябрю 2024 (Gemini-1.5-Flash-8B) — это снижение более чем в 280 раз за 18 месяцев.
3. Китайские модели сокращают отставание
В 2024 году в США было разработано 40 заметных моделей ИИ, в Китае — 15, в Европе — 3. Хотя США сохраняют лидерство по количеству, китайские модели практически сравнялись по качеству: разрыв по MMLU и HumanEval сократился с двузначных чисел в 2023 до почти паритета в 2024.
4. Увеличение числа проблемных инцидентов с ИИ
По данным AI Incidents Database, число инцидентов, связанных с ИИ, включая дипфейки и случаи, когда чат-боты якобы способствовали суициду подростка, в 2024 году достигло 233 — это рекордный показатель и рост на 56,4% по сравнению с 2023.
5. Появление более полезных ИИ-агентов
В 2024 году запущен бенчмарк RE-Bench для оценки сложных задач ИИ-агентов. В краткосрочных сценариях (до 2 часов) лучшие системы обходят экспертов в 4 раза, но при более длительной работе (32 часа) люди опережают ИИ в 2 раза. Тем не менее в отдельных задачах, например в написании кода, ИИ-агенты уже сопоставимы с людьми и работают быстрее.
6. Колоссальные инвестиции в ИИ
В 2024 году частные инвестиции в ИИ в США достигли $109 млрд — это в 12 раз больше, чем в Китае ($9,3 млрд), и в 24 раз больше, чем в Великобритании ($4,5 млрд). В генеративном ИИ разрыв США и союзников (ЕС и Великобритания) вырос до $25,5 млрд.
7. ИИ проникает в корпорации
Доля организаций, использующих ИИ, выросла с 55% в 2023 году до 78% в 2024. Применение генеративного ИИ в хотя бы одной бизнес-функции выросло с 33% до 71%.
8. Одобрение медицинских ИИ-устройств FDA
FDA одобрило первое медицинское ИИ-устройство в 1995. К 2015 году их было всего 6, а к 2023 — уже 223.
9. В США регулирование переходит на уровень штатов
В 2016 году принят лишь один штатный закон об ИИ, к 2023 году их стало 49, а за последний год число более чем удвоилось до 131. На федеральном уровне количество предложений растет, но принятие законов остается низким.
10. Азия оптимистична в отношении ИИ
Большинство жителей Китая (83%), Индонезии (80%) и Таиланда (77%) считают, что выгоды ИИ-продуктов перевешивают риски. В США (39%), Канаде (40%) и Нидерландах (36%) большинство не разделяют этого мнения.
Проверьте, насколько круто вы знаете рынок ИИ: пройдите квиз на сайте Стэнфорда. Ну и с коллегами посоревнуйтесь.
#ии #исследования
❤4🔥3 3❤🔥1
Говорим «данные» — подразумеваем «искусственный интеллект»
В «Открытых системах» подвели итоги форума DATA&AI. Главный инсайт: управление на основе данных постепенно переходит к использованию ИИ, причем не только в бизнесе, но и в области аналитики и работы с данными.
Рассказываем, кто чем хвастался и делаем выводы.
1. Бизнес: от анализа к генерации данных
ИИ стал ключевым инструментом не только для анализа, но и для создания данных. Ростелеком внедрил ИИ-помощника Василису, которая генерирует код, тесты и скрипты. Сбер использует ИИ для прогнозирования сбоев в кластерах и синтеза данных.
ИИ переводит управление данными из ручного режима в автоматизированный, сокращая время на рутинные задачи.
2. Аналитика: динамика вместо рутины
В аналитике ИИ трансформирует процессы через обработку запросов на естественном языке и стриминговые решения. Инструмент Easy Report (Sapiens Solutions) позволяет создавать аналитические дашборды без ETL-конвейеров, интерпретируя запросы пользователей. Компания Visiology сократила время отклика систем до реального времени за счет интеграции YDB и Polymatica BI.
ИИ делает аналитику интерактивной и адаптивной, заменяя статичные отчеты.
3. Инфраструктура: новые архитектуры для ИИ
Управление данными требует современных архитектур, таких как Data Lakehouse, которая объединяет хранилища и озера данных, решая технологические и бюджетные задачи. Контейнерная архитектура позволяет масштабироваться даже при сокращении затрат. Выбор открытых стеков вроде Trino (обработка данных) и HDFS (хранение) для ИИ-ориентированных систем ускоряет интеграцию агентов.
4. Проблемы перехода
Несмотря на прогресс, 62% компаний не оценивают влияние данных на бизнес, а 26% начинающих внедрять ИИ уже ощутили его пользу. Ключевые барьеры: несогласованные данные в источниках, проблемы конфиденциальности и ограниченный контекст языковых моделей.
Переход к ИИ требует не только технологий, но и пересмотра методологий работы с данными.
ИИ становится основой для управления данными на всех уровнях — от генерации информации до архитектурных решений и аналитики в реальном времени.
#ии #статьи
В «Открытых системах» подвели итоги форума DATA&AI. Главный инсайт: управление на основе данных постепенно переходит к использованию ИИ, причем не только в бизнесе, но и в области аналитики и работы с данными.
Рассказываем, кто чем хвастался и делаем выводы.
1. Бизнес: от анализа к генерации данных
ИИ стал ключевым инструментом не только для анализа, но и для создания данных. Ростелеком внедрил ИИ-помощника Василису, которая генерирует код, тесты и скрипты. Сбер использует ИИ для прогнозирования сбоев в кластерах и синтеза данных.
ИИ переводит управление данными из ручного режима в автоматизированный, сокращая время на рутинные задачи.
2. Аналитика: динамика вместо рутины
В аналитике ИИ трансформирует процессы через обработку запросов на естественном языке и стриминговые решения. Инструмент Easy Report (Sapiens Solutions) позволяет создавать аналитические дашборды без ETL-конвейеров, интерпретируя запросы пользователей. Компания Visiology сократила время отклика систем до реального времени за счет интеграции YDB и Polymatica BI.
ИИ делает аналитику интерактивной и адаптивной, заменяя статичные отчеты.
3. Инфраструктура: новые архитектуры для ИИ
Управление данными требует современных архитектур, таких как Data Lakehouse, которая объединяет хранилища и озера данных, решая технологические и бюджетные задачи. Контейнерная архитектура позволяет масштабироваться даже при сокращении затрат. Выбор открытых стеков вроде Trino (обработка данных) и HDFS (хранение) для ИИ-ориентированных систем ускоряет интеграцию агентов.
4. Проблемы перехода
Несмотря на прогресс, 62% компаний не оценивают влияние данных на бизнес, а 26% начинающих внедрять ИИ уже ощутили его пользу. Ключевые барьеры: несогласованные данные в источниках, проблемы конфиденциальности и ограниченный контекст языковых моделей.
Переход к ИИ требует не только технологий, но и пересмотра методологий работы с данными.
ИИ становится основой для управления данными на всех уровнях — от генерации информации до архитектурных решений и аналитики в реальном времени.
#ии #статьи
👍4🔥4❤🔥2👌1
Будет ли работа у дата-инженеров после майских
Пока вы будете отдыхать, ИИ будет работать и развиваться. Зак Уилсон попробовал разобраться, в каких задачах дата-инженеров в ближайшем будущем заменит ИИ, а в каких — нет.
Поделим задачи на три группы: большая, средняя и низкая вероятность замещения человека машиной.
Большая вероятность замещения
Отладка пайплайнов: большинство сбоев — ложные срабатывания или ошибки памяти, которые ИИ может быстро устранить.
Ответы на бизнес-вопросы: при условии корректного моделирования данных и качественной документации ИИ сможет обрабатывать 90-95% запросов.
Средняя вероятность замещения
Написание кода на Spark/SQL: инструменты ускоряют генерацию кода, но проверка и тестирование пока остаются за людьми.
Проверка качества данных: базовые проверки упростятся, но контекстные решения все еще требуют человека.
Написание тестов: ИИ эффективен в генерации тестовых данных, но бизнес-логика требует ручного контроля.
Низкая вероятность замещения
Концептуальное моделирование данных: требует бизнес-контекста, переговоров и согласований между людьми.
Стратегические и мягкие навыки: планирование спринтов, документация, коммуникация с заинтересованными сторонами останутся за людьми. Но ИИ упрощает эти задачи.
Создание лучших практик: согласование стандартов внутри команд — социальный процесс, сложный для ИИ.
Разработка инфраструктуры обработки данных: улучшение инструментов вроде Airflow и Spark требует креативности и глубокого понимания систем.
Вывод
Без работы дата-инженеры останутся только на 4 праздничных дня. После снова придется вернуться к большинству задач, но какие-то процессы скоро изменятся. Нужно развиваться и адаптировать навыки под новую реальность. Встраивайте ИИ в работу, чтобы не лишиться ее.
#ии #статьи
Пока вы будете отдыхать, ИИ будет работать и развиваться. Зак Уилсон попробовал разобраться, в каких задачах дата-инженеров в ближайшем будущем заменит ИИ, а в каких — нет.
Поделим задачи на три группы: большая, средняя и низкая вероятность замещения человека машиной.
Большая вероятность замещения
Отладка пайплайнов: большинство сбоев — ложные срабатывания или ошибки памяти, которые ИИ может быстро устранить.
Ответы на бизнес-вопросы: при условии корректного моделирования данных и качественной документации ИИ сможет обрабатывать 90-95% запросов.
Средняя вероятность замещения
Написание кода на Spark/SQL: инструменты ускоряют генерацию кода, но проверка и тестирование пока остаются за людьми.
Проверка качества данных: базовые проверки упростятся, но контекстные решения все еще требуют человека.
Написание тестов: ИИ эффективен в генерации тестовых данных, но бизнес-логика требует ручного контроля.
Низкая вероятность замещения
Концептуальное моделирование данных: требует бизнес-контекста, переговоров и согласований между людьми.
Стратегические и мягкие навыки: планирование спринтов, документация, коммуникация с заинтересованными сторонами останутся за людьми. Но ИИ упрощает эти задачи.
Создание лучших практик: согласование стандартов внутри команд — социальный процесс, сложный для ИИ.
Разработка инфраструктуры обработки данных: улучшение инструментов вроде Airflow и Spark требует креативности и глубокого понимания систем.
Вывод
Без работы дата-инженеры останутся только на 4 праздничных дня. После снова придется вернуться к большинству задач, но какие-то процессы скоро изменятся. Нужно развиваться и адаптировать навыки под новую реальность. Встраивайте ИИ в работу, чтобы не лишиться ее.
#ии #статьи
😁5👍4😈3❤🔥2
Вредные советы: как не внедрить data-driven с помощью магии
Есть выражения, произнося которые, даже очень рациональные люди скатываются в магическое мышление. Печально, но модные слова часто становятся самостоятельными трендами, отвлекая на себя внимание от тех самых трендов, для которых были придуманы.
Новая этика, импортозамещение, здравый смысл, права человека, цифровая трансформация, управление на основе данных.
Корпоративная культура — это не тон оф войс, это гайдлайн. Одним расширением лексикона не отделаться, нужно переосмыслять подходы, привычки, уклады. Это трудно и дорого, а слова бесплатные.
В статье «Data-driven в одном iGaming проекте: когда культура работы с данными не приживается» автор делится своим опытом и предлагает разделить с ним негодование. Как и почему корпоративная культура, в которой полно ML-специалистов, аналитиков и всяких инженеров, отторгла data-driven подход, когда ей его попытались привить?
Делимся его вредными советами для топ-менеджеров и главными инсайтами:
1. Управляйте словами, люди лучше всего понимают образы и абстракции. Профессионалы сами разберутся, какие цифры и когда им нужны.
2. Следите, чтобы сотрудники были проактивны и любознательны. Если отчеты есть, то пущай привыкают и пользуются. Главное, чтобы отчеты были, а то нечем будет пользоваться.
3. Отчеты и цифры нужны только аналитикам. Им это близко и понятно, вот от них и ожидайте инсайты и основанные на данных решения.
4. Ставьте цели в цифрах, разрабатывайте метрики, но не утруждайте себя поиском и оценкой ресурсов, которые позволят этих целей добиться.
5. Если сотрудники сообщили о баге, немедленно бросьте все силы на решение. Похвалите за разрешение проблемы и постарайтесь замять разбор причин, это только добавит перчинки в работу коллег.
Опыт, в котором автор выстрадал эти советы, описан в статье, а мы сфокусируемся на интересной детали. Ничего в этих советах не покажется инновационным тому, кто ни разу не слышал про data-driven. Если в какой-то компании производят отчеты, которыми никто не пользуется, то им выражение data-driven нужнее остальных, ибо им можно заменить напрашивающуюся брань.
Неважно, как где называется подход к управлению на основе данных. Вон, на юге России баклажаны называют синенькими. Еще раз: слова бесплатные, а баклажаны на рынке за деньги продаются.
#аналитика #статьи
Есть выражения, произнося которые, даже очень рациональные люди скатываются в магическое мышление. Печально, но модные слова часто становятся самостоятельными трендами, отвлекая на себя внимание от тех самых трендов, для которых были придуманы.
Новая этика, импортозамещение, здравый смысл, права человека, цифровая трансформация, управление на основе данных.
Корпоративная культура — это не тон оф войс, это гайдлайн. Одним расширением лексикона не отделаться, нужно переосмыслять подходы, привычки, уклады. Это трудно и дорого, а слова бесплатные.
В статье «Data-driven в одном iGaming проекте: когда культура работы с данными не приживается» автор делится своим опытом и предлагает разделить с ним негодование. Как и почему корпоративная культура, в которой полно ML-специалистов, аналитиков и всяких инженеров, отторгла data-driven подход, когда ей его попытались привить?
Делимся его вредными советами для топ-менеджеров и главными инсайтами:
1. Управляйте словами, люди лучше всего понимают образы и абстракции. Профессионалы сами разберутся, какие цифры и когда им нужны.
2. Следите, чтобы сотрудники были проактивны и любознательны. Если отчеты есть, то пущай привыкают и пользуются. Главное, чтобы отчеты были, а то нечем будет пользоваться.
3. Отчеты и цифры нужны только аналитикам. Им это близко и понятно, вот от них и ожидайте инсайты и основанные на данных решения.
4. Ставьте цели в цифрах, разрабатывайте метрики, но не утруждайте себя поиском и оценкой ресурсов, которые позволят этих целей добиться.
5. Если сотрудники сообщили о баге, немедленно бросьте все силы на решение. Похвалите за разрешение проблемы и постарайтесь замять разбор причин, это только добавит перчинки в работу коллег.
Опыт, в котором автор выстрадал эти советы, описан в статье, а мы сфокусируемся на интересной детали. Ничего в этих советах не покажется инновационным тому, кто ни разу не слышал про data-driven. Если в какой-то компании производят отчеты, которыми никто не пользуется, то им выражение data-driven нужнее остальных, ибо им можно заменить напрашивающуюся брань.
Неважно, как где называется подход к управлению на основе данных. Вон, на юге России баклажаны называют синенькими. Еще раз: слова бесплатные, а баклажаны на рынке за деньги продаются.
#аналитика #статьи
🤓5👀4 2❤🔥1👍1
Как дата-аналитики вытеснили голливудских режиссеров с больших экранов на маленькие
Редактор на майских много залипал в сериалы. Уверен, подписчики тоже. Продажи билетов в кино падают каждый год, а количество сериалов и их аудитория множатся. И да, причина в дата-аналитике.
Как так вышло?
Раньше кинотеатры приобщали к таинствам. На мистерии Тарковского и Линча шли за смыслами, историями и метафорами, которых ни по одному каналу не показывали. Эфир телека состоял из ситкомов для и про домохозяек и прочих незамысловатых шоу.
Одна из причин в том, что стримингов в начале века еще не было. Не хотите пропустить серию, которую больше не покажут в этом году, тогда вам надо быть у экрана ровно в 10 вечера. Как ни старайтесь, а пару серий за сезон точно пропустите: то к врачу сходите, то на день рождения.
Поэтому и снимали в основном сериалы без сквозного сюжета: каждая серия — отдельная история, которую с другими ничего кроме персонажей и сеттинга не увязывает. Так что сегодняшние сериалы стали такими крутыми во многом просто потому, что теперь авторы могут позволить себе сюжетные линии длиною не в 30 минут, а в 10-20 часов экранного времени.
Производство сериала в те годы — это по сути работа для дата-аналитика. Каким бы авторитетным ни был режиссер, если он снимает для телевидения, то ему придется плясать под дудку продюсера, который постоянно будет бурчать про рейтинги, охваты, фокус-группы, опросы, графики, сегменты аудитории, окна Овертона и так далее.
Важно: телевизионная часть бизнеса у Сони, Ворнер Бразерс и прочих студий всегда приносила значительно больше денег, чем кинопроизводство. Потому что для телепродюсера единственная задача сериала — собрать у экрана аудиторию, чтоб та посмотрела рекламу, за которую каналу заплатили.
С деньгами в кино все иначе. Рекламодатели не заносят чеки раз в квартал, чтобы вы закрыли кассовый разрыв.
И в самый лучший год у любой студии все равно наберется фильмов пять-семь, которые должны били принести сотни миллионов прибыли, но оказались убыточными. В переводе на язык высоких кабинетов в Голливуде: это очень тяжелый бизнес, потому что главный враг любого бизнеса — непредсказуемость. И нет ничего более непредсказуемого, чем сборы фильма, который еще снимается.
Так было лет 15 назад, но потом появился Человек Паук и все изменил.
Редактор на майских много залипал в сериалы. Уверен, подписчики тоже. Продажи билетов в кино падают каждый год, а количество сериалов и их аудитория множатся. И да, причина в дата-аналитике.
Как так вышло?
Раньше кинотеатры приобщали к таинствам. На мистерии Тарковского и Линча шли за смыслами, историями и метафорами, которых ни по одному каналу не показывали. Эфир телека состоял из ситкомов для и про домохозяек и прочих незамысловатых шоу.
Одна из причин в том, что стримингов в начале века еще не было. Не хотите пропустить серию, которую больше не покажут в этом году, тогда вам надо быть у экрана ровно в 10 вечера. Как ни старайтесь, а пару серий за сезон точно пропустите: то к врачу сходите, то на день рождения.
Поэтому и снимали в основном сериалы без сквозного сюжета: каждая серия — отдельная история, которую с другими ничего кроме персонажей и сеттинга не увязывает. Так что сегодняшние сериалы стали такими крутыми во многом просто потому, что теперь авторы могут позволить себе сюжетные линии длиною не в 30 минут, а в 10-20 часов экранного времени.
Производство сериала в те годы — это по сути работа для дата-аналитика. Каким бы авторитетным ни был режиссер, если он снимает для телевидения, то ему придется плясать под дудку продюсера, который постоянно будет бурчать про рейтинги, охваты, фокус-группы, опросы, графики, сегменты аудитории, окна Овертона и так далее.
Важно: телевизионная часть бизнеса у Сони, Ворнер Бразерс и прочих студий всегда приносила значительно больше денег, чем кинопроизводство. Потому что для телепродюсера единственная задача сериала — собрать у экрана аудиторию, чтоб та посмотрела рекламу, за которую каналу заплатили.
С деньгами в кино все иначе. Рекламодатели не заносят чеки раз в квартал, чтобы вы закрыли кассовый разрыв.
И в самый лучший год у любой студии все равно наберется фильмов пять-семь, которые должны били принести сотни миллионов прибыли, но оказались убыточными. В переводе на язык высоких кабинетов в Голливуде: это очень тяжелый бизнес, потому что главный враг любого бизнеса — непредсказуемость. И нет ничего более непредсказуемого, чем сборы фильма, который еще снимается.
Так было лет 15 назад, но потом появился Человек Паук и все изменил.
🔥7👍6❤🔥5❤1