Progres Post
273 subscribers
37 photos
1 video
16 files
180 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Кем надо было работать 10 лет назад, чтобы сегодня стать директором по данным

На роль директора по данным (CDO) приходят из разных дисциплин: 40% бывшие айтишники, 30% дата-менеджеры, 15% финансисты, 10% операционщики и 5% маркетологи.

С клиентами в прошлом работал 21% сегодняшних CDO. Влияет ли такой опыт на представление о том, как с помощью данных улучшить обслуживание клиентов? Наверняка.

И влияние это сильнее, чем кажется.

Все они работают с данными: дата-менеджеры, айтишники, маркетологи и финансисты. Но все по-разному.

Они по разному смотрят на данные, по-разному понимают, для разного используют, в разных контекстах изучают и вообще у них работа разная.

Задачи CDO в разных компаниях отличаются меньше, чем задачи маркетолога и айтишника внутри одной компании. Так что эти двое, когда вырастут, станут CDO и возьмутся за примерно одинаковые задачи, получат совсем разный результат.

Что будет, если айтишник станет CDO на заводе, который производит левую палочку Твинкс, а маркетолог на заводе, производящем правую палочку? Палочки станут настолько разными, что их перестанут продавать вместе.

И все же.

Большинство CDO работали в айти. Это значит, что айтишники больше прочих подходят для этой роли? Вряд ли.

Когда назначают CDO из числа айтишников, в его зону ответственности естественно переходят айтишные функции CIO: сбор, управление и защита данных. Биллу Шмарцо кажется, что айти-бэкграунд вреден.

Раз уж монетизация — самая зудящая задача в работе с данными, то разумно взять на роль CDO финансиста. Он умеет оценивать абстрактные активы, включая данные, и извлекать из них максимальную ценность.

Вы бы кого назначили CDO?

#аналитика
🔥5❤‍🔥3👍2👨‍💻2
Почему время так важно для работы с данными

В мире генерируется все больше и больше данных. Если с ростом объема данных не увеличивать скорость обработки, система аналитики будет работать все хуже и хуже.

У кого много данных, те это понимают и тратятся на аналитику в реальном времени.

По прогнозу MarketsAndMarkets рынок потоковой аналитики вырастет с $30 млрд в 2024 году до $126 млрд в 2029 году. Это значит, что каждый год рынок будет расти в среднем на 34%.

На пальцах:

Сбор и аналитика данных нужны, чтобы принимать оптимальные в текущих обстоятельствах решения.

Пошлины на бразильский кофе внезапно подняли вчера вечером, но если вы ждали весточку голубиной почтой, то узнаете об этом только сегодня.

Пока пользующиеся пейджерами конкуренты скупают у оптовиков все, что есть по старым ценам, вы ждете новостей.

Когда получите с голубем совет срочно скупать кофе по оптовым базам, обстоятельства уже изменятся. Вы либо ничего не купите, либо переплатите.

Имей вы систему потоковой аналитики, узнали бы о повышении пошлин еще до того, как об этом объявили публично.

Как это работает:

- В колл-центрах алгоритмы анализируют ход разговора и во время звонка помогают оператору направить беседу по нужному сценарию. Система мгновенно сообщит, если в речи клиента что-то выдаст его желание уйти к конкурентам. Тогда оператор сможет удержать перебежчика.

- Потоковая аналитика на складе позволяет мгновенно реагировать на сделки, чтобы вовремя сокращать или наращивать запасы. Это защищает от упущенных продаж и переполненности склада.

- Производства с помощью потоковой аналитики в реальном времени следят за ресурсом оборудования и состоянием линии. Реагируя на сбой, который еще не случился, завод снижает риск простоя из-за поломки.

- Банк с помощью аналитики в реальном времени сопоставляет остаток на карте и геолокацию телефона. Если клиент в торговом центре и без денег, это может быть идеальным моментом, чтобы предложить ему кредитку.

Иногда алгоритмы сражаются:

Банку нужно принять решение о выдаче кредита как можно быстрее. Люди подают заявку на кредитку в несколько банков. Поэтому проанализировать сотни или тысячи параметров надо не только быстро и с учетом данных в реальном времени. Важно одобрить кредит раньше, чем это сделают в банке другого цвета.

Решения для потоковой аналитики кажутся дорогими. Однако отсутствие такой аналитики может обходиться еще дороже.

Конкуренты с пейджерами успели закупиться по старой цене, а вас теперь ждет кассовый разрыв и дефицит товара на складе.

Во сколько раз голубь должен быть дешевле пейджера, чтобы его низкая цена вас утешила?

#аналитика
👍6❤‍🔥2🔥2🕊2
Как проводить А/Б-тесты в реальном мире

Тестировать оформление кнопочек на сайте легко: поправил в файле стилей цвета и нехитрым кодом разделил трафик пополам. За пределами матрицы все сложнее, потому что в физическом мире сильно больше переменных.

Рекомендуем сразу две статьи про то, как выстроить и обкатать методологию А/Б-тестов для офлайн-бизнеса. В случае автора это была сеть фастфуда.

Статья А: «Планирование и верификация оффлайн A/B-тестов».

Она о том, как автор выстраивал методологию A/Б-тестирования в условиях оффлайн-ритейла. Она для тех, кто работает с данными не в идеальном вакууме, а на земле — в ресторанах, ритейле, логистике.

В статье минимум формул и только рабочие подходы, предостережения и лайфхаки, собранные через тесты, ошибки и маленькие победы.

Статья Б: «Анализ и интерпретация результатов A/B-тестов».

Эта статья учит анализировать полученные данные и не ошибиться с выводами. В ней автор разбирает методы, позволяющие скорректировать влияние внешних факторов. Учит контролировать ошибки, выбирать подходящий статистический критерий и оценивать надежность результатов.

Если первая часть была про чистоту эксперимента, то вторая — про силу аргумента.

Ну и раз уж настроение такое. Загадка про сидящие на трубе буквы — это А/Б-тест или нет?

#аналитика #статьи
❤‍🔥5👍3🔥3
Отдадим в хорошие руки: сценарий ремейка «Королевской битвы» в декорациях «Социальной сети»

Роли CDO и CIO пересекаются, но преследуют разные цели, хоть и в рамках общей стратегии: CDO отвечает за управление и использование данных, а CIO — за технологическую стратегию и айти-системы.

Если бы телеги и лошади имели одинаковую силу убеждения, то совсем неочевидно, кого бы чаще запрягали.

Разделение ролей влияет на стратегию, бюджетирование и окупаемость инвестиций. Как в командном спорте: надо компенсировать недостатки и поддерживать сильные стороны партнеров.

Как и всем уважающим себя супергероям из комиксов, нашим CIO и CDO противостоят мрачные, но могущественные силы:

Непримиримый враг CIO — рост объемов данных. Это вынуждает постоянно обновлять инфраструктуру, чтобы оставаться на уровне с компаниями, которые определяют вектор индустрии.

Вечный противник CDO — тайное антиглобалистское общество, запустившее свои щупальца в законодательную власть развитых страх. Так они вставляют CDO палки в колеса, заставляя тратить заметную часть ресурсов не на крутые продукты, а на соблюдение законов.

Понимание различий помогает правильно распределить обязанности и приоритезировать проекты в условиях роста объемов данных и жестких регуляторных требований

И две тысячи лет война, война без особых причин

Цифровая трансформация — это хорошо, это нам надо. Но многие компания нанимают CDO и CIO не на ясную поляну задач, а в бурелом хаотичных процессов. Когда общие цели не разделены на зоны ответственности, начинается подковерная возня: за ресурсы, зарплаты, влияние и все такое.

Ничего еще не устоялось

Нейросети расширили границы ответственности у CIO и CDO, а заодно и сделали нормой решение задач ИИ. Новые технологии потребовали нового подхода, новы подход открыл новые возможности.

CIO все чаще вовлекается в аналитику больших данных и цифровую безопасность, а CDO в обеспечение законности и этики ИИ.

Гипотеза:

Дальнейшее развитие технологий будет сужать грань между ролями, требуя от обоих руководителей гибкости и взаимозаменяемости.

#аналитика
5❤‍🔥2🔥2🥰2
Темная материя, темная энергия, а теперь еще и темные данные

В недавнем отчете AvePoint сказано, что 64% компаний управляют минимум 1 ПБ данных, а 41% — минимум 500 ПБ. Само по себе это круто, но есть нюанс: от 40% до 90% этих данных не анализируются и не используются.

Как и в случае с темной энергией и темной материей в астрономии, в темных данных нет ничего мрачного или зловещего. Темные они не из-за преступного происхождения, а из-за таинственности, они просто неструктурированные и неиспользуемые: это могут быть логи или старые клиентские отзывы.

Темные данные несут риски (затраты на хранение, сложности с соблюдением нормативов), но вместе с тем дают множество возможностей. Из-за огромного объема темных данных компании упускают ценные инсайты, лишают себя точных решений, упрощенной отчетности и оптимизации расходов.

Не нужно собирать все подряд просто потому, что вы можете. Иногда поиск инсайтов оборачивается поиском иголки в стоге сена.

Чтобы не копить все подряд:

- Собирайте только действительно нужные данные и четко формулируйте цели. Для внешних источников выбирайте надежные сторонние решения с ИИ-возможностями.

- Внедрите политику управления данными, продумайте гигиену данных и проводите регулярные аудиты ROT (redundant, obsolete, trivial). Архивируйте ценное, остальное удаляйте.

- Используйте ИИ-системы для автоматической классификации и приоритизации данных по их бизнес-ценности.

По прогнозам ВЭФ, к 2040 году до 14% мировых выбросов углекислого газа будет приходиться на цифровые данные. Так что осветляйте то, что можете и хотите использовать, и регулярно очищайте архив — сэкономленные на хранении темных данных деньги можно потратить с большей пользой.

#аналитика
👍6🔥5❤‍🔥21
В Москве появится озеро обезличенных персональных данных для обучения искусственного интеллекта

Москва планирует создание своего регионального озера данных, заявил заместитель руководителя департамента информтехнологий (ДИТ) Москвы Владислав Шишмарев, выступая на конференции First Russian Data Forum 17 апреля. Он отметил, что столичные власти интересует обмен данными государства и бизнеса.

Кто создает это озеро данных?

Правительство Москвы, а точнее Департамент информационных технологий (ДИТ) столицы, разрабатывает региональную информационную систему формирования составов данных (ИС ФРСД).

Кто будет им управлять?

Оператором системы выступит сам ДИТ Москвы.

Как оно будет пополняться?

За счет сбора и обезличивания персональных данных жителей, которые уже обрабатываются столичными госорганами и подведомственными организациями. После обезличивания эти данные автоматически попадают в ИС ФРСД, а часть может передаваться и в федеральное госозеро Минцифры.

Кем и для чего будет использоваться?

Госорганы Москвы будут применять озеро для аналитики и внедрения дата-центричного управления: логистика, социальные сервисы, адресная поддержка и так далее.

Бизнес и разработчики ИИ получат доступ к обезличенным дата-сетам для обучения своих алгоритмов и проведения прикладного анализа: создание продуктов и сервисов на больших данных, повышение качества услуг для граждан и малого/среднего бизнеса.

Какую пользу получит бизнес?

Это будет зависеть от того, на каких условиях бизнес получит дата-сеты и сможет ли воспользоваться результатами их обработки.

Вот, что говорит Алексей Мунтян, эксперт по защите персональных данных:

Это один из самых болезненных вопросов сейчас, когда мы говорим о «госозере» данных, потому что по закону выгрузить из него нельзя ничего, даже результатов анализа информации. Это сильно повлияет на эффективность всей этой затеи.


Забавно.

Получается, пляж к купальному сезону откроют, но в воду заходить запретят?

#аналитика
🐳3👍2🆒22❤‍🔥1
Реальная стоимость данных: как управление автопарком превращает Big Data в экономию

Компания ID20 рассказала на примере автопарка, как данные становятся не просто отчетностью, а рабочим инструментом, который оптимизирует управление и сокращает расходы бизнеса.

Главные результаты из кейса:

- С помощью аналитики больших данных, собранных с GPS-трекеров, в среднем на 15-20% сокращаются незапланированные ремонты, и техническое обслуживание становится по-настоящему прогнозируемым и эффективным.

- Реализация больших данных в работе позволяет анализировать маршруты, выявлять неэффективные поездки, сокращать холостые пробеги и избегать загруженных дорог. Внедрение алгоритмов оптимизации маршрутов позволяет снизить затраты на топливо до 30%.

- Отклонение от маршрута, манипуляции с топливными картами — все это фиксируется и анализируется. Предприятия, применяющие системы управления, в среднем на 25% снижают нецелевое использование автомобилей и корпоративные потери.

- Компании, внедрившие системы мониторинга, фиксируют снижение затрат на страхование на 5-15% за счет сокращения аварийности, а некоторые страховые компании вообще предоставляют скидки для тех, кто внедрил телематику.

Кажется, последний инсайт — самое интересное из кейса. Государство вполне может субсидировать подобные скидки, что заметно ускорит цифровую трансформацию и повысит спрос на подобные решения.

В России половина компаний, внедривших большие данные, оптимизировали запасы и повысили продуктивность основных активов. По данным опроса, треть компаний планирует внедрить такие решения в ближайшее время.

#деньги #статьи
🔥5👍4❤‍🔥2🤩1
Криптовалюты за это ругают, а ИИ по головке гладят

Российский антрополог и популяризатор науки Станислав Дробышевский, кандидат биологических наук, выступил с резкой критикой майнинга криптовалют. Он предложил ставить к стенке майнеров.

У Дробышевского, чью книгу «Палеонтология антрополога» редактор с большим удовольствием прочитал, сильно подгорело из-за того, сколько электричества майнеры тратят ни на что — просто на вычисление следующего блока.

Это не совсем так: энергия тратится преимущественно на поддержку работы сети — на обслуживание транзакций. Между прочим, свет в отделениях банков тоже денег стоит.

Интересно, как Дробышевский отреагировал бы на новый доклад International Energy Agency о связи искусственного интеллекта с энергетической отраслью?

Ключевые цифры:

- К 2030 году дата-центры во всем мире будут потреблять около 945 ТВт/ч в год — это почти вдвое больше, чем сейчас. Главным драйвером этого роста станет ИИ.

- Дата-центры, специально настроенные под ИИ, увеличат свое энергопотребление более чем в четыре раза к 2030 году. В развитых экономиках около 20% роста потребления электроэнергии до 2030 года будет связано с дата-центрами.

Смелые предположения:

В докладе авторы предполагают, что часть проблем, связанных с ростом расходов энергии на ИИ, сможет решить сам ИИ.

- ИИ активно используется в исследованиях и может ускорить разработку новых технологий, от батарей до солнечных панелей. Это может привести к более устойчивой и эффективной энергетике в будущем.

- Увеличение потребления энергии дата-центрами может повысить выбросы парниковых газов, но в масштабе всей энергетики рост будет незначительным. Более того, ИИ может способствовать снижению выбросов, помогая оптимизировать потребление и находить новые решения.

Сектор ИИ превзойдет майнинг по потребляемой энергии. При этом до 20% майнинг-мощностей перейдут на обработку ИИ-запросов, потому что это прибыльнее: искусственный интеллект предлагает в 17-25 раз больше дохода на затраченный кВт/ч по сравнению с майнингом биткоина.

#ии #исследования
🔥4👍3❤‍🔥2👾1
Без асцендента и кофейной гущи

В 2021 году в McKinsey представили прогноз того, каким станет основанный на данных бизнес к 2025 году.

Прошло время, и мы решили проверить: что из семи ключевых предсказаний сбылось, а где индустрия еще не дотянула до ожиданий.

Краткий разбор каждого пункта и его текущее состояние:

1. Практически все сотрудники будут регулярно использовать данные для оптимизации работы.

Частично сбылось: крупные компании достигли этого, но уровень навыков варьируется.

2. Сети подключенных устройств будут собирать и передавать данные и инсайты в реальном времени.

Частично сбылось: IoT и 5G развиты, но покрытие еще не универсально.

3. Различные типы гибких хранилищ (NoSQL, графовые, time-series) будут интегрировать готовые к использованию данные.

Сбылось: NoSQL и графовые базы стали стандартом для customer 360-платформ.

4. Данные будут управляться как продукты командами, отвечающими за качество, безопасность и развитие.

Частично сбылось: передовые организации внедрили продуктовые команды по работе с данными, но большинство остается на традиционном подходе.

5. Директора по данным будут нести P&L-ответственность и генерировать новые источники дохода.

Не сбылось: лишь единицы CDO получили полномочия profit-and-loss.

6. Компании будут участвовать в экосистемах обмена данными, совместно создавая более ценные инсайты.

Не сбылось: риски безопасности и конкурентные барьеры ограничивают шаринг.

7. Управление данными будет автоматически обеспечивать приватность, безопасность и быстрое восстановление.

Частично сбылось: автоматическое резервирование и доступ внедрены, но зрелость процессов сильно различается.

Вообще, если натягивать сову на глобус, то попадания можно найти по всем пунктам, но если честно, то в McKinsey были излишне оптимистичны. Нужно еще время.

#исследования
👍4❤‍🔥3😁3
Межсетевые экраны нового поколения

АНО «Цифровая экономика» совместно с проектом «Кибердом» представила обзор российских межсетевых экранов нового поколения (NGFW) и их функций, включая механизмы обработки трафика, обнаружения угроз и предотвращения вторжений.

Каталог представляет собой актуальный обзор российских решений в области средств защиты информации типа межсетевые экраны нового поколения.

В нем собрана информация о доступных и перспективных продуктах, обеспечивающих защиту информационных потоков с поддержкой современных механизмов обработки трафика, функционала обнаружения, предотвращения вторжений, авторизации пользователей и других функций.

Каталог будет полезен заказчикам, специалистам по информационной безопасности, айти-архитекторам и всем, кто заинтересован в импортозамещении и развитии отечественных киберзащитных технологий.

Делитесь.

#безопасность
❤‍🔥3👍32🔥2
Старший вице-президент Сбера: что ждет рынок больших данных

В 2023 году вице-премьер Дмитрий Чернышенко предрек бурный рост рынка данных в РФ:

Российский рынок данных — быстрорастущий и перспективный. По прогнозам экспертов, к 2030 году его объем достигнет 800 миллиардов рублей, а применение технологий искусственного интеллекта добавит более 11 триллионов рублей к ВВП.


С тех пор представителей правительства и корпораций по поводу и без мучают вопросами про это.

Публикуем цитаты из недавнего интервью Кирилла Меньшова, старшего вице-президента и руководителя блока «Технологии» Сбера.

Он рассказал про 4 главных тренда:

1. ИИ-ассистенты возьмут на себя рутину

Сегодня на первый план выходит автоматизация задач. Возможности генеративного искусственного интеллекта позволяют внедрять новые решения, которые упрощают и автоматизируют рутинные действия. Многие компании уже внедряют решения, основанные на технологии speech2SQL и text2SQL.

По сути это AI-ассистент, которому можно поставить задачу на естественном языке. Он воспримет ее и преобразует в готовый SQL-код, который затем отправит на исполнение и предоставит пользователю результат в виде графика, выборки данных или таблицы.


2. Инфраструктура для генеративного ИИ

Во всем мире растет сегмент нереляционных баз данных. Мы видим тренд на применении векторных баз данных и видим большой потенциал в развитии графовых. Такие инструменты адаптированы для GenAI и отличаются высокой производительностью.

Не менее важное требование — поставка и обмен большими массивами данных в реальном времени (real time data). Все сервисы компании должны поддерживать поставку данных в моменте. Это большой вызов с точки зрения инфраструктуры и технологий, но другого пути нет.


3. Интернет вещей и не только

К 2035 году данные интернета вещей составят 40% всех доступных данных. Работа с ними потребует значительных инвестиций в технологии и инфраструктуру обработки. Благодаря инструментам генеративного AI удается эффективно справляться с обработкой огромных объемов данных, которые ранее казались неподъемными.

На основе искусственного интеллекта Сбера GigaChat разработали сервис, который восстанавливает описания атрибутов в наших базах данных. Технологии генеративного ИИ позволили решить задачу описания физической модели семи тысяч баз данных и примерно 67,5 млн атрибутов. ИИ справляется с этой работой в 290 раз быстрее человека, восстанавливает 99,6% описаний полей базы данных и генерирует 89% точных и качественных смысловых описаний.


4. ИИ-агенты — клиенты дата-платформ

Основными пользователями дата-платформ будут не аналитики, дата-инженеры и исследователи, а ИИ-агенты. Они решают поставленную задачу под ключ, заменяя типовые ручные рутинные операции. По нашим расчетам, ИИ-агенты увеличат нагрузку на инфраструктуру примерно в пять раз больше других пользователей.

Сегодня ИИ-агенты помогают инженерам и аналитикам быстрее написать код, найти данные, проверить качество, построить графики. А уже завтра по запросу бизнес-пользователей они смогут находить тренды, делать выборки, проверять гипотезы, искать инсайты и строить модели.


Роли аналитиков и инженеров изменятся, как и задачи, которые они будут решать. Кто с этими трансформациями лучше справится, тот и в дамках.

#аналитика #ии
👍53❤‍🔥2🔥1
Как посчитать профит дата-команды

Однажды аналитик Максим получил задачу от продуктового директора Марии: «Максим, докажи, что ваша дата-команда реально приносит пользу». Максим вспомнил статью How to think about the ROI of data work и решил с помощью простой формулы и эмодзи доказать зумеру Марии, что его команда не зря получает зарплату.

ROI = (🎳 × 🖇 × 💰) /

Максим объяснил Марии:

🎳 — Это число специалистов или систем, которые пользуются нашим решением.

🖇 — Насколько наша работа ускоряет или упрощает их жизнь.

💰 — Сколько каждая единица этой экономии стоит для бизнеса.

— Сколько человеко-дней мы потратили.

Чтобы убедить Марию, Максим привел свой недавний кейс:

Он автоматизировал отчет, который раньше вручную собирали шесть аналитиков по два часа каждый рабочий день. Новая система стала делать все сама — экономия 100% времени. Один час работы аналитика в их компании стоит примерно $50, значит каждый из шести коллег теперь зарабатывал для бизнеса по $100 в день. Сам проект занял у команды 8 человеко-дней.

Подставив все это в формулу, Максим получил:

ROI = (6 🎳 × 1 🖇 × $50 💰) / 8 дн ≈ $37,5

Столько выгоды в день получает компания от работы команды.

Когда Мария увидела цифру, она улыбнулась: «Понятно и наглядно!»

Но Максим предупредил: «Не все так просто. Вендоры часто рисуют красивые ROI-презентации, обещают сверхприбыль от еще несуществующих фич — это больше маркетинг, чем реальность. Реальный ROI всегда ниже, потому что мы забываем учесть скрытые издержки: зарплаты, поддержку, последующие доработки».

Вместо того, чтобы увязнуть в бесконечных расчетах, Максим предложил переходить на OKR-подход: привязывать каждую задачу к бизнес-целям и ключевым результатам, чтобы уже по факту спринта можно было увидеть Impact и Value. Так дата-команда получала четкий фокус на самых окупаемых задачах и одновременно создавала платформы и инструменты для масштабного эффекта.

Когда в конце встречи Мария спросила: «А как быть с ROI, например, от покупки нового iPhone для работы?»

Максим улыбнулся и ответил: «Здесь та же формула: посчитайте, сколько вы сэкономите времени и получите пользы, и поделите на затраты. Но сначала лучше завести OKR и измерять настоящий вклад данных!»

И с тех пор в их команде ROI перестал быть пугающим набором цифр — он превратился в понятный инструмент, который помогает выбирать правильные проекты и показывать реальную ценность данных.

#аналитика #деньги #статьи
👍5🙏3❤‍🔥2🔥1
SQL Basics.pdf
102.8 KB
Если майские праздники пройдут по плану

И после вам понадобятся шпаргалки по SQL, вы знаете, где их найти.

- SQL для дата-аналитиков.

- Простые и сложные JOIN-операции.

- Оконные функции.

- SQL для самых маленьких.

Сохраняйте и поделитесь с коллегами.

#sql
👍65🔥32❤‍🔥1💯1
Будущее трансформеров: без Майкла Бэя и Оптимуса Прайма

На Хабре вышла статья про ограниченность крупных языковых моделей в части хранения контекста и адаптации в реальном времени. Автор рассказывает, как семантический поиск, квантование и внешние базы знаний помогают создавать компактные и обучаемые агенты, готовые работать прямо на устройствах пользователя.

Разбираем главные тезисы и инсайты:

Mem-векторы: долгосрочная память для LLM

Большие языковые модели не запоминают информацию за пределами фиксированного окна контекста. Решение — внедрение долговременной памяти в виде специальных mem-векторов. Архитектуры вроде LongMem сохраняют промежуточные представления из внутренних слоев модели, которые позже можно извлекать. Это позволяет расширять контекст до десятков тысяч токенов без потери качества и сдерживать рост вычислительных затрат. Новые методы позволяют также эффективно сжимать контекст до 20-70 раз, сохраняя смысл.

Модульные трансформеры: разделение знаний и мышления

Трансформеры становятся более модульными. В новых архитектурах знания выносятся в отдельные модули, а ризонинг — в ядро модели. Концепция Transformer 2.0 предполагает замену жестко запрограммированного feed-forward слоя на вызов внешней базы знаний через механизм внимания. Подход Mixture-of-Experts (MoE) активирует при запросе только те подсети, которые действительно нужны, позволяя сильно увеличить объём доступных знаний без пропорционального роста вычислений.

Персонализация без полного переобучения

Дообучение больших моделей с нуля невозможно для большинства пользователей. Вместо этого применяются методы параметро-эффективного обучения (PEFT) — такие как LoRA, адаптеры и prompt-tuning. Они позволяют дообучать только небольшую часть параметров модели (1–2%) без изменения базовых весов. Это дает возможность быстро адаптировать модель под задачи конкретного пользователя, избегая катастрофического забывания и сохраняя приватность.

Семантическая память: ключ-значение и поиск знаний

Вместо того чтобы хранить все знания в весах модели, современный подход использует Retrieval-Augmented Generation (RAG). Модель запрашивает информацию из внешних векторных баз знаний, таких как FAISS, Milvus или Qdrant, и генерирует ответы на основе релевантных документов. Семантический поиск по векторам ключ-значение позволяет интегрировать внешнюю память в работу модели, обеспечивая масштабируемость и свежесть знаний.

Эффективность и запуск на устройствах пользователя

Модели становятся компактнее. С помощью методов вроде квантования (например, 4-битные QLoRA) и дистилляции их можно запускать на ноутбуках и даже смартфонах без значительных потерь качества. Это открывает возможность создания автономных ИИ-агентов, которые работают локально, быстрее реагируют и не передают данные в облако — важный шаг в сторону приватности и персонального контроля над ИИ.

Конфликт знаний и галлюцинации: вызовы большого мозга

С ростом объема знаний возникает проблема противоречий и галлюцинаций. Модели могут воспроизводить устаревшие, выдуманные или конфликтующие факты. Чтобы с этим бороться, предлагается внедрять механизмы явного управления источниками, верификации информации и приоритезации. Это особенно важно для систем, которые хранят долгосрочную память и работают в реальных приложениях.

Заключение: от больших моделей к умным агентам

Будущее — не за все более громоздкими моделями, а за умными агентами, которые умеют учиться на ходу, помнить прошлый опыт, обращаться к внешним базам знаний и работать на пользовательских устройствах. Такие ИИ-системы будут адаптивными, эффективными и персонализированными. Это шаг от просто большого мозга к осмысленному и автономному мышлению в реальном времени.

#ии #статьи
🔥7❤‍🔥332
Сколько денег уйдет на модернизацию дата-центров в ближайшие 5 лет

По прогнозам McKinsey, к 2030 году мировые расходы на расширение и модернизацию дата-центров достигнут $6,7 трлн, из которых $5,2 трлн — только на удовлетворение потребностей ИИ.

Это базовый сценарий. При ускоренном росте к 2030 году на покрытие ИИ-потребностей уйдет и того больше — $7,9 трлн.

Откуда такие цифры?

Потребление искусственным интеллектом электричества стабильно растет. Если график этого роста продлить до 2030 года, то выйдет, что через 5 лет ИИ потребует дополнительных 156 ГВт.

Остается посчитать, сколько будет стоить произвести 156 ГВт энергии и нарастить сами вычислительные мощности.

И в McKinsey посчитали:

- $0,8 трлн на землю и строительство.

- $1,3 трлн на электроснабжение и охлаждение.

- $3,1 трлн на оборудование.

Итого $5,2 трлн.

Очевидное невероятное:

На возобновляемые источники приходится 33% в энергетическом балансе дата-центров. К 2030 году их доля может вырасти до 50%, если вложить еще $1 трлн в чистую энергогенерацию и сеть.

Верим?

#ии #деньги #исследования
👍4❤‍🔥22🔥2
Рейтинг стран по доступности и открытости статистических данных

На Open Data Watch подъехал обзор по 197 странам за 2024 год.

Глобальный вывод: в мире тренд на рост открытости и доступности статистических данных.

К методологии можно придираться: составители отчета не роют носом всевозможные источники статистики, а учитывают только то, что на поверхности и давно известно. Так что с конкретными местами стран в рейтинге можно спорить, но в целом картина довольно достоверная.

В аутсайдерах Южный Судан (196 место) и Туркменистан (197).

В лидерах Малайзия (1) и Северная Европа: Финляндия (3), Дания (4), Норвегия (6).

Все неплохо и в арабском мире: Оман (9), ОАЭ (10).

Интересна разница между соседними Туркменистаном (197) и Узбекистаном (12). Больше разница могла бы быть только между Северной и Южной Кореей (35), но по КНДР данных нет.

Кто на каком месте из больших ребят:

- США и Канада (21)

- Россия (76)

- Китай (159)

Интересно отметить Сальвадор (185), который такой весь из себя про блокчейн, биткоин, свободу и все такое, а вот с открытостью данных у него так себе.

#исследования
👍5🔥3❤‍🔥2🏆2