Progres Post
273 subscribers
37 photos
1 video
16 files
180 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Какой российский бизнес готов к экономике данных, а какой — нет

Вышка выпустила сборник «Готовность российского бизнеса к экономике данных», где рассказала, сколько компаний в разных отраслях использует большие данные:

- Продажи, доставка, постпродажное обслуживание: 45%.

- Производство услуг и продуктов, обслуживание оборудования: 41%.

- Администрирование: бухгалтерия, финансы, кадры: 35%.

- Маркетинг и реклама: 32%.

- Логистика и склад: 23%.

Многие ли готовы покупать и продавать данные

Среди тех, кто уже их использует или только планирует:

- 19% готовы продавать данные или делиться ими бесплатно.

- 23% хотели бы покупать данные у других организаций.

- 39% хотели бы получить доступ к государственным данным.

Неожиданный аутсайдер

В России среди всех организаций, использующих большие данные, в бизнес-процессах их применяют только 23% складских и логистических компаний.

Это самый низкий показатель среди всех отраслей бизнеса. То ли там работают луддиты, то ли это какой-то саботаж.

Пока российские логисты игнорируют большие данные, в Амазон за 2019-2023 годы с их помощью вот к чему пришли:

- На 40% сократили задержки в доставке.

- На 30% нарастили рентабельность цепочки поставок.

- На 10% сократили среднее время доставки.

- На 30% снизили избыточные запасы на складах.

Если просто повторять, что данные — новая нефть, никаких дивидендов не будет. Надо бурить, детка, бурить.

#исследования
👍5🔥3❤‍🔥2🤨1
Искусственный интеллект и большие данные в строительстве

По оценке ДОМ.РФ, к 2028 году вклад искусственного интеллекта в строительство в России составит ₽1 трлн. Это при том, что ИИ на своих объектах использует только 26% строительных компаний. Так что есть, куда расти и после этого.

Самые примечательные кейсы:

- Средняя точность оценки стоимости строительства тоннелей на ранних этапах не превышает 60%. Греческие исследователи разработали модель, которая анализирует всего 12 характеристик и выдает значительно более точный прогноз.

- Строительные спецификации и документы — источник головной боли, где каждое предложение может быть длиной в 7-10 строк. В них сложно разобраться. В сеульском университете автоматизировали анализ строительных спецификаций.

- Подбор строительных материалов требует учета десятков и сотен параметров. В Лидском университете Беккета разработали решение для инженеров: оно подскажет, какой материал класть на пол в санузлах на четвертом этаже, а какой — в гостиной на первом.

- В американской строительной компании Savko & Sons оснастили всю технику на своих стройках датчиками. Так руководство отслеживает производительность, время работы и простоя и прочие показатели.

- Объединение строителей Тулы использует умные каски. С датчиков на касках собираются данные, которые используются для контроля за соблюдением техники безопасности. Каска сообщит диспетчеру, если работник получит удар или упадет. Кроме того, устройства повышают производительность труда.

Технологии помогают сокращать сроки строительства, оптимизировать ресурсы и минимизировать риски, что в долгосрочной перспективе снижает расходы и повышает рентабельность проектов.

За счет ИИ производительность на стройке можно увеличить на 40%.

#ии #аналитика #исследования
👍5🔥3❤‍🔥2💯2
В OpenAI открыли бесплатный доступ к ChatGPT Plus для студентов

До конца мая все американские и канадские студенты смогут бесплатно пользоваться всеми функциями платной версии модели.

Почему до конца мая?

Потому что надо готовиться к сессии.

Кажется, мы теперь точно в новой реальности: плохие студенты просят ИИ написать за них работу, хорошие — готовятся к экзаменам с его помощью. Но почти никто не сидит больше над книгами в библиотеках.

Круто, что в OpenAI не просто не боятся признать это, но и пестуют использование нейросетей в подготовке к экзаменам.

Можно сколько угодно сетовать, что раньше читали больше, но рано или поздно реальность принять придется.

Вот вам, кстати, крутой подкаст: физик и астроном допрашивают главного по ИИ в Яндексе о том, куда мы движемся.

#ии
👍4👨‍💻4🔥3❤‍🔥22
Чего ждать от GenAI в 2025 году по версии red_mad_robot

Тренд-репорт от Аналитического центра red_mad_robot рассказывает, чего ждать бизнесу от рынка GenAI в 2025 году.

- Китайские модели навязывают конкуренцию. Пример DeepSeek показал, что ризонинг-модели с открытым исходным кодом могут конкурировать с ChatGPT по ключевым бенчмаркам и при этом оставаться более эффективными экономически. В Forbes назвали это новой гонкой вооружений.

- Понимая, что Китай угрожает лидерству США в сфере ИИ, Трамп анонсировал проект StarGate, который инвестирует $500 млрд в развитие искусственного интеллекта и суперкомпьютеров. Основные направления: AGI, персонализированная медицина и фундаментальные модели.

- Компании начинают монетизировать данные с помощью ИИ. Будет появляться все больше маркетплейсов данных и основанных на данных ИИ-агентов. В Slack уже создали хаб с ИИ-агентами от разных поставщиков.

- ИИ постепенно будет влиять на дизайн интерфейсов. OpenAI уже выпустила ИИ-агента Operator, который выполняет задачи в браузере за пользователя. Чем больше будет подобных агентов, тем сильнее будет меняться дизайн под их влиянием.

- Синтетические данные станут мейнстримом. По прогнозу Gartner, к 2026 году 75% компаний будут использовать генеративный ИИ для получения синтетических клиентских данных. В 2023 таких компаний было меньше 5%.

Вообще-то прогнозы — дело неблагодарное, но в сфере ИИ все происходит на таких скоростях, что проверить качество предсказаний получается очень скоро после их публикации. Ждем, наблюдаем.

#ии #исследования
👍5❤‍🔥32🔥1
Конфиденциальность данных — потребность бизнеса или требование закона?

На первый взгляд кажется, что соблюдение требований к конфиденциальности не приносит бизнесу никаких выгод — одни расходы и трудности. Да и на второй взгляд тоже. Однако, если присмотреться в третий раз, можно кое-что разглядеть.

В презентации «Конфиденциальность данных» с Datatalks 5.0 от Ростелекома Андрей Буланов посмотрел на это под неочевидным углом. Разберем ключевые тезисы.

Минусы

- Потеря точности данных.

- Ограничения маркетинговых стратегий.

- Затраты на внедрение и поддержку технологий.

- Ограниченные возможности для глубокого анализа.

Плюсы

+ Поддержка социальной ответственности.

+ Соблюдение законодательства.

+ Снижение риска штрафов.

+ Повышение уровня доверия клиентов.

+ Снижение класса ИС и сопутствующих расходов.

Выводы

Конфиденциальность данных — не просто формальность, а баланс между законом, бизнес-интересами и технологиями. Как сказано в презентации:

Нет идеального решения, но есть инструменты, которые позволяют искать оптимальный компромисс.


Внедрение современных методов и грамотная классификация ИС помогут бизнесу сохранить доверие клиентов, избежать штрафов и остаться конкурентоспособным.

Интересный кейс с обезличиванием данных

Ситуация:

Нужно провести соцопрос на чувствительную тему. Например, вы хотите спросить людей на улице, употребляли ли они наркотические средства без рецепта в этом году? Разумеется, многие респонденты откажутся честно отвечать на вопрос из-за опасения, что их ответы станут известны другим людям.

Решение:

Вводим рандомизацию. Респонденту предлагается подбросить монетку и сохранить результат броска в тайне.

Если выпадает орел, то он должен ответить «Да» вне зависимости от реального положения дел. Если выпадает решка, то он должен ответить честно.

Мы получаем данные с ответами, но не знаем, сколько из них были честными. Теперь нам надо распутать этот клубок.

Допустим, в опросе участвовало 1000 человек. И 640 ответили «Да».

Вероятность выпадения орла — 50%. Это значит, что из 640 только 140 — это честные ответы «Да» тех, у кого выпала решка.

Экстраполируем. Решка выпадает только у 50% людей, значит истинная доля ответивших «Да» вдвое больше — 280 человек.

Теперь мы можем написать, что в рамках опроса мы выяснили: 28% людей принимали наркотические средства без рецепта в этом году.

#ии #исследования #аналитика
👍5🔥3❤‍🔥2💯11
Рекомендации Банка России.pdf
1.5 MB
В Банке России выпустили рекомендации по работе с данными

В документе рекомендации по разработке систем управления данными: методология, цели, роли, требования, методы, показатели эффективности и контрольные процедуры.

Кому?

- Руководителям и экспертам финансовых организаций, ответственным за управление данными.

- Специалистам, занимающимся внедрением технологий, обеспечением качества данных и регуляторной отчетностью.

- Организациям всех уровней зрелости СУД — от начинающих до продвинутых.

Зачем?

- Повысить качество данных и их ценность для бизнеса.

- Минимизировать риски, связанные с некорректной отчетностью и нарушением регуляторных требований.

- Оптимизировать затраты на управление данными.

- Развить культуру работы с данными и обеспечить их безопасность.

- Создать прозрачные процессы для принятия решений на основе данных.

Документ написан на кондовом финансово-канцелярском языке. Впрочем, финансистам и бухгалтерам его читать будет не так сложно, даже привычно.

Делитесь с коллегами из финансового сектора.

#деньги
👍5❤‍🔥2🙏21🔥1
Гугл представит инструменты анализа инфраструктуры и трафика в городах

Google Maps Platform расширяет возможности для анализа городской инфраструктуры и транспортных потоков, интегрируя новые наборы данных в BigQuery. Данные откроют для застройщиков, городских администраций и бизнеса.

Подробности читайте на Хабре.

#аналитика #статьи
👍4❤‍🔥3👌21
Презентации и видео по Data Governance

На сайте DataTalks от Ростелекома доступны презентации и видео с докладами по теме Data Governance. Кое-какие конкретные прикладные вещи уже не свежие, но концептуально там много пользы.

1. DataGovernance на минималках

Наталья Хапаева из МТС рассказывает, как внедрить процессы и технологии Data Governance с минимальными усилиями для достижения максимального результата.

Презентация / Видео

2. DataGovernance своими руками

Александр Юрасов из Ростелекома рассказывает о причинах создания собственных инструментов Data Governance.

Презентация / Видео

3. Как процессам Data Governance догнать самый быстрорастущий бизнес

Алевтина Тинас и Герман Соколов из Т2 на примере сотового оператора рассказывают, можно ли построить эффективный и прибыльный бизнес без инструментов Data Governance.

Презентация / Видео

4. Кадры для DataGovernance: где найти и как вырастить

Круглый стол с обсуждением кадровых вопросов с экспертами управления данными крупнейших телеком-компаний.

Видео

Особенно рекомендуем тем, кто работает с данными в телекоме или около него.

#исследования
🔥5❤‍🔥3👍3🙏1
Prompt Engineering.pdf
6.5 MB
Бесплатный гайд по промпт-инжинирингу от Гугла

Руководство для тех, кто хочет эффективно применять LLM в разных задачах: от рутины до сложной аналитики.

Из предисловия:

Вам не нужно быть дата-сайентистом или инженером по машинному обучению — каждый может написать запрос.


В гайде найдете:

- Продвинутые техники промптов вроде Chain of Thought для логических рассуждений, ReAct для интеграции с внешними API и Tree of Thoughts для нелинейного анализа.

- Управление температурой, top-K, top-P для баланса между креативностью и точностью.

- Использование JSON/XML для снижения ошибок и упрощения интеграции с системами.

- Шаблоны для отслеживания версий промптов и анализа их эффективности.

- Использование LLM для ETL-процессов, классификации текстов, извлечения сущностей.

- Мультимодальные промпты для комбинирования текста, кода и других форматов.

- Генерация SQL-запросов, парсинг данных, создание отчетов.

Отлично подойдет как новичкам для освоения базы, так и опытным пользователям для знакомства с продвинутыми техниками.

#ии #аналитика
👍7❤‍🔥2🤩21🙏1
Откуда деньги и на что они идут: структура затрат на внедрение искусственного интеллекта

В Вышке опубликовали отчет о затратах организаций на внедрение и использование искусственного интеллекта.

Компании, использующие ИИ в своих процессах, тратят на это до 15% своего айти-бюджета.

Откуда деньги:

- 51% из собственных средств организации.

- 22% из заемных средств.

- 18% из средств федерального бюджета.

- 5% из прочих инвестиций.

- 4% из региональных и местных бюджетов.

На что идут инвестиции:

- 32% на приобретение или аренду машин и оборудования.

- 17% на покупку программного обеспечения, его аренду, разработку, адаптацию и доработку.

- 51% на прочие траты.

По данным исследования К2, наиболее востребованными сценариями использования ИИ стали анализ данных (50%), автоматизация документооборота (33%) и поддержка ИТ-разработки (28%).

25% компаний рассматривают возможность делегирования ИИ взаимодействия с клиентами. В числе других популярных направлений — обучение персонала и создание контента, на которые указали по 17% опрошенных.

#ии #деньги #исследования
👍4❤‍🔥32🔥1
Data Monetization Report.pdf
4.8 MB
Монетизация данных по модели BOWS: кто и как применяет

Если вы — хакерская группировка и где-то украли данные, то вам проще всего просто продать их. Однако во всех остальных случаях продажа — самый сложный вариант заработка на данных.

По крайней мере так говорится в отчете Alvarez & Marsal. Судя по тому, что в России тоже покупать данные готовы только 23% компаний, это правда.

Разберемся с тем, как же тогда на данных зарабатывают.

Описанная в отчете модель BOWS — это четыре способа монетизации данных:

1. Barter (бартер) — обмен данными на ресурсы или услуги. Например, клиника делится медицинскими данными с айти-компанией, получая взамен бесплатный доступ к ее сервисам. Доход здесь — экономия денег или получение выгод без прямых продаж.

2. Optimize (оптимизация) — использование данных для сокращения затрат. Например, логистическая компания анализирует маршруты, чтобы экономить топливо. Доход — за счет снижения расходов.

3. Wrap (упаковка) — улучшение продукта за счет аналитики. Например, банк добавляет клиентам персональные финансовые советы на основе их трат. Доход — рост продаж основного продукта или удержание клиентов.

4. Sell (продажа) — прямая продажа данных. Например, приложение для бега продает анонимные данные о тренировках спортивным брендам. Доход — деньги от сделки.

Каждый метод создает доход по-разному: бартер экономит, оптимизация сокращает издержки, обертывание повышает ценность продукта, а продажа даёт прямую прибыль. Часто их комбинируют для максимальной выгоды.

#деньги #исследования
❤‍🔥3🔥2👌2👍1🍓1
Спасают ли большие данные жизни?

Опубликованный еще в 2017 году прогноз IDC и Seagate на 2018-2025 годы довольно точно предсказал, как будет расти вклад больших данных в разные сектора экономики.

Как по мнению аналитиков должен был расти ежегодный вклад больших данных в разные рынки:

- 36% в здравоохранении.

- 30% в производстве.

- 26% в финансах.

- 25% в медиа и развлечениях.

В реальности все примерно так и росло.

Хочется отметить, что в лидерах именно медицина, а не логистика и даже не маркетинг.

Интересно, насколько этот рост обусловлен пандемией?

И еще более интересно, насколько этот рост повлиял на разработку, например, вакцины от ВИЧ со 100% эффективности?

Если предположить, что повлиял, то большие данные спасают жизни.

#деньги #исследования
3👍3🔥2❤‍🔥11
В X5 используют LLM для разметки больших данных

И экономят сотни тысяч рублей. В X5 Tech научились масштабировать разметку с помощью больших языковых моделей быстро, дешево и без потери качества.

Допустим, у вас есть 200 000 наименований товаров. Вы хотите выделить названия брендов в тексте, то есть решить задачу NER. В России это стоит до 3 ₽ за метку, то есть за весь набор вы заплатите до 600 000 ₽. Для качества вам нужно по 3 метки на запись, а это уже 1 800 000 ₽.

В X5 делегируют разметку нейросети, и получается сильно дешевле: всего 20 копеек вместо 3 рублей за текст. Это дешевле в 15 раз.

Подробности читайте на Хабре или смотрите на Ютубе.

#ии #деньги #статьи
👍32🔥1👏1
Культурный код и традиционные ценности ИИ

Лаборатория ИИ «Сколково» изучила, как культурные аспекты отражаются в ответах больших языковых моделей. Спойлер: ответ заметно зависит от того, на каком языке был задан вопрос.

В рамках исследования было проведено три эксперимента:

1. Исследователи проанализировали, существуют ли статистически значимые различия в ответах LLM на вопросы стандартизированного опросника, основанного на широко распространенной модели культурных измерений Хофстеде.

2. Был применен более точный метод измерения культурных различий между моделями, разработанный и основанный на тенденции больших языковых моделей показывать лучшие результаты в контрастных контекстах, по отношению к отечественным языковым моделям — Yandex GPT и GigaChat. Результаты российских моделей были сравнены с результатами по моделям, разработанным в США и Китае.

3. Было изучено, различаются ли LLM по стратегиям убеждения собеседника.

Ключевые выводы:

1. Язык опросника, на который отвечает большая языковая модель, оказывает существенное влияние на ее ответы. Ответы разных моделей на вопрос, заданный на определенном языке, будут различаться меньше, чем ответы одной модели на вопрос, задаваемый на разных языках.

2. При сравнении культурных индексов Хофстеде по адаптированной для LLM методике российские модели (GigaChat и YandexGPT) показали склонность к неприятию конкуренции и прощению ошибок, меньшую дистанцию к власти и более долгосрочную ориентацию по сравнению с усредненными показателями американских и китайских моделей. 

3. Сравнивая распределения ответов различных моделей, исследователи обнаружили, что только российские модели имеют характерное «двугорбое» распределение по индексам индивидуализма и избегания неопределенности. В некоторых ситуациях GigaChat и YandexGPT предпочитают реагировать как индивидуалисты, а в некоторых — как коллективисты, что коррелирует с результатами масштабного исследования населения России в 2015–2016 годах.

4. Исследовательская группа полагает, что именно культурные предпочтения проникают в ответы больших языковых моделей на заключительном этапе обучения, когда человек-разметчик выбирает из нескольких ответов модели наиболее предпочтительный для него. 

Советы для бизнеса от авторов исследования:

Если вы разрабатываете чат-бота, который будет общаться с вашими клиентами или работниками на различных языках, тщательно тестируйте ответы для каждого языка отдельно.

Может оказаться, что задаваемый системным промптом tone of voice, или вайб, отражаемый в одном языке, не воспроизводится в другом.


Различные большие языковые модели имеют различный культурный «характер», который не так-то просто перебить настройками и системными промптами.

Если вам нужна модель, которая транслирует определенную культурную ценность (например, большую дистанцию к власти), вам может понадобиться дообучение (но проще взять другую модель).


При разработке ИИ-систем для российского рынка важно учитывать уникальное сочетание индивидуалистических и коллективистских черт — как в поведении моделей, так и в поведении их пользователей.

Возможно, вам нужны адаптивные решения, которые постепенно подстраиваются к конкретному пользователю на основе опыта общения с ним; возможно, такие, которые балансируют его; а возможно, вам нужна коллекция моделей с различными нормами и еще одна — для быстрой классификации пользователя и подключения его к нужной модели.

Только эксперимент позволит понять, что именно сработает в вашем случае.


Если вы обучаете свою собственную версию корпоративной LLM — вам не избежать составления специальной «культурно-ориентированной» инструкции для разметчиков. В ином случае разметчиков стоит отбирать через соответствующие тесты.


Вы на каком языке с нейросетями говорите?

#ии #исследования
👍7❤‍🔥43🔥2