Гугл представит инструменты анализа инфраструктуры и трафика в городах
Google Maps Platform расширяет возможности для анализа городской инфраструктуры и транспортных потоков, интегрируя новые наборы данных в BigQuery. Данные откроют для застройщиков, городских администраций и бизнеса.
Подробности читайте на Хабре.
#аналитика #статьи
Google Maps Platform расширяет возможности для анализа городской инфраструктуры и транспортных потоков, интегрируя новые наборы данных в BigQuery. Данные откроют для застройщиков, городских администраций и бизнеса.
Подробности читайте на Хабре.
#аналитика #статьи
👍4❤🔥3👌2 1
Презентации и видео по Data Governance
На сайте DataTalks от Ростелекома доступны презентации и видео с докладами по теме Data Governance. Кое-какие конкретные прикладные вещи уже не свежие, но концептуально там много пользы.
1. DataGovernance на минималках
Наталья Хапаева из МТС рассказывает, как внедрить процессы и технологии Data Governance с минимальными усилиями для достижения максимального результата.
Презентация / Видео
2. DataGovernance своими руками
Александр Юрасов из Ростелекома рассказывает о причинах создания собственных инструментов Data Governance.
Презентация / Видео
3. Как процессам Data Governance догнать самый быстрорастущий бизнес
Алевтина Тинас и Герман Соколов из Т2 на примере сотового оператора рассказывают, можно ли построить эффективный и прибыльный бизнес без инструментов Data Governance.
Презентация / Видео
4. Кадры для DataGovernance: где найти и как вырастить
Круглый стол с обсуждением кадровых вопросов с экспертами управления данными крупнейших телеком-компаний.
Видео
Особенно рекомендуем тем, кто работает с данными в телекоме или около него.
#исследования
На сайте DataTalks от Ростелекома доступны презентации и видео с докладами по теме Data Governance. Кое-какие конкретные прикладные вещи уже не свежие, но концептуально там много пользы.
1. DataGovernance на минималках
Наталья Хапаева из МТС рассказывает, как внедрить процессы и технологии Data Governance с минимальными усилиями для достижения максимального результата.
Презентация / Видео
2. DataGovernance своими руками
Александр Юрасов из Ростелекома рассказывает о причинах создания собственных инструментов Data Governance.
Презентация / Видео
3. Как процессам Data Governance догнать самый быстрорастущий бизнес
Алевтина Тинас и Герман Соколов из Т2 на примере сотового оператора рассказывают, можно ли построить эффективный и прибыльный бизнес без инструментов Data Governance.
Презентация / Видео
4. Кадры для DataGovernance: где найти и как вырастить
Круглый стол с обсуждением кадровых вопросов с экспертами управления данными крупнейших телеком-компаний.
Видео
Особенно рекомендуем тем, кто работает с данными в телекоме или около него.
#исследования
🔥5❤🔥3👍3🙏1
Prompt Engineering.pdf
6.5 MB
Бесплатный гайд по промпт-инжинирингу от Гугла
Руководство для тех, кто хочет эффективно применять LLM в разных задачах: от рутины до сложной аналитики.
Из предисловия:
В гайде найдете:
- Продвинутые техники промптов вроде Chain of Thought для логических рассуждений, ReAct для интеграции с внешними API и Tree of Thoughts для нелинейного анализа.
- Управление температурой, top-K, top-P для баланса между креативностью и точностью.
- Использование JSON/XML для снижения ошибок и упрощения интеграции с системами.
- Шаблоны для отслеживания версий промптов и анализа их эффективности.
- Использование LLM для ETL-процессов, классификации текстов, извлечения сущностей.
- Мультимодальные промпты для комбинирования текста, кода и других форматов.
- Генерация SQL-запросов, парсинг данных, создание отчетов.
Отлично подойдет как новичкам для освоения базы, так и опытным пользователям для знакомства с продвинутыми техниками.
#ии #аналитика
Руководство для тех, кто хочет эффективно применять LLM в разных задачах: от рутины до сложной аналитики.
Из предисловия:
Вам не нужно быть дата-сайентистом или инженером по машинному обучению — каждый может написать запрос.
В гайде найдете:
- Продвинутые техники промптов вроде Chain of Thought для логических рассуждений, ReAct для интеграции с внешними API и Tree of Thoughts для нелинейного анализа.
- Управление температурой, top-K, top-P для баланса между креативностью и точностью.
- Использование JSON/XML для снижения ошибок и упрощения интеграции с системами.
- Шаблоны для отслеживания версий промптов и анализа их эффективности.
- Использование LLM для ETL-процессов, классификации текстов, извлечения сущностей.
- Мультимодальные промпты для комбинирования текста, кода и других форматов.
- Генерация SQL-запросов, парсинг данных, создание отчетов.
Отлично подойдет как новичкам для освоения базы, так и опытным пользователям для знакомства с продвинутыми техниками.
#ии #аналитика
👍7❤🔥2🤩2⚡1🙏1
Откуда деньги и на что они идут: структура затрат на внедрение искусственного интеллекта
В Вышке опубликовали отчет о затратах организаций на внедрение и использование искусственного интеллекта.
Компании, использующие ИИ в своих процессах, тратят на это до 15% своего айти-бюджета.
Откуда деньги:
- 51% из собственных средств организации.
- 22% из заемных средств.
- 18% из средств федерального бюджета.
- 5% из прочих инвестиций.
- 4% из региональных и местных бюджетов.
На что идут инвестиции:
- 32% на приобретение или аренду машин и оборудования.
- 17% на покупку программного обеспечения, его аренду, разработку, адаптацию и доработку.
- 51% на прочие траты.
По данным исследования К2, наиболее востребованными сценариями использования ИИ стали анализ данных (50%), автоматизация документооборота (33%) и поддержка ИТ-разработки (28%).
25% компаний рассматривают возможность делегирования ИИ взаимодействия с клиентами. В числе других популярных направлений — обучение персонала и создание контента, на которые указали по 17% опрошенных.
#ии #деньги #исследования
В Вышке опубликовали отчет о затратах организаций на внедрение и использование искусственного интеллекта.
Компании, использующие ИИ в своих процессах, тратят на это до 15% своего айти-бюджета.
Откуда деньги:
- 51% из собственных средств организации.
- 22% из заемных средств.
- 18% из средств федерального бюджета.
- 5% из прочих инвестиций.
- 4% из региональных и местных бюджетов.
На что идут инвестиции:
- 32% на приобретение или аренду машин и оборудования.
- 17% на покупку программного обеспечения, его аренду, разработку, адаптацию и доработку.
- 51% на прочие траты.
По данным исследования К2, наиболее востребованными сценариями использования ИИ стали анализ данных (50%), автоматизация документооборота (33%) и поддержка ИТ-разработки (28%).
25% компаний рассматривают возможность делегирования ИИ взаимодействия с клиентами. В числе других популярных направлений — обучение персонала и создание контента, на которые указали по 17% опрошенных.
#ии #деньги #исследования
👍4❤🔥3 2🔥1
Data Monetization Report.pdf
4.8 MB
Монетизация данных по модели BOWS: кто и как применяет
Если вы — хакерская группировка и где-то украли данные, то вам проще всего просто продать их. Однако во всех остальных случаях продажа — самый сложный вариант заработка на данных.
По крайней мере так говорится в отчете Alvarez & Marsal. Судя по тому, что в России тоже покупать данные готовы только 23% компаний, это правда.
Разберемся с тем, как же тогда на данных зарабатывают.
Описанная в отчете модель BOWS — это четыре способа монетизации данных:
1. Barter (бартер) — обмен данными на ресурсы или услуги. Например, клиника делится медицинскими данными с айти-компанией, получая взамен бесплатный доступ к ее сервисам. Доход здесь — экономия денег или получение выгод без прямых продаж.
2. Optimize (оптимизация) — использование данных для сокращения затрат. Например, логистическая компания анализирует маршруты, чтобы экономить топливо. Доход — за счет снижения расходов.
3. Wrap (упаковка) — улучшение продукта за счет аналитики. Например, банк добавляет клиентам персональные финансовые советы на основе их трат. Доход — рост продаж основного продукта или удержание клиентов.
4. Sell (продажа) — прямая продажа данных. Например, приложение для бега продает анонимные данные о тренировках спортивным брендам. Доход — деньги от сделки.
Каждый метод создает доход по-разному: бартер экономит, оптимизация сокращает издержки, обертывание повышает ценность продукта, а продажа даёт прямую прибыль. Часто их комбинируют для максимальной выгоды.
#деньги #исследования
Если вы — хакерская группировка и где-то украли данные, то вам проще всего просто продать их. Однако во всех остальных случаях продажа — самый сложный вариант заработка на данных.
По крайней мере так говорится в отчете Alvarez & Marsal. Судя по тому, что в России тоже покупать данные готовы только 23% компаний, это правда.
Разберемся с тем, как же тогда на данных зарабатывают.
Описанная в отчете модель BOWS — это четыре способа монетизации данных:
1. Barter (бартер) — обмен данными на ресурсы или услуги. Например, клиника делится медицинскими данными с айти-компанией, получая взамен бесплатный доступ к ее сервисам. Доход здесь — экономия денег или получение выгод без прямых продаж.
2. Optimize (оптимизация) — использование данных для сокращения затрат. Например, логистическая компания анализирует маршруты, чтобы экономить топливо. Доход — за счет снижения расходов.
3. Wrap (упаковка) — улучшение продукта за счет аналитики. Например, банк добавляет клиентам персональные финансовые советы на основе их трат. Доход — рост продаж основного продукта или удержание клиентов.
4. Sell (продажа) — прямая продажа данных. Например, приложение для бега продает анонимные данные о тренировках спортивным брендам. Доход — деньги от сделки.
Каждый метод создает доход по-разному: бартер экономит, оптимизация сокращает издержки, обертывание повышает ценность продукта, а продажа даёт прямую прибыль. Часто их комбинируют для максимальной выгоды.
#деньги #исследования
❤🔥3🔥2👌2👍1🍓1
Спасают ли большие данные жизни?
Опубликованный еще в 2017 году прогноз IDC и Seagate на 2018-2025 годы довольно точно предсказал, как будет расти вклад больших данных в разные сектора экономики.
Как по мнению аналитиков должен был расти ежегодный вклад больших данных в разные рынки:
- 36% в здравоохранении.
- 30% в производстве.
- 26% в финансах.
- 25% в медиа и развлечениях.
В реальности все примерно так и росло.
Хочется отметить, что в лидерах именно медицина, а не логистика и даже не маркетинг.
Интересно, насколько этот рост обусловлен пандемией?
И еще более интересно, насколько этот рост повлиял на разработку, например, вакцины от ВИЧ со 100% эффективности?
Если предположить, что повлиял, то большие данные спасают жизни.
#деньги #исследования
Опубликованный еще в 2017 году прогноз IDC и Seagate на 2018-2025 годы довольно точно предсказал, как будет расти вклад больших данных в разные сектора экономики.
Как по мнению аналитиков должен был расти ежегодный вклад больших данных в разные рынки:
- 36% в здравоохранении.
- 30% в производстве.
- 26% в финансах.
- 25% в медиа и развлечениях.
В реальности все примерно так и росло.
Хочется отметить, что в лидерах именно медицина, а не логистика и даже не маркетинг.
Интересно, насколько этот рост обусловлен пандемией?
И еще более интересно, насколько этот рост повлиял на разработку, например, вакцины от ВИЧ со 100% эффективности?
Если предположить, что повлиял, то большие данные спасают жизни.
#деньги #исследования
❤3👍3🔥2❤🔥1 1
В X5 используют LLM для разметки больших данных
И экономят сотни тысяч рублей. В X5 Tech научились масштабировать разметку с помощью больших языковых моделей быстро, дешево и без потери качества.
Допустим, у вас есть 200 000 наименований товаров. Вы хотите выделить названия брендов в тексте, то есть решить задачу NER. В России это стоит до 3 ₽ за метку, то есть за весь набор вы заплатите до 600 000 ₽. Для качества вам нужно по 3 метки на запись, а это уже 1 800 000 ₽.
В X5 делегируют разметку нейросети, и получается сильно дешевле: всего 20 копеек вместо 3 рублей за текст. Это дешевле в 15 раз.
Подробности читайте на Хабре или смотрите на Ютубе.
#ии #деньги #статьи
И экономят сотни тысяч рублей. В X5 Tech научились масштабировать разметку с помощью больших языковых моделей быстро, дешево и без потери качества.
Допустим, у вас есть 200 000 наименований товаров. Вы хотите выделить названия брендов в тексте, то есть решить задачу NER. В России это стоит до 3 ₽ за метку, то есть за весь набор вы заплатите до 600 000 ₽. Для качества вам нужно по 3 метки на запись, а это уже 1 800 000 ₽.
В X5 делегируют разметку нейросети, и получается сильно дешевле: всего 20 копеек вместо 3 рублей за текст. Это дешевле в 15 раз.
Подробности читайте на Хабре или смотрите на Ютубе.
#ии #деньги #статьи
👍3❤2🔥1👏1
Культурный код и традиционные ценности ИИ
Лаборатория ИИ «Сколково» изучила, как культурные аспекты отражаются в ответах больших языковых моделей. Спойлер:ответ заметно зависит от того, на каком языке был задан вопрос.
В рамках исследования было проведено три эксперимента:
1. Исследователи проанализировали, существуют ли статистически значимые различия в ответах LLM на вопросы стандартизированного опросника, основанного на широко распространенной модели культурных измерений Хофстеде.
2. Был применен более точный метод измерения культурных различий между моделями, разработанный и основанный на тенденции больших языковых моделей показывать лучшие результаты в контрастных контекстах, по отношению к отечественным языковым моделям — Yandex GPT и GigaChat. Результаты российских моделей были сравнены с результатами по моделям, разработанным в США и Китае.
3. Было изучено, различаются ли LLM по стратегиям убеждения собеседника.
Ключевые выводы:
1. Язык опросника, на который отвечает большая языковая модель, оказывает существенное влияние на ее ответы. Ответы разных моделей на вопрос, заданный на определенном языке, будут различаться меньше, чем ответы одной модели на вопрос, задаваемый на разных языках.
2. При сравнении культурных индексов Хофстеде по адаптированной для LLM методике российские модели (GigaChat и YandexGPT) показали склонность к неприятию конкуренции и прощению ошибок, меньшую дистанцию к власти и более долгосрочную ориентацию по сравнению с усредненными показателями американских и китайских моделей.
3. Сравнивая распределения ответов различных моделей, исследователи обнаружили, что только российские модели имеют характерное «двугорбое» распределение по индексам индивидуализма и избегания неопределенности. В некоторых ситуациях GigaChat и YandexGPT предпочитают реагировать как индивидуалисты, а в некоторых — как коллективисты, что коррелирует с результатами масштабного исследования населения России в 2015–2016 годах.
4. Исследовательская группа полагает, что именно культурные предпочтения проникают в ответы больших языковых моделей на заключительном этапе обучения, когда человек-разметчик выбирает из нескольких ответов модели наиболее предпочтительный для него.
Советы для бизнеса от авторов исследования:
Вы на каком языке с нейросетями говорите?
#ии #исследования
Лаборатория ИИ «Сколково» изучила, как культурные аспекты отражаются в ответах больших языковых моделей. Спойлер:
В рамках исследования было проведено три эксперимента:
1. Исследователи проанализировали, существуют ли статистически значимые различия в ответах LLM на вопросы стандартизированного опросника, основанного на широко распространенной модели культурных измерений Хофстеде.
2. Был применен более точный метод измерения культурных различий между моделями, разработанный и основанный на тенденции больших языковых моделей показывать лучшие результаты в контрастных контекстах, по отношению к отечественным языковым моделям — Yandex GPT и GigaChat. Результаты российских моделей были сравнены с результатами по моделям, разработанным в США и Китае.
3. Было изучено, различаются ли LLM по стратегиям убеждения собеседника.
Ключевые выводы:
1. Язык опросника, на который отвечает большая языковая модель, оказывает существенное влияние на ее ответы. Ответы разных моделей на вопрос, заданный на определенном языке, будут различаться меньше, чем ответы одной модели на вопрос, задаваемый на разных языках.
2. При сравнении культурных индексов Хофстеде по адаптированной для LLM методике российские модели (GigaChat и YandexGPT) показали склонность к неприятию конкуренции и прощению ошибок, меньшую дистанцию к власти и более долгосрочную ориентацию по сравнению с усредненными показателями американских и китайских моделей.
3. Сравнивая распределения ответов различных моделей, исследователи обнаружили, что только российские модели имеют характерное «двугорбое» распределение по индексам индивидуализма и избегания неопределенности. В некоторых ситуациях GigaChat и YandexGPT предпочитают реагировать как индивидуалисты, а в некоторых — как коллективисты, что коррелирует с результатами масштабного исследования населения России в 2015–2016 годах.
4. Исследовательская группа полагает, что именно культурные предпочтения проникают в ответы больших языковых моделей на заключительном этапе обучения, когда человек-разметчик выбирает из нескольких ответов модели наиболее предпочтительный для него.
Советы для бизнеса от авторов исследования:
Если вы разрабатываете чат-бота, который будет общаться с вашими клиентами или работниками на различных языках, тщательно тестируйте ответы для каждого языка отдельно.
Может оказаться, что задаваемый системным промптом tone of voice, или вайб, отражаемый в одном языке, не воспроизводится в другом.
Различные большие языковые модели имеют различный культурный «характер», который не так-то просто перебить настройками и системными промптами.
Если вам нужна модель, которая транслирует определенную культурную ценность (например, большую дистанцию к власти), вам может понадобиться дообучение (но проще взять другую модель).
При разработке ИИ-систем для российского рынка важно учитывать уникальное сочетание индивидуалистических и коллективистских черт — как в поведении моделей, так и в поведении их пользователей.
Возможно, вам нужны адаптивные решения, которые постепенно подстраиваются к конкретному пользователю на основе опыта общения с ним; возможно, такие, которые балансируют его; а возможно, вам нужна коллекция моделей с различными нормами и еще одна — для быстрой классификации пользователя и подключения его к нужной модели.
Только эксперимент позволит понять, что именно сработает в вашем случае.
Если вы обучаете свою собственную версию корпоративной LLM — вам не избежать составления специальной «культурно-ориентированной» инструкции для разметчиков. В ином случае разметчиков стоит отбирать через соответствующие тесты.
Вы на каком языке с нейросетями говорите?
#ии #исследования
👍7❤🔥4 3🔥2
Минцифры выдаст операторам персональных данных черные ящики
Минцифры утвердило методы обезличивания персональных сведений, которыми будут наполнять госозеро данных. Система заработает в сентябре этого года.
Бизнес сможет обезличить данные только через специальное ПО — его бесплатно предоставит Минцифры. Компании должны обеспечить раздельное хранение персональных и обезличенных сведений, гарантировать их безопасность и удалять из обезличенных наборов любую закрытую или защищенную информацию.
Доступ к госозеру смогут получить представители организаций, компаний и органов власти только по запросу — с указанием целей. Вынести данные из госконтура будет невозможно.
Как это будет работать?
Обезличивать будут с помощью решения, разработанного, предположительно, АНО «Национальный технологический центр цифровой криптографии».
1. Минцифры отправляет запрос через личный кабинет или СМЭВ.
2. Оператор формирует выборку персональных данных.
3. Данные проходят обезличивание в черном ящике.
4. Данные шифруются криптографическими средствами.
5. Обезличенные данные загружаются в госозеро.
Заочный спор по теме госозера и методов обезличивания уже начался.
В Минцифры заверяют:
И добавляют:
Однако компании не будут знать подробности алгоритмов, что вызывает опасения по поводу ответственности за корректность и безопасность обработки данных.
Поэтому в Ассоциации больших данных скептичны:
Подробности читайте в Форбсе.
#безопасность #статьи
Минцифры утвердило методы обезличивания персональных сведений, которыми будут наполнять госозеро данных. Система заработает в сентябре этого года.
Бизнес сможет обезличить данные только через специальное ПО — его бесплатно предоставит Минцифры. Компании должны обеспечить раздельное хранение персональных и обезличенных сведений, гарантировать их безопасность и удалять из обезличенных наборов любую закрытую или защищенную информацию.
Доступ к госозеру смогут получить представители организаций, компаний и органов власти только по запросу — с указанием целей. Вынести данные из госконтура будет невозможно.
Как это будет работать?
Обезличивать будут с помощью решения, разработанного, предположительно, АНО «Национальный технологический центр цифровой криптографии».
1. Минцифры отправляет запрос через личный кабинет или СМЭВ.
2. Оператор формирует выборку персональных данных.
3. Данные проходят обезличивание в черном ящике.
4. Данные шифруются криптографическими средствами.
5. Обезличенные данные загружаются в госозеро.
Заочный спор по теме госозера и методов обезличивания уже начался.
В Минцифры заверяют:
ПО для обезличивания гарантирует правильное применение методов обезличивания с учетом заданных в требованиях Минцифры параметров.
И добавляют:
Благодаря обезличенным данным государство сможет принимать более эффективные решения.
Однако компании не будут знать подробности алгоритмов, что вызывает опасения по поводу ответственности за корректность и безопасность обработки данных.
Поэтому в Ассоциации больших данных скептичны:
Безальтернативное использование ПО организациями, которые работают с охраняемыми тайнами, лишает их возможности управлять рисками и угрозами безопасности; необходимо однозначно решить вопрос об ответственности за нарушение охраны передаваемых в систему дата-сетов.
Подробности читайте в Форбсе.
#безопасность #статьи
❤🔥3🔥3👍2👏2👎1
Три мифа о больших данных, которые мешают малому и среднему бизнесу
В Ростелекоме изучили 600 компаний из разных отраслей. Исследование показало, что использование больших данных увеличивает выручку в среднем на 20%.
Однако, судя по тому же исследованию, между бизнесом и этим ростом стоят три заблуждения.
Разрушим мифы.
1. Большие данные нужны только большим компаниям
Реальный кейс из опыта редактора.
Интернет-магазин контактных линз замечает резкий рост посещаемости сайта среди подростков. Это при среднем возрасте клиента заметно за 30.
Начали копаться. Проанализировали демографические данные, поисковые запросы, ассортименты конкурентов и поставщиков. Выяснили, что на рынке появились линзы по мотивам аниме Наруто, которые не помогают лучше видеть, но помогают круто выглядеть.
Наладили поставки, получили профит.
Так что системы аналитики больших данных, пусть и не такие монструозно тяжелые, как у крупных корпораций, однозначно нужны и малому, и среднему бизнесу. Они помогают больше продавать, быстрее расти и принимать более взвешенные управленческие решения.
2. Малому бизнесу собирать и использовать большие данные дорого
Нет.
Многие вендоры предлагают доступные коробочные решения: например, Ростелеком позволяет за день подключить CRM и интегрировать ее в работу с большими данными. Стоимость привлечения клиента через их сервисы не превышает 3000 ₽ во многих очень даже конкурентных нишах.
Также сейчас на рынке активно применяются модели Look-a-Like: заказчик показывает провайдеру от 10 профилей своих действующих клиентов, и система находит в базе данных до 100 000 потенциальных контактов со схожими параметрами: пол, возраст, интересы, уровень дохода и так далее.
Это помогает преодолеть проблему поиска новых клиентов на ранних этапах жизни бизнеса.
3. Малый и средний бизнес не получит от больших данных вау-эффекта
Напротив — внедрение аналитики больших данных экономит молодым компаниям время и деньги. Когда компания растет, то вместе с масштабированием выручки масштабируются и издержки. С помощью больших данных можно оптимизировать процессы так, чтобы при дальнейшем росте бизнеса издержки росли медленнее выручки.
Вывод:
Не надо ждать, пока компания станет достаточно большой, чтобы использовать большие данные. Начните использовать большие данные, чтобы скорее сделать компанию большой.
#аналитика #деньги #статьи
В Ростелекоме изучили 600 компаний из разных отраслей. Исследование показало, что использование больших данных увеличивает выручку в среднем на 20%.
Однако, судя по тому же исследованию, между бизнесом и этим ростом стоят три заблуждения.
Разрушим мифы.
1. Большие данные нужны только большим компаниям
Реальный кейс из опыта редактора.
Интернет-магазин контактных линз замечает резкий рост посещаемости сайта среди подростков. Это при среднем возрасте клиента заметно за 30.
Начали копаться. Проанализировали демографические данные, поисковые запросы, ассортименты конкурентов и поставщиков. Выяснили, что на рынке появились линзы по мотивам аниме Наруто, которые не помогают лучше видеть, но помогают круто выглядеть.
Наладили поставки, получили профит.
Так что системы аналитики больших данных, пусть и не такие монструозно тяжелые, как у крупных корпораций, однозначно нужны и малому, и среднему бизнесу. Они помогают больше продавать, быстрее расти и принимать более взвешенные управленческие решения.
2. Малому бизнесу собирать и использовать большие данные дорого
Нет.
Многие вендоры предлагают доступные коробочные решения: например, Ростелеком позволяет за день подключить CRM и интегрировать ее в работу с большими данными. Стоимость привлечения клиента через их сервисы не превышает 3000 ₽ во многих очень даже конкурентных нишах.
Также сейчас на рынке активно применяются модели Look-a-Like: заказчик показывает провайдеру от 10 профилей своих действующих клиентов, и система находит в базе данных до 100 000 потенциальных контактов со схожими параметрами: пол, возраст, интересы, уровень дохода и так далее.
Это помогает преодолеть проблему поиска новых клиентов на ранних этапах жизни бизнеса.
3. Малый и средний бизнес не получит от больших данных вау-эффекта
Напротив — внедрение аналитики больших данных экономит молодым компаниям время и деньги. Когда компания растет, то вместе с масштабированием выручки масштабируются и издержки. С помощью больших данных можно оптимизировать процессы так, чтобы при дальнейшем росте бизнеса издержки росли медленнее выручки.
Вывод:
Не надо ждать, пока компания станет достаточно большой, чтобы использовать большие данные. Начните использовать большие данные, чтобы скорее сделать компанию большой.
#аналитика #деньги #статьи
👍5🥰3❤🔥2🔥2
Кто круче: Джокер или Железный человек?
DC против Marvel: в журнале «Код» с помощью аналитики данных разобрались, кто кого.
Авторы собрали данные по фильмам обоих студий и изучили качественные и количественные показатели, построили графики, поискали связи и корреляции, выдвинули и проверили гипотезы.
Использовали пайтон, внешние библиотеки pandas, matplotlib и plotly, а также готовый датасет.
Если вы аналитик и любите кино, это мастрид на вечер.
Поделитесь с друзьями, может теперь вы сможете доподлинно решить, какая киновселенная круче.
#аналитика #статьи
DC против Marvel: в журнале «Код» с помощью аналитики данных разобрались, кто кого.
Авторы собрали данные по фильмам обоих студий и изучили качественные и количественные показатели, построили графики, поискали связи и корреляции, выдвинули и проверили гипотезы.
Использовали пайтон, внешние библиотеки pandas, matplotlib и plotly, а также готовый датасет.
Если вы аналитик и любите кино, это мастрид на вечер.
Поделитесь с друзьями, может теперь вы сможете доподлинно решить, какая киновселенная круче.
#аналитика #статьи
Новый гайд по промптам для GPT-4.1: раскрыта загадка длинного контекста
По случаю выхода новых моделей в OpenAI выкатили свежий гайд по промптам. Документ небольшой, но полезный — рекомендуем ознакомиться.
Главный инсайт:
Если запрос предполагает длинный контекст, то инструкции стоит помещать и в начало, и в конец промпта. Если у вас дефицит токенов, то только в начало.
Видимо, модель специально на это тренировали, потому что по умолчанию инструкции лучше воспринимаются после контекста.
Кстати, о новых моделях: в Яндексе релизнули бета-версию новой YandexGPT 5 с режимом рассуждений.
Попробовать можно в чате с Алисой с подпиской Про.
Подробности обучения и внедрения читайте на Хабре.
#ии #статьи
По случаю выхода новых моделей в OpenAI выкатили свежий гайд по промптам. Документ небольшой, но полезный — рекомендуем ознакомиться.
Главный инсайт:
Если запрос предполагает длинный контекст, то инструкции стоит помещать и в начало, и в конец промпта. Если у вас дефицит токенов, то только в начало.
Видимо, модель специально на это тренировали, потому что по умолчанию инструкции лучше воспринимаются после контекста.
Кстати, о новых моделях: в Яндексе релизнули бета-версию новой YandexGPT 5 с режимом рассуждений.
Попробовать можно в чате с Алисой с подпиской Про.
Подробности обучения и внедрения читайте на Хабре.
#ии #статьи
👍5🔥4❤🔥3
Progres Post
Битва за 3% эффективности вместо монетизации По данным MIT, до 70% компаний используют большие данные преимущественно для снижения себестоимости продуктов. Эту экономию и называют монетизацией. Мы считаем это лукавством. Вы ведь монетизируете то, что монетизировали…
Как связано конфуцианство и проблемы с монетизацией данных
Не слабее, чем протестантская этика и дух капитализма.
Мы уже писали, почему даже имея в штате CDO, компании не превращают данные в деньги так, как могли бы. Кажется, мы нашли еще одну причину.
Она не в плоскости компетенций, методологий или организации бизнес-процессов внутри компании. Она скорее философская.
Конфуций говорил:
Закрываем книжку по восточной философии, открываем статью Билла Шмарцо про CDO от 2023 года и ловим запоздалый инсайт:
Вау.
Может быть CDO не приносят деньги компаниям, потому что понимание их роли собственниками и инвесторами этого и не подразумевает?
#деньги #статьи
Не слабее, чем протестантская этика и дух капитализма.
Мы уже писали, почему даже имея в штате CDO, компании не превращают данные в деньги так, как могли бы. Кажется, мы нашли еще одну причину.
Она не в плоскости компетенций, методологий или организации бизнес-процессов внутри компании. Она скорее философская.
Конфуций говорил:
Правильно назвать — значит правильно понять.
Закрываем книжку по восточной философии, открываем статью Билла Шмарцо про CDO от 2023 года и ловим запоздалый инсайт:
Более точным названием для этой должности может быть CDMO (Chief Data Monetization Officer) — директор по монетизации данных, а не просто директор по данным. Поскольку его роль должна быть сосредоточена на извлечении ценности из активов организации или их монетизации.
Вау.
Может быть CDO не приносят деньги компаниям, потому что понимание их роли собственниками и инвесторами этого и не подразумевает?
#деньги #статьи
👍5❤🔥3🔥3🤯3❤1
Земную жизнь пройдя до половины, я очутился в случайном лесу
Потянуло сегодня на литературные аллюзии.
Дисперсия — мера разброса значений вокруг среднего. Это, как если бы Данте в разных изданиях «Божественной комедии» было не то 32, не то 34. Понимание дисперсии критично для дата-сайентистов.
В статье «Зачем дата-сайентисту дисперсия» описаны способы вычисления стандартного отклонения и самой дисперсии. Показано, как они помогают выявлять выбросы и нормализовать данные.
Знание дисперсии позволяет оценить неопределенность предсказаний и найти баланс между смещением и дисперсией. Это важное условие для создания надежных моделей.
Особое внимание в статье уделено Random Forest.
Этот алгоритм объединяет решающие деревья для снижения дисперсии посредством усреднения предсказаний. Бутстрэп и случайный выбор признаков уменьшают чувствительность к шуму. Это повышает стабильность модели и снижает риск переобучения. Такой подход эффективен при работе с неоднородными данными.
У Данте лес был сумрачный, у дата-сайентистов он случайный.
#статьи
Потянуло сегодня на литературные аллюзии.
Дисперсия — мера разброса значений вокруг среднего. Это, как если бы Данте в разных изданиях «Божественной комедии» было не то 32, не то 34. Понимание дисперсии критично для дата-сайентистов.
В статье «Зачем дата-сайентисту дисперсия» описаны способы вычисления стандартного отклонения и самой дисперсии. Показано, как они помогают выявлять выбросы и нормализовать данные.
Знание дисперсии позволяет оценить неопределенность предсказаний и найти баланс между смещением и дисперсией. Это важное условие для создания надежных моделей.
Особое внимание в статье уделено Random Forest.
Этот алгоритм объединяет решающие деревья для снижения дисперсии посредством усреднения предсказаний. Бутстрэп и случайный выбор признаков уменьшают чувствительность к шуму. Это повышает стабильность модели и снижает риск переобучения. Такой подход эффективен при работе с неоднородными данными.
У Данте лес был сумрачный, у дата-сайентистов он случайный.
#статьи
👍5🔥3❤🔥2 1
Ковбои против пришельцев, а маркетологи против дата-инженеров
В статье Data Engineering: Now with 30% More Bullshit автор лихо прошелся по новомодным понятиям Medallion Architecture, Modern Data Stack, Data Fabric и Zero ETL.
Он считает, что за красивыми новыми словами маркетологи скрывают отсутствие инноваций.
Разбираемся, что же с этими понятиями не так:
1. Medallion Architecture
Трехслойная модель Bronze → Silver → Gold повторяет классику: Data Warehouse, Data Vault, Write-Audit-Publish. Полезная ментальная модель, но не инновация.
Зависимости между слоями создают риски: изменение в Bronze ломает Gold. Комментаторы согласны: архитектура — иллюстрация эволюции, а не революции. Суть — в базовых принципах, а не в названиях слоев.
2. Modern Data Stack
Изначально это маркетинговый термин. Он описывал широкий класс инструментов для работы с данными, ориентированными на максимально быстрый старт и изучение. Это достигалось SaaS-парадигмой продвижения: с облачным развертыванием и началом использования по схеме «Привяжи карту и нажми ОК».
Snowflake/Databricks как база, Fivetran/Airbyte для доставки данных, DBT/Dagster для оркестрации, Monte Carlo для Data Observability, Segment для reverse ETL.
Сейчас термин вызывает скепсис. Он породил тысячи компаний, дата-инфраструктура которых состоит из десятков разнородных элементов от разных вендоров. Работают они кое-как, но регулярно выкачивают деньги со счета.
Многие инструменты помогли изучить продуктовый сценарий и проблематику для создания надежных органических решений. Сам по себе Modern Data Stack стал воплощением фразы Launch fast, support never.
3. Data Fabric
Data Fabric — переупаковка старых концепций: виртуализация данных, централизованные метаданные и ML. Маркетинг обещает бесшовность, но ручная настройка коннекторов и очистка данных остаются.
Успешные кейсы редки: есть, например, Сбербанк, но кроме него никого не видно. Как отметили в комментах, термин теряет актуальность, но вендоры продолжают его эксплуатировать. Интеграция данных сложна, а волшебство лучше оставить диснеевским и советским сказкам.
4. Zero ETL
Идея не отменяет необходимость очистки и трансформации — задачи переносятся на API и стриминг. Работает только в замкнутых экосистемах типа Snowflake и Databricks, но не при работе с разрозненными источниками вроде CRM и SAP.
Бизнес-запросы требуют агрегации, а сырые данные бесполезны для аналитики. Zero ETL — ребрендинг ETL, а не его замена.
Вывод
Тренды — это эволюция, а не революция. Успех зависит не от терминов, а от умения решать задачи: проектировать, чистить, документировать. Как сказано в статье: «Инструменты не решают проблемы. Это делают люди».
За комментарий спасибо Николаю Голову, директору по продукту.
#аналитика #статьи
В статье Data Engineering: Now with 30% More Bullshit автор лихо прошелся по новомодным понятиям Medallion Architecture, Modern Data Stack, Data Fabric и Zero ETL.
Он считает, что за красивыми новыми словами маркетологи скрывают отсутствие инноваций.
Разбираемся, что же с этими понятиями не так:
1. Medallion Architecture
Трехслойная модель Bronze → Silver → Gold повторяет классику: Data Warehouse, Data Vault, Write-Audit-Publish. Полезная ментальная модель, но не инновация.
Зависимости между слоями создают риски: изменение в Bronze ломает Gold. Комментаторы согласны: архитектура — иллюстрация эволюции, а не революции. Суть — в базовых принципах, а не в названиях слоев.
2. Modern Data Stack
Изначально это маркетинговый термин. Он описывал широкий класс инструментов для работы с данными, ориентированными на максимально быстрый старт и изучение. Это достигалось SaaS-парадигмой продвижения: с облачным развертыванием и началом использования по схеме «Привяжи карту и нажми ОК».
Snowflake/Databricks как база, Fivetran/Airbyte для доставки данных, DBT/Dagster для оркестрации, Monte Carlo для Data Observability, Segment для reverse ETL.
Сейчас термин вызывает скепсис. Он породил тысячи компаний, дата-инфраструктура которых состоит из десятков разнородных элементов от разных вендоров. Работают они кое-как, но регулярно выкачивают деньги со счета.
Многие инструменты помогли изучить продуктовый сценарий и проблематику для создания надежных органических решений. Сам по себе Modern Data Stack стал воплощением фразы Launch fast, support never.
3. Data Fabric
Data Fabric — переупаковка старых концепций: виртуализация данных, централизованные метаданные и ML. Маркетинг обещает бесшовность, но ручная настройка коннекторов и очистка данных остаются.
Успешные кейсы редки: есть, например, Сбербанк, но кроме него никого не видно. Как отметили в комментах, термин теряет актуальность, но вендоры продолжают его эксплуатировать. Интеграция данных сложна, а волшебство лучше оставить диснеевским и советским сказкам.
4. Zero ETL
Идея не отменяет необходимость очистки и трансформации — задачи переносятся на API и стриминг. Работает только в замкнутых экосистемах типа Snowflake и Databricks, но не при работе с разрозненными источниками вроде CRM и SAP.
Бизнес-запросы требуют агрегации, а сырые данные бесполезны для аналитики. Zero ETL — ребрендинг ETL, а не его замена.
Вывод
Тренды — это эволюция, а не революция. Успех зависит не от терминов, а от умения решать задачи: проектировать, чистить, документировать. Как сказано в статье: «Инструменты не решают проблемы. Это делают люди».
За комментарий спасибо Николаю Голову, директору по продукту.
#аналитика #статьи
👍8 3❤🔥2🔥1
А Guide to Building Agents.pdf
7 MB
Бесплатный гайд по созданию ИИ-агентов
В OpenAI снова делятся полезностями. Забирайте гайд по созданию ИИ-агентов.
Внутри пошаговый план создания агента — от концепции до внедрения, с акцентом на безопасность и практические примеры:
- Потенциал агентов в автоматизации задач.
- В чем отличие агентов от простых LLM-приложений.
- Как сэкономить при создании ИИ-агента.
- Готовая структура разработки: инструменты, инструкции, примеры кода.
- Распространенные ошибки.
Кстати, в Cloudera опросили 1500 крупнейших айти-компаний и опубликовали отчет «Будущее корпоративных ИИ-агентов».
Главное из отчета:
Среди опрошенных компаний 57% начали внедрять агентный ИИ два года назад, а 21 % — в прошлом году. 83% считают ИИ-агентов критически важными в создании конкурентного преимущества. 59% опасаются отставания при задержке внедрения. 96% планируют масштабировать развертывание в течение года.
#ии #исследования
В OpenAI снова делятся полезностями. Забирайте гайд по созданию ИИ-агентов.
Внутри пошаговый план создания агента — от концепции до внедрения, с акцентом на безопасность и практические примеры:
- Потенциал агентов в автоматизации задач.
- В чем отличие агентов от простых LLM-приложений.
- Как сэкономить при создании ИИ-агента.
- Готовая структура разработки: инструменты, инструкции, примеры кода.
- Распространенные ошибки.
Кстати, в Cloudera опросили 1500 крупнейших айти-компаний и опубликовали отчет «Будущее корпоративных ИИ-агентов».
Главное из отчета:
Среди опрошенных компаний 57% начали внедрять агентный ИИ два года назад, а 21 % — в прошлом году. 83% считают ИИ-агентов критически важными в создании конкурентного преимущества. 59% опасаются отставания при задержке внедрения. 96% планируют масштабировать развертывание в течение года.
#ии #исследования
👍5❤🔥2👾2⚡1🔥1