Как стать BI-аналитиком? Онлайн и офлайн, теория и практика
Привет, друзья! Сегодня обсудим образование. Конечно, не всю систему в целом, а только те аспекты, которые затрагивают действующих и будущих BI-специалистов. Как получить фундаментальные знания в отрасли, где быстро и бесплатно найти ответ на волнующий вопрос, у кого научиться работать на конкретной BI-платформе, чтобы претендовать на ключевые позиции в крупных компаниях? Если вы задаете себе такие вопросы относительно Visiology, то все ответы на них найдете под катом.
Читать: https://habr.com/ru/companies/visiology/articles/811955/
@big_data_analysis
Привет, друзья! Сегодня обсудим образование. Конечно, не всю систему в целом, а только те аспекты, которые затрагивают действующих и будущих BI-специалистов. Как получить фундаментальные знания в отрасли, где быстро и бесплатно найти ответ на волнующий вопрос, у кого научиться работать на конкретной BI-платформе, чтобы претендовать на ключевые позиции в крупных компаниях? Если вы задаете себе такие вопросы относительно Visiology, то все ответы на них найдете под катом.
Читать: https://habr.com/ru/companies/visiology/articles/811955/
@big_data_analysis
Forwarded from Нейроканал
This media is not supported in your browser
VIEW IN TELEGRAM
Langfuse для трейсинга приложений LLM + LangChain
Создание и чтение трейсбека — довольно линейный процесс, если вы используете фреймворк. Однако если речь идёт о комбинации SDK, для каждого из них приходится дополнительно работать.
Langfuse — это своеобразный аналог Sentry для LLM-приложений. Создатели этого инструмента описали (на английском) процесс установки и настройки LF с примерами декратора
Цена: бесплатно
#llm #rag #инструмент
@neuro_channel
Создание и чтение трейсбека — довольно линейный процесс, если вы используете фреймворк. Однако если речь идёт о комбинации SDK, для каждого из них приходится дополнительно работать.
Langfuse — это своеобразный аналог Sentry для LLM-приложений. Создатели этого инструмента описали (на английском) процесс установки и настройки LF с примерами декратора
@observe
.Цена: бесплатно
#llm #rag #инструмент
@neuro_channel
❤1
Планирование смен сотрудников в офлайн ритейле: как упорядочить хаос
Всем привет! На связи команда ad-hoc аналитики X5 Tech. В этой статье мы – Лев Баскин, Андрей Полушкин и Александр Сахнов – расскажем, как без регистрации и смс спланировать смены для сотрудников офлайн-магазинов. Казалось бы, задача достаточно тривиальная: берём симплекс метод или другой метод условной оптимизации и на основе ожидаемой загрузки получаем расписание сотрудников. Однако, не всё так просто.
Первое препятствие на пути – масштабы. У Х5 порядка 25 000 магазинов от Калининграда до Владивостока и более 378 000 работников, обеспечивающих непрерывное функционирование бизнеса. У каждого магазина своя специфика и различающиеся бизнес-процессы. Во-вторых, даже зная, сколько часов занимает тот или иной процесс и как он локализован во времени, из-за внешних факторов нельзя так просто взять и поместить его в расписание. Например, обстановка на дорогах может повлиять на время поставки и, как следствие, сдвинуть ряд процессов в магазине. Достаточно предисловия, перейдём к сути!
Читать: https://habr.com/ru/companies/X5Tech/articles/812093/
@big_data_analysis
Всем привет! На связи команда ad-hoc аналитики X5 Tech. В этой статье мы – Лев Баскин, Андрей Полушкин и Александр Сахнов – расскажем, как без регистрации и смс спланировать смены для сотрудников офлайн-магазинов. Казалось бы, задача достаточно тривиальная: берём симплекс метод или другой метод условной оптимизации и на основе ожидаемой загрузки получаем расписание сотрудников. Однако, не всё так просто.
Первое препятствие на пути – масштабы. У Х5 порядка 25 000 магазинов от Калининграда до Владивостока и более 378 000 работников, обеспечивающих непрерывное функционирование бизнеса. У каждого магазина своя специфика и различающиеся бизнес-процессы. Во-вторых, даже зная, сколько часов занимает тот или иной процесс и как он локализован во времени, из-за внешних факторов нельзя так просто взять и поместить его в расписание. Например, обстановка на дорогах может повлиять на время поставки и, как следствие, сдвинуть ряд процессов в магазине. Достаточно предисловия, перейдём к сути!
Читать: https://habr.com/ru/companies/X5Tech/articles/812093/
@big_data_analysis
На практике пробуем KAN – принципиально новую архитектуру нейросетей
На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.
Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.
Читать: https://habr.com/ru/articles/812147/
@big_data_analysis
На днях ученые из MIT показали альтернативу многослойному перцептрону (MLP). MLP с самого момента изобретения глубокого обучения лежит в основе всех нейросетей, какими мы их знаем сегодня. На его идее в том числе построены большие языковые модели и системы компьютерного зрения.
Однако теперь все может измениться. В KAN (Kolmogorov-Arnold Networks) исследователи реализовали перемещение функций активации с нейронов на ребра нейросети, и такой подход показал блестящие результаты.
Читать: https://habr.com/ru/articles/812147/
@big_data_analysis
YouTube-видео превратили в бесконечное хранилище данных
Энтузиасты написали алгоритм AKA ISG, который превращает видео на YouTube в бесплатное бесконечное хранилище данных.
Читать: «YouTube-видео превратили в бесконечное хранилище данных»
@big_data_analysis
Энтузиасты написали алгоритм AKA ISG, который превращает видео на YouTube в бесплатное бесконечное хранилище данных.
Читать: «YouTube-видео превратили в бесконечное хранилище данных»
@big_data_analysis
Forwarded from Нейроканал
Релизнулся PyTorch 2.3
Самый нашумевший ML-фреймворк десятилетия, на котором «сидят» GPT, обновился,
– Реализована поддержка ядер Triton в torch.compile: кастомные ядра без потери производительности;
– Представлена Tensor Parallel AP для эффективного обучения LLM;
– Добавлена полуструктурированную разреженность на матрицах (
Полный Release Note
#фреймворк
@neuro_channel
Самый нашумевший ML-фреймворк десятилетия, на котором «сидят» GPT, обновился,
– Реализована поддержка ядер Triton в torch.compile: кастомные ядра без потери производительности;
– Представлена Tensor Parallel AP для эффективного обучения LLM;
– Добавлена полуструктурированную разреженность на матрицах (
torch.sparse.SparseSemiStructuredTensor
), ускоряющая операции умножения и проч.Полный Release Note
#фреймворк
@neuro_channel
❤2
Рулим запуском Spark-приложений в Airflow с помощью самописного оператора
Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.
Все Spark-приложения сабмитятся из Docker-контейнеров. И здесь сталкиваемся с проблемой: в нашем случае не существует готовых решений для запуска Spark-приложений, позволяющих легко править конфигурацию и следить за количеством потребляемых ресурсов.
Меня зовут Андрей Булгаков, я лид команды разработчиков Big Data в Lamoda Tech. Вместе с разработчиком Иваном Васенковым в этой статье мы поделимся историей создания Airflow-оператора для запуска Spark-приложений.
Читать: https://habr.com/ru/companies/lamoda/articles/810705/
@big_data_analysis
Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.
Все Spark-приложения сабмитятся из Docker-контейнеров. И здесь сталкиваемся с проблемой: в нашем случае не существует готовых решений для запуска Spark-приложений, позволяющих легко править конфигурацию и следить за количеством потребляемых ресурсов.
Меня зовут Андрей Булгаков, я лид команды разработчиков Big Data в Lamoda Tech. Вместе с разработчиком Иваном Васенковым в этой статье мы поделимся историей создания Airflow-оператора для запуска Spark-приложений.
Читать: https://habr.com/ru/companies/lamoda/articles/810705/
@big_data_analysis
Unit-тестирование Flink-операторов, Job: Flink MiniCluster
Привет, Хабр! С вами вновь Александр Бобряков, техлид в команде МТС Аналитики. И я с очередной статьёй из цикла про фреймворк Apache Flink.
В предыдущей части я рассказал, как тестировать stateless- и stateful-операторы Flink с использованием вспомогательных TestHarness-абстракций, предоставляемых Flink.
В этой статье напишем тесты на всю джобу с использованием мини-кластера Flink и при помощи JUnit Extension. Ещё мы начнём выделять удобные вспомогательные абстракции для тестов, которые понадобятся позже.
Читать: https://habr.com/ru/companies/ru_mts/articles/812905/
@big_data_analysis
Привет, Хабр! С вами вновь Александр Бобряков, техлид в команде МТС Аналитики. И я с очередной статьёй из цикла про фреймворк Apache Flink.
В предыдущей части я рассказал, как тестировать stateless- и stateful-операторы Flink с использованием вспомогательных TestHarness-абстракций, предоставляемых Flink.
В этой статье напишем тесты на всю джобу с использованием мини-кластера Flink и при помощи JUnit Extension. Ещё мы начнём выделять удобные вспомогательные абстракции для тестов, которые понадобятся позже.
Читать: https://habr.com/ru/companies/ru_mts/articles/812905/
@big_data_analysis
regexp — большие гонки
Так или иначе сталкиваться с регулярными выражениями приходилось большинству разработчиков. Мое первое знакомство произошло с реализацией regex в STL
Участвовать в заезде!
Читать: https://habr.com/ru/articles/812953/
@big_data_analysis
Так или иначе сталкиваться с регулярными выражениями приходилось большинству разработчиков. Мое первое знакомство произошло с реализацией regex в STL
std::regexp
. Чаще всего регулярки используются в проверке входных данных, что-то вроде проверки корректности введенного пользователем URL, адреса IPv4, адреса IPv6, телефонного номера и при этом скорость выполнения операции regex не сильно влияет на время отклика от приложения. Но, что если вам приходится проверять сотни, тысячи или даже десятки тысяч правил и все это на постоянно меняющихся наборах входных данных в реальном времени? В этой ситуации вам не просто нужен быстрый алгоритм, вам понадобится лучший из них, вам понадобиться чемпион!Участвовать в заезде!
Читать: https://habr.com/ru/articles/812953/
@big_data_analysis
👍1
Расчет рентабельности инвестиций и другие задачи дата-сайентиста
Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?
Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее.
Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.
Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным.
Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.
Читать: https://habr.com/ru/articles/813195/
@big_data_analysis
Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?
Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее.
Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.
Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным.
Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.
Читать: https://habr.com/ru/articles/813195/
@big_data_analysis
Спецификация уникальных идентификаторов UUIDv7 для ключей баз данных и распределенных систем по новому стандарту RFC9562
Долгожданный стандарт RFC9562 "Universally Unique IDentifiers (UUID)" с тремя новыми версиями идентификаторов UUID (6, 7 и 8) вместо малопригодного RFC4122 наконец-то вступил в силу. Я участвовал в разработке нового стандарта. Обзор стандарта можно посмотреть в статье.
Введенные новым стандартом идентификаторы седьмой версии UUIDv7 — это лучшее, что теперь есть для ключей баз данных и распределенных систем. Они обеспечивают такую же производительность, как и bigint. UUIDv7 уже реализованы в том или ином виде в основных языках программирования и в некоторых СУБД.
Сгенерированные UUIDv7 имеют все преимущества UUID и при этом упорядочены по дате и времени создания. Это ускоряет поиск индексов и записей в БД по ключу в формате UUID, значительно упрощает и ускоряет базы данных и распределенные системы. Неупорядоченность значений UUID прежде сдерживала использование UUID в качестве ключей и вынуждала разработчиков выдумывать собственные форматы идентификаторов или довольствоваться последовательными целыми числами в качестве ключей.
Черновик стандарта активно обсуждался на Хабре в апреле 2022 года в комментариях к статье "Встречайте UUID нового поколения для ключей высоконагруженных систем".
Разные участники разработки нового стандарта придерживались различных взглядов, и практически все обсуждавшиеся альтернативные варианты структуры UUIDv7 вошли в стандарт. Поэтому теперь перед разработчиками возникает вопрос, какую из множества возможных спецификаций UUIDv7 реализовывать и применять. Также для массового перехода на UUIDv7 нужна дополнительная функциональность, повышающая привлекательность UUIDv7 для разработчиков и бизнеса.
Предложенная мной ниже спецификация UUIDv7 с дополнительной функциональностью описывает максимально надежный и удобный вариант структуры UUIDv7 для самых сложных и высоконагруженных информационных систем. Функциональность упорядочена по приоритету реализации
Читать: https://habr.com/ru/articles/813229/
@big_data_analysis
Долгожданный стандарт RFC9562 "Universally Unique IDentifiers (UUID)" с тремя новыми версиями идентификаторов UUID (6, 7 и 8) вместо малопригодного RFC4122 наконец-то вступил в силу. Я участвовал в разработке нового стандарта. Обзор стандарта можно посмотреть в статье.
Введенные новым стандартом идентификаторы седьмой версии UUIDv7 — это лучшее, что теперь есть для ключей баз данных и распределенных систем. Они обеспечивают такую же производительность, как и bigint. UUIDv7 уже реализованы в том или ином виде в основных языках программирования и в некоторых СУБД.
Сгенерированные UUIDv7 имеют все преимущества UUID и при этом упорядочены по дате и времени создания. Это ускоряет поиск индексов и записей в БД по ключу в формате UUID, значительно упрощает и ускоряет базы данных и распределенные системы. Неупорядоченность значений UUID прежде сдерживала использование UUID в качестве ключей и вынуждала разработчиков выдумывать собственные форматы идентификаторов или довольствоваться последовательными целыми числами в качестве ключей.
Черновик стандарта активно обсуждался на Хабре в апреле 2022 года в комментариях к статье "Встречайте UUID нового поколения для ключей высоконагруженных систем".
Разные участники разработки нового стандарта придерживались различных взглядов, и практически все обсуждавшиеся альтернативные варианты структуры UUIDv7 вошли в стандарт. Поэтому теперь перед разработчиками возникает вопрос, какую из множества возможных спецификаций UUIDv7 реализовывать и применять. Также для массового перехода на UUIDv7 нужна дополнительная функциональность, повышающая привлекательность UUIDv7 для разработчиков и бизнеса.
Предложенная мной ниже спецификация UUIDv7 с дополнительной функциональностью описывает максимально надежный и удобный вариант структуры UUIDv7 для самых сложных и высоконагруженных информационных систем. Функциональность упорядочена по приоритету реализации
Читать: https://habr.com/ru/articles/813229/
@big_data_analysis
Как и зачем компании могут применять ML? Разбираемся на примере Netflix
Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.
Читать: https://habr.com/ru/companies/selectel/articles/811585/
@big_data_analysis
Привет, Хабр! Я Ефим, MLOps-инженер в отделе Data- и ML-продуктов Selectel. В последнее время, куда ни глянешь, только и разговоров, что про ML. Но всегда хочется увидеть результаты работы на практике. Если с IT-гигантами все понятно, то зачем ML, скажем, компаниям из индустрии развлечений? В статье попробуем разобраться с этим (насколько позволят открытые источники) на примере Netflix.
Читать: https://habr.com/ru/companies/selectel/articles/811585/
@big_data_analysis
Расчет рентабельности инвестиций и другие задачи дата-сайентист
Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?
Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее.
Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.
Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным.
Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.
Читать: https://habr.com/ru/articles/813305/
@big_data_analysis
Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?
Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия. Эти параметры помогают относительно точно спрогнозировать итоговые показатели ROI, а рассчитываются значительно быстрее.
Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.
Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, то стоит учесть величину улучшения, на которую рассчитывают инвесторы. Также можно учитывать общую усредненную формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, так как базовая реализация предоставляет внушительный потенциал. Для относительно зрелого продукта, прошедшего годы итеративных доработок, улучшение на 1–2% уже будет существенным.
Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.
Читать: https://habr.com/ru/articles/813305/
@big_data_analysis
Грейды в аналитике. Как быстро повысить свой грейд?
Привет, Хабр!
Меня зовут Денис, я Ведущий Продуктовый Аналитик из МТС. Давайте сегодня поговорим про грейды в аналитике. Чем они отличаются? Расскажу, как можно быстро повышать свой грейд.
В целом, в разных компаниях разное понимание того, чем должен обладать тот или иной грейд. Однако, есть основные пункты, которые повторяются во многих командах, про них мы сегодня и поговорим.
Читать: https://habr.com/ru/articles/813567/
@big_data_analysis
Привет, Хабр!
Меня зовут Денис, я Ведущий Продуктовый Аналитик из МТС. Давайте сегодня поговорим про грейды в аналитике. Чем они отличаются? Расскажу, как можно быстро повышать свой грейд.
В целом, в разных компаниях разное понимание того, чем должен обладать тот или иной грейд. Однако, есть основные пункты, которые повторяются во многих командах, про них мы сегодня и поговорим.
Читать: https://habr.com/ru/articles/813567/
@big_data_analysis
Дата-майнинг: процесс, типы методики и инструменты
Дата-майнинг, в основе которого лежат научные и технологические принципы — это стратегический процесс, предназначенный для выявления паттернов, корреляций и трендов, скрывающихся под поверхностью информации.
В этой статье мы расскажем о том, что такое дата-майнинг, о его методиках, инструментах, опыте использования и примерах.
Что такое дата-майнинг?
Дата-майнинг (data mining) — это процесс обработки данных для выявления паттернов, корреляций и аномалий в крупных датасетах. В нём применяются разнообразные методики статистического анализа и машинного обучения для извлечения из данных значимой информации и выводов. Компании могут использовать эти выводы для принятия обоснованных решений, прогнозирования трендов и совершенствования бизнес-стратегий.
Например, при помощи дата-майнинга туристическая компания может обнаружить, что путешественники-одиночки часто бронируют отели рядом с технологическими хабами или коворкинг-пространствами, даже если они расположены далеко от основных туристических достопримечательностей. Это может намекнуть о том, что существенный процент путешествующих в одиночестве объединяет поездки для работы и отдыха, предпочитая места, удовлетворяющие их профессиональным потребностям. Такой вывод может позволить компании сосредоточить свои маркетинговые кампании на отелях, находящихся поблизости от бизнес-районов или коворкингов.
Визуальное определение дата-майнинга
Этот процесс является неотъемлемой частью преобразования огромных объёмов сырых данных (структурированных, неструктурированных и частично структурированных) в ценные знания, на основании которых можно планировать свои действия.
Читать: https://habr.com/ru/articles/784060/
@big_data_analysis
Дата-майнинг, в основе которого лежат научные и технологические принципы — это стратегический процесс, предназначенный для выявления паттернов, корреляций и трендов, скрывающихся под поверхностью информации.
В этой статье мы расскажем о том, что такое дата-майнинг, о его методиках, инструментах, опыте использования и примерах.
Что такое дата-майнинг?
Дата-майнинг (data mining) — это процесс обработки данных для выявления паттернов, корреляций и аномалий в крупных датасетах. В нём применяются разнообразные методики статистического анализа и машинного обучения для извлечения из данных значимой информации и выводов. Компании могут использовать эти выводы для принятия обоснованных решений, прогнозирования трендов и совершенствования бизнес-стратегий.
Например, при помощи дата-майнинга туристическая компания может обнаружить, что путешественники-одиночки часто бронируют отели рядом с технологическими хабами или коворкинг-пространствами, даже если они расположены далеко от основных туристических достопримечательностей. Это может намекнуть о том, что существенный процент путешествующих в одиночестве объединяет поездки для работы и отдыха, предпочитая места, удовлетворяющие их профессиональным потребностям. Такой вывод может позволить компании сосредоточить свои маркетинговые кампании на отелях, находящихся поблизости от бизнес-районов или коворкингов.
Визуальное определение дата-майнинга
Этот процесс является неотъемлемой частью преобразования огромных объёмов сырых данных (структурированных, неструктурированных и частично структурированных) в ценные знания, на основании которых можно планировать свои действия.
Читать: https://habr.com/ru/articles/784060/
@big_data_analysis
Гайд на собеседования
Привет, Хабр! Я Денис, ведущий продуктовый аналитик!
Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях.
Давайте начинать!
Читать: https://habr.com/ru/articles/809385/
@big_data_analysis
Привет, Хабр! Я Денис, ведущий продуктовый аналитик!
Я не отниму у Вас много времени, а постараюсь максимально кратко и четко рассказать про основные фишки, которые помогут Вам на собеседованиях.
Давайте начинать!
Читать: https://habr.com/ru/articles/809385/
@big_data_analysis
⚡1
CDC на примитивах
CDC вам не "Centers for Disease Control and Prevention" а "Change data capture". В статье рассказано какие есть виды CDC и как реализовать один из CDC при помощи Debezium.
Читать: https://habr.com/ru/articles/812797/
@big_data_analysis
CDC вам не "Centers for Disease Control and Prevention" а "Change data capture". В статье рассказано какие есть виды CDC и как реализовать один из CDC при помощи Debezium.
Читать: https://habr.com/ru/articles/812797/
@big_data_analysis
GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?
Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает интонации, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.
При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все-все самые интересные пасхалки Альтмана...
Читать: https://habr.com/ru/articles/814161/
@big_data_analysis
Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает интонации, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.
При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все-все самые интересные пасхалки Альтмана...
Читать: https://habr.com/ru/articles/814161/
@big_data_analysis
Расчет рентабельности инвестиций и другие задачи дата-сайентиста
Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?
Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия.
Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.
Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, можно использовать общую формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, для относительно зрелого улучшение на 1–2% уже будет существенным.
Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.
После подобного анализа стоит отметить компоненты, которые оценивались с низким уровнем достоверности, и проверить чувствительность общей приоритизации проекта, когда неопределенная оценка отклоняется на 10 или 30%. При слишком сильном отклонении приоритизации соответственно снижается, а проект может быть перенесен или вовсе отменен.
Читать: https://habr.com/ru/articles/814561/
@big_data_analysis
Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?
Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия.
Охват можно оценить, исходя из плана проекта, где обычно содержится описание клиента, или по данным продуктовых и финансовых руководителей, которые уже составляли дорожную карту предприятия с подобными прогнозами.
Влияние — это ожидаемые улучшения для целевых клиентов, обеспечиваемые продуктом. Такие улучшения достаточно точно оцениваются по аналогичным кейсам, а если таковых на рынке нет, можно использовать общую формулу, по которой на ранних этапах разработки продукта ожидается улучшение на 10–20%, для относительно зрелого улучшение на 1–2% уже будет существенным.
Усилия можно оценить в технических неделях или неделях дата-сайентиста, необходимых для запуска и итерации решения. Тут тоже можно обратиться за оценкой запусков командой схожих проектов и аппроксимировать ее для нынешнего проекта. А если такой проект запускается командой впервые, то поможет разбивка этапов запуска на контрольные точки.
После подобного анализа стоит отметить компоненты, которые оценивались с низким уровнем достоверности, и проверить чувствительность общей приоритизации проекта, когда неопределенная оценка отклоняется на 10 или 30%. При слишком сильном отклонении приоритизации соответственно снижается, а проект может быть перенесен или вовсе отменен.
Читать: https://habr.com/ru/articles/814561/
@big_data_analysis
What's new in the Oracle Analytics Cloud May 2024 update
Explore the latest Oracle Analytics Cloud May 2024 Update, featuring enhancements across data exploration, dashboarding, storytelling, connectivity, augmented analytics, and administration. Discover streamlined workflows, enhanced data governance, and innovative features empowering smarter, data-driven decision-making.
Read: https://blogs.oracle.com/analytics/post/whats-new-in-the-oracle-analytics-cloud-may-2024-update
@big_data_analysis
Explore the latest Oracle Analytics Cloud May 2024 Update, featuring enhancements across data exploration, dashboarding, storytelling, connectivity, augmented analytics, and administration. Discover streamlined workflows, enhanced data governance, and innovative features empowering smarter, data-driven decision-making.
Read: https://blogs.oracle.com/analytics/post/whats-new-in-the-oracle-analytics-cloud-may-2024-update
@big_data_analysis
Oracle
What's new in the Oracle Analytics Cloud May 2024 update
Explore the latest Oracle Analytics Cloud May 2024 Update, featuring enhancements across data exploration, dashboarding, storytelling, connectivity, augmented analytics, and administration. Discover streamlined workflows, enhanced data governance, and innovative…