Искусство ETL. FAQ по Data Cooker ETL
Как и было обещано, в завершение серии ( 1 • 2 • 3 • 4 • 5 ) статей о разработке инструмента для ETL больших данных, я выкладываю выжимку ответов на вопросы.
А то статьи были в формате туториала для разработчиков таких инструментов (длинные и с высоким уровнем сложности), так что стоит рассказать более кратко и понятно для каждого.
Q. Что это такое?
A. Специализированный инструмент для а) быстрого создания ETL процессов и б) эффективного по стоимости их выполнения.
Промка: https://dcetl.ru
Исходники: https://github.com/PastorGL/datacooker-etl
Официальная группа в телеге: https://t.iss.one/data_cooker_etl
Читать: https://habr.com/ru/articles/762862/
Как и было обещано, в завершение серии ( 1 • 2 • 3 • 4 • 5 ) статей о разработке инструмента для ETL больших данных, я выкладываю выжимку ответов на вопросы.
А то статьи были в формате туториала для разработчиков таких инструментов (длинные и с высоким уровнем сложности), так что стоит рассказать более кратко и понятно для каждого.
Q. Что это такое?
A. Специализированный инструмент для а) быстрого создания ETL процессов и б) эффективного по стоимости их выполнения.
Промка: https://dcetl.ru
Исходники: https://github.com/PastorGL/datacooker-etl
Официальная группа в телеге: https://t.iss.one/data_cooker_etl
Читать: https://habr.com/ru/articles/762862/
Introducing a NEW Community for Oracle Analytics
Introducing a NEW Community for Oracle Analytics
Read: https://blogs.oracle.com/proactivesupportepm/post/introducing-oracle-analytics-communities
Introducing a NEW Community for Oracle Analytics
Read: https://blogs.oracle.com/proactivesupportepm/post/introducing-oracle-analytics-communities
Как оценить объем работ по миграции хранилища данных на Greenplum: методика и пример
Некоторое время назад многие российские компании, чей бизнес очень сильно завязан на обработке и анализе больших объемов данных (банки, ритейл, телеком) задумались о том, как можно уменьшить стоимость владения хранилищами данных, построенных на западных технологиях. События последнего времени только ускорили этот процесс. И сейчас количество компаний, для которых актуальна миграция существующих хранилищ данных, построенных на Oracle, MS SQL и других проприетарных СУБД, на решения открытого ПО и отечественных поставщиков, резко выросло, а СУБД GreenPlum фактически становится отраслевым стандартом в хранилищах данных.
При этом и компании-заказчику, и организации-исполнителю необходимо оценить бюджет проекта миграции. Первые обычно запрашивают подобную оценку у вторых.
Именно такую задачу поставил нам клиент – крупная торговая компания. После небольшого ознакомления с возможными методиками, выбор пал на метод COSMIC (Common Software Measurement International Consortium [1]), являющийся одной из разновидностей оценки функционального объема по функциональным точкам и выросший до стандарта ISO 19761. Плюсом в пользу СOSMIC стало разработанное консорциумом адаптированное руководство для оценки функционального объема хранилищ данных [2].
Читать: https://habr.com/ru/companies/sapiens_solutions/articles/763068/
Некоторое время назад многие российские компании, чей бизнес очень сильно завязан на обработке и анализе больших объемов данных (банки, ритейл, телеком) задумались о том, как можно уменьшить стоимость владения хранилищами данных, построенных на западных технологиях. События последнего времени только ускорили этот процесс. И сейчас количество компаний, для которых актуальна миграция существующих хранилищ данных, построенных на Oracle, MS SQL и других проприетарных СУБД, на решения открытого ПО и отечественных поставщиков, резко выросло, а СУБД GreenPlum фактически становится отраслевым стандартом в хранилищах данных.
При этом и компании-заказчику, и организации-исполнителю необходимо оценить бюджет проекта миграции. Первые обычно запрашивают подобную оценку у вторых.
Именно такую задачу поставил нам клиент – крупная торговая компания. После небольшого ознакомления с возможными методиками, выбор пал на метод COSMIC (Common Software Measurement International Consortium [1]), являющийся одной из разновидностей оценки функционального объема по функциональным точкам и выросший до стандарта ISO 19761. Плюсом в пользу СOSMIC стало разработанное консорциумом адаптированное руководство для оценки функционального объема хранилищ данных [2].
Читать: https://habr.com/ru/companies/sapiens_solutions/articles/763068/
Как мы запустили сервис, получили много хейта, а потом внедрили ML и ускорили процессы в разы
Привет, меня зовут Мария Стефова, и я продакт-менеджер образовательной среды в Нетологии. Сегодня расскажу вам, как мы разрушили барьер между студентом и экспертом и создали сервис для получения живой обратной связи во время выполнения домашнего задания. Сейчас мы получаем в месяц от 2 500 до 4 500 вопросов от студентов, а средний показатель отвеченных вопросов — 95–98%.
Хотя в начале запуска сервиса вопросов и ответов всё было не так радужно: мы словили много хейта от экспертов, и чтобы добиться феноменальных результатов, нам пришлось сильно постараться и отстроить все бизнес-процессы. Немалую роль сыграло и внедрение ML (англ. Machine Learning). Именно оно помогло автоматизировать ответы на львиную долю рутинных вопросов и повысить скорость их обработки. В статье я поделюсь с вами историей о том, как мы размечали данные, искали баланс между порогом вероятности и охватом вопросов, обучали и дообучали модель, а также расскажу об итогах нашей работы.
Читать: https://habr.com/ru/companies/netologyru/articles/763152/
Привет, меня зовут Мария Стефова, и я продакт-менеджер образовательной среды в Нетологии. Сегодня расскажу вам, как мы разрушили барьер между студентом и экспертом и создали сервис для получения живой обратной связи во время выполнения домашнего задания. Сейчас мы получаем в месяц от 2 500 до 4 500 вопросов от студентов, а средний показатель отвеченных вопросов — 95–98%.
Хотя в начале запуска сервиса вопросов и ответов всё было не так радужно: мы словили много хейта от экспертов, и чтобы добиться феноменальных результатов, нам пришлось сильно постараться и отстроить все бизнес-процессы. Немалую роль сыграло и внедрение ML (англ. Machine Learning). Именно оно помогло автоматизировать ответы на львиную долю рутинных вопросов и повысить скорость их обработки. В статье я поделюсь с вами историей о том, как мы размечали данные, искали баланс между порогом вероятности и охватом вопросов, обучали и дообучали модель, а также расскажу об итогах нашей работы.
Читать: https://habr.com/ru/companies/netologyru/articles/763152/
Что есть NER сервисы и как их применяют в бизнесе от А до Я (практика)
Крайне важный кейс для бизнеса — автоматизация бизнес процессов, где раньше можно было только использовать, например, оператора или клиентского менеджера, а сейчас им на помощь и замену чат-боты, голосовые ассистенты и вот и настало время, когда без машинного обучения и NLP уже никуда. Предлагаю рассмотреть NER сервисы и если обратиться к wikipedia:
Named-entity recognition (NER) (also known as (named) entity identification, entity chunking, and entity extraction) is a subtask of information extraction that seeks to locate and classify named entities mentioned in unstructured text into pre-defined categories such as person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.
Читать: https://habr.com/ru/articles/763542/
Крайне важный кейс для бизнеса — автоматизация бизнес процессов, где раньше можно было только использовать, например, оператора или клиентского менеджера, а сейчас им на помощь и замену чат-боты, голосовые ассистенты и вот и настало время, когда без машинного обучения и NLP уже никуда. Предлагаю рассмотреть NER сервисы и если обратиться к wikipedia:
Named-entity recognition (NER) (also known as (named) entity identification, entity chunking, and entity extraction) is a subtask of information extraction that seeks to locate and classify named entities mentioned in unstructured text into pre-defined categories such as person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.
Читать: https://habr.com/ru/articles/763542/
Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами
Привет! Меня зовут Алексей, я дата-аналитик. Четыре года назад я пришёл в дата-анализ из сферы, далековатой от IT, — пивоварения (хотя о том, что на самом деле они не так далеки, я рассказывал здесь). До того как я нашёл свою нишу, тщетно пробовал вкатиться в IT через разные курсы по Python, TensorFlow и веб-разработке. Потратил на это три года и 100 тысяч рублей, в какой-то момент выгорел ещё в процессе обучения, чуть не бросил попытки, но собрался и в итоге самостоятельно и бесплатно изучил анализ данных, который мне сразу зашёл.
Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен — добро пожаловать под кат.
Читать: https://habr.com/ru/articles/763346/
Привет! Меня зовут Алексей, я дата-аналитик. Четыре года назад я пришёл в дата-анализ из сферы, далековатой от IT, — пивоварения (хотя о том, что на самом деле они не так далеки, я рассказывал здесь). До того как я нашёл свою нишу, тщетно пробовал вкатиться в IT через разные курсы по Python, TensorFlow и веб-разработке. Потратил на это три года и 100 тысяч рублей, в какой-то момент выгорел ещё в процессе обучения, чуть не бросил попытки, но собрался и в итоге самостоятельно и бесплатно изучил анализ данных, который мне сразу зашёл.
Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен — добро пожаловать под кат.
Читать: https://habr.com/ru/articles/763346/
Становясь Пангеей: будущее современного стека для анализа данных
Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.
Как выжить стартапу в области данных?
Читать: https://habr.com/ru/articles/763942/
Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.
Как выжить стартапу в области данных?
Читать: https://habr.com/ru/articles/763942/
Oracle Fusion Analytics Implementation Series: Rollout Readiness
Best Practices for Implementing Oracle Fusion Analytics Series: Go-Live Readiness
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-rollout-readiness
Best Practices for Implementing Oracle Fusion Analytics Series: Go-Live Readiness
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-rollout-readiness
Oracle
Oracle Fusion Analytics Implementation Series: Rollout Readiness
Best Practices for Implementing Oracle Fusion Analytics Series: Rollout Readiness
Как мы создавали self-service функционал проверки качества данных для ML-моделей
Привет! Продолжу рассказ о том, как мы превращаем банк в "биг дата" - организацию. Очевидно, что чем больше данных использует компания, тем больше зависит от их качества. Но, зачастую, вопросам качества данных при разработке витрин уделяется недостаточно внимания. Это связано с тем, что требования к качеству данных не фиксируются в бизнес-требованиях, а разработчик витрины/инженер данных не всегда досконально знает предметную область. Будущее — за организацией контрольных мероприятий в контуре бизнес-заказчиков. Этот тренд получил название Self-Service функции. У нас в Газпромбанке по такому принципу строится проверка качества данных для ML-моделей. Каждому аналитику/разработчику моделей доступен функционал оценки качества данных любой витрины. Рассказываю, как выстроили такую схему работы
НУ, ОЧЕНЬ БОЛЬШИЕ ВИТРИНЫ
Качество бизнес-решений сегодня полностью зависит от качества используемых данных. Поэтому во многих компаниях все большую популярность набирает сервис DQaaS (Data Quality as a Service). Есть такой сервис и у нас. В основе него лежит программный инструмент проверки качества данных, а также к нему прилагается инженер по качеству данных (КД), который оперативно настроит проверки КД нужных витрин, проанализирует результаты и предоставит выводы по итогам анализа.
Для ML-моделей банка используются большие данные: в каждой ключевой витрине более 10 млн строк. Это информация о количестве клиентов, заявок на кредит, депозитов и так далее.
Конечно, модели работают не с сырыми данными, а с уже агрегированными, то есть часть вопросов с их качеством снята на более ранних этапах. Однако нам необходим метод сверки данных от среза к срезу, например от месяца к месяцу или от недели к неделе, это связано с особенностями работы моделей. При их построении используется некая выборка данных (семпл), проверяются показатели производительности модели и ее эффективность. И важно от среза к срезу проверять, что данные не поменялись драматически. Например, если модель строилась для выборки «30% мужчин, 70% женщин, 50% мужчин в возрасте до 45 лет», то и применяться она должна на таких же данных. Но если в новой выборке уже 90% мужчин, из них 70% старше 50 лет, модель может работать неэффективно. Яркий пример отклонений — изменения параметров выборки посетителей кафе во время ковида: доходы общепита кардинально изменились в связи с изоляцией, люди резко сократили траты на кафе, бары и офлайн-магазины, но в то же время объемы онлайн-покупок выросли в несколько раз.
Читать: https://habr.com/ru/companies/gazprombank/articles/764028/
Привет! Продолжу рассказ о том, как мы превращаем банк в "биг дата" - организацию. Очевидно, что чем больше данных использует компания, тем больше зависит от их качества. Но, зачастую, вопросам качества данных при разработке витрин уделяется недостаточно внимания. Это связано с тем, что требования к качеству данных не фиксируются в бизнес-требованиях, а разработчик витрины/инженер данных не всегда досконально знает предметную область. Будущее — за организацией контрольных мероприятий в контуре бизнес-заказчиков. Этот тренд получил название Self-Service функции. У нас в Газпромбанке по такому принципу строится проверка качества данных для ML-моделей. Каждому аналитику/разработчику моделей доступен функционал оценки качества данных любой витрины. Рассказываю, как выстроили такую схему работы
НУ, ОЧЕНЬ БОЛЬШИЕ ВИТРИНЫ
Качество бизнес-решений сегодня полностью зависит от качества используемых данных. Поэтому во многих компаниях все большую популярность набирает сервис DQaaS (Data Quality as a Service). Есть такой сервис и у нас. В основе него лежит программный инструмент проверки качества данных, а также к нему прилагается инженер по качеству данных (КД), который оперативно настроит проверки КД нужных витрин, проанализирует результаты и предоставит выводы по итогам анализа.
Для ML-моделей банка используются большие данные: в каждой ключевой витрине более 10 млн строк. Это информация о количестве клиентов, заявок на кредит, депозитов и так далее.
Конечно, модели работают не с сырыми данными, а с уже агрегированными, то есть часть вопросов с их качеством снята на более ранних этапах. Однако нам необходим метод сверки данных от среза к срезу, например от месяца к месяцу или от недели к неделе, это связано с особенностями работы моделей. При их построении используется некая выборка данных (семпл), проверяются показатели производительности модели и ее эффективность. И важно от среза к срезу проверять, что данные не поменялись драматически. Например, если модель строилась для выборки «30% мужчин, 70% женщин, 50% мужчин в возрасте до 45 лет», то и применяться она должна на таких же данных. Но если в новой выборке уже 90% мужчин, из них 70% старше 50 лет, модель может работать неэффективно. Яркий пример отклонений — изменения параметров выборки посетителей кафе во время ковида: доходы общепита кардинально изменились в связи с изоляцией, люди резко сократили траты на кафе, бары и офлайн-магазины, но в то же время объемы онлайн-покупок выросли в несколько раз.
Читать: https://habr.com/ru/companies/gazprombank/articles/764028/
Python в Excel, базы данных без SQL и трудности в аналитике
Привет, Хабр! Сегодня — международный день доступа к информации, поэтому делюсь с вами интересными материалами по ML, AI и дата-аналитике. В новом выпуске вас ждут новинки от Nvidia для LLM, три пути развития аналитического стека, инструменты для анализа данных и другое. Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/764076/
Привет, Хабр! Сегодня — международный день доступа к информации, поэтому делюсь с вами интересными материалами по ML, AI и дата-аналитике. В новом выпуске вас ждут новинки от Nvidia для LLM, три пути развития аналитического стека, инструменты для анализа данных и другое. Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/764076/
Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде
Привет, Habr !
Я работаю инженером по машинному обучению в Мегафоне. Занимаюсь аналитикой данных и являюсь частью команды разработки MLOps платформы. Задача нашей команды состоит в том, чтобы выстраивать и оптимизировать процессы разработки и продуктивизации моделей машинного обучения, предоставлять функционал для основных этапов (сбор данных, MQ/DQ, продуктивизация).
Сегодня поговорим о том, какие сложности могут возникать при работе с кластером Hadoop и какие есть методы для их решения.
Видеозапись по мотивам статьи можно посмотреть здесь.
Эта статья будет интересна аналитикам и инженерам, которые работают с BigData и регулярно сталкиваются с необходимостью продуктивизировать модели на Hadoop.
Затронем следующие темы:
Читать: https://habr.com/ru/companies/megafon/articles/763864/
Привет, Habr !
Я работаю инженером по машинному обучению в Мегафоне. Занимаюсь аналитикой данных и являюсь частью команды разработки MLOps платформы. Задача нашей команды состоит в том, чтобы выстраивать и оптимизировать процессы разработки и продуктивизации моделей машинного обучения, предоставлять функционал для основных этапов (сбор данных, MQ/DQ, продуктивизация).
Сегодня поговорим о том, какие сложности могут возникать при работе с кластером Hadoop и какие есть методы для их решения.
Видеозапись по мотивам статьи можно посмотреть здесь.
Эта статья будет интересна аналитикам и инженерам, которые работают с BigData и регулярно сталкиваются с необходимостью продуктивизировать модели на Hadoop.
Затронем следующие темы:
Читать: https://habr.com/ru/companies/megafon/articles/763864/
Anonymous Login Configuration for Oracle Analytics Server
Anonymous Login Configuration for Oracle Analytics Server
Read: https://blogs.oracle.com/analytics/post/oas-anonlogin
Anonymous Login Configuration for Oracle Analytics Server
Read: https://blogs.oracle.com/analytics/post/oas-anonlogin
Getting started on Fusion CX Analytics
This blog guides you through understanding predefined objects, tables, entity relationships, subject areas, and more in Oracle Fusion CX Analytics. Additionally, discover the available preview features that empower functional administrators to evaluate new functionalities before default rollout. Elevate your analytics workflow, embrace self-service data preparation, and maximize the potential of Oracle Fusion CX Analytics with our insightful blog.
Read: https://blogs.oracle.com/analytics/post/getting-started-on-fusion-cx-analytics
This blog guides you through understanding predefined objects, tables, entity relationships, subject areas, and more in Oracle Fusion CX Analytics. Additionally, discover the available preview features that empower functional administrators to evaluate new functionalities before default rollout. Elevate your analytics workflow, embrace self-service data preparation, and maximize the potential of Oracle Fusion CX Analytics with our insightful blog.
Read: https://blogs.oracle.com/analytics/post/getting-started-on-fusion-cx-analytics
Oracle
Getting started on Fusion CX Analytics
This blog guides you through understanding predefined objects, tables, entity relationships, subject areas, and more in Oracle Fusion CX Analytics. Additionally, discover the available preview features that empower functional administrators to evaluate new…
Аналог Tableau LOD в FineBI: 15 типичных кейсов
Хабр, привет! На связи команда Business Intelligence GlowByte. Хотим поделиться статьей китайского автора и бизнес-аналитика, активного пользователя FineBI. Он рассмотрел решение 15 типичных кейсов в Tableau и FineBI, провел сравнение инструментов, а также сделал вывод относительно их преимуществ и недостатков. Для интересующихся темой этот материал – находка. Если вы ищете больше информации и ответов на вопросы, смело приходите к нам в комьюнити FineBI в России, созданное Business Intelligence GlowByte.
15 типичных кейсов в Tableau и FineBI
Читать: https://habr.com/ru/companies/glowbyte/articles/765242/
Хабр, привет! На связи команда Business Intelligence GlowByte. Хотим поделиться статьей китайского автора и бизнес-аналитика, активного пользователя FineBI. Он рассмотрел решение 15 типичных кейсов в Tableau и FineBI, провел сравнение инструментов, а также сделал вывод относительно их преимуществ и недостатков. Для интересующихся темой этот материал – находка. Если вы ищете больше информации и ответов на вопросы, смело приходите к нам в комьюнити FineBI в России, созданное Business Intelligence GlowByte.
15 типичных кейсов в Tableau и FineBI
Читать: https://habr.com/ru/companies/glowbyte/articles/765242/
🥱1
Росатом приглашает на должность Консультант SAP BW / BI в IT-интегратор “Гринатом”.
Работать предстоит с развитием Корпоративного хранилища данных и обращениями пользователей.
Требования: навыки проектирования и разработки в SAP BW, SAP BO, а также создания интеграции с внешними системами (1C ERP, MS Excel, SAP ERP и др.); опыт разработки на ABAP для задач SAP BW; умение работать со стандартными экстракторами FI, CO, MM, HR; оптимизация производительности; опыт проектной и пользовательской документации.
Гринатом предлагает: конкурентную ЗП и прозрачную систему премий; 5/2 с сокращенной пятницей и 31 день ежегодного отпуска; офис на м. Нагатинская с возможностью удаленки; ДМС и скидки на фитнес; возможность обучения в Корпоративной академии и участия в тренингах, конференциях и онлайн-курсах; неформальную корпоративную культуру и профессиональный рост вместе с компанией.
Узнать подробнее и откликнуться на вакансию можно по ссылке.
#вакансия #работа
Работать предстоит с развитием Корпоративного хранилища данных и обращениями пользователей.
Требования: навыки проектирования и разработки в SAP BW, SAP BO, а также создания интеграции с внешними системами (1C ERP, MS Excel, SAP ERP и др.); опыт разработки на ABAP для задач SAP BW; умение работать со стандартными экстракторами FI, CO, MM, HR; оптимизация производительности; опыт проектной и пользовательской документации.
Гринатом предлагает: конкурентную ЗП и прозрачную систему премий; 5/2 с сокращенной пятницей и 31 день ежегодного отпуска; офис на м. Нагатинская с возможностью удаленки; ДМС и скидки на фитнес; возможность обучения в Корпоративной академии и участия в тренингах, конференциях и онлайн-курсах; неформальную корпоративную культуру и профессиональный рост вместе с компанией.
Узнать подробнее и откликнуться на вакансию можно по ссылке.
#вакансия #работа
hh.ru
Вакансия Консультант SAP BW / BI в Москве, работа в компании Гринатом (вакансия в архиве c 20 октября 2023)
Зарплата: не указана. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 20.09.2023.
Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI
Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.
Читать: https://habr.com/ru/companies/avito/articles/764996/
Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.
Читать: https://habr.com/ru/companies/avito/articles/764996/
Рынок BI (business intelligence) в России
Давайте попробуем начать разбирать тему рынка Аналитических платформ в России. Есть ли он, насколько сильно отстает от топ 3 из Гартнера, и когда наступит светлое будущее BI для пользователя. В этом коротком посте напишу тезисно, то, что я наблюдаю сейчас и какие проблемы вижу. Дальше буду развивать тему более детально.
Читать: https://habr.com/ru/articles/765930/
Давайте попробуем начать разбирать тему рынка Аналитических платформ в России. Есть ли он, насколько сильно отстает от топ 3 из Гартнера, и когда наступит светлое будущее BI для пользователя. В этом коротком посте напишу тезисно, то, что я наблюдаю сейчас и какие проблемы вижу. Дальше буду развивать тему более детально.
Читать: https://habr.com/ru/articles/765930/
Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
Многие компании при выборе платформы встают перед вопросом, а чем лучше та или иная платформа по сравнению с другими аналогичными платформами. И в зависимости от наличия свободного времени и ресурсов, клиенты идут разными путями. Кто то запускает конкурентные пилоты между разными платформами и их партнерами, кто то определившись с выбором платформы начинает искать надежного исполнителя контракта, кто то смотрит на проект соседа и этого ему достаточно для покупки аналогичной технологии для себя. Но практически все клиенты хотят увидеть картину в целом по рынку и обращаются к разным рейтингам.
Во времена царствия на рынке РФ большой тройки аналитических платформ ( Qlik, Tableau, Power BI) всем было достаточно ежегодного мнения авторитетного Гартнера. В крайнем случае еще смотрели BARC, Aberdeen Group, G2 или IDC. Везде кстати картина довольно четко определяла лидеров отрасли и подсвечивала сильные и слабые стороны платформ. При этом попадание в Гартнер было задачей престижной, сложной и затратной. Из всех Российских платформ там был только Прогноз, который в 2017 году обанкротился. Но успел возбудить западных вендоров на написание батл карт. Если вернутся к Гартнеру, то это целая машина по изучению технологий на рынке, со своей системой оценки вендоров. Четкие критерии и веса на каждый элемент платформы, определение вектора развития технологий на несколько лет вперед, глубокий анализ рынка и конечно же магический квадрант, где каждый хочет быть в правом верхнем углу. Более того, вся эта оценка подкреплялась отзывами заказчиков, которую Гартнер собирал отдельно. Конечно все старались дать контакты наиболее лояльных клиентов и повлиять на итоговый рейтинг, но контрольную закупку никто не отменял. Шанс получить более высокую оценку значительно возрастал после покупки пакетов услуг самого Гартнера. Будем считать все же эту модель эталонной и справедливой к рынку. И так озвучим проблематику: есть рынок отечественного BI софта, но не понятно каким рейтингам можно доверять, а в каких рейтингах слишком велика ошибка?
Читать: https://habr.com/ru/articles/766378/
Многие компании при выборе платформы встают перед вопросом, а чем лучше та или иная платформа по сравнению с другими аналогичными платформами. И в зависимости от наличия свободного времени и ресурсов, клиенты идут разными путями. Кто то запускает конкурентные пилоты между разными платформами и их партнерами, кто то определившись с выбором платформы начинает искать надежного исполнителя контракта, кто то смотрит на проект соседа и этого ему достаточно для покупки аналогичной технологии для себя. Но практически все клиенты хотят увидеть картину в целом по рынку и обращаются к разным рейтингам.
Во времена царствия на рынке РФ большой тройки аналитических платформ ( Qlik, Tableau, Power BI) всем было достаточно ежегодного мнения авторитетного Гартнера. В крайнем случае еще смотрели BARC, Aberdeen Group, G2 или IDC. Везде кстати картина довольно четко определяла лидеров отрасли и подсвечивала сильные и слабые стороны платформ. При этом попадание в Гартнер было задачей престижной, сложной и затратной. Из всех Российских платформ там был только Прогноз, который в 2017 году обанкротился. Но успел возбудить западных вендоров на написание батл карт. Если вернутся к Гартнеру, то это целая машина по изучению технологий на рынке, со своей системой оценки вендоров. Четкие критерии и веса на каждый элемент платформы, определение вектора развития технологий на несколько лет вперед, глубокий анализ рынка и конечно же магический квадрант, где каждый хочет быть в правом верхнем углу. Более того, вся эта оценка подкреплялась отзывами заказчиков, которую Гартнер собирал отдельно. Конечно все старались дать контакты наиболее лояльных клиентов и повлиять на итоговый рейтинг, но контрольную закупку никто не отменял. Шанс получить более высокую оценку значительно возрастал после покупки пакетов услуг самого Гартнера. Будем считать все же эту модель эталонной и справедливой к рынку. И так озвучим проблематику: есть рынок отечественного BI софта, но не понятно каким рейтингам можно доверять, а в каких рейтингах слишком велика ошибка?
Читать: https://habr.com/ru/articles/766378/
О точности вычислений: как не потерять данные в цифровом шуме
Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай изучил процесс потери точности вычислений и написал библиотеку, доступную на GitHub, которая помогает разработчикам контролировать точность расчётов на каждом этапе вычислений. Данная библиотека особенно актуальна в сфере машинного обучения и анализа (больших) данных, где накопление ошибок может сильно искажать результат.
Читать: https://habr.com/ru/articles/766294/
Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай изучил процесс потери точности вычислений и написал библиотеку, доступную на GitHub, которая помогает разработчикам контролировать точность расчётов на каждом этапе вычислений. Данная библиотека особенно актуальна в сфере машинного обучения и анализа (больших) данных, где накопление ошибок может сильно искажать результат.
Читать: https://habr.com/ru/articles/766294/
О точности вычислений: как не потерять данные в цифровом шуме
Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай изучил процесс потери точности вычислений и написал библиотеку, доступную на GitHub, которая помогает разработчикам контролировать точность расчётов на каждом этапе вычислений. Данная библиотека особенно актуальна в сфере машинного обучения и анализа (больших) данных, где накопление ошибок может сильно искажать результат.
Читать: https://habr.com/ru/companies/kryptonite/articles/766294/
Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай изучил процесс потери точности вычислений и написал библиотеку, доступную на GitHub, которая помогает разработчикам контролировать точность расчётов на каждом этапе вычислений. Данная библиотека особенно актуальна в сфере машинного обучения и анализа (больших) данных, где накопление ошибок может сильно искажать результат.
Читать: https://habr.com/ru/companies/kryptonite/articles/766294/
👍1
Применение нейросетевых подходов для формирования признаков в моделях
Наша команда Графовой аналитики стрима Моделирование КИБ и СМБ занимается различными исследовательскими задачами для двух основных направлений: риск- и бизнес-моделирования.
В данной статье мы расскажем о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.
Интересно? Поехали...
Читать: https://habr.com/ru/companies/vtb/articles/766478/
Наша команда Графовой аналитики стрима Моделирование КИБ и СМБ занимается различными исследовательскими задачами для двух основных направлений: риск- и бизнес-моделирования.
В данной статье мы расскажем о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.
Интересно? Поехали...
Читать: https://habr.com/ru/companies/vtb/articles/766478/