10 критериев выбора BI-платформы для миграции по версии ex-Accenture
Недавно мы обнаружили в сети новое исследование российского рынка BI. На этот раз его проводили не исконно российские коллеги — то есть не BI Consult, а компания Axenix — бывшее подразделение Accenture в России. В этом посте мы разбираемся, какие требования к BI-платформам предъявляют специалисты, внедрявшие до этого исключительно зарубежные продукты, а также думаем о том, насколько соответствует им Visiology сегодня.
Узнать, каким должен быть российский BI...
Читать: https://habr.com/ru/post/661789/
Недавно мы обнаружили в сети новое исследование российского рынка BI. На этот раз его проводили не исконно российские коллеги — то есть не BI Consult, а компания Axenix — бывшее подразделение Accenture в России. В этом посте мы разбираемся, какие требования к BI-платформам предъявляют специалисты, внедрявшие до этого исключительно зарубежные продукты, а также думаем о том, насколько соответствует им Visiology сегодня.
Узнать, каким должен быть российский BI...
Читать: https://habr.com/ru/post/661789/
Рейтинги как способ прогнозирования в условиях кризисной ситуации
Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье я хочу рассказать об одном из интересных кейсов из нашей практики.
Рейтинги. Слово знакомое многим, потому что практически каждый сталкивается с различными списками ежедневно. Почему они так популярны? Ответ простой: упрощают выбор. Этот выбор может быть связан с бытовыми задачами (какому бренду сыров отдать предпочтение?), с рабочими (какого поставщика выбрать?) или с личными (куда мне поехать в отпуск?). И для того, чтобы упростить этот процесс, и существуют рейтинги.
И, конечно же, выборы могут быть связаны с бизнес-задачами. И в данном случае рейтинги могут помочь определиться с более глобальными решениями и сделать рациональный выбор. Такой формат может быть удобен и когда Вы рассматриваете 2 альтернативы, и, когда их значительно больше. Главное в этом вопросе – это правильно подобрать критерии, создать единую шкалу и определиться с весом каждого фактора. Чтобы показать, насколько рейтинги необходимы в процессе принятия решений, предлагаем Вам рассмотреть следующий кейс.
Читать: https://habr.com/ru/post/698012/
Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье я хочу рассказать об одном из интересных кейсов из нашей практики.
Рейтинги. Слово знакомое многим, потому что практически каждый сталкивается с различными списками ежедневно. Почему они так популярны? Ответ простой: упрощают выбор. Этот выбор может быть связан с бытовыми задачами (какому бренду сыров отдать предпочтение?), с рабочими (какого поставщика выбрать?) или с личными (куда мне поехать в отпуск?). И для того, чтобы упростить этот процесс, и существуют рейтинги.
И, конечно же, выборы могут быть связаны с бизнес-задачами. И в данном случае рейтинги могут помочь определиться с более глобальными решениями и сделать рациональный выбор. Такой формат может быть удобен и когда Вы рассматриваете 2 альтернативы, и, когда их значительно больше. Главное в этом вопросе – это правильно подобрать критерии, создать единую шкалу и определиться с весом каждого фактора. Чтобы показать, насколько рейтинги необходимы в процессе принятия решений, предлагаем Вам рассмотреть следующий кейс.
Читать: https://habr.com/ru/post/698012/
Большой объём данных для машинного обучения — не панацея
Модели глубокого обучения обладают потрясающим свойством — они становятся лучше с увеличением объёма данных, и кажется, что этот процесс практически неограничен. Чтобы получить качественно работающую модель, недостаточно больших объёмов данных, нужны ещё и точные аннотации. Хотя большие объёмы данных помогают модели решать проблему несогласованности данных в разных аннотациях, люди всё равно могут совершать повторные ошибки, укореняющиеся в модели.
Например, когда человеку нужно нарисовать вокруг объекта прямоугольник, он обычно стремится, чтобы объект точно попал в этот прямоугольник, то есть склонен ошибаться в сторону увеличения прямоугольника. Использование такой модели для избегания столкновений приведёт к ложноположительным результатам, из-за чего беспилотный транспорт будет останавливаться без причины.
Превышение размера ограничивающих прямоугольников — пример систематической ошибки, а бывают ещё и случайные. Случайные и систематические ошибки влияют на обученную модель по-разному.
Читать: https://habr.com/ru/post/695548/
Модели глубокого обучения обладают потрясающим свойством — они становятся лучше с увеличением объёма данных, и кажется, что этот процесс практически неограничен. Чтобы получить качественно работающую модель, недостаточно больших объёмов данных, нужны ещё и точные аннотации. Хотя большие объёмы данных помогают модели решать проблему несогласованности данных в разных аннотациях, люди всё равно могут совершать повторные ошибки, укореняющиеся в модели.
Например, когда человеку нужно нарисовать вокруг объекта прямоугольник, он обычно стремится, чтобы объект точно попал в этот прямоугольник, то есть склонен ошибаться в сторону увеличения прямоугольника. Использование такой модели для избегания столкновений приведёт к ложноположительным результатам, из-за чего беспилотный транспорт будет останавливаться без причины.
Превышение размера ограничивающих прямоугольников — пример систематической ошибки, а бывают ещё и случайные. Случайные и систематические ошибки влияют на обученную модель по-разному.
Читать: https://habr.com/ru/post/695548/
Entity resolution: как обстоят дела и какие open-source инструменты доступны
Всем привет!
Мы хотим рассказать немного об entity resolution как об академической дисциплине, о доступных инструментах для решения этой задачи, и о нашем опыте с одним из инструментов.
Читать: https://habr.com/ru/post/698268/
Всем привет!
Мы хотим рассказать немного об entity resolution как об академической дисциплине, о доступных инструментах для решения этой задачи, и о нашем опыте с одним из инструментов.
Читать: https://habr.com/ru/post/698268/
Мой личный опыт восстановления старых фотографий с помощью нейросетей
Мой скромный опыт запуска нейросетей на ноутбуке для восстановления старых фотографий
Читать: https://habr.com/ru/post/695962/
Мой скромный опыт запуска нейросетей на ноутбуке для восстановления старых фотографий
Читать: https://habr.com/ru/post/695962/
👍1
Подключаемся: самое интересное на сегодняшнем ViRush
Сегодня в полдень начинается наша ежегодная конференция ViRush. В этот раз мы столкнулись с полным аншлагом оффлайн-регистраций даже при достаточной вместительности площадки. И это не удивительно, ведь мы будем говорить о кейсах миграции с известных платформ, о реальном опыте внедрения BI d в различные инфраструктуры. К счастью, для тех кто интеерсуется BI, на онлайн-трансляции место найдется всегда! В этом посте — немного подробнее о самых интересных докладах с ViRush, которые можно послушать за чашечкой кофе с печеньем, а также ссылка на трансляцию.
Читать: https://habr.com/ru/post/698484/
Сегодня в полдень начинается наша ежегодная конференция ViRush. В этот раз мы столкнулись с полным аншлагом оффлайн-регистраций даже при достаточной вместительности площадки. И это не удивительно, ведь мы будем говорить о кейсах миграции с известных платформ, о реальном опыте внедрения BI d в различные инфраструктуры. К счастью, для тех кто интеерсуется BI, на онлайн-трансляции место найдется всегда! В этом посте — немного подробнее о самых интересных докладах с ViRush, которые можно послушать за чашечкой кофе с печеньем, а также ссылка на трансляцию.
Читать: https://habr.com/ru/post/698484/
Анализ геоданных: как мы запустили game-changer инструмент для бизнеса
Привет, Хабр! Меня зовут Алексей Алексеев, я руковожу геоаналитическими сервисами в Platforma. И сегодня я хочу рассказать вам, как мы разрабатываем и внедряем инструмент аналитики для бизнеса, с помощью которого предприниматель способен за полчаса выбрать идеальную точку для открытия бизнеса в конкретном городе.
Читать: https://habr.com/ru/post/698326/
Привет, Хабр! Меня зовут Алексей Алексеев, я руковожу геоаналитическими сервисами в Platforma. И сегодня я хочу рассказать вам, как мы разрабатываем и внедряем инструмент аналитики для бизнеса, с помощью которого предприниматель способен за полчаса выбрать идеальную точку для открытия бизнеса в конкретном городе.
Читать: https://habr.com/ru/post/698326/
Мониторинг в NiFi. Часть третья. Задачи отчетности Site-to-Site
В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.
Читать: https://habr.com/ru/post/698288/
В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.
Читать: https://habr.com/ru/post/698288/
Voila: из ноутбука в веб-приложение
Voilà это библиотека, которая позволяет превращать Jupyter Notebook’и в интерактивные веб-приложения и дашборды. С ее помщью вы сможете продемонстировать свою работу третьим лицам или создать целый веб-сервис. В этой статье рассмотрим основные ее возможности...
Читать: https://habr.com/ru/post/698662/
Voilà это библиотека, которая позволяет превращать Jupyter Notebook’и в интерактивные веб-приложения и дашборды. С ее помщью вы сможете продемонстировать свою работу третьим лицам или создать целый веб-сервис. В этой статье рассмотрим основные ее возможности...
Читать: https://habr.com/ru/post/698662/
👍1
Интеллектуально гастрономическая аналитика или как испечь тыквенный пирог с аналитической системой
Привет Хабр! Меня зовут Алексей. Вот уже несколько лет работаю аналитиком компании «Мегапьютер». Создаю проекты, анализирую огромные пласты информации, обрабатываю отзывы о продукте, компании, с внешних источников, автоматизирую поиск и обработку данных по заданным критериям внутри компании, повышаю качество клиентского обслуживания за счет автоматизации анализа текстовых данных, мониторю качество обслуживания клиентов банка, делаю аналитику данных для ритейла, а это и автоматизация управления поставками, запасами, мониторинг работы кассиров, прогнозирование товарооборота. В общем работы очень много и я устаю и готовить совсем некогда, но я нашел решение проблемы…. А что, если приятное соединить с полезным и провел аналитику по рецептам простых блюд…ну для холостяков 😊 с помощью с моей рабочей системы PolyAnalyst.
Данные я взял с сайта с рецептами eda.ru воспользовавшись внутренним парсером сайтов.
Извлечение происходило по разделам, было получено следующее количество рецептов:
Читать: https://habr.com/ru/post/698840/
Привет Хабр! Меня зовут Алексей. Вот уже несколько лет работаю аналитиком компании «Мегапьютер». Создаю проекты, анализирую огромные пласты информации, обрабатываю отзывы о продукте, компании, с внешних источников, автоматизирую поиск и обработку данных по заданным критериям внутри компании, повышаю качество клиентского обслуживания за счет автоматизации анализа текстовых данных, мониторю качество обслуживания клиентов банка, делаю аналитику данных для ритейла, а это и автоматизация управления поставками, запасами, мониторинг работы кассиров, прогнозирование товарооборота. В общем работы очень много и я устаю и готовить совсем некогда, но я нашел решение проблемы…. А что, если приятное соединить с полезным и провел аналитику по рецептам простых блюд…ну для холостяков 😊 с помощью с моей рабочей системы PolyAnalyst.
Данные я взял с сайта с рецептами eda.ru воспользовавшись внутренним парсером сайтов.
Извлечение происходило по разделам, было получено следующее количество рецептов:
Читать: https://habr.com/ru/post/698840/
Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию
Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером.
Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться.
Читать: https://habr.com/ru/post/698758/
Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером.
Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться.
Читать: https://habr.com/ru/post/698758/
An Open Letter to Data Ninjas - Yes, You Need To Implement Data Contract System
Read: https://www.dataengineeringweekly.com/p/an-open-letter-to-data-ninjas-yes
Read: https://www.dataengineeringweekly.com/p/an-open-letter-to-data-ninjas-yes
Data Engineering Weekly #107
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-107
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-107
Управление качеством данных: роли, процессы, инструменты
Данные — это кровь любой организации и основа её коммерческого успеха. Вероятно, вы слышали подобные лозунги от лекторов на конференциях или в онлайн-заголовках. Но так оно и есть: вам нужно полагаться на точную информацию, чтобы выполнить задачу или создать сервис, будь то планирование оптимального маршрута для доставки суши разным заказчикам или отправка персонализированных новостных рассылок. В первом случае необходимы точные подробности заказа. Во втором случае нужно сегментировать клиентов на основании их активности и интересов. Для этого необходимо собрать и проанализировать соответствующие данные, а для этого потребуются время и усилия.
Читать: https://habr.com/ru/post/694690/
Данные — это кровь любой организации и основа её коммерческого успеха. Вероятно, вы слышали подобные лозунги от лекторов на конференциях или в онлайн-заголовках. Но так оно и есть: вам нужно полагаться на точную информацию, чтобы выполнить задачу или создать сервис, будь то планирование оптимального маршрута для доставки суши разным заказчикам или отправка персонализированных новостных рассылок. В первом случае необходимы точные подробности заказа. Во втором случае нужно сегментировать клиентов на основании их активности и интересов. Для этого необходимо собрать и проанализировать соответствующие данные, а для этого потребуются время и усилия.
Читать: https://habr.com/ru/post/694690/
Apache NiFi & Jolt Transform
Продолжаем изучать Jolt Transform JSON в Apache NiFi.
Читать: https://habr.com/ru/post/699222/
Продолжаем изучать Jolt Transform JSON в Apache NiFi.
Читать: https://habr.com/ru/post/699222/
Обзор-позор CNEWS: Рейтинг BI 2022
Привет, Хабр! В этом посте я хочу поделиться своими мыслями о вышедшем в конце прошлой недели рейтинге BI от “уважаемого” издания CNEWS. Это удивительное творение журналистской и аналитической мысли подтолкнуло меня к тому, что, наверное, не стоит читать “самый посещаемый ИТ-портал в России”. Под катом — подробный разбор, почему обзор BI от CNEWS кажется мне настолько нелепым и даже глупым.
Что же там такого наваяли в CNEWS?
Читать: https://habr.com/ru/post/699464/
Привет, Хабр! В этом посте я хочу поделиться своими мыслями о вышедшем в конце прошлой недели рейтинге BI от “уважаемого” издания CNEWS. Это удивительное творение журналистской и аналитической мысли подтолкнуло меня к тому, что, наверное, не стоит читать “самый посещаемый ИТ-портал в России”. Под катом — подробный разбор, почему обзор BI от CNEWS кажется мне настолько нелепым и даже глупым.
Что же там такого наваяли в CNEWS?
Читать: https://habr.com/ru/post/699464/
Машинное обучение в помощь диагностам и инженерам по надёжности
Данных много, а я один: трудовая рутина специалистов по диагностике и инженеров по надежности тесно связана с архивами SCADA, журналами дефектов и ремонтов, многостраничной документацией на оборудование. Однако работа с большими данными может быть эффективной и простой, если в арсенале есть современные инструменты. Сегодня мы расскажем о возможностях выявления отклонений в работе оборудования с помощью решения F5 PMM от российского разработчика Factory5, который может прийти на помощь диагностам даже с минимальным количеством имеющихся данных телеметрии.
Читать: https://habr.com/ru/post/699496/
Данных много, а я один: трудовая рутина специалистов по диагностике и инженеров по надежности тесно связана с архивами SCADA, журналами дефектов и ремонтов, многостраничной документацией на оборудование. Однако работа с большими данными может быть эффективной и простой, если в арсенале есть современные инструменты. Сегодня мы расскажем о возможностях выявления отклонений в работе оборудования с помощью решения F5 PMM от российского разработчика Factory5, который может прийти на помощь диагностам даже с минимальным количеством имеющихся данных телеметрии.
Читать: https://habr.com/ru/post/699496/
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH
Привет! На связи как всегда Артемий Козырь, Analytics Engineer в Wheely.
Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис использовать, в чем различия между разными решениями, и как не прогадать в долгосрочной перспективе я слышу гораздо более часто.
В этой публикации попробую резюмировать свои знания:
— Каталог поддерживаемых источников и приемников данных
— Метод чтения данных из источников (Extract)
— Способы репликации в целевое Хранилище (Load)
— Работа с изменениями структуры данных (Schema Evolution)
— Трансформации перед загрузкой данных (EtLT)
— Тип развертывания решения (Deployment)
Буду объянять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии униварсальны и применимы для любых других систем подбного класса.
Читать: https://habr.com/ru/post/699498/
Привет! На связи как всегда Артемий Козырь, Analytics Engineer в Wheely.
Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис использовать, в чем различия между разными решениями, и как не прогадать в долгосрочной перспективе я слышу гораздо более часто.
В этой публикации попробую резюмировать свои знания:
— Каталог поддерживаемых источников и приемников данных
— Метод чтения данных из источников (Extract)
— Способы репликации в целевое Хранилище (Load)
— Работа с изменениями структуры данных (Schema Evolution)
— Трансформации перед загрузкой данных (EtLT)
— Тип развертывания решения (Deployment)
Буду объянять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии униварсальны и применимы для любых других систем подбного класса.
Читать: https://habr.com/ru/post/699498/
👍1
Как построить прогноз спроса и не потерять голову
Всем привет! Представьте себе ситуацию: ваша уютная маленькая команда Data Science занимается прогнозированием спроса для пары десятков дарксторов с помощью какого-нибудь коробочного Prophet. И в один прекрасный день к вам приходит бизнес. Бизнес садится, закидывает ногу на ногу, закуривает сигару и говорит:
«Мы хотим максимально автоматизировать закупки. Нам нужно, чтобы вы умели строить прогноз по всем товарам, старым и новым, для всех дарксторов, старых и новых. А их будет много, их будут сотни, тысячи, миллионы. А ещё у нас будет миллион видов скидок и разные типы ценообразования, и ещё куча промо-механик и конкурсов интересных. Мы хотим, чтобы прогноз обязательно адекватно на всё это реагировал». (с) Типичный Бизнес
Хорошо, думаем мы, кажется, что это звучит нетрудно…
С этой задачи начинается моя история о прогнозе спроса в Самокате. Меня зовут Мария Суртаева, я Data Scientist и расскажу о концепции прогноза спроса, его практических задачах и роли градиентного бустинга.
Читать: https://habr.com/ru/post/698118/
Всем привет! Представьте себе ситуацию: ваша уютная маленькая команда Data Science занимается прогнозированием спроса для пары десятков дарксторов с помощью какого-нибудь коробочного Prophet. И в один прекрасный день к вам приходит бизнес. Бизнес садится, закидывает ногу на ногу, закуривает сигару и говорит:
«Мы хотим максимально автоматизировать закупки. Нам нужно, чтобы вы умели строить прогноз по всем товарам, старым и новым, для всех дарксторов, старых и новых. А их будет много, их будут сотни, тысячи, миллионы. А ещё у нас будет миллион видов скидок и разные типы ценообразования, и ещё куча промо-механик и конкурсов интересных. Мы хотим, чтобы прогноз обязательно адекватно на всё это реагировал». (с) Типичный Бизнес
Хорошо, думаем мы, кажется, что это звучит нетрудно…
С этой задачи начинается моя история о прогнозе спроса в Самокате. Меня зовут Мария Суртаева, я Data Scientist и расскажу о концепции прогноза спроса, его практических задачах и роли градиентного бустинга.
Читать: https://habr.com/ru/post/698118/
👍1
Репортаж с ViRush 2022: Презентация Visiology 3.0, BI в разных отраслях, сотни партнеров и успешная миграция с Tableau
Привет, Хабр! На прошлой неделе состоялась ежегодная конференция ViRush, и этот пост предназначен для тех, кто на ней не был, но интересуется развитием BI на базе российских платформ в целом и Visiology в частности. Для самых занятых мы подготовили краткий репортаж с мероприятия. И если вы хотите узнать, почему мигрировать с Tableau нужно именно на Visiology, как переносить экспертизу из PowerBI, за счет чего корпорации МСП удалось сделать такие красивые дашборды, а также почему участники ViRush были так увлечены происходящим, давайте под кат.
Читать: https://habr.com/ru/post/699818/
Привет, Хабр! На прошлой неделе состоялась ежегодная конференция ViRush, и этот пост предназначен для тех, кто на ней не был, но интересуется развитием BI на базе российских платформ в целом и Visiology в частности. Для самых занятых мы подготовили краткий репортаж с мероприятия. И если вы хотите узнать, почему мигрировать с Tableau нужно именно на Visiology, как переносить экспертизу из PowerBI, за счет чего корпорации МСП удалось сделать такие красивые дашборды, а также почему участники ViRush были так увлечены происходящим, давайте под кат.
Читать: https://habr.com/ru/post/699818/
«Светофор 3.0»: тонкости настройки ML для работы с поставщиками
Мы продолжаем рассказ про нашу систему «Светофор 3.0», которая позволяет прогнозировать качество прямых поставок и экономить время на приемке товара. О том, как это работает и зачем нужно компании, вы можете прочитать в нашем предыдущем посте, а сегодня мы раскрываем техническую сторону вопроса — об алгоритме ML и его развитии, о схеме передачи данных и некоторых нюансах интеграции «Светофора 3.0» со складской системой.
Читать: https://habr.com/ru/post/657875/
Мы продолжаем рассказ про нашу систему «Светофор 3.0», которая позволяет прогнозировать качество прямых поставок и экономить время на приемке товара. О том, как это работает и зачем нужно компании, вы можете прочитать в нашем предыдущем посте, а сегодня мы раскрываем техническую сторону вопроса — об алгоритме ML и его развитии, о схеме передачи данных и некоторых нюансах интеграции «Светофора 3.0» со складской системой.
Читать: https://habr.com/ru/post/657875/
👍1