Вижу цель: три решения задачи по созданию предсказательной ML-модели
Использование интеллектуальных систем в продуктах на пике популярности: алгоритмы помогают определить, какую музыку и фильмы предпочитают пользователи, куда они хотят полететь в отпуск, — и почти никогда не ошибаются.
Создание точных интеллектуальных систем — актуальная и сложная задача. Актуальная, потому что интеллектуальные системы активно используют, например, интернет-магазины, стриминговые сервисы, развлекательные площадки. Алгоритмы помогают компаниям повысить конверсию и средний чек, увеличить лояльность и уменьшить отток клиентов.
Читать: https://habr.com/ru/post/695564/
Использование интеллектуальных систем в продуктах на пике популярности: алгоритмы помогают определить, какую музыку и фильмы предпочитают пользователи, куда они хотят полететь в отпуск, — и почти никогда не ошибаются.
Создание точных интеллектуальных систем — актуальная и сложная задача. Актуальная, потому что интеллектуальные системы активно используют, например, интернет-магазины, стриминговые сервисы, развлекательные площадки. Алгоритмы помогают компаниям повысить конверсию и средний чек, увеличить лояльность и уменьшить отток клиентов.
Читать: https://habr.com/ru/post/695564/
ML | Hydra
Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим его возможности на простом примере обучения ML-модели...
Читать: https://habr.com/ru/post/696820/
Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим его возможности на простом примере обучения ML-модели...
Читать: https://habr.com/ru/post/696820/
Мониторинг в Apache NiFi. Часть вторая
Задачи отчетности (Reporting Tasks)
В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).
Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.
Читать: https://habr.com/ru/post/695926/
Задачи отчетности (Reporting Tasks)
В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).
Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как Ambari, Grafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.
Читать: https://habr.com/ru/post/695926/
Как в Tinkoff создавали Data Catalog
В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.
Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.
Читать: https://habr.com/ru/post/697220/
В чем главная задача аналитика? Думать головой и принимать решения. А правильные решения можно принять только при наличии нужных данных. Но как найти данные в большой компании? Раньше мы решали эту проблему с помощью ручного ведения документации о данных в Confluence, но с ростом объемов этот подход становился все менее эффективным. Пришло время что-то менять.
Меня зовут Дмитрий Пичугин, я занимаюсь внедрением Data Governance и Data Quality в Тинькофф. Я расскажу, как мы решали проблему поиска данных. Помогать мне в этом будет Роман Митасов. Он виновен в появлении большей части бэкенда Data Detective и расскажет про технические детали проекта.
Читать: https://habr.com/ru/post/697220/
От Single-Instance-прототипа до облачной промышленной платформы интернета вещей: как мы разрабатывали Cloud IoT Platform
В продуктовой разработке нередко случается, что из кастомного проекта для конкретной компании рождается самостоятельный продукт. Так случилось и с Cloud IoT Platform: из небольшого пилотного проекта мы создали облачную промышленную платформу интернета вещей.
Читать: https://habr.com/ru/post/697100/
В продуктовой разработке нередко случается, что из кастомного проекта для конкретной компании рождается самостоятельный продукт. Так случилось и с Cloud IoT Platform: из небольшого пилотного проекта мы создали облачную промышленную платформу интернета вещей.
Читать: https://habr.com/ru/post/697100/
Как математика помогает логистике быть точнее. Опыт ПГК
Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Расскажем, как ПГК использует математический подход в бизнесе.
Читать: https://habr.com/ru/post/697278/
Цифровые алгоритмы помогают решать реальные бизнес-задачи в самых разных сферах. Логистика — не исключение. Главные инструменты логиста — вовсе не карта, линейка и калькулятор, а сложные IT-системы, которые основаны на математическом моделировании и алгоритмах искусственного интеллекта. Эксперты в этой области ориентируются в цифровых продуктах, умеют их использовать и извлекать выгоду для компании. Почему? Потому что основная задача логиста – экономия. Он критически оценивает существующие процессы и предлагает способы их оптимизации. Расскажем, как ПГК использует математический подход в бизнесе.
Читать: https://habr.com/ru/post/697278/
Совсем другая история: как мы проводим A/B-тесты в офлайне и чем они отличаются от классических онлайн-экспериментов
Всем привет! Меня зовут Костя Гусев @nevoy, и в М.Видео-Эльдорадо моя команда развивает внутренние и партнёрские продукты. Перед тем, как поменять ассортимент или цены на полках 1 300 розничных магазинов, мы должны убедиться, что новое товарное предложение, как минимум, не приведёт к оттоку текущих покупателей, а еще лучше – привлечет новых. Для проведения подобных экспериментов мы пересмотрели подход к A/B-тестированию с учетом нашей офлайн-специфики, о чем и хотим рассказать в этой статье.
Читать: https://habr.com/ru/post/697282/
Всем привет! Меня зовут Костя Гусев @nevoy, и в М.Видео-Эльдорадо моя команда развивает внутренние и партнёрские продукты. Перед тем, как поменять ассортимент или цены на полках 1 300 розничных магазинов, мы должны убедиться, что новое товарное предложение, как минимум, не приведёт к оттоку текущих покупателей, а еще лучше – привлечет новых. Для проведения подобных экспериментов мы пересмотрели подход к A/B-тестированию с учетом нашей офлайн-специфики, о чем и хотим рассказать в этой статье.
Читать: https://habr.com/ru/post/697282/
Other numbers from the colonoscopy trial
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/11/other-numbers-from-the-colonoscopy-trial.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/11/other-numbers-from-the-colonoscopy-trial.html
Data Engineering Weekly #106
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-106
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-106
Подборка актуальных вакансий
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior System Analyst
Где: Москва, можно удалённо
Опыт: от 1 года
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Аналитик в Центр Компетенций R&D
Где: Москва
Опыт: от 3 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
👍2
10 критериев выбора BI-платформы для миграции по версии ex-Accenture
Недавно мы обнаружили в сети новое исследование российского рынка BI. На этот раз его проводили не исконно российские коллеги — то есть не BI Consult, а компания Axenix — бывшее подразделение Accenture в России. В этом посте мы разбираемся, какие требования к BI-платформам предъявляют специалисты, внедрявшие до этого исключительно зарубежные продукты, а также думаем о том, насколько соответствует им Visiology сегодня.
Узнать, каким должен быть российский BI...
Читать: https://habr.com/ru/post/661789/
Недавно мы обнаружили в сети новое исследование российского рынка BI. На этот раз его проводили не исконно российские коллеги — то есть не BI Consult, а компания Axenix — бывшее подразделение Accenture в России. В этом посте мы разбираемся, какие требования к BI-платформам предъявляют специалисты, внедрявшие до этого исключительно зарубежные продукты, а также думаем о том, насколько соответствует им Visiology сегодня.
Узнать, каким должен быть российский BI...
Читать: https://habr.com/ru/post/661789/
Рейтинги как способ прогнозирования в условиях кризисной ситуации
Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье я хочу рассказать об одном из интересных кейсов из нашей практики.
Рейтинги. Слово знакомое многим, потому что практически каждый сталкивается с различными списками ежедневно. Почему они так популярны? Ответ простой: упрощают выбор. Этот выбор может быть связан с бытовыми задачами (какому бренду сыров отдать предпочтение?), с рабочими (какого поставщика выбрать?) или с личными (куда мне поехать в отпуск?). И для того, чтобы упростить этот процесс, и существуют рейтинги.
И, конечно же, выборы могут быть связаны с бизнес-задачами. И в данном случае рейтинги могут помочь определиться с более глобальными решениями и сделать рациональный выбор. Такой формат может быть удобен и когда Вы рассматриваете 2 альтернативы, и, когда их значительно больше. Главное в этом вопросе – это правильно подобрать критерии, создать единую шкалу и определиться с весом каждого фактора. Чтобы показать, насколько рейтинги необходимы в процессе принятия решений, предлагаем Вам рассмотреть следующий кейс.
Читать: https://habr.com/ru/post/698012/
Привет, Хабр! Я работаю аналитиком в компании “Центр пространственных исследований” и в этой статье я хочу рассказать об одном из интересных кейсов из нашей практики.
Рейтинги. Слово знакомое многим, потому что практически каждый сталкивается с различными списками ежедневно. Почему они так популярны? Ответ простой: упрощают выбор. Этот выбор может быть связан с бытовыми задачами (какому бренду сыров отдать предпочтение?), с рабочими (какого поставщика выбрать?) или с личными (куда мне поехать в отпуск?). И для того, чтобы упростить этот процесс, и существуют рейтинги.
И, конечно же, выборы могут быть связаны с бизнес-задачами. И в данном случае рейтинги могут помочь определиться с более глобальными решениями и сделать рациональный выбор. Такой формат может быть удобен и когда Вы рассматриваете 2 альтернативы, и, когда их значительно больше. Главное в этом вопросе – это правильно подобрать критерии, создать единую шкалу и определиться с весом каждого фактора. Чтобы показать, насколько рейтинги необходимы в процессе принятия решений, предлагаем Вам рассмотреть следующий кейс.
Читать: https://habr.com/ru/post/698012/
Большой объём данных для машинного обучения — не панацея
Модели глубокого обучения обладают потрясающим свойством — они становятся лучше с увеличением объёма данных, и кажется, что этот процесс практически неограничен. Чтобы получить качественно работающую модель, недостаточно больших объёмов данных, нужны ещё и точные аннотации. Хотя большие объёмы данных помогают модели решать проблему несогласованности данных в разных аннотациях, люди всё равно могут совершать повторные ошибки, укореняющиеся в модели.
Например, когда человеку нужно нарисовать вокруг объекта прямоугольник, он обычно стремится, чтобы объект точно попал в этот прямоугольник, то есть склонен ошибаться в сторону увеличения прямоугольника. Использование такой модели для избегания столкновений приведёт к ложноположительным результатам, из-за чего беспилотный транспорт будет останавливаться без причины.
Превышение размера ограничивающих прямоугольников — пример систематической ошибки, а бывают ещё и случайные. Случайные и систематические ошибки влияют на обученную модель по-разному.
Читать: https://habr.com/ru/post/695548/
Модели глубокого обучения обладают потрясающим свойством — они становятся лучше с увеличением объёма данных, и кажется, что этот процесс практически неограничен. Чтобы получить качественно работающую модель, недостаточно больших объёмов данных, нужны ещё и точные аннотации. Хотя большие объёмы данных помогают модели решать проблему несогласованности данных в разных аннотациях, люди всё равно могут совершать повторные ошибки, укореняющиеся в модели.
Например, когда человеку нужно нарисовать вокруг объекта прямоугольник, он обычно стремится, чтобы объект точно попал в этот прямоугольник, то есть склонен ошибаться в сторону увеличения прямоугольника. Использование такой модели для избегания столкновений приведёт к ложноположительным результатам, из-за чего беспилотный транспорт будет останавливаться без причины.
Превышение размера ограничивающих прямоугольников — пример систематической ошибки, а бывают ещё и случайные. Случайные и систематические ошибки влияют на обученную модель по-разному.
Читать: https://habr.com/ru/post/695548/
Entity resolution: как обстоят дела и какие open-source инструменты доступны
Всем привет!
Мы хотим рассказать немного об entity resolution как об академической дисциплине, о доступных инструментах для решения этой задачи, и о нашем опыте с одним из инструментов.
Читать: https://habr.com/ru/post/698268/
Всем привет!
Мы хотим рассказать немного об entity resolution как об академической дисциплине, о доступных инструментах для решения этой задачи, и о нашем опыте с одним из инструментов.
Читать: https://habr.com/ru/post/698268/
Мой личный опыт восстановления старых фотографий с помощью нейросетей
Мой скромный опыт запуска нейросетей на ноутбуке для восстановления старых фотографий
Читать: https://habr.com/ru/post/695962/
Мой скромный опыт запуска нейросетей на ноутбуке для восстановления старых фотографий
Читать: https://habr.com/ru/post/695962/
👍1
Подключаемся: самое интересное на сегодняшнем ViRush
Сегодня в полдень начинается наша ежегодная конференция ViRush. В этот раз мы столкнулись с полным аншлагом оффлайн-регистраций даже при достаточной вместительности площадки. И это не удивительно, ведь мы будем говорить о кейсах миграции с известных платформ, о реальном опыте внедрения BI d в различные инфраструктуры. К счастью, для тех кто интеерсуется BI, на онлайн-трансляции место найдется всегда! В этом посте — немного подробнее о самых интересных докладах с ViRush, которые можно послушать за чашечкой кофе с печеньем, а также ссылка на трансляцию.
Читать: https://habr.com/ru/post/698484/
Сегодня в полдень начинается наша ежегодная конференция ViRush. В этот раз мы столкнулись с полным аншлагом оффлайн-регистраций даже при достаточной вместительности площадки. И это не удивительно, ведь мы будем говорить о кейсах миграции с известных платформ, о реальном опыте внедрения BI d в различные инфраструктуры. К счастью, для тех кто интеерсуется BI, на онлайн-трансляции место найдется всегда! В этом посте — немного подробнее о самых интересных докладах с ViRush, которые можно послушать за чашечкой кофе с печеньем, а также ссылка на трансляцию.
Читать: https://habr.com/ru/post/698484/
Анализ геоданных: как мы запустили game-changer инструмент для бизнеса
Привет, Хабр! Меня зовут Алексей Алексеев, я руковожу геоаналитическими сервисами в Platforma. И сегодня я хочу рассказать вам, как мы разрабатываем и внедряем инструмент аналитики для бизнеса, с помощью которого предприниматель способен за полчаса выбрать идеальную точку для открытия бизнеса в конкретном городе.
Читать: https://habr.com/ru/post/698326/
Привет, Хабр! Меня зовут Алексей Алексеев, я руковожу геоаналитическими сервисами в Platforma. И сегодня я хочу рассказать вам, как мы разрабатываем и внедряем инструмент аналитики для бизнеса, с помощью которого предприниматель способен за полчаса выбрать идеальную точку для открытия бизнеса в конкретном городе.
Читать: https://habr.com/ru/post/698326/
Мониторинг в NiFi. Часть третья. Задачи отчетности Site-to-Site
В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.
Читать: https://habr.com/ru/post/698288/
В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.
Читать: https://habr.com/ru/post/698288/
Voila: из ноутбука в веб-приложение
Voilà это библиотека, которая позволяет превращать Jupyter Notebook’и в интерактивные веб-приложения и дашборды. С ее помщью вы сможете продемонстировать свою работу третьим лицам или создать целый веб-сервис. В этой статье рассмотрим основные ее возможности...
Читать: https://habr.com/ru/post/698662/
Voilà это библиотека, которая позволяет превращать Jupyter Notebook’и в интерактивные веб-приложения и дашборды. С ее помщью вы сможете продемонстировать свою работу третьим лицам или создать целый веб-сервис. В этой статье рассмотрим основные ее возможности...
Читать: https://habr.com/ru/post/698662/
👍1
Интеллектуально гастрономическая аналитика или как испечь тыквенный пирог с аналитической системой
Привет Хабр! Меня зовут Алексей. Вот уже несколько лет работаю аналитиком компании «Мегапьютер». Создаю проекты, анализирую огромные пласты информации, обрабатываю отзывы о продукте, компании, с внешних источников, автоматизирую поиск и обработку данных по заданным критериям внутри компании, повышаю качество клиентского обслуживания за счет автоматизации анализа текстовых данных, мониторю качество обслуживания клиентов банка, делаю аналитику данных для ритейла, а это и автоматизация управления поставками, запасами, мониторинг работы кассиров, прогнозирование товарооборота. В общем работы очень много и я устаю и готовить совсем некогда, но я нашел решение проблемы…. А что, если приятное соединить с полезным и провел аналитику по рецептам простых блюд…ну для холостяков 😊 с помощью с моей рабочей системы PolyAnalyst.
Данные я взял с сайта с рецептами eda.ru воспользовавшись внутренним парсером сайтов.
Извлечение происходило по разделам, было получено следующее количество рецептов:
Читать: https://habr.com/ru/post/698840/
Привет Хабр! Меня зовут Алексей. Вот уже несколько лет работаю аналитиком компании «Мегапьютер». Создаю проекты, анализирую огромные пласты информации, обрабатываю отзывы о продукте, компании, с внешних источников, автоматизирую поиск и обработку данных по заданным критериям внутри компании, повышаю качество клиентского обслуживания за счет автоматизации анализа текстовых данных, мониторю качество обслуживания клиентов банка, делаю аналитику данных для ритейла, а это и автоматизация управления поставками, запасами, мониторинг работы кассиров, прогнозирование товарооборота. В общем работы очень много и я устаю и готовить совсем некогда, но я нашел решение проблемы…. А что, если приятное соединить с полезным и провел аналитику по рецептам простых блюд…ну для холостяков 😊 с помощью с моей рабочей системы PolyAnalyst.
Данные я взял с сайта с рецептами eda.ru воспользовавшись внутренним парсером сайтов.
Извлечение происходило по разделам, было получено следующее количество рецептов:
Читать: https://habr.com/ru/post/698840/
Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию
Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером.
Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться.
Читать: https://habr.com/ru/post/698758/
Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером.
Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться.
Читать: https://habr.com/ru/post/698758/