Машинное обучение в помощь диагностам и инженерам по надёжности
Данных много, а я один: трудовая рутина специалистов по диагностике и инженеров по надежности тесно связана с архивами SCADA, журналами дефектов и ремонтов, многостраничной документацией на оборудование. Однако работа с большими данными может быть эффективной и простой, если в арсенале есть современные инструменты. Сегодня мы расскажем о возможностях выявления отклонений в работе оборудования с помощью решения F5 PMM от российского разработчика Factory5, который может прийти на помощь диагностам даже с минимальным количеством имеющихся данных телеметрии.
Читать: https://habr.com/ru/post/699496/
Данных много, а я один: трудовая рутина специалистов по диагностике и инженеров по надежности тесно связана с архивами SCADA, журналами дефектов и ремонтов, многостраничной документацией на оборудование. Однако работа с большими данными может быть эффективной и простой, если в арсенале есть современные инструменты. Сегодня мы расскажем о возможностях выявления отклонений в работе оборудования с помощью решения F5 PMM от российского разработчика Factory5, который может прийти на помощь диагностам даже с минимальным количеством имеющихся данных телеметрии.
Читать: https://habr.com/ru/post/699496/
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH
Привет! На связи как всегда Артемий Козырь, Analytics Engineer в Wheely.
Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис использовать, в чем различия между разными решениями, и как не прогадать в долгосрочной перспективе я слышу гораздо более часто.
В этой публикации попробую резюмировать свои знания:
— Каталог поддерживаемых источников и приемников данных
— Метод чтения данных из источников (Extract)
— Способы репликации в целевое Хранилище (Load)
— Работа с изменениями структуры данных (Schema Evolution)
— Трансформации перед загрузкой данных (EtLT)
— Тип развертывания решения (Deployment)
Буду объянять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии униварсальны и применимы для любых других систем подбного класса.
Читать: https://habr.com/ru/post/699498/
Привет! На связи как всегда Артемий Козырь, Analytics Engineer в Wheely.
Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис использовать, в чем различия между разными решениями, и как не прогадать в долгосрочной перспективе я слышу гораздо более часто.
В этой публикации попробую резюмировать свои знания:
— Каталог поддерживаемых источников и приемников данных
— Метод чтения данных из источников (Extract)
— Способы репликации в целевое Хранилище (Load)
— Работа с изменениями структуры данных (Schema Evolution)
— Трансформации перед загрузкой данных (EtLT)
— Тип развертывания решения (Deployment)
Буду объянять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии униварсальны и применимы для любых других систем подбного класса.
Читать: https://habr.com/ru/post/699498/
👍1
Как построить прогноз спроса и не потерять голову
Всем привет! Представьте себе ситуацию: ваша уютная маленькая команда Data Science занимается прогнозированием спроса для пары десятков дарксторов с помощью какого-нибудь коробочного Prophet. И в один прекрасный день к вам приходит бизнес. Бизнес садится, закидывает ногу на ногу, закуривает сигару и говорит:
«Мы хотим максимально автоматизировать закупки. Нам нужно, чтобы вы умели строить прогноз по всем товарам, старым и новым, для всех дарксторов, старых и новых. А их будет много, их будут сотни, тысячи, миллионы. А ещё у нас будет миллион видов скидок и разные типы ценообразования, и ещё куча промо-механик и конкурсов интересных. Мы хотим, чтобы прогноз обязательно адекватно на всё это реагировал». (с) Типичный Бизнес
Хорошо, думаем мы, кажется, что это звучит нетрудно…
С этой задачи начинается моя история о прогнозе спроса в Самокате. Меня зовут Мария Суртаева, я Data Scientist и расскажу о концепции прогноза спроса, его практических задачах и роли градиентного бустинга.
Читать: https://habr.com/ru/post/698118/
Всем привет! Представьте себе ситуацию: ваша уютная маленькая команда Data Science занимается прогнозированием спроса для пары десятков дарксторов с помощью какого-нибудь коробочного Prophet. И в один прекрасный день к вам приходит бизнес. Бизнес садится, закидывает ногу на ногу, закуривает сигару и говорит:
«Мы хотим максимально автоматизировать закупки. Нам нужно, чтобы вы умели строить прогноз по всем товарам, старым и новым, для всех дарксторов, старых и новых. А их будет много, их будут сотни, тысячи, миллионы. А ещё у нас будет миллион видов скидок и разные типы ценообразования, и ещё куча промо-механик и конкурсов интересных. Мы хотим, чтобы прогноз обязательно адекватно на всё это реагировал». (с) Типичный Бизнес
Хорошо, думаем мы, кажется, что это звучит нетрудно…
С этой задачи начинается моя история о прогнозе спроса в Самокате. Меня зовут Мария Суртаева, я Data Scientist и расскажу о концепции прогноза спроса, его практических задачах и роли градиентного бустинга.
Читать: https://habr.com/ru/post/698118/
👍1
Репортаж с ViRush 2022: Презентация Visiology 3.0, BI в разных отраслях, сотни партнеров и успешная миграция с Tableau
Привет, Хабр! На прошлой неделе состоялась ежегодная конференция ViRush, и этот пост предназначен для тех, кто на ней не был, но интересуется развитием BI на базе российских платформ в целом и Visiology в частности. Для самых занятых мы подготовили краткий репортаж с мероприятия. И если вы хотите узнать, почему мигрировать с Tableau нужно именно на Visiology, как переносить экспертизу из PowerBI, за счет чего корпорации МСП удалось сделать такие красивые дашборды, а также почему участники ViRush были так увлечены происходящим, давайте под кат.
Читать: https://habr.com/ru/post/699818/
Привет, Хабр! На прошлой неделе состоялась ежегодная конференция ViRush, и этот пост предназначен для тех, кто на ней не был, но интересуется развитием BI на базе российских платформ в целом и Visiology в частности. Для самых занятых мы подготовили краткий репортаж с мероприятия. И если вы хотите узнать, почему мигрировать с Tableau нужно именно на Visiology, как переносить экспертизу из PowerBI, за счет чего корпорации МСП удалось сделать такие красивые дашборды, а также почему участники ViRush были так увлечены происходящим, давайте под кат.
Читать: https://habr.com/ru/post/699818/
«Светофор 3.0»: тонкости настройки ML для работы с поставщиками
Мы продолжаем рассказ про нашу систему «Светофор 3.0», которая позволяет прогнозировать качество прямых поставок и экономить время на приемке товара. О том, как это работает и зачем нужно компании, вы можете прочитать в нашем предыдущем посте, а сегодня мы раскрываем техническую сторону вопроса — об алгоритме ML и его развитии, о схеме передачи данных и некоторых нюансах интеграции «Светофора 3.0» со складской системой.
Читать: https://habr.com/ru/post/657875/
Мы продолжаем рассказ про нашу систему «Светофор 3.0», которая позволяет прогнозировать качество прямых поставок и экономить время на приемке товара. О том, как это работает и зачем нужно компании, вы можете прочитать в нашем предыдущем посте, а сегодня мы раскрываем техническую сторону вопроса — об алгоритме ML и его развитии, о схеме передачи данных и некоторых нюансах интеграции «Светофора 3.0» со складской системой.
Читать: https://habr.com/ru/post/657875/
👍1
Открытые данные. Как сматчить несматчиваемое или Нейросеть вам в помощь
Привет, Точка на связи! Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.
Читать: https://habr.com/ru/post/699490/
Привет, Точка на связи! Аналитик Никитин Александр и Head of ML Андрей Румянцев разобрались как с помощью машинного обучения смерджить несколько наборов данных из открытых источников и не сойти с ума. Open data, TF-IDF, faiss, pgvector, трансформеры и удивительное завершение нашего приключения — всё это под катом.
Читать: https://habr.com/ru/post/699490/
Apache Spark на Kubernetes: какие уроки можно извлечь из запуска миллионов исполнителей Spark
Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь.
Читать: https://habr.com/ru/post/698038/
Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь.
Читать: https://habr.com/ru/post/698038/
Self-checkout takes another hit
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/11/self-checkout-takes-another-hit.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/11/self-checkout-takes-another-hit.html
Подборка актуальных вакансий
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
— Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 3 лет
— Системный аналитик
Где: Москва
Опыт: от 1 года
— Middle / Senior Cистемный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Ведущий системный аналитик
Где: Москва, можно удалённо
Опыт: от 2 лет
— Аналитик DWH
Где: Москва, можно удалённо
Опыт: можно без опыта
— Младший инженер-аналитик SOC (1-ая линия)
Где: Краснодар
Опыт: от 1 года
#вакансии #работа
Data Engineering Weekly #108
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-108
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-108
ETL и ELT: ключевые различия, о которых должен знать каждый
ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.
В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать: https://habr.com/ru/post/695546/
ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.
В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать: https://habr.com/ru/post/695546/
Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.
В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:
— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM
Читать: https://habr.com/ru/post/700910/
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.
В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:
— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM
Читать: https://habr.com/ru/post/700910/
👍2
Собрать за 60 секунд: кейс автоматизации получения данных из десятков подразделений
Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня.
Читать: https://habr.com/ru/post/700900/
Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня.
Читать: https://habr.com/ru/post/700900/
ClickHouse: как обрабатывать big data в 800 раз быстрее
Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов.
Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»
Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов.
Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»
Ambrosia – Open Source-библиотека для работы с A/B-тестами
Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.
Читать: https://habr.com/ru/post/700992/
Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.
Читать: https://habr.com/ru/post/700992/
Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech
Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.
Читать: https://habr.com/ru/post/701442/
Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.
Читать: https://habr.com/ru/post/701442/
👍3
Парсинг Яндекс Карт или как найти целевую аудиторию
Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории
Читать: https://habr.com/ru/post/701478/
Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории
Читать: https://habr.com/ru/post/701478/
🔥1
Структура команды Data Science: ключевые модели и роли
Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.
Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.
В этот раз мы поговорим о структуре команд data science и их сложности.
Читать: https://habr.com/ru/post/697630/
Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.
Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.
В этот раз мы поговорим о структуре команд data science и их сложности.
Читать: https://habr.com/ru/post/697630/
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.
Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?
Читать: https://habr.com/ru/post/701794/
BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.
Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?
Читать: https://habr.com/ru/post/701794/
Data Engineering Weekly #109
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-109
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-109
👍1
Поиск инновационных приложений для работы с большими данными. Кейс Банка Даляня
Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.
Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи
Читать: https://habr.com/ru/post/702182/
Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.
Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи
Читать: https://habr.com/ru/post/702182/
👍1