Data Fusion Contest 2023. Для опыта и не только… Соревнование от ВТБ с призовым фондом в 2 млн рублей
Я, как новичок, наблюдаю за всем происходящим вокруг, и замечаю, что тренд на IT-специальности огромный. Множество курсов заманивают обещаниями о работе с высокой зарплатой, но спустя полгода после окончания курсов вы понимаете, что на "рынке" полно таких же как вы без опыта, а всем нужны профессионалы. Знакомо?
Я вынужден был изменить свой путь к работе мечты, и я выбрал участие в соревнованиях, чемпионатах и хакатонах, которые приносят не только опыт и знакомства, но и денежные призы и другие бонусы.
В настоящее время проходят два соревнования по машинному обучению с крупным призовым фондом, однако на одном из них такая высокая конкуренция, что для достижения чего-либо нужно тратить на это 24 часа в сутки. Второе же соревнование, Data Fusion Contest 2023, не получило достаточного внимания, хотя формат соревнования непривычный. Это турнир по Adversarial ML между командами атакующих и защищающих ML-моделей на транзакционных данных и содержит две задачи:
🗡 В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций.
Читать: https://habr.com/ru/post/721174/
Я, как новичок, наблюдаю за всем происходящим вокруг, и замечаю, что тренд на IT-специальности огромный. Множество курсов заманивают обещаниями о работе с высокой зарплатой, но спустя полгода после окончания курсов вы понимаете, что на "рынке" полно таких же как вы без опыта, а всем нужны профессионалы. Знакомо?
Я вынужден был изменить свой путь к работе мечты, и я выбрал участие в соревнованиях, чемпионатах и хакатонах, которые приносят не только опыт и знакомства, но и денежные призы и другие бонусы.
В настоящее время проходят два соревнования по машинному обучению с крупным призовым фондом, однако на одном из них такая высокая конкуренция, что для достижения чего-либо нужно тратить на это 24 часа в сутки. Второе же соревнование, Data Fusion Contest 2023, не получило достаточного внимания, хотя формат соревнования непривычный. Это турнир по Adversarial ML между командами атакующих и защищающих ML-моделей на транзакционных данных и содержит две задачи:
🗡 В задаче Атака участники будут создавать атаки на нейросеть, обученную на данных транзакций.
Читать: https://habr.com/ru/post/721174/
dc263cfd-b08c-461a-a299-dc1b28fd17af_1600x500.jpg
23.8 KB
Unlocking data stream processing [Part 2] - realtime server logs monitoring with a sliding window
Read: https://www.dataengineeringweekly.com/p/unlocking-data-stream-processing
Read: https://www.dataengineeringweekly.com/p/unlocking-data-stream-processing
Локализация и рывок вперед: как мы разработали новый подход к облачному хранению данных для Hoff
Всем привет! Я Слава Жуков, CDO в eCommerce-агентстве Aero. Сегодня я расскажу, как мы сделали облачное хранилище понятным и структурированным источником информации для Hoff: про единые принципы хранения данных, разработка масштабируемой архитектуры, правильная система алертинга для регулярного контроля качества данных и не только.
Читать полностью
Читать: https://habr.com/ru/post/721230/
Всем привет! Я Слава Жуков, CDO в eCommerce-агентстве Aero. Сегодня я расскажу, как мы сделали облачное хранилище понятным и структурированным источником информации для Hoff: про единые принципы хранения данных, разработка масштабируемой архитектуры, правильная система алертинга для регулярного контроля качества данных и не только.
Читать полностью
Читать: https://habr.com/ru/post/721230/
Инструменты для MLOps: выбираем между вендорскими и Open Source-решениями
MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров ML в производственной среде. По мере развития MLOps-инструментов для работы с ним становится больше — как проприетарных, так и Open Source. Из этого разнообразия часто сложно выбрать стек для своего проекта.
Меня зовут Александр Волынский, я технический менеджер Cloud ML Platform в VK Cloud. В этой статье я сравню подходы к работе с MLOps на основе Open Source и проприетарного ПО и расскажу, какие инструменты и почему мы выбрали для Cloud ML Platform.
Читать: https://habr.com/ru/post/720654/
MLOps использует проверенные методы DevOps для автоматизации создания, развертывания и мониторинга конвейеров ML в производственной среде. По мере развития MLOps-инструментов для работы с ним становится больше — как проприетарных, так и Open Source. Из этого разнообразия часто сложно выбрать стек для своего проекта.
Меня зовут Александр Волынский, я технический менеджер Cloud ML Platform в VK Cloud. В этой статье я сравню подходы к работе с MLOps на основе Open Source и проприетарного ПО и расскажу, какие инструменты и почему мы выбрали для Cloud ML Platform.
Читать: https://habr.com/ru/post/720654/
Change Data Capture, with Debezium
Read: https://www.startdataengineering.com/post/change-data-capture-using-debezium-kafka-and-pg/
Read: https://www.startdataengineering.com/post/change-data-capture-using-debezium-kafka-and-pg/
«Топ 10» популярных мужских профессий в столице и регионах в 2023 году
Мир не стоит на месте. На смену многим мужским профессиям, что были актуальны полвека назад, приходят новые и более современные. Если раньше нас сковывали рамки малоразвитых технологий и выбор будущей профессии был невероятно мал, то сейчас есть где разгуляться. В преддверии праздника всех мужчин я задумался, а какие профессии, мы мужчины 2023 года, выбираем. Как известно, столица всегда отличалась от периферии и уровнем развития, и доходом, и мне стало интересно, чем наш выбор в данных городах отличается. Отслеживать резюме я решил на сервисе по поиску работы, из столичных городов взял Москву и Санкт-Петербург, в регионе Тверь и Иваново. Анализ я провел в программе по аналитике данных своей компании, загрузив туда данные из резюме. На первом этапе я выделил самые популярные профессии в Москве и Санкт-Петербурге, ими стали водитель, менеджер, инженер, специалист, кладовщик, юрист, администратор, шеф-повар, управляющий и замыкает десятку профессия начальник участка.
Читать: https://habr.com/ru/post/721400/
Мир не стоит на месте. На смену многим мужским профессиям, что были актуальны полвека назад, приходят новые и более современные. Если раньше нас сковывали рамки малоразвитых технологий и выбор будущей профессии был невероятно мал, то сейчас есть где разгуляться. В преддверии праздника всех мужчин я задумался, а какие профессии, мы мужчины 2023 года, выбираем. Как известно, столица всегда отличалась от периферии и уровнем развития, и доходом, и мне стало интересно, чем наш выбор в данных городах отличается. Отслеживать резюме я решил на сервисе по поиску работы, из столичных городов взял Москву и Санкт-Петербург, в регионе Тверь и Иваново. Анализ я провел в программе по аналитике данных своей компании, загрузив туда данные из резюме. На первом этапе я выделил самые популярные профессии в Москве и Санкт-Петербурге, ими стали водитель, менеджер, инженер, специалист, кладовщик, юрист, администратор, шеф-повар, управляющий и замыкает десятку профессия начальник участка.
Читать: https://habr.com/ru/post/721400/
👍1
Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter
Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.
Read: https://blogs.oracle.com/analytics/post/real-world-performance-testing-for-oracle-analytics-cloud-with-apache-jmeter
Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.
Read: https://blogs.oracle.com/analytics/post/real-world-performance-testing-for-oracle-analytics-cloud-with-apache-jmeter
Oracle
Real-World Performance Testing for Oracle Analytics Cloud with Apache JMeter
Oracle Analytics Cloud (OAC) is a comprehensive platform that enables organizations to analyze data and gain insights in real-time. Performance testing is an essential step to ensure that OAC can handle the expected workload without compromising its performance.
👍1
Using a JavaScript Object Notation Web Token with Oracle Fusion Analytics
This post describes using a JavaScript Object Notation (JSON) Web Token, or JWT, with Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/using-jwt-token-with-faw
This post describes using a JavaScript Object Notation (JSON) Web Token, or JWT, with Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/using-jwt-token-with-faw
Oracle
Configuring a JavaScript Object Notation Web Token for Oracle Fusion Analytics
This post guides you through configuring a JavaScript Object Notation (JSON) Web Token for Oracle Fusion Analytics.
Data Engineering Weekly #122
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-122
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-122
Классификация изображений в облачной системе Google Colab
Нейронку можно обучить не только понимать, где на картинке собака, а где кошка. Можно шагнуть дальше, чтобы обучить ее распознавать данные графиков зрачковых реакций на свет и выдавать результат: норма или отклонение.
Эта статья про сверточные нейронные сети, классификацию изображений с помощью моделей глубокого обучения, а также применение Google Colab для написания кода на Python.
Читать: https://habr.com/ru/post/721940/
Нейронку можно обучить не только понимать, где на картинке собака, а где кошка. Можно шагнуть дальше, чтобы обучить ее распознавать данные графиков зрачковых реакций на свет и выдавать результат: норма или отклонение.
Эта статья про сверточные нейронные сети, классификацию изображений с помощью моделей глубокого обучения, а также применение Google Colab для написания кода на Python.
Читать: https://habr.com/ru/post/721940/
Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault
Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».
Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.
Узнать всё!
Читать: https://habr.com/ru/post/721950/
Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».
Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.
Узнать всё!
Читать: https://habr.com/ru/post/721950/
Откуда есть пошла аналитика и что отличает DS, DA, BA и SA
Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.
Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.
Читать: https://habr.com/ru/post/721338/
Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.
Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.
Читать: https://habr.com/ru/post/721338/
Какие профессии выбирают женщины в столице и регионе
Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.
В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.
Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.
В тексте резюме с помощью алгоритмов обработки данных на естественном языке NLP анализировались общие сведения о соискателе, такие как возраст, опыт работы, образование и интересующая должность. Также устанавливались связи между навыками, представленными для каждой должности, и самими должностями.
В результате анализа получилось «топ-10» ведущих вакансий среди женщин.
В Москве и Санкт-Петербурге ими стали: менеджер, администратор, бухгалтер, помощник руководителя, специалист, юрист, делопроизводитель, продавец-консультант, секретарь, графический дизайнер.
Читать: https://habr.com/ru/post/722056/
Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.
В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.
Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.
В тексте резюме с помощью алгоритмов обработки данных на естественном языке NLP анализировались общие сведения о соискателе, такие как возраст, опыт работы, образование и интересующая должность. Также устанавливались связи между навыками, представленными для каждой должности, и самими должностями.
В результате анализа получилось «топ-10» ведущих вакансий среди женщин.
В Москве и Санкт-Петербурге ими стали: менеджер, администратор, бухгалтер, помощник руководителя, специалист, юрист, делопроизводитель, продавец-консультант, секретарь, графический дизайнер.
Читать: https://habr.com/ru/post/722056/
🔥1
Ready-to-Use Analytics Accelerate Success for Oracle Fusion Cloud Applications Customers
A new strategic guide to analytic value helps Fusion Cloud customers maximize the value of their Oracle investment and accelerate digital transformation.
Read: https://blogs.oracle.com/analytics/post/ready-to-use-analytics-accelerate-success-for-oracle-fusion-cloud-applications-customers
A new strategic guide to analytic value helps Fusion Cloud customers maximize the value of their Oracle investment and accelerate digital transformation.
Read: https://blogs.oracle.com/analytics/post/ready-to-use-analytics-accelerate-success-for-oracle-fusion-cloud-applications-customers
Oracle
Ready-to-Use Analytics Accelerate Success for Oracle Fusion Cloud Applications Customers
A new strategic guide to analytic value helps Fusion Cloud customers maximize the value of their Oracle investment and accelerate digital transformation.
👍1
Медицинские датасеты для машинного обучения: цели, типы и способы применения
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
Читать: https://habr.com/ru/post/718438/
Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.
В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
Читать: https://habr.com/ru/post/718438/
Процесс ELT: основные компоненты, преимущества и инструменты создания
Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.
Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).
В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать: https://habr.com/ru/post/719594/
Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.
Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).
В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать: https://habr.com/ru/post/719594/
Генерация DAG в Apache Airflow
Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.
Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.
Читать: https://habr.com/ru/post/722688/
Пошаговая инструкция о том, как из одного DAG сделать фабрику DAG.
Включает в себя: установка Airflow через Docker и поэтапное объяснение того, как сделать фабрику DAG.
Читать: https://habr.com/ru/post/722688/
👍2
Синтетические данные для машинного обучения: их природа, типы и способы генерации
Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.
Читать: https://habr.com/ru/post/721170/
Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.
Читать: https://habr.com/ru/post/721170/
👍1
Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas
Собрали дайджест из лучших статей и новостей о Python с 1 по 15 марта. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas»
Собрали дайджест из лучших статей и новостей о Python с 1 по 15 марта. Дайджест включает статьи и видео на русском и английском языках.
Читать: «Дайджест Python #5: как сделать свой Copilot и работать с данными в Pandas»
👍1
Сколько будет стоить ChatGPT для Google? Дайджест полезных текстов про ML и дата-аналитику
Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.
Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.
Читать: https://habr.com/ru/post/722612/
Находить информативные и полезные тексты про Machine Learning и работу с данными непросто. Еще сложнее — найти действительно стоящий контент. Меня зовут Стас, я развиваю продукты для аналитики данных в Selectel. Вместе с коллегами мы собрали годные статьи и видео, которые вам либо помогут в работе, либо как минимум развлекут.
Под катом — свежий landscape ML/AI/Data-сервисов, грамотно составленный список репозиториев для дата-сайентистов и пара кейсов с Хабра, которые вы могли пропустить. Часть материалов — на английском языке, и в рунете их не найти.
Читать: https://habr.com/ru/post/722612/