Используем MLOps-конвейер: пример работы с Cloud ML Platform для построения сервиса распознавания лиц
Есть два подхода к работе с машинным обучением (Machine Learning, ML): быть человеком-оркестром и задействовать «зоопарк технологий» для каждого этапа, или работать с готовым набором инфраструктурных решений, который позволяет выстроить MLOps-конвейер в рамках одной платформы. Для реализации первого подхода нужны senior-специалисты и большие ресурсы, для второго достаточно найти сервис с нужным набором возможностей.
Меня зовут Станислав Кипрюшин, я ведущий программист в VK Cloud. В этой статье на примере Cloud ML Platform мы разберём, как создать MLOps-конвейер для обучения моделей и построения сервиса распознавания лиц.
Читать: https://habr.com/ru/companies/vk/articles/780050/
Есть два подхода к работе с машинным обучением (Machine Learning, ML): быть человеком-оркестром и задействовать «зоопарк технологий» для каждого этапа, или работать с готовым набором инфраструктурных решений, который позволяет выстроить MLOps-конвейер в рамках одной платформы. Для реализации первого подхода нужны senior-специалисты и большие ресурсы, для второго достаточно найти сервис с нужным набором возможностей.
Меня зовут Станислав Кипрюшин, я ведущий программист в VK Cloud. В этой статье на примере Cloud ML Platform мы разберём, как создать MLOps-конвейер для обучения моделей и построения сервиса распознавания лиц.
Читать: https://habr.com/ru/companies/vk/articles/780050/
Using Oracle Analytics BI Publisher connector in Fusion Analytics Warehouse
With 23.R3, Fusion Analytics supports BIP as a data source as a self-service preview feature.
Read: https://blogs.oracle.com/analytics/post/using-oracle-analytics-bi-publisher-connector-in-fusion-analytics-warehouse
With 23.R3, Fusion Analytics supports BIP as a data source as a self-service preview feature.
Read: https://blogs.oracle.com/analytics/post/using-oracle-analytics-bi-publisher-connector-in-fusion-analytics-warehouse
Forwarded from Нейроканал
This media is not supported in your browser
VIEW IN TELEGRAM
Пакет Python для анимации статистических данных
Недавно наткнулись на интересный проект и хоть понятно, что анимация линейных графиков обычно не имеет никакого смысла, но возможно пригодится кому на работе.
GitHub | Документация | pypi
#project
Недавно наткнулись на интересный проект и хоть понятно, что анимация линейных графиков обычно не имеет никакого смысла, но возможно пригодится кому на работе.
GitHub | Документация | pypi
#project
❤2
Kaggle и карьера: стратегия достижения выдающихся результатов
Kaggle — самая известная платформа для соревнований в Data Science. Участие в таких соревнованиях открывает возможность проявить свой талант, стать известным в сообществе и получать более выгодные предложения от работодателей.
В этой статье наш соотечественник, занявший 68-е место в мировом рейтинге Kaggle, делится своим рецептом успеха в карьере и рассказывает о новых возможностях от участия в соревнованиях.
Kaggle — самая известная платформа для соревнований в Data Science. Участие в таких соревнованиях открывает возможность проявить свой талант, стать известным в сообществе и получать более выгодные предложения от работодателей.
В этой статье наш соотечественник, занявший 68-е место в мировом рейтинге Kaggle, делится своим рецептом успеха в карьере и рассказывает о новых возможностях от участия в соревнованиях.
🔥3
Разметка данных: неочевидные затраты на голосовые технологии
В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью зависят от ручной транскрипции всех обучающих фрагментов, однако затраты на связанное с этой методикой аннотирование данных оказываются очень высокими.
Эта проблема применения ручного труда также влияет и на Natural Language Understanding (NLU) — компонент, получающий текстовое описание пользовательского ввода и извлекающий из него структурированные данные (например, запросы действий и сущности), которые позволяют системе понимать человеческий язык. [Ссылка] Например, в некоторых задачах NLU (например, в Named Entity Recognition, распознавании именованных сущностей) требуется присвоение метки каждому слову во фразе, чтобы система поняла, что это слово означает в пользовательском вводе.
Читать: https://habr.com/ru/articles/746234/
В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью зависят от ручной транскрипции всех обучающих фрагментов, однако затраты на связанное с этой методикой аннотирование данных оказываются очень высокими.
Эта проблема применения ручного труда также влияет и на Natural Language Understanding (NLU) — компонент, получающий текстовое описание пользовательского ввода и извлекающий из него структурированные данные (например, запросы действий и сущности), которые позволяют системе понимать человеческий язык. [Ссылка] Например, в некоторых задачах NLU (например, в Named Entity Recognition, распознавании именованных сущностей) требуется присвоение метки каждому слову во фразе, чтобы система поняла, что это слово означает в пользовательском вводе.
Читать: https://habr.com/ru/articles/746234/
Top 5 reasons Oracle Analytics Cloud stands apart in the ML/AI Analytics landscape
Check out Oracle Analytics Cloud's top 5 competitive features in the ML/AI Analytics landscape
Read: https://blogs.oracle.com/analytics/post/top-5-reasons-oracle-analytics-cloud-stands-apart-in-the-mlai-analytics-landscape
Check out Oracle Analytics Cloud's top 5 competitive features in the ML/AI Analytics landscape
Read: https://blogs.oracle.com/analytics/post/top-5-reasons-oracle-analytics-cloud-stands-apart-in-the-mlai-analytics-landscape
Oracle
Top 5 reasons Oracle Analytics Cloud stands apart in the ML/AI Analytics landscape
Essbase integration with Oracle Analytics Cloud
Learn how Oracle provides a seamless integration between Essbase, its multidimensional database management system, and OAC, its comprehensive analytics platform.
Read: https://blogs.oracle.com/analytics/post/essbase-integration-with-oac
Learn how Oracle provides a seamless integration between Essbase, its multidimensional database management system, and OAC, its comprehensive analytics platform.
Read: https://blogs.oracle.com/analytics/post/essbase-integration-with-oac
Oracle
Essbase integration with OAC
Oracle Analytics Cloud (OAC) is a complete analytics PaaS solution. It provides enterprises with all their analytics needs and enables greater interaction and insights from data.
Integrating Essbase with Oracle Analytics Cloud (OAC) can provide a powerful…
Integrating Essbase with Oracle Analytics Cloud (OAC) can provide a powerful…
Oracle Hyperion Enterprise Performance Management System Release Update 11.2.15 Support for Application and Artifact Migration
Important Upgrade Information for Enterprise Performance Management (EPM) System Release 11.2.15 (Doc ID 2941419.1)
Read: https://blogs.oracle.com/proactivesupportepm/post/important-upgrade-information-for-enterprise-performance-management-epm-system-release-11215
Important Upgrade Information for Enterprise Performance Management (EPM) System Release 11.2.15 (Doc ID 2941419.1)
Read: https://blogs.oracle.com/proactivesupportepm/post/important-upgrade-information-for-enterprise-performance-management-epm-system-release-11215
Oracle
Important Upgrade Information for Enterprise Performance Management (EPM) System Release 11.2.15
Important Upgrade Information for Enterprise Performance Management (EPM) System Release 11.2.15 (Doc ID 2941419.1)
Как выпустить ML-сервис в прод малыми силами: кейс работы в облаке
Создание ML-модели — сложный и ресурсоёмкий во всех смыслах процесс. Но часто выкатка сервиса на основе модели в прод оказывается ещё сложнее: требует подготовки платформы, выделения ресурсов, настройки программных интерфейсов для передачи данных из модели конечному пользователю. В таких условиях рациональнее разворачивать решения в облаках, особенно если можно использовать сервисы для полного цикла ML-разработки.
Привет, Хабр. Нас зовут Александр Кузьмичёв и Александр Казначеев. Мы пилотируем проект «ML-сервис по оттоку». В этой статье мы поделимся нашим опытом разработки модели и выкатки её в прод с помощью Cloud ML Platform.
Читать: https://habr.com/ru/companies/vk/articles/780632/
Создание ML-модели — сложный и ресурсоёмкий во всех смыслах процесс. Но часто выкатка сервиса на основе модели в прод оказывается ещё сложнее: требует подготовки платформы, выделения ресурсов, настройки программных интерфейсов для передачи данных из модели конечному пользователю. В таких условиях рациональнее разворачивать решения в облаках, особенно если можно использовать сервисы для полного цикла ML-разработки.
Привет, Хабр. Нас зовут Александр Кузьмичёв и Александр Казначеев. Мы пилотируем проект «ML-сервис по оттоку». В этой статье мы поделимся нашим опытом разработки модели и выкатки её в прод с помощью Cloud ML Platform.
Читать: https://habr.com/ru/companies/vk/articles/780632/
Развлекаемся с Джулией
Считается, что Julia – это нишевый язык созданный для лабораторий, научных симуляций и HPC. Хотя на самом деле благородя свой экспрессивности и динамизму Julia можно и нужно использовать для автоматизации и скриптинга. Давайте на паре простых примеров посмотрим как Julia можно использовать для решения рутинных задач.
Читать: https://habr.com/ru/articles/781422/
Считается, что Julia – это нишевый язык созданный для лабораторий, научных симуляций и HPC. Хотя на самом деле благородя свой экспрессивности и динамизму Julia можно и нужно использовать для автоматизации и скриптинга. Давайте на паре простых примеров посмотрим как Julia можно использовать для решения рутинных задач.
Читать: https://habr.com/ru/articles/781422/
Зачем программисту микроконтроллеров математическая статистика? (или Так ли Хороши UWB Трансиверы?)
Настал день, когда мне для работы программистом микроконтроллеров наконец пригодилась математическая статистика из ВУЗ(овского) курса по теории вероятностей.
Есть очень интересная технология для автоматического радиоизмерения расстояния. Технология основана на UWB трансиверах. Позволяет измерять время пролёта радиоволны.
В этом тексте написал как я исследовал измерения расстояния, при помощи ASICа UWB трансивера DWM1000.
Читать: https://habr.com/ru/articles/712616/
Настал день, когда мне для работы программистом микроконтроллеров наконец пригодилась математическая статистика из ВУЗ(овского) курса по теории вероятностей.
Есть очень интересная технология для автоматического радиоизмерения расстояния. Технология основана на UWB трансиверах. Позволяет измерять время пролёта радиоволны.
В этом тексте написал как я исследовал измерения расстояния, при помощи ASICа UWB трансивера DWM1000.
Читать: https://habr.com/ru/articles/712616/
👍1
Методы балансировки в А/Б тестировании
Привет, Хабр! Как часто вы думаете о балансе? Балансе вселенной, личной жизни и работы, балансе БЖУ в своем рационе или балансе в банке. Мы в команде ad-hoc X5 Tech не только думаем о балансе, но и сталкиваемся с ним в работе. Сегодня поговорим о балансировке при анализе причинности. Это важный инструмент статистики, который помогает нам выяснить, как одни величины влияют на другие. Балансировка здесь — это способ убрать ошибки, которые могут возникнуть из-за разных распределений переменных в разных группах. Расскажем о различных методах балансировки, об их работе, преимуществах и недостатках каждого. Также затронем проблемы и ограничения, связанные с балансировкой. Запасайтесь чаем, мы начинаем!
Читать: https://habr.com/ru/companies/X5Tech/articles/780690/
Привет, Хабр! Как часто вы думаете о балансе? Балансе вселенной, личной жизни и работы, балансе БЖУ в своем рационе или балансе в банке. Мы в команде ad-hoc X5 Tech не только думаем о балансе, но и сталкиваемся с ним в работе. Сегодня поговорим о балансировке при анализе причинности. Это важный инструмент статистики, который помогает нам выяснить, как одни величины влияют на другие. Балансировка здесь — это способ убрать ошибки, которые могут возникнуть из-за разных распределений переменных в разных группах. Расскажем о различных методах балансировки, об их работе, преимуществах и недостатках каждого. Также затронем проблемы и ограничения, связанные с балансировкой. Запасайтесь чаем, мы начинаем!
Читать: https://habr.com/ru/companies/X5Tech/articles/780690/
Фреймворк для дизайна A/B-теста
Сегодня мы рассмотрим простой базовый фреймворк для дизайна сплит-теста, который можно удобно использовать продуктовым аналитикам в своей работе. Разберем использование этого фреймворка, его теоретическую и математическую основу, и также поговорим о продуктовых аспектах заведения A/B-тестов — когда продакту и аналитику заводить A/B-тест не нужно. Вам понадобятся: представления о продуктовых метриках, знания python, первичные представления о математической статистике и чуточку воображения.
Читать: https://habr.com/ru/articles/780932/
Сегодня мы рассмотрим простой базовый фреймворк для дизайна сплит-теста, который можно удобно использовать продуктовым аналитикам в своей работе. Разберем использование этого фреймворка, его теоретическую и математическую основу, и также поговорим о продуктовых аспектах заведения A/B-тестов — когда продакту и аналитику заводить A/B-тест не нужно. Вам понадобятся: представления о продуктовых метриках, знания python, первичные представления о математической статистике и чуточку воображения.
Читать: https://habr.com/ru/articles/780932/
Расчетная архитектура платформы для A/B-тестов Mail.Ru
Привет Хабр! Меня зовут Андрей Каймаков, я работаю в продуктовой аналитике Mail.ru в VK. Сейчас практически каждая IT-компания (да и не только IT) знает про A/B-тесты и понимает важность проверки новых фичей с помощью этого метода. Когда фичей становится много, то A/B-тесты начинают занимать значительное время в работе команд. Чтобы автоматизировать эти процессы создаются платформы для проведения A/B-тестов. Мы разрабатываем свою систему с 2017 года, а недавно сильно ее обновили. Хочу вместе со своим коллегой разработчиком Андреем Чубаркиным поделиться опытом и инсайтами, которые мы обнаружили в ходе этого проекта.
Читать: https://habr.com/ru/companies/vk/articles/781300/
Привет Хабр! Меня зовут Андрей Каймаков, я работаю в продуктовой аналитике Mail.ru в VK. Сейчас практически каждая IT-компания (да и не только IT) знает про A/B-тесты и понимает важность проверки новых фичей с помощью этого метода. Когда фичей становится много, то A/B-тесты начинают занимать значительное время в работе команд. Чтобы автоматизировать эти процессы создаются платформы для проведения A/B-тестов. Мы разрабатываем свою систему с 2017 года, а недавно сильно ее обновили. Хочу вместе со своим коллегой разработчиком Андреем Чубаркиным поделиться опытом и инсайтами, которые мы обнаружили в ходе этого проекта.
Читать: https://habr.com/ru/companies/vk/articles/781300/
fsspec и вообще зачем оно нам нужно
Привет! Сегодня я расскажу вам про fsspec, его киллер фичи и почему он является незаменимым инструментом любого python разработчика.
Читать: https://habr.com/ru/articles/781804/
Привет! Сегодня я расскажу вам про fsspec, его киллер фичи и почему он является незаменимым инструментом любого python разработчика.
Читать: https://habr.com/ru/articles/781804/
Разметка данных в 2023 году: текущие тренды и требования будущего
Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.
Читать: https://habr.com/ru/articles/759154/
Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.
Читать: https://habr.com/ru/articles/759154/
❤2
Augment Data in Oracle Fusion Analytics using the Oracle Analytics Publisher Connector
With the 23.R3 release of Fusion Analytics, the Oracle Analytics Publisher Connector is now a self-service preview feature.
Read: https://blogs.oracle.com/analytics/post/using-oracle-analytics-bi-publisher-connector-in-fusion-analytics
With the 23.R3 release of Fusion Analytics, the Oracle Analytics Publisher Connector is now a self-service preview feature.
Read: https://blogs.oracle.com/analytics/post/using-oracle-analytics-bi-publisher-connector-in-fusion-analytics
Oracle
Augment Data in Oracle Fusion Analytics using the Oracle Analytics Publisher Connector
With 23.R3, Fusion Analytics supports BIP as a data source as a self-service preview feature.
👍1
Forwarded from Нейроканал
Все перечисленные библиотеки имеют открытый исходный код и предназначены в основном для питонистов.
Анализ, очистка и подготовка данных:
Pandas — быстрая и гибкая очистка и подготовка данных.
Numpy — предварительная обработка данных, применяется для математических вычислений.
Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
Машинное и глубокое обучение:
Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
TensorFlow — создание, моделирование и тренировка нейросетей.
XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
CatBoost — градиентный бустинг.
#библиотеки #ml #deeplearning #python
Анализ, очистка и подготовка данных:
Pandas — быстрая и гибкая очистка и подготовка данных.
Numpy — предварительная обработка данных, применяется для математических вычислений.
Statsmodels — статистический анализ временных рядов, выживаемости и многого другого.
YData Profiling — упрощает этап EDA, тщательно анализируя ваши данные в одной строке кода.
Машинное и глубокое обучение:
Scikit-learn — ключевая библиотека машинного обучения, содержит реализацию популярных алгоритмов (регрессия, кластеризация).
Keras — создание, настройка моделей, работает поверх таких фреймворков, как TensorFlow.
TensorFlow — создание, моделирование и тренировка нейросетей.
XGBoost — предоставляет эффективные алгоритмы для задач регрессии, классификации и ранжирования.
CatBoost — градиентный бустинг.
#библиотеки #ml #deeplearning #python
🙏2😍2👍1