Mini-ml-stand для бедных
Всем привет! Снова на связи General RJ45 с новым прекрасным решением, но на сей раз по теме ML и аналитики.
На моем счету уже два законченных ML проекта и за это время я достаточно много поработал с аналитиками и ML инженерами, да и вообще над созданием ML и аналитических решений и могу сказать что у меня сформировалось своё представление о данных решения и я вижу какие проблемы возникают в данных процессах и что нужно разработчикам для их более эффективной работы, как пример это прозрачность всего процесса чтобы они могли видеть весь процесс от начала до конца и контролировать его.
В рамках данной статьи хочу рассказать как можно максимально просто поднять ML стенд на котором можно будет вести полноценную разработку и ETL процессов, и различных обучений моделей и их переобучений.
Стек того что мы поднимем в рамках этой статьи, также будут и другие инструменты как Nginx, Postgresql но мы их учитываем как часть компонентов ниже:
Развернем свой стенд с мл и etl?
Читать: https://habr.com/ru/articles/743782/
Всем привет! Снова на связи General RJ45 с новым прекрасным решением, но на сей раз по теме ML и аналитики.
На моем счету уже два законченных ML проекта и за это время я достаточно много поработал с аналитиками и ML инженерами, да и вообще над созданием ML и аналитических решений и могу сказать что у меня сформировалось своё представление о данных решения и я вижу какие проблемы возникают в данных процессах и что нужно разработчикам для их более эффективной работы, как пример это прозрачность всего процесса чтобы они могли видеть весь процесс от начала до конца и контролировать его.
В рамках данной статьи хочу рассказать как можно максимально просто поднять ML стенд на котором можно будет вести полноценную разработку и ETL процессов, и различных обучений моделей и их переобучений.
Стек того что мы поднимем в рамках этой статьи, также будут и другие инструменты как Nginx, Postgresql но мы их учитываем как часть компонентов ниже:
Развернем свой стенд с мл и etl?
Читать: https://habr.com/ru/articles/743782/
❤2
ClickHouse в ритейловом проекте
Всем привет!
Всегда интересно узнавать, как устроено IT в различных сферах и компаниях: какие задачи ставятся и как находятся решения. Да и в целом, делиться опытом полезно!
Меня зовут Илья Панов, я инженер данных в X5 Tech и участвую в развитии продукта CVM (Customer Value Maximization). В этой статье хочу рассказать как живёт и развивается it-продукт в ритейле. Расскажу откуда появилась потребность в инструменте, подобном ClickHouse, и как проходило RnD для его внедрения.
Читать: https://habr.com/ru/companies/X5Tech/articles/743696/
Всем привет!
Всегда интересно узнавать, как устроено IT в различных сферах и компаниях: какие задачи ставятся и как находятся решения. Да и в целом, делиться опытом полезно!
Меня зовут Илья Панов, я инженер данных в X5 Tech и участвую в развитии продукта CVM (Customer Value Maximization). В этой статье хочу рассказать как живёт и развивается it-продукт в ритейле. Расскажу откуда появилась потребность в инструменте, подобном ClickHouse, и как проходило RnD для его внедрения.
Читать: https://habr.com/ru/companies/X5Tech/articles/743696/
CI/CD в Data Science, MLOps в финтехе и тенденции в потоковой передаче данных
Звание текста с лучшими мемами получила статья про антисоветы для работы с ML-экспериментами.
Привет, Хабр! Это уже четвертый выпуск дайджеста по ML и работе с данными для тех, кто тащит эти направления в своих компаниях. Сегодня в программе — антисоветы для работы с ML-экспериментами, обзор библиотеки для Pandas с примесью ChatGPT, очень сложная статья про Ray и многое другое. Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Используйте навигацию, если не хотите полностью:
→ Теория
→ Практика
→ Мнение
→ Инструменты
→ Видео
Читать: https://habr.com/ru/companies/selectel/articles/742788/
Звание текста с лучшими мемами получила статья про антисоветы для работы с ML-экспериментами.
Привет, Хабр! Это уже четвертый выпуск дайджеста по ML и работе с данными для тех, кто тащит эти направления в своих компаниях. Сегодня в программе — антисоветы для работы с ML-экспериментами, обзор библиотеки для Pandas с примесью ChatGPT, очень сложная статья про Ray и многое другое. Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Используйте навигацию, если не хотите полностью:
→ Теория
→ Практика
→ Мнение
→ Инструменты
→ Видео
Читать: https://habr.com/ru/companies/selectel/articles/742788/
Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 1
Всем привет! В данном цикле статей мы поделимся своими результатами исследования по составлению профиля объектов данных, которые хранятся в RDBMS Oracle с помощью DataHub и интеграции с инструментом Great Expectations. В первой части мы поговорим про проблемы, которые возникли в ходе интеграции, а также поделимся найденными решениями для их устранения.
Читать: https://habr.com/ru/companies/neoflex/articles/743832/
Всем привет! В данном цикле статей мы поделимся своими результатами исследования по составлению профиля объектов данных, которые хранятся в RDBMS Oracle с помощью DataHub и интеграции с инструментом Great Expectations. В первой части мы поговорим про проблемы, которые возникли в ходе интеграции, а также поделимся найденными решениями для их устранения.
Читать: https://habr.com/ru/companies/neoflex/articles/743832/
Create Oracle Analytics Cloud custom plug-ins for your dashboard
Oracle Analytics Cloud custom plug-ins are a great way to extend the functionalities of your dashboard. This article aims to get you excited about creating your own plug-ins.
Read: https://blogs.oracle.com/analytics/post/create-oracle-analytics-custom-plugins-for-your-dashboard
Oracle Analytics Cloud custom plug-ins are a great way to extend the functionalities of your dashboard. This article aims to get you excited about creating your own plug-ins.
Read: https://blogs.oracle.com/analytics/post/create-oracle-analytics-custom-plugins-for-your-dashboard
Oracle
Create Oracle Analytics custom plug-ins for your dashboard
Custom plug-ins are a great way to extend the functionalities of your dashboard. This blog is a 'call to action' to make you more excited about creating your own plug-ins.
Медленно меняющиеся измерения (SCDs) в эпоху облачного хранилища данных
Как работать с медленно меняющимися измерениями при использовании облачного хранилища данных?
В этом вопросе скрывается довольно много ответов, поэтому давайте сделаем паузу.
Читать: https://habr.com/ru/companies/southbridge/articles/743962/
Как работать с медленно меняющимися измерениями при использовании облачного хранилища данных?
В этом вопросе скрывается довольно много ответов, поэтому давайте сделаем паузу.
Читать: https://habr.com/ru/companies/southbridge/articles/743962/
Переизобретаем сжатие в распределенной базе данных
В используемой нами базе данных уже была эффективная функциональность сжатия, которая обеспечивала хранение объемной информации.
Но рост объема хранимых данных — не единственный возможный выигрыш от применения сжатия, поэтому мы задумались о разработке собственного решения.
В этой статье расскажу, как мы изменили подход к сжатию данных, чем пришлось пожертвовать и почему менее эффективное «на бумаге» решение в результате превзошло наши ожидания.
Читать: https://habr.com/ru/companies/sberbank/articles/741894/
В используемой нами базе данных уже была эффективная функциональность сжатия, которая обеспечивала хранение объемной информации.
Но рост объема хранимых данных — не единственный возможный выигрыш от применения сжатия, поэтому мы задумались о разработке собственного решения.
В этой статье расскажу, как мы изменили подход к сжатию данных, чем пришлось пожертвовать и почему менее эффективное «на бумаге» решение в результате превзошло наши ожидания.
Читать: https://habr.com/ru/companies/sberbank/articles/741894/
👏1
Rat czarina claims numbers don't lie
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/06/rat-czarina-claims-numbers-dont-lie.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/06/rat-czarina-claims-numbers-dont-lie.html
👍1
Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)
Привет, Хабр!
Меня зовут Серов Александр, я участник профессионального сообщества NTA.
Параллелизм играет важную роль в задачах Data Science, так как может значительно ускорить вычисления и обработку больших объемов данных. В посте расскажу о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.
Узнать больше
Читать: https://habr.com/ru/articles/744066/
Привет, Хабр!
Меня зовут Серов Александр, я участник профессионального сообщества NTA.
Параллелизм играет важную роль в задачах Data Science, так как может значительно ускорить вычисления и обработку больших объемов данных. В посте расскажу о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.
Узнать больше
Читать: https://habr.com/ru/articles/744066/
❤2
Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 2
В первой части статьи мы подключили DataHub к базе данных Oracle, во второй части рассмотрим подключение Great Expectations к DBMS Oracle, сделаем ряд проверок качества данных, а также отправим результаты проверок в DataHub.
Читать: https://habr.com/ru/companies/neoflex/articles/744388/
В первой части статьи мы подключили DataHub к базе данных Oracle, во второй части рассмотрим подключение Great Expectations к DBMS Oracle, сделаем ряд проверок качества данных, а также отправим результаты проверок в DataHub.
Читать: https://habr.com/ru/companies/neoflex/articles/744388/
Ускорение sql запросов к большим таблицам. Оптимизация пагинации
При умеренных объёмах базы данных в использовании offset нет ничего плохого, но со временем база данных растёт и запросы начинают «тормозить». Становится актуальным ускорение запросов.
Очевидно, если причина в росте объёмов базы данных, то используя главный принцип дзюдо «падающего - толкни, нападающего - тяни», следует ещё увеличить объём, в данном случае путём добавления нового поля в таблицы для последующей сортировки по нему.
Читать: https://habr.com/ru/articles/744814/
При умеренных объёмах базы данных в использовании offset нет ничего плохого, но со временем база данных растёт и запросы начинают «тормозить». Становится актуальным ускорение запросов.
Очевидно, если причина в росте объёмов базы данных, то используя главный принцип дзюдо «падающего - толкни, нападающего - тяни», следует ещё увеличить объём, в данном случае путём добавления нового поля в таблицы для последующей сортировки по нему.
Читать: https://habr.com/ru/articles/744814/
👍1
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любой аналитической системы. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.
И как же он устроен?
Читать: https://habr.com/ru/companies/cedrusdata/articles/744934/
Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любой аналитической системы. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.
И как же он устроен?
Читать: https://habr.com/ru/companies/cedrusdata/articles/744934/
Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook
Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python.
Читать: «Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook»
Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python.
Читать: «Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook»
Tproger
Дайджест Python #12: взлом ChatGPT и оптимизация Jupyter Notebook
Собрали лучшие материалы по Python с 15 по 30 июня. Узнайте, как взломать ChatGPT и как компилировать типизированный Python.
FineBI 6.0: Укрощение строптивого
Всем привет! Сегодня у нас интересный кейс от нашего друга @ialavrikov.
Илья – старший аналитик "Альфа-Лизинга" и активный участник сообщества FineBI GlowByte. Он был одним из первых, кто протестировал масштабное обновление китайской платформы бизнес-аналитики FineBI, прочувствовав все тонкости во время миграции с другого технологического решения. Под катом дальше – история о его пути сквозь тернии к звездам.
Читать статью Ильи Лаврикова
Читать: https://habr.com/ru/companies/glowbyte/articles/745562/
Всем привет! Сегодня у нас интересный кейс от нашего друга @ialavrikov.
Илья – старший аналитик "Альфа-Лизинга" и активный участник сообщества FineBI GlowByte. Он был одним из первых, кто протестировал масштабное обновление китайской платформы бизнес-аналитики FineBI, прочувствовав все тонкости во время миграции с другого технологического решения. Под катом дальше – история о его пути сквозь тернии к звездам.
Читать статью Ильи Лаврикова
Читать: https://habr.com/ru/companies/glowbyte/articles/745562/
Oracle Fusion Analytics Implementation Planning Series: Accelerated Phased Approach
Best Practices for Implementing Oracle Fusion Analytics Series: Accelerated Phased Approach
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-accelerated-phased-approach
Best Practices for Implementing Oracle Fusion Analytics Series: Accelerated Phased Approach
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-accelerated-phased-approach
Oracle
Oracle Fusion Analytics Implementation Series: Accelerated Phased Approach
Best Practices for Implementing Oracle Fusion Analytics Series: Accelerated Phased Approach
Без Tableau — как в МКБ выбирали новое BI-решение для работы
Меня зовут Александр Дорофеев, я директор по данным в МКБ. В этом посте я еще раз затрону тему импортозамещения софта на примере программ для визуализации данных. Раньше мы (думаю, как и многие из вас) использовали Tableau, но так как компания покинула российский рынок, мы вынуждены были выбрать новое решение.
О том, какие у нас были критерии выбора и что же мы в итоге выбрали — под катом. Возможно, вам пригодится наш опыт, если вы тоже стоит перед выбором нового BI-софта.
Читать: https://habr.com/ru/companies/mkb/articles/745740/
Меня зовут Александр Дорофеев, я директор по данным в МКБ. В этом посте я еще раз затрону тему импортозамещения софта на примере программ для визуализации данных. Раньше мы (думаю, как и многие из вас) использовали Tableau, но так как компания покинула российский рынок, мы вынуждены были выбрать новое решение.
О том, какие у нас были критерии выбора и что же мы в итоге выбрали — под катом. Возможно, вам пригодится наш опыт, если вы тоже стоит перед выбором нового BI-софта.
Читать: https://habr.com/ru/companies/mkb/articles/745740/
💩1
Нейронные сети не могут обобщать периодические зависимости. Как это исправить?
Изучая нейронные сети все глубже, сталкиваешься с тем, что не ко всем задачам применимы полносвязные глубокие нейронные сети с классическими слоями Linear и слоями активации Relu, Sigmoid, Than и их вариации. Почему не используют остальные функции в качестве активации, например, периодические?
В целом, периодические функции являются одними из основных функций, важными для человеческого общества и естествознания: суточные и годовые циклы в мире диктуются периодическими движениями солнечной системы, графики изменения погоды, показателей мировой экономики также включают периодическую компоненту.
Читать: https://habr.com/ru/articles/745768/
Изучая нейронные сети все глубже, сталкиваешься с тем, что не ко всем задачам применимы полносвязные глубокие нейронные сети с классическими слоями Linear и слоями активации Relu, Sigmoid, Than и их вариации. Почему не используют остальные функции в качестве активации, например, периодические?
В целом, периодические функции являются одними из основных функций, важными для человеческого общества и естествознания: суточные и годовые циклы в мире диктуются периодическими движениями солнечной системы, графики изменения погоды, показателей мировой экономики также включают периодическую компоненту.
Читать: https://habr.com/ru/articles/745768/
Oracle Fusion Analytics Implementation Series: Planning
Best Practices for Implementing Oracle Fusion Analytics Series: Planning
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-planning
Best Practices for Implementing Oracle Fusion Analytics Series: Planning
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-implementation-series-planning
Oracle
Oracle Fusion Analytics Implementation Series: Plan
Best Practices for Implementing Oracle Fusion Analytics Series: Planning
Книга «Python для data science»
Привет, Хаброжители!
Python — идеальный выбор для манипулирования и извлечения информации из данных всех видов. «Python для data science» познакомит программистов с питоническим миром анализа данных. Вы научитесь писать код на Python, применяя самые современные методы, для получения, преобразования и анализа данных в управлении бизнесом, маркетинге и поддержке принятия решений.
Познакомьтесь с богатым набором встроенных структур данных Python для выполнения основных операций, а также о надежной экосистемы библиотек с открытым исходным кодом для data science, включая NumPy, pandas, scikit-learn, matplotlib и другие. Научитесь загружать данные в различных форматах, упорядочивать, группировать и агрегировать датасеты, а также создавать графики, карты и другие визуализации. На подробных примерах стройте реальные приложения, в том числе: службу такси, использующую геолокацию, анализ корзины для определения товаров, которые обычно покупаются вместе, а также модель машинного обучения для прогнозирования цен на акции.
Читать: https://habr.com/ru/companies/piter/articles/745860/
Привет, Хаброжители!
Python — идеальный выбор для манипулирования и извлечения информации из данных всех видов. «Python для data science» познакомит программистов с питоническим миром анализа данных. Вы научитесь писать код на Python, применяя самые современные методы, для получения, преобразования и анализа данных в управлении бизнесом, маркетинге и поддержке принятия решений.
Познакомьтесь с богатым набором встроенных структур данных Python для выполнения основных операций, а также о надежной экосистемы библиотек с открытым исходным кодом для data science, включая NumPy, pandas, scikit-learn, matplotlib и другие. Научитесь загружать данные в различных форматах, упорядочивать, группировать и агрегировать датасеты, а также создавать графики, карты и другие визуализации. На подробных примерах стройте реальные приложения, в том числе: службу такси, использующую геолокацию, анализ корзины для определения товаров, которые обычно покупаются вместе, а также модель машинного обучения для прогнозирования цен на акции.
Читать: https://habr.com/ru/companies/piter/articles/745860/
What is a self-serve data platform & how to build one
Read: https://www.startdataengineering.com/post/self-serve-data-platform/
Read: https://www.startdataengineering.com/post/self-serve-data-platform/