Нет новогоднего настроения? Сейчас исправим:
1. Налейте чаю
2. Сядьте поудобнее
3. Откройте «Конфетный рандом»
4. Возьмите конфетку
5. Ладно, возьмите ещё одну конфетку
6. Поделитесь ссылкой с друзьями
Всем джингл беллс!
1. Налейте чаю
2. Сядьте поудобнее
3. Откройте «Конфетный рандом»
4. Возьмите конфетку
5. Ладно, возьмите ещё одну конфетку
6. Поделитесь ссылкой с друзьями
Всем джингл беллс!
Особенности машинного обучения в нефтегазовой отрасли
Привет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Цифровые технологии в промышленности». Если вы недавно перешли из крупной технологической компании в нефтегазовую или только планируете этот переход, либо слышали про машинное обучение только в теории, но у вас нет практики его применения в конкретных, особенно промышленных проектах, эта статья для вас.
Когда я искал новое место работы, сперва рассматривал крупные IT-компании, но решил, что мне неинтересно допиливать 0,1% к точности поиска. А в промышленности — непаханное поле, можно внедрять интересные технологии крупными мазками и решать задачи, которые еще не исследовались. Хотя меня пугали страшилками, что будет строгий дресс-код, жесткий график, неудобный офис и скучные проекты...
Читать: https://habr.com/ru/companies/oleg-bunin/articles/783656/
Привет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Цифровые технологии в промышленности». Если вы недавно перешли из крупной технологической компании в нефтегазовую или только планируете этот переход, либо слышали про машинное обучение только в теории, но у вас нет практики его применения в конкретных, особенно промышленных проектах, эта статья для вас.
Когда я искал новое место работы, сперва рассматривал крупные IT-компании, но решил, что мне неинтересно допиливать 0,1% к точности поиска. А в промышленности — непаханное поле, можно внедрять интересные технологии крупными мазками и решать задачи, которые еще не исследовались. Хотя меня пугали страшилками, что будет строгий дресс-код, жесткий график, неудобный офис и скучные проекты...
Читать: https://habr.com/ru/companies/oleg-bunin/articles/783656/
«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD
Привет, Хабр! В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/783040/
Привет, Хабр! В новом выпуске собрал для вас полезные материалы, которые помогут лучше разобраться в темах ML, искусственного интеллекта и дата-аналитики. Вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/783040/
👍3
Выборочное удаление столбцов для повышения эффективности хранения в озерах данных
По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.
Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.
Читать: https://habr.com/ru/articles/784372/
По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.
Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.
Читать: https://habr.com/ru/articles/784372/
Мой краш-тест чемпионата: Победа в Data Science треке
Привет! В статье я расскажу о моем опыте победы в чемпионате "CUP IT 2023" от Changellenge в области Data Science. Соревнование построено на кейс-подходе, где участники решают реальные бизнес-вызовы, с которыми сталкиваются сотрудники компаний VK и Альфа-Банка. Я успешно справилась с задачами обеих компаний. В статье вы найдете подробности об особенностях соревнования, ключевых инсайтах, решениях, а также о том, как этот опыт изменил мою карьеру и подарил новые возможности.
Читать: https://habr.com/ru/articles/784522/
Привет! В статье я расскажу о моем опыте победы в чемпионате "CUP IT 2023" от Changellenge в области Data Science. Соревнование построено на кейс-подходе, где участники решают реальные бизнес-вызовы, с которыми сталкиваются сотрудники компаний VK и Альфа-Банка. Я успешно справилась с задачами обеих компаний. В статье вы найдете подробности об особенностях соревнования, ключевых инсайтах, решениях, а также о том, как этот опыт изменил мою карьеру и подарил новые возможности.
Читать: https://habr.com/ru/articles/784522/
🔥1
VK плачет, Social Graph смеется, Telegram наблюдает
Скажи мне кто твой друг, и я скажу кто ты
Вы наткнулись на необычный проектик, который изучает дружеские коллективы, группы конкретного пользователя или группы профилей с помощью социального графа связей.
Зачем всё это? Изначально по приколу, но надеюсь, вы тут с благими намерениями
Что было дальше?
Читать: https://habr.com/ru/articles/784912/
Скажи мне кто твой друг, и я скажу кто ты
Вы наткнулись на необычный проектик, который изучает дружеские коллективы, группы конкретного пользователя или группы профилей с помощью социального графа связей.
Зачем всё это? Изначально по приколу, но надеюсь, вы тут с благими намерениями
Что было дальше?
Читать: https://habr.com/ru/articles/784912/
Изучаем SQL в 2024 году
SQL — декларативный язык программирования, применяемый для создания, модификации и управления данными в реляционной базе данных, управляемой соответствующей системой управления базами данных.
Читать: https://habr.com/ru/articles/784920/
SQL — декларативный язык программирования, применяемый для создания, модификации и управления данными в реляционной базе данных, управляемой соответствующей системой управления базами данных.
Читать: https://habr.com/ru/articles/784920/
Oracle Analytics Cloud January 2024 Update
This blog provides a high-level summary of the new features introduced into Oracle Analytics Cloud in the January 2024 update.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-cloud-january-2024-update
This blog provides a high-level summary of the new features introduced into Oracle Analytics Cloud in the January 2024 update.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-cloud-january-2024-update
Oracle
Oracle Analytics Cloud January 2024 Update
This blog provides a high level summary of the new features introduced into Oracle Analytics Cloud in the January 2024 update.
❤1
Unlock Deeper Insights: On-Demand Data Enrichments in Oracle Analytics Workbooks
This article provides an overview of how semantic data enrichments are available to workbook authors as on-demand data enrichments. It provide examples on how you can enrich your data during the visualization authoring process by simply dragging and dropping semantic enrichments that are displayed in the data elements tree under any classified column.
Read: https://blogs.oracle.com/analytics/post/unlock-deeper-insights-ondemand-data-enrichments-in-oracle-analytics-workbooks
This article provides an overview of how semantic data enrichments are available to workbook authors as on-demand data enrichments. It provide examples on how you can enrich your data during the visualization authoring process by simply dragging and dropping semantic enrichments that are displayed in the data elements tree under any classified column.
Read: https://blogs.oracle.com/analytics/post/unlock-deeper-insights-ondemand-data-enrichments-in-oracle-analytics-workbooks
Oracle
Unlock Deeper Insights: On-Demand Data Enrichments in Oracle Analytics Workbooks
This article provides an overview of how semantic data enrichments are available to workbook authors as on-demand data enrichments. It provide examples on how you can enrich your data during the visualization authoring process by simply dragging and dropping…
25 баз данных, которые актуальны в 2024 году
Современный мир производит огромное количество данных каждую секунду, создавая огромный объем информации, который требуется хранить, управлять и анализировать. В этой статье мы кратко рассмотрим 25 из самых популярных баз данных, которые играют важную роль в обработке и хранении данных в различных сферах, от корпоративного управления до интернет-технологий. Каждая из этих баз данных обладает своими особенностями и применением, внося вклад в разнообразные сферы бизнеса и науки.
От классических фаворитов до малоизвестных новичков, приготовьтесь к дикой поездке по стране баз данных!
Читать: https://habr.com/ru/articles/785366/
Современный мир производит огромное количество данных каждую секунду, создавая огромный объем информации, который требуется хранить, управлять и анализировать. В этой статье мы кратко рассмотрим 25 из самых популярных баз данных, которые играют важную роль в обработке и хранении данных в различных сферах, от корпоративного управления до интернет-технологий. Каждая из этих баз данных обладает своими особенностями и применением, внося вклад в разнообразные сферы бизнеса и науки.
От классических фаворитов до малоизвестных новичков, приготовьтесь к дикой поездке по стране баз данных!
Читать: https://habr.com/ru/articles/785366/
👍2
Provide Personalization in Workbooks in Oracle Analytics Cloud
This article explains how to provide a personalized workbook experience to end users in Oracle Analytics Cloud through filter selection persistence.
Read: https://blogs.oracle.com/analytics/post/enabling-end-user-personalization-in-oac-workbooks
This article explains how to provide a personalized workbook experience to end users in Oracle Analytics Cloud through filter selection persistence.
Read: https://blogs.oracle.com/analytics/post/enabling-end-user-personalization-in-oac-workbooks
Oracle
Enabling end user personalization in OAC Workbooks
This article explains how to provide personalized workbook experience to end users through filter selection persistence.
Oracle Fusion Analytics - Refresh Materialized Views via Custom Function After Pipeline Completion
Automating the refresh of materialized views after the Oracle Fusion Analytics pipeline completes saves time and reduces the likelihood of scheduling errors.
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-refresh-materialized-views-via-custom-function-after-pipeline-completes
Automating the refresh of materialized views after the Oracle Fusion Analytics pipeline completes saves time and reduces the likelihood of scheduling errors.
Read: https://blogs.oracle.com/analytics/post/oracle-fusion-analytics-refresh-materialized-views-via-custom-function-after-pipeline-completes
Oracle
Oracle Fusion Analytics - Refresh Materialized Views via Custom Function After Pipeline Completes
As businesses expand and develop, the importance of automation in managing data and analytics applications also grows. In this blog we will demonstrate how to create a custom function that will be called as an action by the Fusion Analytics Event Producer…
❤1
Как работает дедупликация данных в потоке Kafka-to-Kafka?
Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.
В предыдущей части «Как использовать Spring в качестве фреймворка для Flink-приложений» я рассказывал, как реализовать минимальное Flink-приложение с использованием фреймворка Spring. Мы запустили первую Flink-задачу в поднятом в docker-compose кластере, а также проверили корректность результата по соответствующим логам. В этой статье решим реальную бизнес-задачу дедупликации данных в пайплайне Kafka-to-Kafka.
Читать: https://habr.com/ru/companies/ru_mts/articles/786012/
Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.
В предыдущей части «Как использовать Spring в качестве фреймворка для Flink-приложений» я рассказывал, как реализовать минимальное Flink-приложение с использованием фреймворка Spring. Мы запустили первую Flink-задачу в поднятом в docker-compose кластере, а также проверили корректность результата по соответствующим логам. В этой статье решим реальную бизнес-задачу дедупликации данных в пайплайне Kafka-to-Kafka.
Читать: https://habr.com/ru/companies/ru_mts/articles/786012/
✍2
Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?
Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.
Эта статья — развлекательно-философская, все совпадения с реальностью — случайны, персонажи вымышлены, с точкой зрения — можно не соглашаться, но поразмышлять — стоит.
Да при чем здесь вообще деривативы? А просто у деривативов, дженги и машинного обучения — много общего, давайте разбираться.
Читать: https://habr.com/ru/articles/786220/
Когда слушаешь доклады на больших ML-конференциях, то часть докладов вызывает восторг, но другая часть на послевкусии вызывает странное чувство. Да, доклад может быть очень крутым, математика блестящей, сложность крышесносной, но что-то как будто бы не так.
Эта статья — развлекательно-философская, все совпадения с реальностью — случайны, персонажи вымышлены, с точкой зрения — можно не соглашаться, но поразмышлять — стоит.
Да при чем здесь вообще деривативы? А просто у деривативов, дженги и машинного обучения — много общего, давайте разбираться.
Читать: https://habr.com/ru/articles/786220/
Визуализация статистики о том, что и так все знают
Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям.
Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.
Читать: https://habr.com/ru/companies/alfa/articles/786524/
Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям.
Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.
Читать: https://habr.com/ru/companies/alfa/articles/786524/
👍1
Forecasting Mini-Course Sales или же Прогнозирование продаж мини-курсов по нашему на Kaggle
Привет читатель,эта стать является переводом решений соревнования Forecasting Mini‑Course Sales на Kaggle и дополнениями от автора данной статьи.
Новички и уже хлебавшие данные люди могут найти здесь что-то интересное или новое,да и в принципе провести время полезнее ,чем листать ленту в тиктоке или запрещенных сетях.
Приятного прочтения.
погрузись в пучину алгоритмических мыслей
Читать: https://habr.com/ru/articles/786574/
Привет читатель,эта стать является переводом решений соревнования Forecasting Mini‑Course Sales на Kaggle и дополнениями от автора данной статьи.
Новички и уже хлебавшие данные люди могут найти здесь что-то интересное или новое,да и в принципе провести время полезнее ,чем листать ленту в тиктоке или запрещенных сетях.
Приятного прочтения.
погрузись в пучину алгоритмических мыслей
Читать: https://habr.com/ru/articles/786574/
⚡2
Spark не для чайников: где???
Apache Spark уже давно перестал быть просто технологией и превратился в своего рода стандарт для обработки больших данных. Этот фреймворк, сочетающий в себе скорость, надежность и масштабируемость, вышел далеко за пределы простого инструмента, превратившись в надежного партнера для огромного числа проектов. Поэтому, когда речь заходит о масштабных вычислениях и эффективной обработке данных, Spark - первое, что приходит на ум. Отсюда и большой интерес к нему, в том числе со стороны начинающих инженеров.
В мире Apache Spark начинающим точно не пропадешь: статьи, уроки, курсы - на любой вкус. Что хабр, что медиум, а так же другие онлайн-платформы просто завалены статьями, где вам в 100500-ый раз говорят про SparkContext, Driver и Executor, приводят тривиальные примеры кода из официальной документации (ок-ок, поправлюсь - часто все же с небольшими изменениями), читают уже заезженных датасет с поездками такси в Нью-Йорке и делают какие-то тривиальные агрегации, рассуждают с умным видом про разницу coalesce и repartition и т.п. Не отстают и произовдители курсов класса "Войти в ИТ" - как известные онлайн-школы, так и "частники" на порталах типа Udemy, Pluralsight и т.п. Выбор курсов по Spark там очень велик.
А в чем, собственно, проблема то ===>
Читать: https://habr.com/ru/articles/784848/
Apache Spark уже давно перестал быть просто технологией и превратился в своего рода стандарт для обработки больших данных. Этот фреймворк, сочетающий в себе скорость, надежность и масштабируемость, вышел далеко за пределы простого инструмента, превратившись в надежного партнера для огромного числа проектов. Поэтому, когда речь заходит о масштабных вычислениях и эффективной обработке данных, Spark - первое, что приходит на ум. Отсюда и большой интерес к нему, в том числе со стороны начинающих инженеров.
В мире Apache Spark начинающим точно не пропадешь: статьи, уроки, курсы - на любой вкус. Что хабр, что медиум, а так же другие онлайн-платформы просто завалены статьями, где вам в 100500-ый раз говорят про SparkContext, Driver и Executor, приводят тривиальные примеры кода из официальной документации (ок-ок, поправлюсь - часто все же с небольшими изменениями), читают уже заезженных датасет с поездками такси в Нью-Йорке и делают какие-то тривиальные агрегации, рассуждают с умным видом про разницу coalesce и repartition и т.п. Не отстают и произовдители курсов класса "Войти в ИТ" - как известные онлайн-школы, так и "частники" на порталах типа Udemy, Pluralsight и т.п. Выбор курсов по Spark там очень велик.
А в чем, собственно, проблема то ===>
Читать: https://habr.com/ru/articles/784848/
❤3
Снежинка, Data Vault, Anchor Modeling. Какая методология проектирования DWH подойдет для вашего бизнеса?
Зачем тратить время на выбор методологии построения DWH? Крайне важно правильно выбрать методологию моделирования данных для хранилища еще на этапе проектирования, это поможет обеспечить необходимый уровень гибкости и масштабируемости, а также позволит синхронизоваться с поставленными бизнес-задачами.
Сравниваем Снежинку, Data Vault и Anchor Modeling и предлагаем алгоритм выбора методологии построения DWH.
Читать: https://habr.com/ru/articles/786822/
Зачем тратить время на выбор методологии построения DWH? Крайне важно правильно выбрать методологию моделирования данных для хранилища еще на этапе проектирования, это поможет обеспечить необходимый уровень гибкости и масштабируемости, а также позволит синхронизоваться с поставленными бизнес-задачами.
Сравниваем Снежинку, Data Vault и Anchor Modeling и предлагаем алгоритм выбора методологии построения DWH.
Читать: https://habr.com/ru/articles/786822/
Forwarded from Нейроканал
10 библиотек, которые сэкономят вам часы работы над EDA
Разведочный анализ данных (EDA) — один из важнейших начальных этапов работы с данными. Он позволяет выявить скрытые закономерности, тенденции, аномалии и сформировать гипотезы для дальнейших исследований.
В данной статье представлены 10 библиотек, способных автоматизировать этот процесс с помощью нескольких строк кода на Python.
#статья #eda
Разведочный анализ данных (EDA) — один из важнейших начальных этапов работы с данными. Он позволяет выявить скрытые закономерности, тенденции, аномалии и сформировать гипотезы для дальнейших исследований.
В данной статье представлены 10 библиотек, способных автоматизировать этот процесс с помощью нескольких строк кода на Python.
#статья #eda
❤2👍1
Основы обработки радиолокационных данных дистанционного зондирования Земли
В настоящее время все более востребованными становятся данные радиолокационного наблюдения (РЛН) с космических аппаратов дистанционного зондирования Земли. Наблюдая повышенный интерес к этой предметной области с одной стороны и явный недостаток информационных материалов по теме обработки радиолокационных данных ДЗЗ с другой, решили написать статью, которая, надеемся, будет полезна для всех интересующихся темой ДЗЗ.
Читать: https://habr.com/ru/articles/787074/
В настоящее время все более востребованными становятся данные радиолокационного наблюдения (РЛН) с космических аппаратов дистанционного зондирования Земли. Наблюдая повышенный интерес к этой предметной области с одной стороны и явный недостаток информационных материалов по теме обработки радиолокационных данных ДЗЗ с другой, решили написать статью, которая, надеемся, будет полезна для всех интересующихся темой ДЗЗ.
Читать: https://habr.com/ru/articles/787074/