Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps
Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.
Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/752458/
Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.
Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/752458/
A sports analogy for data processing rules
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/a-sports-analogy-for-data-processing-rules.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/a-sports-analogy-for-data-processing-rules.html
Свойство типа Controller Service в кастомном процессоре NiFi
В этой короткой статье я хочу показать, как использовать в качестве одного из свойств кастомного процессора NiFi стандартную службу Controller Service, а также как написать тест для такого процессора.В качестве примера будем использовать стандартную службу SSLContextService.
Читать: https://habr.com/ru/articles/752690/
В этой короткой статье я хочу показать, как использовать в качестве одного из свойств кастомного процессора NiFi стандартную службу Controller Service, а также как написать тест для такого процессора.В качестве примера будем использовать стандартную службу SSLContextService.
Читать: https://habr.com/ru/articles/752690/
Что такое Data Observability и с чем ее едят?
В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?
Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.
Рассмотрим несколько примеров.
Читать: https://habr.com/ru/companies/amvera/articles/752788/
В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?
Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.
Рассмотрим несколько примеров.
Читать: https://habr.com/ru/companies/amvera/articles/752788/
[recovery mode] Как развить в компании культуру принимать решения на основе данных
Data-driven подход - это метод управления бизнесом, основанный на анализе данных. Он позволяет компаниям принимать решения на основе фактов и цифр, а не на основе интуиции или предположений. В результате, компания может оптимизировать свою деятельность, увеличить эффективность и прибыльность, а также улучшить качество продукции или услуг. В этой статье мы рассмотрим, как внедрить data-driven подход в компанию. Так как я работала аналитиком данных, то и советы будут идти как от человека, чья основная обязанность помогать коллегам принимать решения на основе данных, однако полезными они будут и руководителям отделов, если они решили внедрить подход в своей компании.
Первый шаг во внедрении data-driven подхода - это понимание, какие данные используются в компании для принятия решений и какие еще нужны. Поговорите с коллегами и узнайте, как они принимают решения, где они берут данные и каких данных им не хватает. Обычно они с удовольствием пожалуются Вам какие данные они не могут достать.
Далее создайте продукт на основе их потребностей и покажите его коллегам. Например, создайте отчёт в Power Bi показывающий нужные показатели.
Самое важное: подойдите к каждому коллеге (если их слишком много, то можно провести вебинар) и обсудите дашборд, покажите, как им пользоваться. Вы можете найти инсайты в их зоне ответственности и показать им: "Вот видишь у тебя доля телевизоров в 45+ диагонали меньше, чем по остальным сегментам. Не дорабатываем в этом направлении." В этот момент мы продаём наш отчёт и культуру принятия решений на основе данных. Если просто отдать отчёт им никто не будет пользоваться. а) Не понятно куда нажимать, куда смотреть. Даже если у Вас визуализации на высоком уровне, не удивляйтесь, что пользователи даже не найдут как отфильтровать данные за нужный им период. б) И без этих отчётов как -то работали же. Поэтому мы должны донести ценность до пользователя. Не просто показать, где найти данные, но и как принимать решения на их основе. Например, раньше подготовка к переговорам занимала 2 дня, а сейчас 3 часа, благодаря тому что все данные уже есть. Осталось просто сделать нужные скриншоты и вставить их в презентацию.
Читать: https://habr.com/ru/articles/753158/
Data-driven подход - это метод управления бизнесом, основанный на анализе данных. Он позволяет компаниям принимать решения на основе фактов и цифр, а не на основе интуиции или предположений. В результате, компания может оптимизировать свою деятельность, увеличить эффективность и прибыльность, а также улучшить качество продукции или услуг. В этой статье мы рассмотрим, как внедрить data-driven подход в компанию. Так как я работала аналитиком данных, то и советы будут идти как от человека, чья основная обязанность помогать коллегам принимать решения на основе данных, однако полезными они будут и руководителям отделов, если они решили внедрить подход в своей компании.
Первый шаг во внедрении data-driven подхода - это понимание, какие данные используются в компании для принятия решений и какие еще нужны. Поговорите с коллегами и узнайте, как они принимают решения, где они берут данные и каких данных им не хватает. Обычно они с удовольствием пожалуются Вам какие данные они не могут достать.
Далее создайте продукт на основе их потребностей и покажите его коллегам. Например, создайте отчёт в Power Bi показывающий нужные показатели.
Самое важное: подойдите к каждому коллеге (если их слишком много, то можно провести вебинар) и обсудите дашборд, покажите, как им пользоваться. Вы можете найти инсайты в их зоне ответственности и показать им: "Вот видишь у тебя доля телевизоров в 45+ диагонали меньше, чем по остальным сегментам. Не дорабатываем в этом направлении." В этот момент мы продаём наш отчёт и культуру принятия решений на основе данных. Если просто отдать отчёт им никто не будет пользоваться. а) Не понятно куда нажимать, куда смотреть. Даже если у Вас визуализации на высоком уровне, не удивляйтесь, что пользователи даже не найдут как отфильтровать данные за нужный им период. б) И без этих отчётов как -то работали же. Поэтому мы должны донести ценность до пользователя. Не просто показать, где найти данные, но и как принимать решения на их основе. Например, раньше подготовка к переговорам занимала 2 дня, а сейчас 3 часа, благодаря тому что все данные уже есть. Осталось просто сделать нужные скриншоты и вставить их в презентацию.
Читать: https://habr.com/ru/articles/753158/
👍1
Эффективная загрузка внешних данных в корпоративное хранилище: опыт «Магнита»
Сегодня я хотел бы поделиться с вами опытом, который мы приобрели в компании «Магнит» при загрузке данных из внешних источников в корпоративное хранилище данных. Расскажу о проблемах, с которыми мы столкнулись и решениях, которые нам помогли облегчить процесс загрузки, повысить эффективность и ускорить получение доступа к данным.
Читать: https://habr.com/ru/companies/magnit/articles/753002/
Сегодня я хотел бы поделиться с вами опытом, который мы приобрели в компании «Магнит» при загрузке данных из внешних источников в корпоративное хранилище данных. Расскажу о проблемах, с которыми мы столкнулись и решениях, которые нам помогли облегчить процесс загрузки, повысить эффективность и ускорить получение доступа к данным.
Читать: https://habr.com/ru/companies/magnit/articles/753002/
Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения
Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.
Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?
Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).
* Целостность: надёжность используемого датасета
* Точность: степень валидности и корректности присвоенных аннотаций
* Согласованность: степень согласованности присвоенных аннотаций во всём датасете
Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.
Читать: https://habr.com/ru/articles/740978/
Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.
Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?
Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).
* Целостность: надёжность используемого датасета
* Точность: степень валидности и корректности присвоенных аннотаций
* Согласованность: степень согласованности присвоенных аннотаций во всём датасете
Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.
Читать: https://habr.com/ru/articles/740978/
👍1
Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее
Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…
Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.
Читать: https://habr.com/ru/companies/evraz/articles/682046/
Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…
Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.
Читать: https://habr.com/ru/companies/evraz/articles/682046/
Span of Control & Manager Assignment – A Dataset based Approach
Organizational structures are evolving and managers are key in defining the structure and understanding the decision flow within any organization. Span of Control is one of the essential KPIs that play a crucial role in boosting productivity and fostering organizational growth. Regular analysis of spans ensures the their efficiency and effectiveness.This article explains how to fetch a manager's direct reports count (span) efficiently to create a manager-employee relationship report.
Read: https://blogs.oracle.com/analytics/post/span-of-control-manager-assignment-a-dataset-based-approach
Organizational structures are evolving and managers are key in defining the structure and understanding the decision flow within any organization. Span of Control is one of the essential KPIs that play a crucial role in boosting productivity and fostering organizational growth. Regular analysis of spans ensures the their efficiency and effectiveness.This article explains how to fetch a manager's direct reports count (span) efficiently to create a manager-employee relationship report.
Read: https://blogs.oracle.com/analytics/post/span-of-control-manager-assignment-a-dataset-based-approach
Oracle
Span of Control & Manager Assignment – A Dataset based Approach
Organizational structures are evolving year over year and managers are key in defining the structure and understanding the decision flow within any organization. Span of Control is one of essential KPIs that plays a crucial role in boosting productivity and…
ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock
Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), запускаем серию статей, в которых поднимем актуальные темы и предложим свои решения проблемных ситуаций онлайн-ритейла. Каждый день мы решаем бизнес-задачи ритейла по повышению продаж, сокращению издержек и управлению рисками.
Стартуем со статьи, в которой рассмотрим одну из самых распространенных проблем в онлайн-ритейле – отсутствие товара (out-of-stock) в моменте и поделимся рекомендациями по ее устранению.
Читать: https://habr.com/ru/companies/automacon/articles/754092/
Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), запускаем серию статей, в которых поднимем актуальные темы и предложим свои решения проблемных ситуаций онлайн-ритейла. Каждый день мы решаем бизнес-задачи ритейла по повышению продаж, сокращению издержек и управлению рисками.
Стартуем со статьи, в которой рассмотрим одну из самых распространенных проблем в онлайн-ритейле – отсутствие товара (out-of-stock) в моменте и поделимся рекомендациями по ее устранению.
Читать: https://habr.com/ru/companies/automacon/articles/754092/
Какие темы в IT вас интересуют больше всего?
Anonymous Poll
10%
Ещё только начинаю, не выбрал конкретное направление
34%
ИИ, нейронные сети, машинное обучение
5%
Управление командами / проектами
11%
BI-аналитика
11%
Продуктовая аналитика
0%
Маркетинговая аналитика
23%
Работа с большими данными
5%
Другое / не IT (пожалуйста, напишите в комментариях ваш вариант)
Дорожная карта Data Science 2023: пошаговый гайд
Дорожная карта Data Science 2023, созданная практикующим специалистом. На диаграмме Исикавы 7 ветвей с инструментами учёного по данным.
Читать: «Дорожная карта Data Science 2023: пошаговый гайд»
Дорожная карта Data Science 2023, созданная практикующим специалистом. На диаграмме Исикавы 7 ветвей с инструментами учёного по данным.
Читать: «Дорожная карта Data Science 2023: пошаговый гайд»
Tproger
Дорожная карта Data Science 2023: пошаговый гайд / Tproger
Дорожная карта Data Science 2023, созданная практикующим специалистом. На диаграмме Исикавы 7 ветвей с инструментами учёного по данным.
Бизнес-ключ и суррогатный ключ нужны оба
Пару дней назад я агитировал всеми уважаемого эксперта в хранилищах данных за новый стандарт суррогатных ключей UUIDv7 для высоконагруженных систем. И я получил от него ответ, что суррогатные ключи не нужны, а нужны лишь бизнес-ключи (естественные ключи). Этот абсурдный ответ заставил меня написать ответное письмо, а затем и эту статью.
Читать: https://habr.com/ru/articles/754160/
Пару дней назад я агитировал всеми уважаемого эксперта в хранилищах данных за новый стандарт суррогатных ключей UUIDv7 для высоконагруженных систем. И я получил от него ответ, что суррогатные ключи не нужны, а нужны лишь бизнес-ключи (естественные ключи). Этот абсурдный ответ заставил меня написать ответное письмо, а затем и эту статью.
Читать: https://habr.com/ru/articles/754160/
S3 не сразу строилось
Привет, Хабр. Вашему вниманию предлагается сокращённый перевод эпичного поста под авторством Энди Уорфилда, вице-президента и заслуженного инженера в компании Amazon, занятого разработкой S3. Пост основан на его пленарном выступлении с конференции USENIX FAST ‘23 и затрагивает три различных аспекта, касающихся выстраивания и эксплуатации такого огромного хранилища данных как S3. Если пост окажется интересным - рассмотрим вариант перевести и вторую часть
Читать: https://habr.com/ru/articles/754340/
Привет, Хабр. Вашему вниманию предлагается сокращённый перевод эпичного поста под авторством Энди Уорфилда, вице-президента и заслуженного инженера в компании Amazon, занятого разработкой S3. Пост основан на его пленарном выступлении с конференции USENIX FAST ‘23 и затрагивает три различных аспекта, касающихся выстраивания и эксплуатации такого огромного хранилища данных как S3. Если пост окажется интересным - рассмотрим вариант перевести и вторую часть
Читать: https://habr.com/ru/articles/754340/
👍1
14 типов атак, которые должны выявлять системы лицевой биометрии
Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.
Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.
Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.
И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.
Читать: https://habr.com/ru/articles/750326/
Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.
Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.
Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.
И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.
Читать: https://habr.com/ru/articles/750326/
Apache Spark 3.4 для Databricks Runtime 13.0
Databricks — это аналитическая платформа для облачных вычислений, работы с большими данными и машинного обучения. Компания разрабатывает data lake и работает с фреймворком Apache Spark. Приводим перевод статьи Databricks о нововведениях Apache Spark 3.4, который вошел в релиз Databricks Runtime 13.0.
Читать: https://habr.com/ru/companies/southbridge/articles/754464/
Databricks — это аналитическая платформа для облачных вычислений, работы с большими данными и машинного обучения. Компания разрабатывает data lake и работает с фреймворком Apache Spark. Приводим перевод статьи Databricks о нововведениях Apache Spark 3.4, который вошел в релиз Databricks Runtime 13.0.
Читать: https://habr.com/ru/companies/southbridge/articles/754464/
Analytics Learning Library - Check out the Oracle Analytics YouTube Videos
Oracle Analytics YouTube Videos
Read: https://blogs.oracle.com/proactivesupportepm/post/oracle-analytics-youtube-videos
Oracle Analytics YouTube Videos
Read: https://blogs.oracle.com/proactivesupportepm/post/oracle-analytics-youtube-videos
Oracle
Oracle Analytics YouTube Videos
Choosing the proper Oracle Autonomous Data Warehouse database service name for Oracle Analytics Cloud
This article describes each built-in database service name in Oracle Autonomous Data Warehouse (ADW) and guides in choosing the best one for Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/choosing-the-proper-oracle-autonomous-data-warehouse-database-service-name-for-oracle-analytics-cloud
This article describes each built-in database service name in Oracle Autonomous Data Warehouse (ADW) and guides in choosing the best one for Oracle Analytics Cloud.
Read: https://blogs.oracle.com/analytics/post/choosing-the-proper-oracle-autonomous-data-warehouse-database-service-name-for-oracle-analytics-cloud
Oracle
Choosing the proper Oracle Autonomous Data Warehouse database service name for Oracle Analytics Cloud
This blog describes each built-in database service name in Oracle Autonomous Data Warehouse (ADW) and guides choosing the best one for Oracle Analytics Cloud.
👍1
Кто, как и ради чего создаёт онлайн-образование в IT-сфере: истории пяти экспертов
Рынок онлайн-образования постоянно растет. Загляните хотя бы в эту статью — сплошь растущие графики. Лучше всего в онлайне развиваются те ниши, в которых сложно получить классическое образование: например, IT.
Что не так с IT в университетах? Коротко: многие учебники устарели, преподаватели не всегда работают по профессии, долгая учёба и мало практики. За те 4 года, что студент получает знания, например, по программированию, принципы профессии уже поменялись.
12 лет назад мы решили обучать айтишников актуальным навыкам с отработкой полученных знаний на реальных задачах и проектах бизнеса. Для качественной подготовки курса нужны крутые эксперты, которые помогут составить грамотную программу курса, расскажут, что же актуально и как это использовать. Но как привлечь состоявшихся специалистов в образование?
Именно об этом — под катом. Пятеро создателей курса Нетологии «Data Science с нуля до middle» расскажут, почему пришли в эдтех, как ищут успешные решения в современном образовании и почему им всё это нравится.
Читать: https://habr.com/ru/specials/753982/
Рынок онлайн-образования постоянно растет. Загляните хотя бы в эту статью — сплошь растущие графики. Лучше всего в онлайне развиваются те ниши, в которых сложно получить классическое образование: например, IT.
Что не так с IT в университетах? Коротко: многие учебники устарели, преподаватели не всегда работают по профессии, долгая учёба и мало практики. За те 4 года, что студент получает знания, например, по программированию, принципы профессии уже поменялись.
12 лет назад мы решили обучать айтишников актуальным навыкам с отработкой полученных знаний на реальных задачах и проектах бизнеса. Для качественной подготовки курса нужны крутые эксперты, которые помогут составить грамотную программу курса, расскажут, что же актуально и как это использовать. Но как привлечь состоявшихся специалистов в образование?
Именно об этом — под катом. Пятеро создателей курса Нетологии «Data Science с нуля до middle» расскажут, почему пришли в эдтех, как ищут успешные решения в современном образовании и почему им всё это нравится.
Читать: https://habr.com/ru/specials/753982/
Какой язык программирования выбрать? Часть 4: Spark
Особенность Spark в том, что другого такого фреймворка нет в принципе. Flink, Apache NiFi и другие инструменты закрывают не все задачи. Лично моё мнение – Spark на голову выше их всех. Он уникален, широко распространён и де-факто является стандартом индустрии обработки больших данных.
Читать: https://habr.com/ru/companies/kryptonite/articles/754486/
Особенность Spark в том, что другого такого фреймворка нет в принципе. Flink, Apache NiFi и другие инструменты закрывают не все задачи. Лично моё мнение – Spark на голову выше их всех. Он уникален, широко распространён и де-факто является стандартом индустрии обработки больших данных.
Читать: https://habr.com/ru/companies/kryptonite/articles/754486/