«Инженеров данных заменит автоматика» и другие мифы о DE
Инженеры данных (англ. data engineer) готовят данные для анализа, машинного обучения и других целей. В деталях это означает множество операций с данными: сбор, хранение, обработка, интеграция, трансформация и представление в нужной для работы приложений и систем форме.
Из краткого определения сложно понять нюансы профессии и тем более захотеть стать инженером данных. Поэтому мы с коллегами собрали мифы о data engineering и выделили наиболее популярные.
Если вы неплохо знакомы с работой дата-инженера, мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными. Но не делайте поспешных выводов: при подготовке статьи мы тоже узнали что-то новое.
Читать: https://habr.com/ru/specials/740058/
Инженеры данных (англ. data engineer) готовят данные для анализа, машинного обучения и других целей. В деталях это означает множество операций с данными: сбор, хранение, обработка, интеграция, трансформация и представление в нужной для работы приложений и систем форме.
Из краткого определения сложно понять нюансы профессии и тем более захотеть стать инженером данных. Поэтому мы с коллегами собрали мифы о data engineering и выделили наиболее популярные.
Если вы неплохо знакомы с работой дата-инженера, мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными. Но не делайте поспешных выводов: при подготовке статьи мы тоже узнали что-то новое.
Читать: https://habr.com/ru/specials/740058/
Дообучение модели машинного перевода
Разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей. Захотелось дообучить такую модель самому, но пришлось приложить усилия, чтобы найти понятный пример. Поэтому после того, как код заработал, решил поделиться скриптами.
Читать: https://habr.com/ru/articles/738086/
Разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей. Захотелось дообучить такую модель самому, но пришлось приложить усилия, чтобы найти понятный пример. Поэтому после того, как код заработал, решил поделиться скриптами.
Читать: https://habr.com/ru/articles/738086/
Почему Trino такой быстрый: динамические фильтры
Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.
Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.
Рассмотрим реализацию динамических фильтров на примере Trino.
Узнать, как работают динамические фильтры
Читать: https://habr.com/ru/companies/cedrusdata/articles/740274/
Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.
Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.
Рассмотрим реализацию динамических фильтров на примере Trino.
Узнать, как работают динамические фильтры
Читать: https://habr.com/ru/companies/cedrusdata/articles/740274/
Расчет скидки за первый и последний этаж в Excel (Часть 2)
В первой части иллюстрированной инструкции по проведению расчета величины скидки за первый и последний этаж был показан порядок сбора данных с сайтов объявлений силами Excel и первичный анализ собранных данных.
Во второй части завершаем подготовку данных и рассчитываем величину скидки за первый и последний этаж.
Читать: https://habr.com/ru/articles/740302/
В первой части иллюстрированной инструкции по проведению расчета величины скидки за первый и последний этаж был показан порядок сбора данных с сайтов объявлений силами Excel и первичный анализ собранных данных.
Во второй части завершаем подготовку данных и рассчитываем величину скидки за первый и последний этаж.
Читать: https://habr.com/ru/articles/740302/
Как Почта моделирует риски потери отправлений
Привет! Я Кирилл Мамонов, главный аналитик отдела монетизации данных в Почтатехе. Расскажу, как мы создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.
Читать: https://habr.com/ru/companies/posttech/articles/739964/
Привет! Я Кирилл Мамонов, главный аналитик отдела монетизации данных в Почтатехе. Расскажу, как мы создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.
Читать: https://habr.com/ru/companies/posttech/articles/739964/
Кейс внедрение Dbt в Детском Мире
Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире.
На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop.
Читать: https://habr.com/ru/articles/740348/
Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире.
На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop.
Читать: https://habr.com/ru/articles/740348/
Дайджест Python #10: генерация голоса и оценка скорости Mojo
Собрали новости Python с 15 по 31 мая. Узнайте, как сгенерировать голос человека на Python и во сколько раз Mojo быстрее Python на самом деле.
Читать: «Дайджест Python #10: генерация голоса и оценка скорости Mojo»
Собрали новости Python с 15 по 31 мая. Узнайте, как сгенерировать голос человека на Python и во сколько раз Mojo быстрее Python на самом деле.
Читать: «Дайджест Python #10: генерация голоса и оценка скорости Mojo»
Tproger
Новости Python #10: генерация голоса и оценка скорости Mojo
Собрали новости Python с 15 по 31 мая. Узнайте, как сгенерировать голос человека на Python и во сколько раз Mojo быстрее Python на самом деле.
Практика работы с файлами и базой данных в Laravel и ChatGPT
Рассказываем, как ChatGPT справилась с обработкой данных. Модель попросили взять данные из таблицы, перенести их в БД и экспортировать в csv.
Читать: «Практика работы с файлами и базой данных в Laravel и ChatGPT»
Рассказываем, как ChatGPT справилась с обработкой данных. Модель попросили взять данные из таблицы, перенести их в БД и экспортировать в csv.
Читать: «Практика работы с файлами и базой данных в Laravel и ChatGPT»
Tproger
Практика работы с файлами и базой данных в Laravel и ChatGPT
Рассказываем, как ChatGPT справилась с обработкой данных. Модель попросили взять данные из таблицы, перенести их в БД и экспортировать в csv.
Дайджест Python #10: генерация голоса и оценка скорости Mojo
Собрали новости Python с 15 по 31 мая. Узнайте, как сгенерировать голос человека на Python и во сколько раз Mojo быстрее Python на самом деле.
Читать: «Дайджест Python #10: генерация голоса и оценка скорости Mojo»
Собрали новости Python с 15 по 31 мая. Узнайте, как сгенерировать голос человека на Python и во сколько раз Mojo быстрее Python на самом деле.
Читать: «Дайджест Python #10: генерация голоса и оценка скорости Mojo»
Tproger
Новости Python #10: генерация голоса и оценка скорости Mojo
Собрали новости Python с 15 по 31 мая. Узнайте, как сгенерировать голос человека на Python и во сколько раз Mojo быстрее Python на самом деле.
Спринт-интенсив Visiology: +300 к HR-карме бренда и куча красивых дашбордов
Привет, Хабр! Буквально на прошлой неделе мы завершили наш небольшой спринт-интенсив. Он доказал, что за 10 дней вполне можно познакомиться с платформой Visiology до такой степени, чтобы начать делать свои собственные дашборды, разбираться с особенностями загрузки данных и построения модели и другими нюансами работы с BI. Что интересно, в нашем спринте принимали участие как опытные BI-щики, так и начинающие специалисты. Под катом — несколько мнений активных участников, а также примеры дашбордов, созданных в ходе обучения.
Узнать, как это было...
Читать: https://habr.com/ru/companies/visiology/articles/740438/
Привет, Хабр! Буквально на прошлой неделе мы завершили наш небольшой спринт-интенсив. Он доказал, что за 10 дней вполне можно познакомиться с платформой Visiology до такой степени, чтобы начать делать свои собственные дашборды, разбираться с особенностями загрузки данных и построения модели и другими нюансами работы с BI. Что интересно, в нашем спринте принимали участие как опытные BI-щики, так и начинающие специалисты. Под катом — несколько мнений активных участников, а также примеры дашбордов, созданных в ходе обучения.
Узнать, как это было...
Читать: https://habr.com/ru/companies/visiology/articles/740438/
Is it worth it to flaunt parking rules?
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/06/is-it-worth-it-to-flaunt-parking-rules.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/06/is-it-worth-it-to-flaunt-parking-rules.html
Overview of Areas of Responsibility and Custom Security in Oracle Fusion HCM Analytics
This article provides an overview of Areas of Responsibility and how they are used to set up custom security in Oracle Fusion HCM Analytics. It provides links to additional blogs that cover detailed use cases.
Read: https://blogs.oracle.com/analytics/post/overview-of-aor-custom-security-in-hcm-analytics
This article provides an overview of Areas of Responsibility and how they are used to set up custom security in Oracle Fusion HCM Analytics. It provides links to additional blogs that cover detailed use cases.
Read: https://blogs.oracle.com/analytics/post/overview-of-aor-custom-security-in-hcm-analytics
Oracle
Overview of Areas of Responsibility and Custom Security in Oracle Fusion HCM Analytics
This article provides an overview of Areas of Responsibility and how they are used to set up custom security in Oracle Fusion HCM Analytics. It provides links to additional blogs that cover detailed use cases.
Discover Insights with Oracle Analytics Cloud and OCI AI Anomaly Detection
Learn how you can take advantage of Oracle Analytics and OCI AI Anomaly Detection to reveal insights from detected anomalies.
Read: https://blogs.oracle.com/analytics/post/discover-insights-with-oracle-analytics-cloud-and-oci-ai-anomaly-detection
Learn how you can take advantage of Oracle Analytics and OCI AI Anomaly Detection to reveal insights from detected anomalies.
Read: https://blogs.oracle.com/analytics/post/discover-insights-with-oracle-analytics-cloud-and-oci-ai-anomaly-detection
Oracle
Discover Insights with Oracle Analytics Cloud and OCI AI Anomaly Detection
Learn how you can take advantage of Oracle Analytics and OCI AI Anomaly Detection to reveal insights from detected anomalies.
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив
Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.
Читать: https://habr.com/ru/companies/avito/articles/740232/
Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.
Читать: https://habr.com/ru/companies/avito/articles/740232/
BI система на прокачку: как мы используем плагины Fine BI
Вот уже больше года, мы в BI Consult работаем с китайской платформой self service BI-анализа – Fine BI. Работаем, изучаем, интегрируем и рассказываем. На этот раз хотим сделать акцент на интересном и актуальном вопросе - Плагины.
Расскажем про магазин плагинов, составим для вас список полезных плагинов, покажем как устанавливаются плагины без смс, регистрации и одноразовых SIM карт.
В конце статьи вы найдете список всех плагинов, поддерживающих английский язык с описанием, которые подтверждены вендором и готовы к работе.
Читать: https://habr.com/ru/articles/741304/
Вот уже больше года, мы в BI Consult работаем с китайской платформой self service BI-анализа – Fine BI. Работаем, изучаем, интегрируем и рассказываем. На этот раз хотим сделать акцент на интересном и актуальном вопросе - Плагины.
Расскажем про магазин плагинов, составим для вас список полезных плагинов, покажем как устанавливаются плагины без смс, регистрации и одноразовых SIM карт.
В конце статьи вы найдете список всех плагинов, поддерживающих английский язык с описанием, которые подтверждены вендором и готовы к работе.
Читать: https://habr.com/ru/articles/741304/
Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО
Самому обеспечивать гибкость и контроль собственного ML-пайплайна — это важно. Команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов. Компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании. Но в действительности они часто оказываются более сложными и менее мощными, чем их Open-Source-конкуренты.
Читать: https://habr.com/ru/companies/vk/articles/735720/
Самому обеспечивать гибкость и контроль собственного ML-пайплайна — это важно. Команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов. Компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании. Но в действительности они часто оказываются более сложными и менее мощными, чем их Open-Source-конкуренты.
Читать: https://habr.com/ru/companies/vk/articles/735720/
Что такое Dython
Обозреваем Dython (Dynamic Python) – библиотеку Python для лёгкого анализа данных, особенно в области анализа зависимостей и корреляций.
Читать: «Что такое Dython»
Обозреваем Dython (Dynamic Python) – библиотеку Python для лёгкого анализа данных, особенно в области анализа зависимостей и корреляций.
Читать: «Что такое Dython»
Tproger
Что такое Dython / Tproger
Обозреваем Dython (Dynamic Python) – библиотеку Python для лёгкого анализа данных, особенно в области анализа зависимостей и корреляций.
Uninsightful by design
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/06/uninsightful-by-design.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/06/uninsightful-by-design.html
Меч из озера: итоги сезона больших данных
…Из Data Lake вынырнула прекрасная дева и протянула Артуру меч, и на том мече рунической вязью было начертано «Big Data». «Пусть он служит тебе верой и правдой, пронзая тьму незнания и проливая свет на самые неочевидные закономерности», — торжественно произнесла Владычица Озера. Король Артур преклонил колени и принял меч из рук девы. Затем оседлал коня и направился в сторону ближайшего дата-центра.
Сезон больших данных на Хабре подошёл к концу. Сегодня мы поговорим о том, какими знаниями вооружили нас авторы сезона, раздадим ценные артефакты, а заодно — побеседуем о перспективах больших данных с авторами сезона и экспертами Газпромбанка.
Читать: https://habr.com/ru/specials/741742/
…Из Data Lake вынырнула прекрасная дева и протянула Артуру меч, и на том мече рунической вязью было начертано «Big Data». «Пусть он служит тебе верой и правдой, пронзая тьму незнания и проливая свет на самые неочевидные закономерности», — торжественно произнесла Владычица Озера. Король Артур преклонил колени и принял меч из рук девы. Затем оседлал коня и направился в сторону ближайшего дата-центра.
Сезон больших данных на Хабре подошёл к концу. Сегодня мы поговорим о том, какими знаниями вооружили нас авторы сезона, раздадим ценные артефакты, а заодно — побеседуем о перспективах больших данных с авторами сезона и экспертами Газпромбанка.
Читать: https://habr.com/ru/specials/741742/
Oracle Analytics a Leader in Forrester Wave™ for Augmented BI Platforms
Oracle has been recognized as a Leader in The Forrester Wave™: Augmented Business Intelligence Platforms, Q2 2023, authored by Boris Evelson. Oracle’s rating in the Wave carries significant weight as Forrester Research is one of the most respected and influential analyst firms that C-level executives globally consult before making buying decisions. For our customers and partners, the position as a Leader position validates their choice to work with Oracle Analytics.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-a-leader-in-forrester-wave-for-augmented-bi-platforms
Oracle has been recognized as a Leader in The Forrester Wave™: Augmented Business Intelligence Platforms, Q2 2023, authored by Boris Evelson. Oracle’s rating in the Wave carries significant weight as Forrester Research is one of the most respected and influential analyst firms that C-level executives globally consult before making buying decisions. For our customers and partners, the position as a Leader position validates their choice to work with Oracle Analytics.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-a-leader-in-forrester-wave-for-augmented-bi-platforms
Oracle
Oracle Analytics a Leader in Forrester Wave for Augmented BI Platforms
Oracle Analytics a Leader in Forrester Wave™ for Augmented BI Platforms