Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 1
Этот материал начинает серию из трех постов о том, как объяснить проблемы дата-сайентистов сотрудникам вашей компании, которые ничего не понимают в data science. В первой части я доступно расскажу о нынешнем положении специалистов, их проблемах и типичных запросах, с которыми они сталкиваются.
Читать: https://habr.com/ru/companies/rosbank/articles/750176/
Этот материал начинает серию из трех постов о том, как объяснить проблемы дата-сайентистов сотрудникам вашей компании, которые ничего не понимают в data science. В первой части я доступно расскажу о нынешнем положении специалистов, их проблемах и типичных запросах, с которыми они сталкиваются.
Читать: https://habr.com/ru/companies/rosbank/articles/750176/
Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков
Привет! Меня зовут Наташа Базанова, я старший аналитик Selectel. В компании я работаю три года: за это время команда аналитиков сильно расширилась, число задач и их амбициозность выросли. Как и любая другая команда, мы столкнулись с проблемами, связанными с несовершенством бизнес-процессов.
В этом тексте расскажу, что мы предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого нам пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу. Надеюсь, кому-то наш опыт и рекомендации пойдут на пользу — сэкономят время, деньги и нервы. А если вы проходили подобный путь, делитесь своей историей в комментариях!
Читать: https://habr.com/ru/companies/selectel/articles/737590/
Привет! Меня зовут Наташа Базанова, я старший аналитик Selectel. В компании я работаю три года: за это время команда аналитиков сильно расширилась, число задач и их амбициозность выросли. Как и любая другая команда, мы столкнулись с проблемами, связанными с несовершенством бизнес-процессов.
В этом тексте расскажу, что мы предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого нам пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу. Надеюсь, кому-то наш опыт и рекомендации пойдут на пользу — сэкономят время, деньги и нервы. А если вы проходили подобный путь, делитесь своей историей в комментариях!
Читать: https://habr.com/ru/companies/selectel/articles/737590/
Искусственный интеллект в России и мире: эволюция, тенденции, будущее
Сегодня искусственный интеллект активно задействуют в промышленности, строительстве, ТЭК и других сферах. Усиливают потенциал данной технологии новые суперкомпьютеры, которые помогают обучать ИИ для выполнения соответствующих задач.
Проекты ИИ получают поддержку со стороны государства. В 2021 году стартовал Федеральный проект «Искусственный интеллект», в рамках которого в ИИ будет вложено 24,6 млрд ₽ в течении 5 лет. Уже было профинансировано создание 6 новых научно-исследовательских центров в ведущих университетах и НИИ.
Возникает необходимость не только в оценке эффективности технологий, но и в обосновании их экономической выгоды. В этой статье я рассмотрю тенденции развития ИИ в России, также его возможное будущее и расскажу, как мы применяем искусственный интеллект в работе с данными.
Читать: https://habr.com/ru/companies/inferit/articles/739514/
Сегодня искусственный интеллект активно задействуют в промышленности, строительстве, ТЭК и других сферах. Усиливают потенциал данной технологии новые суперкомпьютеры, которые помогают обучать ИИ для выполнения соответствующих задач.
Проекты ИИ получают поддержку со стороны государства. В 2021 году стартовал Федеральный проект «Искусственный интеллект», в рамках которого в ИИ будет вложено 24,6 млрд ₽ в течении 5 лет. Уже было профинансировано создание 6 новых научно-исследовательских центров в ведущих университетах и НИИ.
Возникает необходимость не только в оценке эффективности технологий, но и в обосновании их экономической выгоды. В этой статье я рассмотрю тенденции развития ИИ в России, также его возможное будущее и расскажу, как мы применяем искусственный интеллект в работе с данными.
Читать: https://habr.com/ru/companies/inferit/articles/739514/
Применение Python для сбора и предобработки данных цифрового следа
Python для сбора и предобработки данных цифрового следа.
Про цифровой след обычно говорят лишь в общих чертах, и описание программирования для работы с ним лишь упоминают. В данной статье рассмотрен набор библиотек Python и приемов, которые можно использовать для сбора и предобработки данных цифрового следа.
Читать: https://habr.com/ru/articles/739572/
Python для сбора и предобработки данных цифрового следа.
Про цифровой след обычно говорят лишь в общих чертах, и описание программирования для работы с ним лишь упоминают. В данной статье рассмотрен набор библиотек Python и приемов, которые можно использовать для сбора и предобработки данных цифрового следа.
Читать: https://habr.com/ru/articles/739572/
ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене
Разберем популярные паттерны проектирования ML-систем для ответа на следующие вопросы:
1. Какой способ выбрать для деплоя модели в production?
2. Как затащить составной ML-пайплайн в real-time сервис?
3. Каким способом тестировать новую версию модели?
Читать: https://habr.com/ru/articles/739316/
Разберем популярные паттерны проектирования ML-систем для ответа на следующие вопросы:
1. Какой способ выбрать для деплоя модели в production?
2. Как затащить составной ML-пайплайн в real-time сервис?
3. Каким способом тестировать новую версию модели?
Читать: https://habr.com/ru/articles/739316/
Cache warming в Qlik Sense из подручных материалов
Привет Хабр!
Мы - Соколкин Олег, Юндин Андрей и Монахов Алексей - сотрудники стрима "Мобильная аналитика и отчетность" Группы "Иннотех". Сегодня мы расскажем вам о том, как сделать ваши приложения Qlik Sense быстрее. Речь пойдет не про оптимизацию, а про так называемый прогрев кэша.
Читать: https://habr.com/ru/companies/innotech/articles/739562/
Привет Хабр!
Мы - Соколкин Олег, Юндин Андрей и Монахов Алексей - сотрудники стрима "Мобильная аналитика и отчетность" Группы "Иннотех". Сегодня мы расскажем вам о том, как сделать ваши приложения Qlik Sense быстрее. Речь пойдет не про оптимизацию, а про так называемый прогрев кэша.
Читать: https://habr.com/ru/companies/innotech/articles/739562/
Как ускорить вывод ML-моделей в 4 раза, или Как может выглядеть экосистема МLOps в банке
Привет, я Андрей Качетов, Head of ML Operations в Альфа-Банке. Отвечаю за опромышливание всех ML-моделей в банке, строю новую платформу MLOps, а также формирую единый подход для работы с модельными данными (Feature Store).
В статье, без картинок с «бесконечностями» Ops’ов, расскажу, как может выглядеть полноценный конвейер MLOps, что умеет и немного о том, как мы пришли к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию.
Читать: https://habr.com/ru/companies/alfa/articles/739792/
Привет, я Андрей Качетов, Head of ML Operations в Альфа-Банке. Отвечаю за опромышливание всех ML-моделей в банке, строю новую платформу MLOps, а также формирую единый подход для работы с модельными данными (Feature Store).
В статье, без картинок с «бесконечностями» Ops’ов, расскажу, как может выглядеть полноценный конвейер MLOps, что умеет и немного о том, как мы пришли к максимальной автоматизации процесса вывода моделей в промышленную эксплуатацию.
Читать: https://habr.com/ru/companies/alfa/articles/739792/
Оптимизация выборок в больших коллекциях MongoDB
При работе с большими коллекциями в MongoDB, размер которых превышал десятки миллионов записей, возникла необходимость формировать случайные выборки уникальных значений полей, принадлежащих документам этой коллекции.
Для такой операции, в MongoDB штатно предусмотрена функция $sample, которую можно использовать в составе pipeline при проведении агрегации данных. Однако, как показала практика, выполнение выборки полей таким образом на большой коллекции может занимать весьма ощутимое время. Чтобы сократить время выполнения таких выборок, потребовалось разработать собственный алгоритм, который на порядки увеличил скорость работы. Ниже приведен подход и вариант реализации данного алгоритма.
Читать: https://habr.com/ru/companies/stc_spb/articles/735512/
При работе с большими коллекциями в MongoDB, размер которых превышал десятки миллионов записей, возникла необходимость формировать случайные выборки уникальных значений полей, принадлежащих документам этой коллекции.
Для такой операции, в MongoDB штатно предусмотрена функция $sample, которую можно использовать в составе pipeline при проведении агрегации данных. Однако, как показала практика, выполнение выборки полей таким образом на большой коллекции может занимать весьма ощутимое время. Чтобы сократить время выполнения таких выборок, потребовалось разработать собственный алгоритм, который на порядки увеличил скорость работы. Ниже приведен подход и вариант реализации данного алгоритма.
Читать: https://habr.com/ru/companies/stc_spb/articles/735512/
«Инженеров данных заменит автоматика» и другие мифы о DE
Инженеры данных (англ. data engineer) готовят данные для анализа, машинного обучения и других целей. В деталях это означает множество операций с данными: сбор, хранение, обработка, интеграция, трансформация и представление в нужной для работы приложений и систем форме.
Из краткого определения сложно понять нюансы профессии и тем более захотеть стать инженером данных. Поэтому мы с коллегами собрали мифы о data engineering и выделили наиболее популярные.
Если вы неплохо знакомы с работой дата-инженера, мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными. Но не делайте поспешных выводов: при подготовке статьи мы тоже узнали что-то новое.
Читать: https://habr.com/ru/specials/740058/
Инженеры данных (англ. data engineer) готовят данные для анализа, машинного обучения и других целей. В деталях это означает множество операций с данными: сбор, хранение, обработка, интеграция, трансформация и представление в нужной для работы приложений и систем форме.
Из краткого определения сложно понять нюансы профессии и тем более захотеть стать инженером данных. Поэтому мы с коллегами собрали мифы о data engineering и выделили наиболее популярные.
Если вы неплохо знакомы с работой дата-инженера, мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными. Но не делайте поспешных выводов: при подготовке статьи мы тоже узнали что-то новое.
Читать: https://habr.com/ru/specials/740058/
Дообучение модели машинного перевода
Разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей. Захотелось дообучить такую модель самому, но пришлось приложить усилия, чтобы найти понятный пример. Поэтому после того, как код заработал, решил поделиться скриптами.
Читать: https://habr.com/ru/articles/738086/
Разработчики машинного перевода часто рассказывают об использовании предварительно обученных моделей. Захотелось дообучить такую модель самому, но пришлось приложить усилия, чтобы найти понятный пример. Поэтому после того, как код заработал, решил поделиться скриптами.
Читать: https://habr.com/ru/articles/738086/
Почему Trino такой быстрый: динамические фильтры
Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.
Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.
Рассмотрим реализацию динамических фильтров на примере Trino.
Узнать, как работают динамические фильтры
Читать: https://habr.com/ru/companies/cedrusdata/articles/740274/
Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.
Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.
Рассмотрим реализацию динамических фильтров на примере Trino.
Узнать, как работают динамические фильтры
Читать: https://habr.com/ru/companies/cedrusdata/articles/740274/
Расчет скидки за первый и последний этаж в Excel (Часть 2)
В первой части иллюстрированной инструкции по проведению расчета величины скидки за первый и последний этаж был показан порядок сбора данных с сайтов объявлений силами Excel и первичный анализ собранных данных.
Во второй части завершаем подготовку данных и рассчитываем величину скидки за первый и последний этаж.
Читать: https://habr.com/ru/articles/740302/
В первой части иллюстрированной инструкции по проведению расчета величины скидки за первый и последний этаж был показан порядок сбора данных с сайтов объявлений силами Excel и первичный анализ собранных данных.
Во второй части завершаем подготовку данных и рассчитываем величину скидки за первый и последний этаж.
Читать: https://habr.com/ru/articles/740302/
Как Почта моделирует риски потери отправлений
Привет! Я Кирилл Мамонов, главный аналитик отдела монетизации данных в Почтатехе. Расскажу, как мы создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.
Читать: https://habr.com/ru/companies/posttech/articles/739964/
Привет! Я Кирилл Мамонов, главный аналитик отдела монетизации данных в Почтатехе. Расскажу, как мы создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.
Читать: https://habr.com/ru/companies/posttech/articles/739964/
Кейс внедрение Dbt в «Детском мире»
Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире.
На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop.
Читать: https://habr.com/ru/articles/740348/
Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире.
На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop.
Читать: https://habr.com/ru/articles/740348/
Спринт-интенсив Visiology: +300 к HR-карме бренда и куча красивых дашбордов
Привет, Хабр! Буквально на прошлой неделе мы завершили наш небольшой спринт-интенсив. Он доказал, что за 10 дней вполне можно познакомиться с платформой Visiology до такой степени, чтобы начать делать свои собственные дашборды, разбираться с особенностями загрузки данных и построения модели и другими нюансами работы с BI. Что интересно, в нашем спринте принимали участие как опытные BI-щики, так и начинающие специалисты. Под катом — несколько мнений активных участников, а также примеры дашбордов, созданных в ходе обучения.
Узнать, как это было...
Читать: https://habr.com/ru/companies/visiology/articles/740438/
Привет, Хабр! Буквально на прошлой неделе мы завершили наш небольшой спринт-интенсив. Он доказал, что за 10 дней вполне можно познакомиться с платформой Visiology до такой степени, чтобы начать делать свои собственные дашборды, разбираться с особенностями загрузки данных и построения модели и другими нюансами работы с BI. Что интересно, в нашем спринте принимали участие как опытные BI-щики, так и начинающие специалисты. Под катом — несколько мнений активных участников, а также примеры дашбордов, созданных в ходе обучения.
Узнать, как это было...
Читать: https://habr.com/ru/companies/visiology/articles/740438/
👍1
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив
Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.
Читать: https://habr.com/ru/companies/avito/articles/740232/
Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.
Читать: https://habr.com/ru/companies/avito/articles/740232/
Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО
Самому обеспечивать гибкость и контроль собственного ML-пайплайна — это важно. Команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов. Компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании. Но в действительности они часто оказываются более сложными и менее мощными, чем их Open-Source-конкуренты.
Читать: https://habr.com/ru/companies/vk/articles/735720/
Самому обеспечивать гибкость и контроль собственного ML-пайплайна — это важно. Команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов. Компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании. Но в действительности они часто оказываются более сложными и менее мощными, чем их Open-Source-конкуренты.
Читать: https://habr.com/ru/companies/vk/articles/735720/
Как создать платформу для управления 50 000 сотрудниками в ритейле при помощи частного облака
Как отслеживать эффективность сотрудников по всей стране, хранить терабайты данных и поддерживать доступность сервиса на высоком уровне? Платформа Imredi пять лет назад выбрала в качестве облачного провайдера Selectel и в 2022 году вышла на выручку в 200 млн в год. Рассказываем, какие решения использовались при построении платформы, как организована ее техническая часть и какие преобразования ожидаются в будущем.
Читать: https://habr.com/ru/companies/selectel/articles/740258/
Как отслеживать эффективность сотрудников по всей стране, хранить терабайты данных и поддерживать доступность сервиса на высоком уровне? Платформа Imredi пять лет назад выбрала в качестве облачного провайдера Selectel и в 2022 году вышла на выручку в 200 млн в год. Рассказываем, какие решения использовались при построении платформы, как организована ее техническая часть и какие преобразования ожидаются в будущем.
Читать: https://habr.com/ru/companies/selectel/articles/740258/
Как аннотировать документы для обучения ИИ распознавания текста
Введение в ИИ для распознавания текста
Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее.
Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных.
По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение.
Читать: https://habr.com/ru/articles/747238/
Введение в ИИ для распознавания текста
Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее.
Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных.
По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение.
Читать: https://habr.com/ru/articles/747238/
Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2
В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков.
Читать: https://habr.com/ru/companies/rosbank/articles/750492/
В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков.
Читать: https://habr.com/ru/companies/rosbank/articles/750492/
Как создавать качественные ML-системы. Часть 2: приручаем хаос
Команда VK Cloud перевела вторую статью из серии о создании ML-систем. Первую читайте по ссылке. Здесь поговорим о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
Читать: https://habr.com/ru/companies/vk/articles/749852/
Команда VK Cloud перевела вторую статью из серии о создании ML-систем. Первую читайте по ссылке. Здесь поговорим о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
Читать: https://habr.com/ru/companies/vk/articles/749852/