О точности вычислений: как не потерять данные в цифровом шуме
Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай изучил процесс потери точности вычислений и написал библиотеку, доступную на GitHub, которая помогает разработчикам контролировать точность расчётов на каждом этапе вычислений. Данная библиотека особенно актуальна в сфере машинного обучения и анализа (больших) данных, где накопление ошибок может сильно искажать результат.
Читать: https://habr.com/ru/companies/kryptonite/articles/766294/
Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай изучил процесс потери точности вычислений и написал библиотеку, доступную на GitHub, которая помогает разработчикам контролировать точность расчётов на каждом этапе вычислений. Данная библиотека особенно актуальна в сфере машинного обучения и анализа (больших) данных, где накопление ошибок может сильно искажать результат.
Читать: https://habr.com/ru/companies/kryptonite/articles/766294/
👍1
Применение нейросетевых подходов для формирования признаков в моделях
Наша команда Графовой аналитики стрима Моделирование КИБ и СМБ занимается различными исследовательскими задачами для двух основных направлений: риск- и бизнес-моделирования.
В данной статье мы расскажем о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.
Интересно? Поехали...
Читать: https://habr.com/ru/companies/vtb/articles/766478/
Наша команда Графовой аналитики стрима Моделирование КИБ и СМБ занимается различными исследовательскими задачами для двух основных направлений: риск- и бизнес-моделирования.
В данной статье мы расскажем о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.
Интересно? Поехали...
Читать: https://habr.com/ru/companies/vtb/articles/766478/
Automating the uploading process of your data to Oracle Object Storage for Fusion Analytics Warehouse
This article describes automating the uploading process of data files for Object Storage Service, as described in the article Loading Data from Oracle Object Storage into Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/use-python-to-upload-datasets-to-oracle-object-storage-service
This article describes automating the uploading process of data files for Object Storage Service, as described in the article Loading Data from Oracle Object Storage into Oracle Fusion Analytics.
Read: https://blogs.oracle.com/analytics/post/use-python-to-upload-datasets-to-oracle-object-storage-service
Oracle
Python Script To Upload Datasets To Oracle Object Storage Service
This blog provides the steps to automate the uploading process of datasets to OOS is addition to Loading Data from Oracle Object Storage into Oracle Fusion Analytics blog.
Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
Привет, я Ольга Свитнева, идеолог и менеджер продукта «Платформа данных» в VK Cloud. В современном мире ИТ тема Open Source поднимается довольно часто. Особенно когда речь идет о работе с данными. И тому есть ряд объективных причин.
В этой статье я предлагаю взглянуть на Open Source прагматично и разобрать неочевидные аспекты разработки и использования открытого ПО, в том числе лицензирование. Также мы поговорим об уникальном профиле риска OSS, о подходах к выбору решений и промышленных стандартах OSS для Data Pipeline.
Читать: https://habr.com/ru/companies/vk/articles/762846/
Привет, я Ольга Свитнева, идеолог и менеджер продукта «Платформа данных» в VK Cloud. В современном мире ИТ тема Open Source поднимается довольно часто. Особенно когда речь идет о работе с данными. И тому есть ряд объективных причин.
В этой статье я предлагаю взглянуть на Open Source прагматично и разобрать неочевидные аспекты разработки и использования открытого ПО, в том числе лицензирование. Также мы поговорим об уникальном профиле риска OSS, о подходах к выбору решений и промышленных стандартах OSS для Data Pipeline.
Читать: https://habr.com/ru/companies/vk/articles/762846/
Введение в библиотеку Diffusers и диффузионные модели
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.
Всегда хотели стать художником, но у вас лапки? :) Тогда Diffusers этот то, что вам нужно!
В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.
З.Ы. Подписывайтесь на мой телеграм-канал :)
Читать: https://habr.com/ru/articles/766094/
Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.
Всегда хотели стать художником, но у вас лапки? :) Тогда Diffusers этот то, что вам нужно!
В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.
З.Ы. Подписывайтесь на мой телеграм-канал :)
Читать: https://habr.com/ru/articles/766094/
Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
Команда VK Cloud перевела статью, в которой автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.
Читать: https://habr.com/ru/companies/vk/articles/766530/
Команда VK Cloud перевела статью, в которой автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.
Читать: https://habr.com/ru/companies/vk/articles/766530/
Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
Приветствую, Хабр! Моя работа связана с оценкой эффективности различных инициатив бизнеса, а также, в том числе, с прогнозированием спроса и трафика. Я не буду долго и нудно рассказывать, зачем ритейлу подобные прогнозы. Думаю, что тут всё достаточно очевидно. Лучше подробнее расскажу о нашем собственном подходе к моделированию медиа-эффектов, о том, что у нас получилось, когда мы решили усовершенствовать систему прогноза посещаемости торговых точек, исходя из будущей рекламной активности, ожиданий относительно рекламы конкурентов и влияния прочих факторов.
Читать: https://habr.com/ru/companies/X5Tech/articles/767074/
Приветствую, Хабр! Моя работа связана с оценкой эффективности различных инициатив бизнеса, а также, в том числе, с прогнозированием спроса и трафика. Я не буду долго и нудно рассказывать, зачем ритейлу подобные прогнозы. Думаю, что тут всё достаточно очевидно. Лучше подробнее расскажу о нашем собственном подходе к моделированию медиа-эффектов, о том, что у нас получилось, когда мы решили усовершенствовать систему прогноза посещаемости торговых точек, исходя из будущей рекламной активности, ожиданий относительно рекламы конкурентов и влияния прочих факторов.
Читать: https://habr.com/ru/companies/X5Tech/articles/767074/
С чем едят self service и что есть в Российском меню BI платформ
Последнее время очень много на рынке говорят про Self Service BI (SS), что это такое и почему каждый пытается сейчас заявить, что он и есть настоящий self service?
Давайте разбираться по-порядку.
Читать: https://habr.com/ru/articles/767572/
Последнее время очень много на рынке говорят про Self Service BI (SS), что это такое и почему каждый пытается сейчас заявить, что он и есть настоящий self service?
Давайте разбираться по-порядку.
Читать: https://habr.com/ru/articles/767572/
Потоковая обработка данных: анализ альтернативных решений
Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.
Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.
Читать: https://habr.com/ru/companies/itsumma/articles/767746/
Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.
Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.
Читать: https://habr.com/ru/companies/itsumma/articles/767746/
👍1
MLOps в билайн: как катить машинное обучение в production без ML-инженеров. Часть I
Всем привет! Меня зовут Николай Безносов, я отвечаю за применение и развитие машинного обучения и продвинутой аналитики в билайне. В одной из прошлых статей мои коллеги рассказывали о месте Seldon в ML-инфраструктуре компании, а сегодня мы поднимемся на уровень выше и поговорим о том, что из себя представляет MLOps в билайне в целом - как с точки зрения инфраструктуры, так и с точки зрения процессов.
В статье речь пойдет о нашем опыте создания ML-платформы, которая помогает дата-сайентистам самостоятельно управлять всем жизненным циклом ML-моделей - от разработки до постановки в production. Я рассчитываю, что статья будет полезна как небольшим командам, которые только начинают выстраивать у себя ML-инфраструктуру, так и корпорациям с большим количеством команд и жесткими требованиями к безопасности, которые при этом хотят эффективно масштабироваться.
Статья будет состоять из двух частей. В первой части мы посмотрим верхнеуровнево, как и по каким причинам менялись наши ML-процессы и инфраструктура в билайне - с чего мы начинали и к чему в итоге пришли. Во второй части поговорим о конкретных инструментах и технологиях, которые мы внедрили, чтобы сделать наш процесс разработки и деплоя моделей простым, воспроизводимым, автоматизируемым и наблюдаемым.
Читать: https://habr.com/ru/companies/beeline_tech/articles/760308/
Всем привет! Меня зовут Николай Безносов, я отвечаю за применение и развитие машинного обучения и продвинутой аналитики в билайне. В одной из прошлых статей мои коллеги рассказывали о месте Seldon в ML-инфраструктуре компании, а сегодня мы поднимемся на уровень выше и поговорим о том, что из себя представляет MLOps в билайне в целом - как с точки зрения инфраструктуры, так и с точки зрения процессов.
В статье речь пойдет о нашем опыте создания ML-платформы, которая помогает дата-сайентистам самостоятельно управлять всем жизненным циклом ML-моделей - от разработки до постановки в production. Я рассчитываю, что статья будет полезна как небольшим командам, которые только начинают выстраивать у себя ML-инфраструктуру, так и корпорациям с большим количеством команд и жесткими требованиями к безопасности, которые при этом хотят эффективно масштабироваться.
Статья будет состоять из двух частей. В первой части мы посмотрим верхнеуровнево, как и по каким причинам менялись наши ML-процессы и инфраструктура в билайне - с чего мы начинали и к чему в итоге пришли. Во второй части поговорим о конкретных инструментах и технологиях, которые мы внедрили, чтобы сделать наш процесс разработки и деплоя моделей простым, воспроизводимым, автоматизируемым и наблюдаемым.
Читать: https://habr.com/ru/companies/beeline_tech/articles/760308/
Демографический бум или как программисты плодятся
Вы спросите, какое отношение демография, имеет к тематике ИТ. На первый взгляд? Никакого. Но это на первый взгляд. Давайте обо всем по порядку.
Сначала была история.
Когда схемы отработаны и механизмы налажены, в смысле дороги строятся, студенты учатся, люди лечатся, а в бюджете есть еще перспективы, у кого то возникает желание помочь родному государству, неординарным способом.
И тут, как бы кстати, проблемка образовалась. Все кто бизнесом разным ведал, узрели перспективу, и начали на перебой обзаводится ИТ командами собственными. Так сказать, забивать место под солнцем цифрового мира.
Дело хорошее, не все гуглу миром править. Да вот беда. Те спецы, что институты готовили, ежели попроворнее, кнопку купить билет и за океан, ну или не важно, главное из России того. А те что слабину на учебе дали, оказалось доучивать требуется. Бизнесмены расстраивались, но доучивали. Но вместо благодарности, прохвосты, начали бегать из конторы в контору и ценники на себя заворачивать.
Посмотрели на это мужи руководящие и решили, надо помочь родненьким спонсорам. Давай они крутить, вертеть. Институт создали 2035. Всякие активности двигать. Админов там готовить и прочих работяг для полей информационных.
Тем временем хайп словили и прохвосты. Начали экспертов себе подобных за деньги готовить. Мол хочешь зп 100к. Отдай на 80к и мы научим. Чему там научат не ведомо, но вот желающих таких "спецов" нанять не прибавилось.
Мужи же видя, что люд тянется на курсы эти. Решили тоже не теряться, начать из далека. Посчитали, и сказали институтам разным, готовьте выпускников школ. Учите питону, сям, моделированию. Будет задел Россиюшке любимой.
Читать: https://habr.com/ru/articles/768164/
Вы спросите, какое отношение демография, имеет к тематике ИТ. На первый взгляд? Никакого. Но это на первый взгляд. Давайте обо всем по порядку.
Сначала была история.
Когда схемы отработаны и механизмы налажены, в смысле дороги строятся, студенты учатся, люди лечатся, а в бюджете есть еще перспективы, у кого то возникает желание помочь родному государству, неординарным способом.
И тут, как бы кстати, проблемка образовалась. Все кто бизнесом разным ведал, узрели перспективу, и начали на перебой обзаводится ИТ командами собственными. Так сказать, забивать место под солнцем цифрового мира.
Дело хорошее, не все гуглу миром править. Да вот беда. Те спецы, что институты готовили, ежели попроворнее, кнопку купить билет и за океан, ну или не важно, главное из России того. А те что слабину на учебе дали, оказалось доучивать требуется. Бизнесмены расстраивались, но доучивали. Но вместо благодарности, прохвосты, начали бегать из конторы в контору и ценники на себя заворачивать.
Посмотрели на это мужи руководящие и решили, надо помочь родненьким спонсорам. Давай они крутить, вертеть. Институт создали 2035. Всякие активности двигать. Админов там готовить и прочих работяг для полей информационных.
Тем временем хайп словили и прохвосты. Начали экспертов себе подобных за деньги готовить. Мол хочешь зп 100к. Отдай на 80к и мы научим. Чему там научат не ведомо, но вот желающих таких "спецов" нанять не прибавилось.
Мужи же видя, что люд тянется на курсы эти. Решили тоже не теряться, начать из далека. Посчитали, и сказали институтам разным, готовьте выпускников школ. Учите питону, сям, моделированию. Будет задел Россиюшке любимой.
Читать: https://habr.com/ru/articles/768164/
👍2
DataOps Platform: из чего состоит наша платформа для работы с данными и как мы её создавали
Привет, Хабр! Меня зовут Наджим Мохаммад, я руководитель продукта МТС. Вместе с моим коллегой, руководителем направления разработки платформы МТС Big Data Максимом Бартеневым сегодня мы поговорим об эволюции платформ данных и нюансах работы платформы МТС для работы с данными. Также обсудим историю развития самой DataOps Platform.
Читать: https://habr.com/ru/companies/ru_mts/articles/768302/
Привет, Хабр! Меня зовут Наджим Мохаммад, я руководитель продукта МТС. Вместе с моим коллегой, руководителем направления разработки платформы МТС Big Data Максимом Бартеневым сегодня мы поговорим об эволюции платформ данных и нюансах работы платформы МТС для работы с данными. Также обсудим историю развития самой DataOps Platform.
Читать: https://habr.com/ru/companies/ru_mts/articles/768302/
Как легко собирать и обрабатывать данные из множества систем без ручного копипаста?
Программные роботы (RPA) относительно новая технология, которая приходит на помощь, когда нужно собрать информацию из множества разнородных корпоративных систем, выполнить первичную разметку данных по косвенным признакам и занести результаты обработки в отчётные формы.
ROBIN RPA одна из первых платформ в России, позволяющая разрабатывать роботов полностью в No Code конструкторе даже тем, кто очень далёк от программирования. Разработка миниприложений по работе с данными ускоряется в разы и позволяет за один вечер создавать решения даже под разовые задачи.
Платформа ROBIN используется крупнейшими корпорациями, но с появлением облачной версии софта тарифы стали доступны даже для малого бизнеса. Есть очень лояльный демо период, бесплатное обучение с возможностью получить сертификат по RPA технологии. Активные разработчики в комьюнити роботизаторов имеют возможность пользоваться платформой бесплатно в рамках RPA челленджа.
Владение навыком по созданию программных роботов это безусловно очень крутой буст при работе с массивами данных, позволяющий всю самую рутинную обработку оперативно отгружать роботу. Стоит начать прямо сейчас! Регистрируйтесь на https://tprg.ru/osbh и получите доступ к полнофункциональной платформе роботизации за 15 минут!
ООО «Робин» ИНН 9725022632 erid=LjN8KRvhS
Программные роботы (RPA) относительно новая технология, которая приходит на помощь, когда нужно собрать информацию из множества разнородных корпоративных систем, выполнить первичную разметку данных по косвенным признакам и занести результаты обработки в отчётные формы.
ROBIN RPA одна из первых платформ в России, позволяющая разрабатывать роботов полностью в No Code конструкторе даже тем, кто очень далёк от программирования. Разработка миниприложений по работе с данными ускоряется в разы и позволяет за один вечер создавать решения даже под разовые задачи.
Платформа ROBIN используется крупнейшими корпорациями, но с появлением облачной версии софта тарифы стали доступны даже для малого бизнеса. Есть очень лояльный демо период, бесплатное обучение с возможностью получить сертификат по RPA технологии. Активные разработчики в комьюнити роботизаторов имеют возможность пользоваться платформой бесплатно в рамках RPA челленджа.
Владение навыком по созданию программных роботов это безусловно очень крутой буст при работе с массивами данных, позволяющий всю самую рутинную обработку оперативно отгружать роботу. Стоит начать прямо сейчас! Регистрируйтесь на https://tprg.ru/osbh и получите доступ к полнофункциональной платформе роботизации за 15 минут!
ООО «Робин» ИНН 9725022632 erid=LjN8KRvhS
👍1
Обработка больших данных при помощи библиотеки .NET for Apache Spark
Привет Хабр!
Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark.
Погрузиться в .NET for Apache Spark
Читать: https://habr.com/ru/articles/768440/
Привет Хабр!
Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark.
Погрузиться в .NET for Apache Spark
Читать: https://habr.com/ru/articles/768440/
9 лучших инструментов аннотирования изображений для Computer Vision
На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.
Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.
Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Читать: https://habr.com/ru/articles/765350/
На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.
Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.
Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Читать: https://habr.com/ru/articles/765350/
Поговорите с детьми об ИИ: шесть вопросов, которые стоит обсудить
ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.
Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.
Читать: https://habr.com/ru/companies/vk/articles/768486/
ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.
Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.
Читать: https://habr.com/ru/companies/vk/articles/768486/
Размерности качества данных: обеспечение качества данных с помощью Great Expectations
Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.
Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.
Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.
В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).
Читать: https://habr.com/ru/articles/739254/
Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.
Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.
Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.
В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).
Читать: https://habr.com/ru/articles/739254/
От A/B-тестирования к Causal Inference в оффлайн ритейле
Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.
Читать: https://habr.com/ru/companies/X5Tech/articles/768008/
Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.
Читать: https://habr.com/ru/companies/X5Tech/articles/768008/
YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее
В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.
Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».
Читать: https://habr.com/ru/companies/oleg-bunin/articles/768284/
В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.
Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».
Читать: https://habr.com/ru/companies/oleg-bunin/articles/768284/
Разметка данных при помощи GPT-4
Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?
GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).
Читать: https://habr.com/ru/articles/768394/
Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?
GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).
Читать: https://habr.com/ru/articles/768394/