Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
Приветствую, Хабр! Моя работа связана с оценкой эффективности различных инициатив бизнеса, а также, в том числе, с прогнозированием спроса и трафика. Я не буду долго и нудно рассказывать, зачем ритейлу подобные прогнозы. Думаю, что тут всё достаточно очевидно. Лучше подробнее расскажу о нашем собственном подходе к моделированию медиа-эффектов, о том, что у нас получилось, когда мы решили усовершенствовать систему прогноза посещаемости торговых точек, исходя из будущей рекламной активности, ожиданий относительно рекламы конкурентов и влияния прочих факторов.
Читать: https://habr.com/ru/companies/X5Tech/articles/767074/
Приветствую, Хабр! Моя работа связана с оценкой эффективности различных инициатив бизнеса, а также, в том числе, с прогнозированием спроса и трафика. Я не буду долго и нудно рассказывать, зачем ритейлу подобные прогнозы. Думаю, что тут всё достаточно очевидно. Лучше подробнее расскажу о нашем собственном подходе к моделированию медиа-эффектов, о том, что у нас получилось, когда мы решили усовершенствовать систему прогноза посещаемости торговых точек, исходя из будущей рекламной активности, ожиданий относительно рекламы конкурентов и влияния прочих факторов.
Читать: https://habr.com/ru/companies/X5Tech/articles/767074/
С чем едят self service и что есть в Российском меню BI платформ
Последнее время очень много на рынке говорят про Self Service BI (SS), что это такое и почему каждый пытается сейчас заявить, что он и есть настоящий self service?
Давайте разбираться по-порядку.
Читать: https://habr.com/ru/articles/767572/
Последнее время очень много на рынке говорят про Self Service BI (SS), что это такое и почему каждый пытается сейчас заявить, что он и есть настоящий self service?
Давайте разбираться по-порядку.
Читать: https://habr.com/ru/articles/767572/
Потоковая обработка данных: анализ альтернативных решений
Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.
Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.
Читать: https://habr.com/ru/companies/itsumma/articles/767746/
Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.
Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.
Читать: https://habr.com/ru/companies/itsumma/articles/767746/
👍1
MLOps в билайн: как катить машинное обучение в production без ML-инженеров. Часть I
Всем привет! Меня зовут Николай Безносов, я отвечаю за применение и развитие машинного обучения и продвинутой аналитики в билайне. В одной из прошлых статей мои коллеги рассказывали о месте Seldon в ML-инфраструктуре компании, а сегодня мы поднимемся на уровень выше и поговорим о том, что из себя представляет MLOps в билайне в целом - как с точки зрения инфраструктуры, так и с точки зрения процессов.
В статье речь пойдет о нашем опыте создания ML-платформы, которая помогает дата-сайентистам самостоятельно управлять всем жизненным циклом ML-моделей - от разработки до постановки в production. Я рассчитываю, что статья будет полезна как небольшим командам, которые только начинают выстраивать у себя ML-инфраструктуру, так и корпорациям с большим количеством команд и жесткими требованиями к безопасности, которые при этом хотят эффективно масштабироваться.
Статья будет состоять из двух частей. В первой части мы посмотрим верхнеуровнево, как и по каким причинам менялись наши ML-процессы и инфраструктура в билайне - с чего мы начинали и к чему в итоге пришли. Во второй части поговорим о конкретных инструментах и технологиях, которые мы внедрили, чтобы сделать наш процесс разработки и деплоя моделей простым, воспроизводимым, автоматизируемым и наблюдаемым.
Читать: https://habr.com/ru/companies/beeline_tech/articles/760308/
Всем привет! Меня зовут Николай Безносов, я отвечаю за применение и развитие машинного обучения и продвинутой аналитики в билайне. В одной из прошлых статей мои коллеги рассказывали о месте Seldon в ML-инфраструктуре компании, а сегодня мы поднимемся на уровень выше и поговорим о том, что из себя представляет MLOps в билайне в целом - как с точки зрения инфраструктуры, так и с точки зрения процессов.
В статье речь пойдет о нашем опыте создания ML-платформы, которая помогает дата-сайентистам самостоятельно управлять всем жизненным циклом ML-моделей - от разработки до постановки в production. Я рассчитываю, что статья будет полезна как небольшим командам, которые только начинают выстраивать у себя ML-инфраструктуру, так и корпорациям с большим количеством команд и жесткими требованиями к безопасности, которые при этом хотят эффективно масштабироваться.
Статья будет состоять из двух частей. В первой части мы посмотрим верхнеуровнево, как и по каким причинам менялись наши ML-процессы и инфраструктура в билайне - с чего мы начинали и к чему в итоге пришли. Во второй части поговорим о конкретных инструментах и технологиях, которые мы внедрили, чтобы сделать наш процесс разработки и деплоя моделей простым, воспроизводимым, автоматизируемым и наблюдаемым.
Читать: https://habr.com/ru/companies/beeline_tech/articles/760308/
Демографический бум или как программисты плодятся
Вы спросите, какое отношение демография, имеет к тематике ИТ. На первый взгляд? Никакого. Но это на первый взгляд. Давайте обо всем по порядку.
Сначала была история.
Когда схемы отработаны и механизмы налажены, в смысле дороги строятся, студенты учатся, люди лечатся, а в бюджете есть еще перспективы, у кого то возникает желание помочь родному государству, неординарным способом.
И тут, как бы кстати, проблемка образовалась. Все кто бизнесом разным ведал, узрели перспективу, и начали на перебой обзаводится ИТ командами собственными. Так сказать, забивать место под солнцем цифрового мира.
Дело хорошее, не все гуглу миром править. Да вот беда. Те спецы, что институты готовили, ежели попроворнее, кнопку купить билет и за океан, ну или не важно, главное из России того. А те что слабину на учебе дали, оказалось доучивать требуется. Бизнесмены расстраивались, но доучивали. Но вместо благодарности, прохвосты, начали бегать из конторы в контору и ценники на себя заворачивать.
Посмотрели на это мужи руководящие и решили, надо помочь родненьким спонсорам. Давай они крутить, вертеть. Институт создали 2035. Всякие активности двигать. Админов там готовить и прочих работяг для полей информационных.
Тем временем хайп словили и прохвосты. Начали экспертов себе подобных за деньги готовить. Мол хочешь зп 100к. Отдай на 80к и мы научим. Чему там научат не ведомо, но вот желающих таких "спецов" нанять не прибавилось.
Мужи же видя, что люд тянется на курсы эти. Решили тоже не теряться, начать из далека. Посчитали, и сказали институтам разным, готовьте выпускников школ. Учите питону, сям, моделированию. Будет задел Россиюшке любимой.
Читать: https://habr.com/ru/articles/768164/
Вы спросите, какое отношение демография, имеет к тематике ИТ. На первый взгляд? Никакого. Но это на первый взгляд. Давайте обо всем по порядку.
Сначала была история.
Когда схемы отработаны и механизмы налажены, в смысле дороги строятся, студенты учатся, люди лечатся, а в бюджете есть еще перспективы, у кого то возникает желание помочь родному государству, неординарным способом.
И тут, как бы кстати, проблемка образовалась. Все кто бизнесом разным ведал, узрели перспективу, и начали на перебой обзаводится ИТ командами собственными. Так сказать, забивать место под солнцем цифрового мира.
Дело хорошее, не все гуглу миром править. Да вот беда. Те спецы, что институты готовили, ежели попроворнее, кнопку купить билет и за океан, ну или не важно, главное из России того. А те что слабину на учебе дали, оказалось доучивать требуется. Бизнесмены расстраивались, но доучивали. Но вместо благодарности, прохвосты, начали бегать из конторы в контору и ценники на себя заворачивать.
Посмотрели на это мужи руководящие и решили, надо помочь родненьким спонсорам. Давай они крутить, вертеть. Институт создали 2035. Всякие активности двигать. Админов там готовить и прочих работяг для полей информационных.
Тем временем хайп словили и прохвосты. Начали экспертов себе подобных за деньги готовить. Мол хочешь зп 100к. Отдай на 80к и мы научим. Чему там научат не ведомо, но вот желающих таких "спецов" нанять не прибавилось.
Мужи же видя, что люд тянется на курсы эти. Решили тоже не теряться, начать из далека. Посчитали, и сказали институтам разным, готовьте выпускников школ. Учите питону, сям, моделированию. Будет задел Россиюшке любимой.
Читать: https://habr.com/ru/articles/768164/
👍2
DataOps Platform: из чего состоит наша платформа для работы с данными и как мы её создавали
Привет, Хабр! Меня зовут Наджим Мохаммад, я руководитель продукта МТС. Вместе с моим коллегой, руководителем направления разработки платформы МТС Big Data Максимом Бартеневым сегодня мы поговорим об эволюции платформ данных и нюансах работы платформы МТС для работы с данными. Также обсудим историю развития самой DataOps Platform.
Читать: https://habr.com/ru/companies/ru_mts/articles/768302/
Привет, Хабр! Меня зовут Наджим Мохаммад, я руководитель продукта МТС. Вместе с моим коллегой, руководителем направления разработки платформы МТС Big Data Максимом Бартеневым сегодня мы поговорим об эволюции платформ данных и нюансах работы платформы МТС для работы с данными. Также обсудим историю развития самой DataOps Platform.
Читать: https://habr.com/ru/companies/ru_mts/articles/768302/
Как легко собирать и обрабатывать данные из множества систем без ручного копипаста?
Программные роботы (RPA) относительно новая технология, которая приходит на помощь, когда нужно собрать информацию из множества разнородных корпоративных систем, выполнить первичную разметку данных по косвенным признакам и занести результаты обработки в отчётные формы.
ROBIN RPA одна из первых платформ в России, позволяющая разрабатывать роботов полностью в No Code конструкторе даже тем, кто очень далёк от программирования. Разработка миниприложений по работе с данными ускоряется в разы и позволяет за один вечер создавать решения даже под разовые задачи.
Платформа ROBIN используется крупнейшими корпорациями, но с появлением облачной версии софта тарифы стали доступны даже для малого бизнеса. Есть очень лояльный демо период, бесплатное обучение с возможностью получить сертификат по RPA технологии. Активные разработчики в комьюнити роботизаторов имеют возможность пользоваться платформой бесплатно в рамках RPA челленджа.
Владение навыком по созданию программных роботов это безусловно очень крутой буст при работе с массивами данных, позволяющий всю самую рутинную обработку оперативно отгружать роботу. Стоит начать прямо сейчас! Регистрируйтесь на https://tprg.ru/osbh и получите доступ к полнофункциональной платформе роботизации за 15 минут!
ООО «Робин» ИНН 9725022632 erid=LjN8KRvhS
Программные роботы (RPA) относительно новая технология, которая приходит на помощь, когда нужно собрать информацию из множества разнородных корпоративных систем, выполнить первичную разметку данных по косвенным признакам и занести результаты обработки в отчётные формы.
ROBIN RPA одна из первых платформ в России, позволяющая разрабатывать роботов полностью в No Code конструкторе даже тем, кто очень далёк от программирования. Разработка миниприложений по работе с данными ускоряется в разы и позволяет за один вечер создавать решения даже под разовые задачи.
Платформа ROBIN используется крупнейшими корпорациями, но с появлением облачной версии софта тарифы стали доступны даже для малого бизнеса. Есть очень лояльный демо период, бесплатное обучение с возможностью получить сертификат по RPA технологии. Активные разработчики в комьюнити роботизаторов имеют возможность пользоваться платформой бесплатно в рамках RPA челленджа.
Владение навыком по созданию программных роботов это безусловно очень крутой буст при работе с массивами данных, позволяющий всю самую рутинную обработку оперативно отгружать роботу. Стоит начать прямо сейчас! Регистрируйтесь на https://tprg.ru/osbh и получите доступ к полнофункциональной платформе роботизации за 15 минут!
ООО «Робин» ИНН 9725022632 erid=LjN8KRvhS
👍1
Обработка больших данных при помощи библиотеки .NET for Apache Spark
Привет Хабр!
Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark.
Погрузиться в .NET for Apache Spark
Читать: https://habr.com/ru/articles/768440/
Привет Хабр!
Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark.
Погрузиться в .NET for Apache Spark
Читать: https://habr.com/ru/articles/768440/
9 лучших инструментов аннотирования изображений для Computer Vision
На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.
Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.
Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Читать: https://habr.com/ru/articles/765350/
На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.
Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.
Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Читать: https://habr.com/ru/articles/765350/
Поговорите с детьми об ИИ: шесть вопросов, которые стоит обсудить
ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.
Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.
Читать: https://habr.com/ru/companies/vk/articles/768486/
ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.
Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.
Читать: https://habr.com/ru/companies/vk/articles/768486/
Размерности качества данных: обеспечение качества данных с помощью Great Expectations
Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.
Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.
Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.
В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).
Читать: https://habr.com/ru/articles/739254/
Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.
Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.
Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.
В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).
Читать: https://habr.com/ru/articles/739254/
От A/B-тестирования к Causal Inference в оффлайн ритейле
Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.
Читать: https://habr.com/ru/companies/X5Tech/articles/768008/
Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.
Читать: https://habr.com/ru/companies/X5Tech/articles/768008/
YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее
В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.
Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».
Читать: https://habr.com/ru/companies/oleg-bunin/articles/768284/
В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.
Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».
Читать: https://habr.com/ru/companies/oleg-bunin/articles/768284/
Разметка данных при помощи GPT-4
Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?
GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).
Читать: https://habr.com/ru/articles/768394/
Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?
GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).
Читать: https://habr.com/ru/articles/768394/
Дата-сайентист хоть и не король, а без графов ему никуда
Кто же такие, вернее, что такое эти графы? Это абстракция, которую используют для выявления связей между сущностями. Сегодня их внедряют во многих крупных ИИ-проектах, потому что графы позволяют проводить вычисления с большей производительностью нежели другие способы.
Что можно делать с помощью графов, как, где и зачем, узнаете в статье: https://tprg.ru/E6xc
Кто же такие, вернее, что такое эти графы? Это абстракция, которую используют для выявления связей между сущностями. Сегодня их внедряют во многих крупных ИИ-проектах, потому что графы позволяют проводить вычисления с большей производительностью нежели другие способы.
Что можно делать с помощью графов, как, где и зачем, узнаете в статье: https://tprg.ru/E6xc
Почему два переезда хранилища данных — это не «пожар», а уникальный опыт для прокачки стека
Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени. Сделать «здесь и сейчас» можно всегда, но чем дольше продолжается использование данных, тем больше в дальнейшем потребуется ресурсов и времени на оптимизацию при масштабировании нагрузки или внедрении новых источников в хранилище.
Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов для руководства?
Точного ответа у меня нет, но могу рассказать про наш опыт: мы смогли качнуть баланс равновесия между задачами операционными (Run) и связанными с изменениями (Change) в пользу вторых, используя переезд хранилища данных. Если в двух словах, то это будет история о том, как мы прокачали технологии и скиллы людей, которые занимаются построением DWH, в условиях двух переездов хранилища данных за два года. Буду говорить о преимуществах и недостатках такого способа прокачки.
Читать: https://habr.com/ru/companies/uchi_ru/articles/768874/
Приветствую всех читателей! Меня зовут Николай Самсонов. Я являюсь руководителем платформы данных в Учи.ру. В своей работе часто сталкиваюсь с ситуацией, когда бизнесу нужны метрики и показатели здесь и сейчас, в то время как автоматизация получения и обработки терабайт данных для их расчета может занимать значительное количество времени. Сделать «здесь и сейчас» можно всегда, но чем дольше продолжается использование данных, тем больше в дальнейшем потребуется ресурсов и времени на оптимизацию при масштабировании нагрузки или внедрении новых источников в хранилище.
Правильный стек, правильная архитектура и правильное видение процесса ELT — залог успешной аналитики, с этим никто не спорит. Но как прийти к ним и как найти баланс между затратами времени на исследование и поддержкой уже сделанного в бесконечном потоке A/B-тестирований, дашбордов, метрик и Ad hoc-запросов для руководства?
Точного ответа у меня нет, но могу рассказать про наш опыт: мы смогли качнуть баланс равновесия между задачами операционными (Run) и связанными с изменениями (Change) в пользу вторых, используя переезд хранилища данных. Если в двух словах, то это будет история о том, как мы прокачали технологии и скиллы людей, которые занимаются построением DWH, в условиях двух переездов хранилища данных за два года. Буду говорить о преимуществах и недостатках такого способа прокачки.
Читать: https://habr.com/ru/companies/uchi_ru/articles/768874/
🔥1
«Большие вызовы» в «Сириусе», или как мы обычно проводим лето
Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.
В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.
Читать: https://habr.com/ru/companies/vtb/articles/765370/
Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.
В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.
Читать: https://habr.com/ru/companies/vtb/articles/765370/
Почему важна разметка данных: в основе ChatGPT лежит труд людей
Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.
Читать: https://habr.com/ru/articles/766402/
Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.
Читать: https://habr.com/ru/articles/766402/
Дайджест новостей из мира будущего, машинного обучения, роботов и искусственного интеллекта за начало осени
Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за последнее время.
Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.
Итак, а теперь сам дайджест:
Читать дайджест
Читать: https://habr.com/ru/companies/uzum/articles/766574/
Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за последнее время.
Меня зовут Рушан, и я автор Telegram-канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости.
Итак, а теперь сам дайджест:
Читать дайджест
Читать: https://habr.com/ru/companies/uzum/articles/766574/
Без работы не останемся: к 2030 году ИИ добавит семь новых профессий
ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому.
Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии.
Читать: https://habr.com/ru/companies/vk/articles/769450/
ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому.
Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии.
Читать: https://habr.com/ru/companies/vk/articles/769450/