Анализ объявлений Airbnb в Нью-Йорке за 2019 год
Для нашего последнего проекта мы решили работать с набором данных Airbnb по Нью-Йорку за 2019 год, который предоставляет обширные данные о ценах, местоположении и листингах аренды Airbnb в популярных районах Нью-Йорка. Наш набор данных позволяет нам понять активность листинга по хостам, географической доступности и истории цен, которые мы можем легко использовать в нашем анализе.
В этом последнем проекте нашей главной целью было понять, как эти различные показатели объявлений влияют на цены и популярность аренды Airbnb и как они различаются в разных районах Нью-Йорка. В частности, мы стремились ответить на вопрос, как цена влияет на такие показатели листинга, как район и тип номера. Мы также стремились понять, как на доступность этих объявлений влияют одни и те же показатели (местоположение и тип номера), а также на более абстрактном уровне, какие хосты наиболее загружены и почему.
Читать: https://habr.com/ru/articles/787982/
Для нашего последнего проекта мы решили работать с набором данных Airbnb по Нью-Йорку за 2019 год, который предоставляет обширные данные о ценах, местоположении и листингах аренды Airbnb в популярных районах Нью-Йорка. Наш набор данных позволяет нам понять активность листинга по хостам, географической доступности и истории цен, которые мы можем легко использовать в нашем анализе.
В этом последнем проекте нашей главной целью было понять, как эти различные показатели объявлений влияют на цены и популярность аренды Airbnb и как они различаются в разных районах Нью-Йорка. В частности, мы стремились ответить на вопрос, как цена влияет на такие показатели листинга, как район и тип номера. Мы также стремились понять, как на доступность этих объявлений влияют одни и те же показатели (местоположение и тип номера), а также на более абстрактном уровне, какие хосты наиболее загружены и почему.
Читать: https://habr.com/ru/articles/787982/
Enabling OCI Notifications for Data Flows in Oracle Analytics Cloud
Learn how to build your own data flow notification system through OCI services including OCI Logging, Notification Service, and Connector Hub Service.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-data-flow-notification-system
Learn how to build your own data flow notification system through OCI services including OCI Logging, Notification Service, and Connector Hub Service.
Read: https://blogs.oracle.com/analytics/post/oracle-analytics-data-flow-notification-system
Oracle
Enabling OCI Notifications for Data Flows in Oracle Analytics Cloud
Learn how to build your own data flow notification system through OCI services including OCI Logging, Notification Service, and Connector Hub Service.
Deploy Network Components for Oracle Fusion Analytics Service Endpoints
Deploy in minutes the initial network components for Oracle Fusion Analytics service endpoints using Oracle Cloud Shell and the Terraform OCI provider.
Read: https://blogs.oracle.com/analytics/post/deploy-network-components-for-oracle-fusion-analytics-service-endpoints
Deploy in minutes the initial network components for Oracle Fusion Analytics service endpoints using Oracle Cloud Shell and the Terraform OCI provider.
Read: https://blogs.oracle.com/analytics/post/deploy-network-components-for-oracle-fusion-analytics-service-endpoints
Oracle
Deploy Initial Network Components for Oracle Fusion Analytics Service Endpoints
This post guides you through deploying initial network components for Oracle Fusion Analytics service endpoints.
Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров
Привет, Хабр! Меня зовут Наталья Макарова, я ведущий разработчик команды геоданных в CDEK. В этой статье расскажу, как мы с помощью ML решили проблему, не дававшую нашей компании перейти на автоматическую маршрутизацию курьеров.
Мы умеем отслеживать прохождение грузом всей транспортной цепочки, включая промежуточные склады. Но посылку нужно ставить на конкретный маршрут до того, как весь груз придет на склад доставки. И даже до того, как он попадет в ERP‑систему СDEK (посылки оформят в офисах). То есть задача такая: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут!
Читать: https://habr.com/ru/companies/cdek_blog/articles/788816/
Привет, Хабр! Меня зовут Наталья Макарова, я ведущий разработчик команды геоданных в CDEK. В этой статье расскажу, как мы с помощью ML решили проблему, не дававшую нашей компании перейти на автоматическую маршрутизацию курьеров.
Мы умеем отслеживать прохождение грузом всей транспортной цепочки, включая промежуточные склады. Но посылку нужно ставить на конкретный маршрут до того, как весь груз придет на склад доставки. И даже до того, как он попадет в ERP‑систему СDEK (посылки оформят в офисах). То есть задача такая: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут!
Читать: https://habr.com/ru/companies/cdek_blog/articles/788816/
👍1
What Problem Type Should Be Chosen During Fusion Analytics Warehouse SR Creation
What Problem Type Should Be Chosen During Fusion Analytics Warehouse SR Creation
Read: https://blogs.oracle.com/proactivesupportepm/post/what-problem-type-should-be-chosen-during-fusion-analytics-warehouse-sr-creation
What Problem Type Should Be Chosen During Fusion Analytics Warehouse SR Creation
Read: https://blogs.oracle.com/proactivesupportepm/post/what-problem-type-should-be-chosen-during-fusion-analytics-warehouse-sr-creation
Oracle
What Problem Type Should Be Chosen During Fusion Analytics Warehouse SR Creation
Детекция объектов. R-CNN, Fast R-CNN, Faster R-CNN. Часть 1
Кто такой детектор?
Данная статья посвящена постановке задачи детекции и обзору первых двухстадийных детекторов, таких как: R-CNN, Fast R-CNN и Faster RCNN.
Читать: https://habr.com/ru/articles/789942/
Кто такой детектор?
Данная статья посвящена постановке задачи детекции и обзору первых двухстадийных детекторов, таких как: R-CNN, Fast R-CNN и Faster RCNN.
Читать: https://habr.com/ru/articles/789942/
От детектора ИИ-текстов до безградиентной оптимизации. О чём учёные из AIRI рассказывали на конференции NeurIPS 2023
Конференции — важная часть науки. И так уж сложилось, что в области компьютерных наук — и в особенности в машинном обучении — они играют более важную роль, чем в остальных научных областях. Существует даже специальный рейтинг конференций, по важности сопоставимый с рейтингом научных журналов для учёных, занимающихся ИИ.
Среди лидеров этого списка (рейтинг A*) самой топовой с точки зрения цитирования по сей день остаётся конференция Neural Information Processing Systems или, сокращённо, NeurIPS, куда ежегодно стремятся попасть многие исследователи. Статьи и доклады проходят там жёсткий отбор — в 2023 году туда было принято лишь 26 процентов статей. Тем приятнее, что на NeurIPS 2023, который прошёл в декабре, учёными Института искусственного интеллекта AIRI было сделано там сразу восемь докладов.
О том, какие результаты представили там наши исследователи, я расскажу в тексте ниже.
Читать: https://habr.com/ru/companies/airi/articles/790394/
Конференции — важная часть науки. И так уж сложилось, что в области компьютерных наук — и в особенности в машинном обучении — они играют более важную роль, чем в остальных научных областях. Существует даже специальный рейтинг конференций, по важности сопоставимый с рейтингом научных журналов для учёных, занимающихся ИИ.
Среди лидеров этого списка (рейтинг A*) самой топовой с точки зрения цитирования по сей день остаётся конференция Neural Information Processing Systems или, сокращённо, NeurIPS, куда ежегодно стремятся попасть многие исследователи. Статьи и доклады проходят там жёсткий отбор — в 2023 году туда было принято лишь 26 процентов статей. Тем приятнее, что на NeurIPS 2023, который прошёл в декабре, учёными Института искусственного интеллекта AIRI было сделано там сразу восемь докладов.
О том, какие результаты представили там наши исследователи, я расскажу в тексте ниже.
Читать: https://habr.com/ru/companies/airi/articles/790394/
Годовой дайджест по аналитике и ML за 2023
Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мега-дайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.
Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.
Читать: https://habr.com/ru/companies/selectel/articles/790368/
Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мега-дайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.
Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.
Читать: https://habr.com/ru/companies/selectel/articles/790368/
Как проводят оценку качества данных в Airbnb
Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.
Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.
Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.
Читать: https://habr.com/ru/companies/itsumma/articles/786228/
Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.
Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.
Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.
Читать: https://habr.com/ru/companies/itsumma/articles/786228/
Как мы не выбрали Airbyte
Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.
У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.
Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно «но»…
Читать: https://habr.com/ru/companies/selectel/articles/788302/
Привет, Хабр! Меня зовут Илья, я работаю инженером данных в компании Selectel. В отделе BI мы собираем информацию из внутренних и внешних источников и предоставляем аналитикам.
У нас достаточно большой набор внешних ресурсов, данные из которых нужно собирать и обрабатывать. Среди них — различные SMM-площадки вроде VK и Telegram, платформы лидогенерации, инструменты таргетированной рассылки писем, системы автоматизации и многое-многое другое.
Так как компания развивается, мы спрогнозировали, что число источников тоже будет только расти. И назрела мысль, что нам нужно подобрать специализированное ПО, которое будет отвечать за доставку данных из внешних ресурсов в DWH. Время прошло, идея воплощена: мы используем Airflow и самописные коннекторы на Python. Но могло сложиться все иначе — и мы бы использовали Airbyte, если бы не одно «но»…
Читать: https://habr.com/ru/companies/selectel/articles/788302/
Forwarded from Нейроканал
Любители комиксов и Data Science на месте?
Нашли уникальный в своём роде ресурс с обучающими материалами на тему Data Science от Allison Horst.
На сайте представлена комиксы о статистике, линейной регрессии, библиотекам и прочим прелестям, которые сопровождаются крутой графикой.
Вот если бы статьи с arXiv выглядели бы также
#позалипать
Нашли уникальный в своём роде ресурс с обучающими материалами на тему Data Science от Allison Horst.
На сайте представлена комиксы о статистике, линейной регрессии, библиотекам и прочим прелестям, которые сопровождаются крутой графикой.
Вот если бы статьи с arXiv выглядели бы также
#позалипать
❤2
Победитель А: СТАРТ: groql — бизнес-аналитика на основе ИИ
Сегодня такие компании, как Microsoft и Tableau прекратили поддержку своих продуктов в России. Это привело к резкому уменьшению числа приложений для бизнес-аналитики данных. Ситуацию решила изменить команда стартапа groql из Новосибирска, победитель осенней сессии А:СТАРТ 2023 года.
Приложение groql позволяет пользователю общаться с базами данных на естественном (русском) языке без опыта в области программирования и получать визуализации в виде графиков, диаграмм и графов. Граф — это абстрактное представление множества объектов и связей между ними. Примером может служить схема авиалиний, где вершины — это аэропорты, а ребра — это маршруты.
Главное преимущество этого стартапа — в визуальном представлении данных. После обработки запроса пользователь увидит графическое представление данных, которое поможет лучше понять связи между различными данными. Работодателю это поможет сократить издержки — за счет сокращения времени и упрощения работы с данными. Так компания в среднем тратит на 50% меньше на мидл-аналитиков.
Пользователь может спросить: «Каков был общий объем продаж в прошлом квартале по регионам?». ИИ-система интерпретирует этот запрос, преобразует в SQL-запрос и извлекает необходимые данные из базы. Решение актуально для ритейла, финансового сектора, недвижимости и ГИС.
Игорь Учанов, руководитель продукта, попытался доходчиво объяснить суть решения и его достоинства:
«Groql — это про понятную бизнес-аналитику на основе ИИ.
У основного сегмента нашей ЦА (банки, ритейл, недвижимость и ГИС) существует ряд проблем: аналитики не разбираются в языках программирования. Все изучают их с нуля, при этом нет какого-то стандартного набора инструментов. А каждый запрос в базу данных занимает много времени.
Читать: https://habr.com/ru/articles/791358/
Сегодня такие компании, как Microsoft и Tableau прекратили поддержку своих продуктов в России. Это привело к резкому уменьшению числа приложений для бизнес-аналитики данных. Ситуацию решила изменить команда стартапа groql из Новосибирска, победитель осенней сессии А:СТАРТ 2023 года.
Приложение groql позволяет пользователю общаться с базами данных на естественном (русском) языке без опыта в области программирования и получать визуализации в виде графиков, диаграмм и графов. Граф — это абстрактное представление множества объектов и связей между ними. Примером может служить схема авиалиний, где вершины — это аэропорты, а ребра — это маршруты.
Главное преимущество этого стартапа — в визуальном представлении данных. После обработки запроса пользователь увидит графическое представление данных, которое поможет лучше понять связи между различными данными. Работодателю это поможет сократить издержки — за счет сокращения времени и упрощения работы с данными. Так компания в среднем тратит на 50% меньше на мидл-аналитиков.
Пользователь может спросить: «Каков был общий объем продаж в прошлом квартале по регионам?». ИИ-система интерпретирует этот запрос, преобразует в SQL-запрос и извлекает необходимые данные из базы. Решение актуально для ритейла, финансового сектора, недвижимости и ГИС.
Игорь Учанов, руководитель продукта, попытался доходчиво объяснить суть решения и его достоинства:
«Groql — это про понятную бизнес-аналитику на основе ИИ.
У основного сегмента нашей ЦА (банки, ритейл, недвижимость и ГИС) существует ряд проблем: аналитики не разбираются в языках программирования. Все изучают их с нуля, при этом нет какого-то стандартного набора инструментов. А каждый запрос в базу данных занимает много времени.
Читать: https://habr.com/ru/articles/791358/
❤1
Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров
Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.
В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.
Читать: https://habr.com/ru/companies/ozontech/articles/791684/
Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.
В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.
Читать: https://habr.com/ru/companies/ozontech/articles/791684/
⚡2
Иерархия ИИ-потребностей
Как это часто бывает с быстро развивающимися технологиями, ИИ породил массовые проявления синдрома упущенных возможностей, страха, неуверенности, сомнений и междоусобиц. Некоторые из них имеют под собой основания, некоторые — нет, но всё это бросается в глаза. Все от мала до велика, от незаметных стартапов до финтех-гигантов и государственных учреждений, сформировали команды специалистов, которые лихорадочно разрабатывают ИИ-стратегии.
Команда VK Cloud перевела статью о том, как использовать ИИ и машинное обучение, чтобы лучше справляться с тем, что мы делаем.
Читать: https://habr.com/ru/companies/vk/articles/790362/
Как это часто бывает с быстро развивающимися технологиями, ИИ породил массовые проявления синдрома упущенных возможностей, страха, неуверенности, сомнений и междоусобиц. Некоторые из них имеют под собой основания, некоторые — нет, но всё это бросается в глаза. Все от мала до велика, от незаметных стартапов до финтех-гигантов и государственных учреждений, сформировали команды специалистов, которые лихорадочно разрабатывают ИИ-стратегии.
Команда VK Cloud перевела статью о том, как использовать ИИ и машинное обучение, чтобы лучше справляться с тем, что мы делаем.
Читать: https://habr.com/ru/companies/vk/articles/790362/
☃2
Как мы поменяли методику исследования «BI-круг Громова», чтобы результаты стали еще точнее
«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем, весьма хорошо. По задумке наши исследования (кстати, ежегодные) должны быть чем-то вроде карты для ИТ-отделов и руководителей, чтобы помочь им разобраться в дебрях множества современных BI-решений. Одним из основных параметров, влияющих на объективность исследования, является его методика. Поэтому мы постоянно думаем над тем, как сделать нашу методику еще более точной, учитывающей еще больше факторов и позволяющей раскрыть максимум информации о решениях, которые попали к нам под микроскоп.
Читать: https://habr.com/ru/articles/792292/
«Круги Громова» занимается сравнительными исследованиями ИТ-решений. Начинали мы с исследований именно BI-систем (системы бизнес-аналитики, business intelligence) и разбираемся в них, как считаем, весьма хорошо. По задумке наши исследования (кстати, ежегодные) должны быть чем-то вроде карты для ИТ-отделов и руководителей, чтобы помочь им разобраться в дебрях множества современных BI-решений. Одним из основных параметров, влияющих на объективность исследования, является его методика. Поэтому мы постоянно думаем над тем, как сделать нашу методику еще более точной, учитывающей еще больше факторов и позволяющей раскрыть максимум информации о решениях, которые попали к нам под микроскоп.
Читать: https://habr.com/ru/articles/792292/
👍1
Детекция объектов. YOLO. Часть 2
Кто такой YOLO?
Когда пытаешься разобраться в работе YOLO по статьям в интернете, постоянно натыкаешься на примерно такое объяснение: «Алгоритм делит изображение сеткой SxS, где каждому элементу этой сетки соответствует N ббоксов с координатами, предсказаниями классов и тд...». Но лично мне становилось только непонятнее от такого высокоуровнего описания.. Ведь в исследованиях часто всё происходит примерно так: перебирают гипотезы, пока не получат приемлемый результат, а потом уже придумывают красивое описание. Поэтому для ясности хочется в данной статье рассказать, как вообще приходили к идеям, которые ложились в основу YOLOv1 и последующих версий.
Читать: https://habr.com/ru/articles/792926/
Кто такой YOLO?
Когда пытаешься разобраться в работе YOLO по статьям в интернете, постоянно натыкаешься на примерно такое объяснение: «Алгоритм делит изображение сеткой SxS, где каждому элементу этой сетки соответствует N ббоксов с координатами, предсказаниями классов и тд...». Но лично мне становилось только непонятнее от такого высокоуровнего описания.. Ведь в исследованиях часто всё происходит примерно так: перебирают гипотезы, пока не получат приемлемый результат, а потом уже придумывают красивое описание. Поэтому для ясности хочется в данной статье рассказать, как вообще приходили к идеям, которые ложились в основу YOLOv1 и последующих версий.
Читать: https://habr.com/ru/articles/792926/
Forwarded from Нейроканал
YOLO-World: распознавание объектов с высокой точностью за считаные секунды
Представляем вашему вниманию новую open source модельку семейства YOLO. Однако, в отличие от своих предшественников, она способна распознавать объекты в режиме реального времени и это всё без предварительного обучения! Для обнаружения необходимо всего лишь составить промпт, по которому будут отбираться объекты.
Касаемо бенчмарков YOLO-World также не стала скромничать и показала прирост в производительности в 20 раз в сравнении с прошлыми моделями.
Hugging Face | Github | Статья | Блогпост
#yolo #cv
Представляем вашему вниманию новую open source модельку семейства YOLO. Однако, в отличие от своих предшественников, она способна распознавать объекты в режиме реального времени и это всё без предварительного обучения! Для обнаружения необходимо всего лишь составить промпт, по которому будут отбираться объекты.
Касаемо бенчмарков YOLO-World также не стала скромничать и показала прирост в производительности в 20 раз в сравнении с прошлыми моделями.
Hugging Face | Github | Статья | Блогпост
#yolo #cv
👍1