В рубрике больших наборов данных команда Microsoft Bing опубликовала наборы данных со сведениями о зданиях [1] под открытой лицензией Open Data Commons Open Database License (ODbL) используемой в OpenStreetMap.
Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий
Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.
P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.
Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/
#opendata #microsoft
Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий
Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.
P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.
Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/
#opendata #microsoft
Bing
Microsoft has released new and updated building footprints
The Microsoft Maps team has been busy since our last Building footprints blog in 2020. Not only have we added Australia, South America, Nigeria & Kenya but we have also updated our previous collections from 2019 by leveraging newer imagery. As with our other…
Microsoft выпустили Open Data Social Framework [1] большой документ в помощь тем кто собирается достигать общественных и социальных целей с использованием открытых данных. Авторы его Open Data Policy Lab и сам документ подготовлен в рамках вот уже 2-х летней программы.
Microsoft молодцы в последовательной политике открытости, многие опасались что Github'у сильно похужеет после покупки и что компания, в принципе, не про открытость. Но в части открытых данных они и другие BigTech компании делают много полезного. Конечно, всегда не так много как хотелось бы, но много.
Ссылки:
[1] https://news.microsoft.com/open-data-social-impact-framework/
#opendata #microsoft #data
Microsoft молодцы в последовательной политике открытости, многие опасались что Github'у сильно похужеет после покупки и что компания, в принципе, не про открытость. Но в части открытых данных они и другие BigTech компании делают много полезного. Конечно, всегда не так много как хотелось бы, но много.
Ссылки:
[1] https://news.microsoft.com/open-data-social-impact-framework/
#opendata #microsoft #data
В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.
Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.
Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.
Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping
#opendata #ai #datasets #microsoft #corporateresponsibility
Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.
Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.
Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping
#opendata #ai #datasets #microsoft #corporateresponsibility
Open Data Collaboration and Sharing |Microsoft CSR
Open Data Collaboration and Sharing | Microsoft CSR
Realize the benefit of organizations sharing and collaborating around data to tackle the world's greatest challenges, with tools to guide policy and governance.
Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].
В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.
И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.
В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.
В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.
Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.
Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz
#ai #dataethics #aiethics #microsoft
В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.
И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.
В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.
В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.
Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.
Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz
#ai #dataethics #aiethics #microsoft
Microsoft On the Issues
Microsoft’s framework for building AI systems responsibly
Today we are sharing publicly Microsoft’s Responsible AI Standard, a framework to guide how we build AI systems. It is an important step in our journey to develop better, more trustworthy AI. We are releasing our latest Responsible AI Standard to share what…
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.
Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.
Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".
Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.
Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.
Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/
#search #censorship #china #russia #usa #microsoft #google
Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.
Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".
Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.
Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.
Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/
#search #censorship #china #russia #usa #microsoft #google
Brookings
How China uses search engines to spread propaganda
Beijing has exploited search engine results to disseminate state-backed media that amplify the Chinese Communist Party’s propaganda. As we demonstrate in our recent report, users turning to search …
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.
Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]
Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.
В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.
Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data
#opendata #data #cartography #microsoft #amazon #meta #tomtom
Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]
Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.
В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.
Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data
#opendata #data #cartography #microsoft #amazon #meta #tomtom
TechCrunch
Meta, Microsoft, AWS and TomTom launch the Overture Maps Foundation to develop interoperable open map data
The Linux Foundation has partnered with Meta, Microsoft, AWS and TomTom to create interoperable and open map data.
Из свежих интересных инструментов для работы с API Cadl [1] язык от Microsoft для описания облачных API и автогенерации кода для сервера и клиента. Существует в виде компилятора командной строки, расширений для VS Code и Visual Studio, написан полностью на nodejs, поддерживает спецификации OpenAPI, но ими не ограничивается.
Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.
Ссылки։
[1] https://microsoft.github.io/cadl/
#opensource #microsoft
Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.
Ссылки։
[1] https://microsoft.github.io/cadl/
#opensource #microsoft
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.
Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.
А вот Microsoft может получить существенную долю поискового рынка для Bing.
Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
#ai #microsoft #search
Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.
А вот Microsoft может получить существенную долю поискового рынка для Bing.
Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
#ai #microsoft #search
В рубрике интересных наборов данных Global ML Building Footprints [1] набор данных георасположения зданий по всему миру созданный компанией Microsoft в рамках Bing Maps на основе спутниковой и аэрофотосъёмки Maxar, Airbus и IGN France. В репозитории краткая документация и скрипты загрузки, а также ссылка на список всех файлов этого набора данных представленный в виде CSV [2]. В том числе этот набор данных даёт геоданные по странам где публичных геоданных немного: Россия, Казахстан, Кыргызстан, Армения, Туркменистан, Афганистан и многое другое. На мой взгляд датасет сильно недооценённый и очень интересный.
Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.
Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.
Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.
Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования
Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings
#opendata #datasets #microsoft #geospatial
Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.
Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.
Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.
Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования
Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings
#opendata #datasets #microsoft #geospatial
GitHub
GitHub - microsoft/GlobalMLBuildingFootprints: Worldwide building footprints derived from satellite imagery
Worldwide building footprints derived from satellite imagery - GitHub - microsoft/GlobalMLBuildingFootprints: Worldwide building footprints derived from satellite imagery
В The Verge очень подробное интервью Kevin Scott, CTO Microsoft о том что компания планирует поместить AI инструменты разработки практически во все свои инструменты [1]. В MS Office, в инструменты разработки, в терминал и всюду и всюду и всюду. Прям даже интересно, в ядро ОС они его тоже встроят или ещё рано?
Интервью интересное, не только разговорами про возвращение Sydney в Bing, но и стратегией компании в целом.
Я вот подозреваю что самое очевидное применение будет информационная безопасность и именно под этим соусом и соусом продуктивности ИИ появится в ядрах Windows, OSX, Linux и других.
Ссылки:
[1] https://www.theverge.com/23733388/microsoft-kevin-scott-open-ai-chat-gpt-bing-github-word-excel-outlook-copilots-sydney
#ai #readings #microsoft
Интервью интересное, не только разговорами про возвращение Sydney в Bing, но и стратегией компании в целом.
Я вот подозреваю что самое очевидное применение будет информационная безопасность и именно под этим соусом и соусом продуктивности ИИ появится в ядрах Windows, OSX, Linux и других.
Ссылки:
[1] https://www.theverge.com/23733388/microsoft-kevin-scott-open-ai-chat-gpt-bing-github-word-excel-outlook-copilots-sydney
#ai #readings #microsoft
The Verge
Microsoft CTO Kevin Scott thinks Sydney might make a comeback
The inside scoop on AI at Microsoft with CTO Kevin Scott.
В рубрике интересных наборов данных база [1] из 650 тысяч сегментов пользователей собранных исследователем Wolfie Christl из рекламной платформы Xandr (изначально созданно в AT&T, купленной Microsoft в 2021 году).
Записи включают: имя поставщика данных, ID поставщика, ID сегмента, название пользовательского сегмента.
Данные интересные и ещё интереснее публикация в The Markup по итогам анализа этих данных [2].
Выводы там неутешительные, очень многие сегменты используют самые что ни на есть персональные данные включая самые чувствительные, вроде медицинских данных.
Ссылки:
[1] https://github.com/the-markup/xandr-audience-segments
[2] https://themarkup.org/privacy/2023/06/08/from-heavy-purchasers-of-pregnancy-tests-to-the-depression-prone-we-found-650000-ways-advertisers-label-you
#opendata #privacy #admarket #microsoft
Записи включают: имя поставщика данных, ID поставщика, ID сегмента, название пользовательского сегмента.
Данные интересные и ещё интереснее публикация в The Markup по итогам анализа этих данных [2].
Выводы там неутешительные, очень многие сегменты используют самые что ни на есть персональные данные включая самые чувствительные, вроде медицинских данных.
Ссылки:
[1] https://github.com/the-markup/xandr-audience-segments
[2] https://themarkup.org/privacy/2023/06/08/from-heavy-purchasers-of-pregnancy-tests-to-the-depression-prone-we-found-650000-ways-advertisers-label-you
#opendata #privacy #admarket #microsoft
В рубрике больших наборов данных Open Buildings [1] от Google. Набор данных идентификации зданий в странах Глобального Юга: Африка, Латинская Америка и Юго-Восточная Азия. Набор данных относительно велик, 178GB. Работать с ним можно в облаке Google или скачать себе локально его целиком или отдельные сегменты разделённые по геометрии S2 [2]. Кроме того каждому зданию присваиваются Plus codes [3], уникальные идентификаторы используемые в Google Maps.
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
S2Geometry
S2 Geometry
The s2geometry.io website
Python внутри MS Excel [1] - это признание востребованности языка для дата-анализа и тем что Python уже стал стандартом де-факто для всех кто данные обрабатывает. Но то что только в облаке Microsoft Cloud сильно ограничивает корпоративное его применение для всех кто в облаке работать не готов.
Для тех кто использовал/использует MS Excel для очистки и обогащения данных не могу не напомнить про OpenRefine [2], продукт в котором Python (Jython) был встроен с самого начала. Когда надо полуавтоматически/полувручную проверять табличные данные - это незаменимый инструмент.
Ссылки:
[1] https://techcommunity.microsoft.com/t5/microsoft-365-blog/introducing-python-in-excel-the-best-of-both-worlds-for-data/ba-p/3905482
[2] https://openrefine.org
#microsoft #excel #datatools
Для тех кто использовал/использует MS Excel для очистки и обогащения данных не могу не напомнить про OpenRefine [2], продукт в котором Python (Jython) был встроен с самого начала. Когда надо полуавтоматически/полувручную проверять табличные данные - это незаменимый инструмент.
Ссылки:
[1] https://techcommunity.microsoft.com/t5/microsoft-365-blog/introducing-python-in-excel-the-best-of-both-worlds-for-data/ba-p/3905482
[2] https://openrefine.org
#microsoft #excel #datatools
Команда исследователей из Microsoft и Github'а разместили препринт статьи Open Data on GitHub: Unlocking the Potential of AI [1], о том что на Github'е хостится порядка 800 миллионов файлов открытых данных общим объёмом около 142 терабайт.
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
Я ничего не писал про увольнение Сэма Альтмана из OpenAI ожидая когда станут известны подробности и подробности уже прозвучали, он переходит в Microsoft, что, для Microsoft, несомненно большой выигрыш. Тем временем просто интереса ради почитать обзор того как менялся состав правления OpenAI за 6 лет [2], там немало любопытного и непрозрачного было.
Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.
Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board
#ai #microsoft
Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.
Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board
#ai #microsoft
Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.
Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].
Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.
Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.
Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/
#opendata #datasets #data #geodata #microsoft
Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].
Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.
Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.
Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/
#opendata #datasets #data #geodata #microsoft
GitHub
Retiring the Hub on June 6th, 2024 · microsoft/PlanetaryComputer · Discussion #347
NoteThe Planetary Computer Hub will be retired on the 6th of June 2024. This is a notice that the Planetary Computer Hub will be retired on the 6th of June 2024. Please note that this change only a...
К вопросу о каталогах данных, которые я изучаю вот уже много лет, в особенности каталоги общедоступных и открытых данных, чем больше я наблюдаю рынок, экосистему и тд. в том числе относительно больших каталогов данных, тем больше убеждаюсь что весь этот рынок за очень короткое время может перемешать Microsoft или, с меньшей вероятностью, Gitlab, реализовав в Github/Gitlab такое понятие как репозиторий данных.
По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo.
Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом.
1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске.
2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT.
К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno.
#opendata #datasets #microsoft #github #thoughts
По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo.
Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом.
1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске.
2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT.
К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno.
#opendata #datasets #microsoft #github #thoughts