Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Microsoft официально купили Github за 7.5 миллиарда USD [1] с оплатой акциями, в их пресс релизе упоминается 28 миллионов разработчиков итого получается по 267 USD за одного разработчика, не так уж много если подумать.

А тем временем с начала анонса начался массовый импорт проектов в GitLab [2], о чём активно обсуждают на YCombinator [3] и Reddit [4]

При том что я лично не разделяю таких острых опасений в адрес Microsoft, думаю что скорее они будут налаживать мостики и отношение с FOSS сообществом, тем не менее, да, много вопросов может быть у авторов большого числа проектов.

Ссылки:
[1] https://news.microsoft.com/2018/06/04/microsoft-to-acquire-github-for-7-5-billion/
[2] https://www.bleepingcomputer.com/news/technology/gitlab-sees-huge-traffic-spike-after-news-of-microsoft-buying-github/
[3] https://news.ycombinator.com/item?id=17223116
[4] https://www.reddit.com/r/Ubuntu/comments/8odwlb/gitlab_sees_huge_spike_in_project_imports_seems/

#opensource #microsoft #github
Microsoft (команда Bing) опубликовали данные по распознанным образам 124 миллионов зданий в США [1] специально для сообщества OpenStreetMap и для загрузки в OpenStreetMap под свободной лицензией ODbL [2]

Все данные и код они же выложили на Github [3], а вся работа - это результат работы алгоритма RefineNet [4] где, конечно же, не обошлось и без глубокого обучения и CNTK (Microsoft Cognitive Toolkit) [5]

Во первых очень круто что крупнейшие дата-корпорации всё таки делятся данными с открытыми проектами, я бы сказал что российским есть с кого брать пример, но в России только Яндекс 5 лет назад помогал Wikidata [6], а сейчас, похоже, что и им не помогает.


Ссылки:
[1] https://blogs.bing.com/maps/2018-06/microsoft-releases-125-million-building-footprints-in-the-us-as-open-data/
[2] https://opendatacommons.org/licenses/odbl/
[3] https://github.com/Microsoft/USBuildingFootprints
[4] https://arxiv.org/abs/1611.06612
[5] https://github.com/Microsoft/CNTK
[6] https://www.wikimedia.de/wiki/Pressemitteilungen/PM_06_13_Wikidata_Yandex

#opendata #microsoft #bing
Майкрософт убрали возможность ставить Windows 10 без интернета как пишут на Reddit [1]. На самом деле это не совсем так, и теперь установка с локальным аккаунтом возможна только если у компьютера нет доступа в Интернет или если несколько раз неправильно ввести телефон. Но суть остаётся прежней, Microsoft загоняет пользователей в онлайн и завязывает в свою экосистему.

Ссылки:
[1] https://www.reddit.com/r/Windows10/comments/daim1y/ms_has_removed_the_use_offline_account_option/

#microsoft
Большая волна поднимает все корабли, но кто-то должен поднять эту большую волну.

Майкрософт объявил о старте кампании Closing the Data Divide: The Need for Open Data [1] (Закрывая неравенство в данных: Потребность в открытых данных) по популяризации открытости данных и по глобальному продвижению этой концепции. На фоне того что открытость данных, открытость государств начала отступать в мире, того что правительства стали если не отказываться, то забывать про обязательства открытости, инициатива со стороны одной из крупнейших цифровых корпораций - это, безусловно, хорошая новость.

И хороша она не только тем что именно Microsoft его запускает, а тем что Microsoft, Google, Amazon и другие цифровые лидеры умеют договариваться когда им это выгодно, и очень хочется надеяться на то что они сформируют собственное партнёрство по продвижению открытых данных.

Подробнее в блоге Microsoft [2]

Ссылки:
[1] https://news.microsoft.com/opendata/
[2] https://blogs.microsoft.com/on-the-issues/2020/04/21/open-data-campaign-divide/

#opendata #microsoft
В рубрике больших наборов данных команда Microsoft Bing опубликовала наборы данных со сведениями о зданиях [1] под открытой лицензией Open Data Commons Open Database License (ODbL) используемой в OpenStreetMap.

Наборы данных включают:
- США - 129.6 миллиона зданий
- Нигерия и Кения - 50.5 миллиона зданий
- Южная Африка - 44.5 миллиона зданий
- Уганда и Танзания - 17.9 миллионов зданий
- Канада - 11.8 миллионов зданий
- Австралия - 11.3 миллионов зданий

Это очень большое раскрытие данных, около сотни гигабайт в распакованном виде в формате GeoJSON.

P.S. Хотелось бы чтобы они так разметили и законтрибьютили данные по России, но подозреваю что в России так много конфликтов вокруг секретности геоданных что на это Microsoft не пойдет.

Ссылки:
[1] https://blogs.bing.com/maps/2022-01/New-and-updated-Building-Footprints/

#opendata #microsoft
Microsoft выпустили Open Data Social Framework [1] большой документ в помощь тем кто собирается достигать общественных и социальных целей с использованием открытых данных. Авторы его Open Data Policy Lab и сам документ подготовлен в рамках вот уже 2-х летней программы.

Microsoft молодцы в последовательной политике открытости, многие опасались что Github'у сильно похужеет после покупки и что компания, в принципе, не про открытость. Но в части открытых данных они и другие BigTech компании делают много полезного. Конечно, всегда не так много как хотелось бы, но много.

Ссылки:
[1] https://news.microsoft.com/open-data-social-impact-framework/

#opendata #microsoft #data
В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.

Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.

Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.

Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping

#opendata #ai #datasets #microsoft #corporateresponsibility
Из важного, Microsoft серьёзно пересматривают подход к этике ИИ, о чём пишут у себя в блоге [1], а также анонсируют вторую версию стандарта ответственного ИИ [2].

В контексте этого стандарта они закрыли для доступа их API распознавания лиц и эмоций [3] и это, также, весьма важный шаг саморегулирования ответственности корпораций.

И здесь я не могу не кинуть камень в огород российского кодекса этики ИИ [4] и важной разнице между ним и то в каком направлении сейчас движутся международные корпорации вроде Microsoft.

В российском кодексе этики ИИ явно декларируется требование соответствия законам, тем самым ставя компании которые имеют компетенции в этой области заведомо ниже законодателей у которых гарантированно компетенций в разы, если не на порядок меньше.

В стандарте Microsoft и иных подобных документах декларируется позиция корпорации которая и предполагается как будущая основа для законов.

Поэтому стандарт Microsoft будет иметь влияние на нашу с Вами жизнь, а российский кодекс этики ИИ не будет.

Ссылки:
[1] https://blogs.microsoft.com/on-the-issues/2022/06/21/microsofts-framework-for-building-ai-systems-responsibly/
[2] https://blogs.microsoft.com/wp-content/uploads/prod/sites/5/2022/06/Microsoft-Responsible-AI-Standard-v2-General-Requirements-3.pdf
[3] https://www.theverge.com/2022/6/21/23177016/microsoft-retires-emotion-recognition-azure-ai-tool-api
[4] https://bit.ly/3nfk7Lz

#ai #dataethics #aiethics #microsoft
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.

Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]

Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.

В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.

Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data

#opendata #data #cartography #microsoft #amazon #meta #tomtom
Из свежих интересных инструментов для работы с API Cadl [1] язык от Microsoft для описания облачных API и автогенерации кода для сервера и клиента. Существует в виде компилятора командной строки, расширений для VS Code и Visual Studio, написан полностью на nodejs, поддерживает спецификации OpenAPI, но ими не ограничивается.

Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.


Ссылки։
[1] https://microsoft.github.io/cadl/

#opensource #microsoft
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.

Но Россия есть, и обитаемая зона её не так велика как географическая.

Все данные в формате TSV, сжатый объём около 10GB.

Ссылки։
[1] https://github.com/microsoft/RoadDetections

#opendata #datasets #microsoft
Microsoft презентовали обновлённую поисковую систему Bing с встроенным чат-ботом на базе OpenAI [1] и множеством других связанных новаций, в том числе встраиванием ИИ в ранжирование в поисковой системе.

Изменит ли это нашу реальность больше чем ChatGPT ? Похоже нет, ChatGPT уже достаточно всех вдохновил и напугал.

А вот Microsoft может получить существенную долю поискового рынка для Bing.

Ссылки:
[1] https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

#ai #microsoft #search
В рубрике интересных наборов данных Global ML Building Footprints [1] набор данных георасположения зданий по всему миру созданный компанией Microsoft в рамках Bing Maps на основе спутниковой и аэрофотосъёмки Maxar, Airbus и IGN France. В репозитории краткая документация и скрипты загрузки, а также ссылка на список всех файлов этого набора данных представленный в виде CSV [2]. В том числе этот набор данных даёт геоданные по странам где публичных геоданных немного: Россия, Казахстан, Кыргызстан, Армения, Туркменистан, Афганистан и многое другое. На мой взгляд датасет сильно недооценённый и очень интересный.

Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.

Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.

Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.

Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования

Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings

#opendata #datasets #microsoft #geospatial