Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Wikileaks опубликовали карту дата центров Amazon [1] и нанесли их на карту мира [2]. Всё это из конфиденциального документа утекшего в Wikileaks относительно недавно [3].

Amazon давно был известен своей секретностью по местонахождению их дата центров, не раскрывая их местонахождения много лет.

При этом у Amazon уже 34% рынка облачных сервисов [4], их активно использует разведывательное сообщество США, Минобороны США и тясячи компаний и госучреждений. Это всё со ссылками и примерами и упоминают WikiLeaks

Сейчас дата-центры Amazon'а есть во всех ключевых юрисдикциях: США, Евросоюз, Япония, Китай, Австралия.
Но они полностью отсутствуют в странах СНГ, арабских странах и в Африке.

Ссылки:
[1] https://wikileaks.org/amazon-atlas/
[2] https://wikileaks.org/amazon-atlas/map/
[3] https://wikileaks.org/amazon-atlas/document/AmazonAtlas_v1/AmazonAtlas_v1.pdf
[4] https://www.srgresearch.com/articles/cloud-revenues-continue-grow-50-top-four-providers-tighten-grip-market

#privacy #hosting #amazon
Slack, сервис корпоративных сообщений вступил в долгосрочное партнерство с Amazon [1] и будет улучшать свои возможности голосовой и видеосвязи с помощью Amazon Chime [2]. В первую очередь это связано с конкуренцией с Microsoft Teams.

На фоне этого всего у меня самый назревший вопрос - это почему Павел Дуров в Telegram до сих пор был занято исключительно массово потребительским продуктом. При наличии партнёрства или приобретения технологий на базе Telegram получился бы почти идеальный корпоративный мессенжер, механизмы его интеграции лишь немного уступают Slack'у (а может и превосходят) и это то за что компании реально были бы готовы платить.

При наличии у телеграма нормальной структуры управления, публичного юр. лица и так далее, конечно же.

Ссылки:
[1] https://www.theverge.com/2020/6/4/21280829/slack-amazon-aws-partnership-amazon-chime-voice-video-calls
[2] https://aws.amazon.com/ru/chime/

#messengers #slack #amazon #telegram
Amazon анонсировали свою no-code платформу Honeycode [1]. Саму платформу уже сейчас можно попробовать [2]. В самой платформе более 11 видов шаблонов [3] и весьма либеральные цены.

Больше всего от появления Honeycode пострадают стартапы вроде Airtable (эдакий облачный аналог MS Access), а также разного рода headless CMS вроде Directus или Strapi.io и ещё многих других.

Но с другой стороны если у Amazon эта платформа хорошо разовьётся, то Google и Microsoft могут захотеть не создавать, а поглотить один из стартапов в свои экосистемы, GCCS и Azure соответственно.

У Honeycode уже неплохая документация, курсы и сообщество [4] и вес Amazon'а как игрока на рынке что снимает один из ключевых рисков no-code платформ - это даёт гарантию что платформа никуда не денется.

И к вопросу об импортозамещении в России, мир уходит в облака, а мы пытаемся замещать ПО продаваемое как лицензии.
Нет ощущения что мы отстаём ?

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/introducing-amazon-honeycode-build-web-mobile-apps-without-writing-code/
[2] https://www.honeycode.aws
[3] https://www.honeycode.aws/templates/templates-all
[4] https://honeycodecommunity.aws/

#amazon #aws #nocode
Amazon получили на 800% больше запросов от государств на раскрытие данных пользователей за 2-й кварта 2020 года [1] в безусловных лидерах запрашивающих Германия - власти страны сделали 42% всех запросов. И тут важно помнить что Amazon - это давно уже не только интернет-магазин, это огромное количество продуктов интернета-вещей собирающих данные в централизованное хранилище компании: Echo, Fire и Ring примеры таких устройств.

В каком-то смысле это неизбежное событие, но в каком-то и пугающее потому что полной и достоверной картины то какие данные собирают эти устройства и какие дополнительные знания собираются из собранного / как данные обогащаются - мы просто не знаем.

Ссылки:
[1] https://techcrunch.com/2021/02/01/amazon-government-demands-spiked/

#amazon #privacy
В рубрике интересные наборы данных (за рубежом). Национальное управление архивов и документации США опубликовало два больших набора данных на инфраструктуре Amazon AWS. Это национальный архивный каталог [1] и данные переписи 1940 года [2].

Национальный архивный каталог - это база из 225 гигабайт с описанием 127 миллионов цифровых объектов
Перепись 1940 года - это 15 терабайт включающих метаданные к 3.7 миллионам сканированных документов и сами документы с описанием переписных листов, карт переписи и так далее.
Обо всём этом подробнее в блоге NARA [3]

Надо отдать должное Amazon, в их реестре открытых данных [4] всего 233 набора, довольно скудные метаданные по ним, но все эти наборы и базы данных огромного размера и востребованные аудиторией для которых они публикуются.

Ссылки:
[1] https://registry.opendata.aws/nara-national-archives-catalog/
[2] https://registry.opendata.aws/nara-1940-census/
[3] https://aotus.blogs.archives.gov/2021/04/15/nara-datasets-on-the-aws-registry-of-open-data/
[4] https://registry.opendata.aws/

#opendata #datasets #archives #usa #amazon #aws
В блоге Amazon текст How the cloud is helping us better understand and manage the oceans [1], о том как Amazon предоставляет свою инфраструктуру для крупных исследовательских проектов на данных и про их инициативу The Amazon Sustainability Data Initiative (ASDI) [2] когда Amazon выдает свои ресурсы в виде грантов и иной формы помощи проектам по исследованиям окружающей среды, включающим очень большие объёмы данных.

Многие из этих данных опубликованы в реестре больших наборов данных Amazon'а [3], трудно даже измерить их реальный объём. Но, тем самым, мы приходим к двум важным изменениям:
1. Очень скоро большая часть data-rich исследований переместится в облака и всё больше решений для учёных будет публиковаться именно там.
2. За счёт ADI и не только Amazon стремительно движется в сторону инфраструктурной монополии на некоторые типы данных. В определенный момент окажется что если хочешь вести исследования в какой-то теме, то у тебя и выбора особо нет, другие способы будут сильно дороже.

В России нет ничего подобного, я знаю немало общественных проектов с очень большими наборами данных которым проще разместить их в Amazon, Google, Azure, Github и других площадках чем где-либо в России, потому что в России нет возможности хранить бесплатно большие объёмы.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/publicsector/how-cloud-helping-us-better-understand-manage-oceans/
[2] https://sustainability.aboutamazon.com/environment/the-cloud/asdi
[3] https://registry.opendata.aws/collab/asdi/

#opendata #amazon #environment #datasets
Один из важнейших этических вопросов к экосистемам и крупнейшим платформам - это саморегулирование и самоцензура. Отчасти он проистекает от скорости развития платформ, значительно опережающей работу регуляторов и законодателей. А отчасти природа этого вопроса в сильной зависимости крупных и, особенно публичных, компаний от общественного мнения.

Вот к примеру на Amazon началось давление по поводу того что через него закупают некоторые пищевые консерванты которые потом используют для суицидов [1], теперь компания использует алгоритмы для идентификации таких продуктов и предлагает тем кто их покупает воспользоваться альтернативами.

Можно ли говорить о том что это самоцензура и саморегулирование? В каких случае это допустимо и в каких нет?

Вопрос очень непростой потому что нет какого-то общечеловеческого каталога ценностей определяющих допустимые границы самоограничений для технологических компаний да и бизнеса в принципе. Как правило компании разрабатывают свои принципы самостоятельно, некоторые даже публикуют их в открытом доступе. К примеру, Google на странице "Беспрепятственный доступ к информации" [2], по сути, декларируют свою ценностную модель (частично декларируют на самом деле).

Но в отличие от вопросов научной этики или международных документов по защите прав человека - эти правила не универсальны.

Случай с Amazon - это тоже некая форма цензуры и таких будет только больше.

Ссылки:
[1] https://www.nytimes.com/2022/02/04/technology/amazon-suicide-poison-preservative.html
[2] https://www.google.com/intl/ru/search/howsearchworks/mission/open-web/

#policy #amazon #censorship
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.

Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]

Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.

В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.

Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data

#opendata #data #cartography #microsoft #amazon #meta #tomtom
Тем временем Amazon анонсировали S3 Tables [1], возможность работать с данными таблиц которые хранятся в S3, но работа с ними как с дата файлами и через SQL запросы. Внутри этого всего движок поддерживающий Apache Iceberg, относительно новый открытый формат хранения и распространения таблиц внутри которого файлы Parquet и ассоциированные с ними метаданныею

Много где пишут что такой продукт может подорвать бизнес крупнейших игроков рынка облачной дата аналитики и хранения Databricks и Snowflake [2], цена, как и у всех AWS продуктов, будет сложная, но похоже что честная за такой сервис.

Правда, по личному опыту могу сказать что использование облачных сервисов Amazon это удобно, но всегда влетает в копеечку. На эту тему бесконечное число мемов и даже стартапы есть оптимизирующие облачное использование.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/
[2] https://meltware.com/2024/12/04/s3-tables.html

#opensource #dataengineering #amazon #aws