Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Хочется очень много данных? Прям очень очень много и очень больших ? На базе Amazon AWS работает бесплатная версия портала Quilt по адресу open.quiltdata.com [1] где можно скачать данные 25 датасетов общим объёмом в 3.7 петабайта и 10.2 миллиардов объектов.

Например, там прокаталогизированы:
- перепись населения США [2]
- более одного миллиона записных книжек дата сайентистов Jupyter Notebook [3]
- база OpenStreetMap [4]

и многое другое.

У проекта нет претензии на то чтобы все данные были бы в едином формате, но есть заявка на систематизацию крупнейших датасетов и хранение огромных объёмов.

Ссылки:
[1] https://open.quiltdata.com/
[2] https://open.quiltdata.com/b/dataworld-linked-acs
[3] https://open.quiltdata.com/b/open-jupyter-notebooks
[4] https://open.quiltdata.com/b/osm-pds

#opendata #data #aws
Amazon анонсировали свою no-code платформу Honeycode [1]. Саму платформу уже сейчас можно попробовать [2]. В самой платформе более 11 видов шаблонов [3] и весьма либеральные цены.

Больше всего от появления Honeycode пострадают стартапы вроде Airtable (эдакий облачный аналог MS Access), а также разного рода headless CMS вроде Directus или Strapi.io и ещё многих других.

Но с другой стороны если у Amazon эта платформа хорошо разовьётся, то Google и Microsoft могут захотеть не создавать, а поглотить один из стартапов в свои экосистемы, GCCS и Azure соответственно.

У Honeycode уже неплохая документация, курсы и сообщество [4] и вес Amazon'а как игрока на рынке что снимает один из ключевых рисков no-code платформ - это даёт гарантию что платформа никуда не денется.

И к вопросу об импортозамещении в России, мир уходит в облака, а мы пытаемся замещать ПО продаваемое как лицензии.
Нет ощущения что мы отстаём ?

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/introducing-amazon-honeycode-build-web-mobile-apps-without-writing-code/
[2] https://www.honeycode.aws
[3] https://www.honeycode.aws/templates/templates-all
[4] https://honeycodecommunity.aws/

#amazon #aws #nocode
Я всё не успел прокомментировать новость что Amazon AWS приходит в Россию с партнерством с Mail.ru. Новость нельзя сказать что плохая, больше качественной инфраструктуры - всегда лучше. Но, всегда есть нюансы.

Я бы оценил вероятность что российский бизнес резко рванет переводить свою инфраструктуру из серверов Amazon в других юрисдикаций в российкуую - как невысокую. И так можно обеспечить доступность веб-контента через CDN, а недоступность данных для российских силовиков куда актуальнее чем скорость подключения.

А вот зарубежным компаниям которые ещё не локализовали в России персональные данные россиян будет некуда деваться. Если Mail.ru/Amazon будут действовать в тесном контакте с Роскомнадзором, то могут усилить давление на тех кто ещё не хранит данные в России.

#hosting #aws #thoughts
Компания Amazon сделала публичный форк (отдельную ветвь разработки) продукта Elasticsearch [1] после того как компания Elastic сменила модель лицензирования и закрыла код продукта. В ответ Elastic, разработчики, Elasticsearch обвинили их в некорректном и неэтичном поведении [2].

Почему всё это важно? В современном мире огромное значение приобретают зависимости кода и продуктов друг от друга. Elasticsearch - это продукт от которого сейчас зависит огромное число сервисов по всему миру. Конфликт между Elastic и Amazon - это конфликт между бизнес моделями open source где большую выгоду получают крупные игроки обеспечивающие инфраструктурные сервисы за счет open source продуктов.

Если Вы сделаете сейчас очень востребованный open source продукт то да, сколько бы Вы не заработали, но Amazon, Google и Microsoft заработают больше потому что они умеют лучше масштабировать, у них огромная пользовательская база и огромный штат инженеров сопровождения.

Для некоторых качественных open source проектов это осознание является большим жизненным вызовом и они отказываются от модели существования как открытого кода. Но возможно что это чуть ли не единственная возможная для них модель существования.

Эта ситуация ещё одно напоминание о важности целостной государственной/корпоративной политики управления зависимостями. Рисками того что важные компоненты ваших систем могут становиться недоступными, перестать поддерживаться или обретать иную стоимость.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/opensource/stepping-up-for-a-truly-open-source-elasticsearch/
[2] https://www.elastic.co/blog/why-license-change-AWS

#opensource #aws
О том как публикуются большие наборы исследовательских данных не могу не помнить про каталог данных данных компании Amazon [1]. Все опубликованные там данные не их, а данные исследовательских центров. Их немного, всего 220 наборов данных. Они самым простецким образом описаны вместе с исходным кодом на Github'е [2], но их объёмы - это десятки, сотни терабайт. Это одни из крупнейших наборов данных, один из известнейших из них - это Common Crawl [3] открытый поисковый индекс с 50 миллиардами проиндексированных веб-страниц. Только за февраль/март 2021 года в их индекс добавилось 280 терабайт распакованных данных (примерно 80 терабайт в архиве) [4]

Почему Amazon создали такой реестр и в открытую раздают такие объёмы данных? Всё просто, для тех кто работает в их инфраструктуре доступ к этим данным значительно удобнее. А там такие объёмы что их бессмысленно скачивать себе локально, проще арендовать в инфраструктуре Amazon Web Services сервер и через него работать с этими данными. Лично я так и делал несколько лет назад когда работал с веб архивами и с Common Crawl в частности, было куда проще с инфраструктуры Amazon.

При этом их каталог стабильно растёт именно большими исследовательскими наборами данных и это одна из лучших коммерческих инициатив по обеспечению доступности исследовательских данных.

Ссылки:
[1] https://registry.opendata.aws/
[2] https://github.com/awslabs/open-data-registry/
[3] https://registry.opendata.aws/commoncrawl/
[4] https://commoncrawl.org/2021/03/february-march-2021-crawl-archive-now-available/

#opendata #datacatalogs #aws
В рубрике интересные наборы данных (за рубежом). Национальное управление архивов и документации США опубликовало два больших набора данных на инфраструктуре Amazon AWS. Это национальный архивный каталог [1] и данные переписи 1940 года [2].

Национальный архивный каталог - это база из 225 гигабайт с описанием 127 миллионов цифровых объектов
Перепись 1940 года - это 15 терабайт включающих метаданные к 3.7 миллионам сканированных документов и сами документы с описанием переписных листов, карт переписи и так далее.
Обо всём этом подробнее в блоге NARA [3]

Надо отдать должное Amazon, в их реестре открытых данных [4] всего 233 набора, довольно скудные метаданные по ним, но все эти наборы и базы данных огромного размера и востребованные аудиторией для которых они публикуются.

Ссылки:
[1] https://registry.opendata.aws/nara-national-archives-catalog/
[2] https://registry.opendata.aws/nara-1940-census/
[3] https://aotus.blogs.archives.gov/2021/04/15/nara-datasets-on-the-aws-registry-of-open-data/
[4] https://registry.opendata.aws/

#opendata #datasets #archives #usa #amazon #aws
Тем временем Amazon анонсировали S3 Tables [1], возможность работать с данными таблиц которые хранятся в S3, но работа с ними как с дата файлами и через SQL запросы. Внутри этого всего движок поддерживающий Apache Iceberg, относительно новый открытый формат хранения и распространения таблиц внутри которого файлы Parquet и ассоциированные с ними метаданныею

Много где пишут что такой продукт может подорвать бизнес крупнейших игроков рынка облачной дата аналитики и хранения Databricks и Snowflake [2], цена, как и у всех AWS продуктов, будет сложная, но похоже что честная за такой сервис.

Правда, по личному опыту могу сказать что использование облачных сервисов Amazon это удобно, но всегда влетает в копеечку. На эту тему бесконечное число мемов и даже стартапы есть оптимизирующие облачное использование.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/
[2] https://meltware.com/2024/12/04/s3-tables.html

#opensource #dataengineering #amazon #aws