Ivan Begtin

Хочется очень много данных? Прям очень очень много и очень больших ? На базе Amazon AWS работает бесплатная версия портала Quilt по адресу open.quiltdata.com [1] где можно скачать данные 25 датасетов общим объёмом в 3.7 петабайта и 10.2 миллиардов объектов.

Например, там прокаталогизированы:
- перепись населения США [2]
- более одного миллиона записных книжек дата сайентистов Jupyter Notebook [3]
- база OpenStreetMap [4]

и многое другое.

У проекта нет претензии на то чтобы все данные были бы в едином формате, но есть заявка на систематизацию крупнейших датасетов и хранение огромных объёмов.

Ссылки:
[1] https://open.quiltdata.com/
[2] https://open.quiltdata.com/b/dataworld-linked-acs
[3] https://open.quiltdata.com/b/open-jupyter-notebooks
[4] https://open.quiltdata.com/b/osm-pds

#opendata #data #aws

Quilt Data

Quilt is a versioned data portal for AWS. Quilt integrates files into datasets that your whole company can discover, understand, and trust. Quilt is instant infrastructure to bring discoveries to market faster.

1.9K viewsIvan Begtin, 12:10

Add a comment

Ivan Begtin

Amazon анонсировали свою no-code платформу Honeycode [1]. Саму платформу уже сейчас можно попробовать [2]. В самой платформе более 11 видов шаблонов [3] и весьма либеральные цены.

Больше всего от появления Honeycode пострадают стартапы вроде Airtable (эдакий облачный аналог MS Access), а также разного рода headless CMS вроде Directus или Strapi.io и ещё многих других.

Но с другой стороны если у Amazon эта платформа хорошо разовьётся, то Google и Microsoft могут захотеть не создавать, а поглотить один из стартапов в свои экосистемы, GCCS и Azure соответственно.

У Honeycode уже неплохая документация, курсы и сообщество [4] и вес Amazon'а как игрока на рынке что снимает один из ключевых рисков no-code платформ - это даёт гарантию что платформа никуда не денется.

И к вопросу об импортозамещении в России, мир уходит в облака, а мы пытаемся замещать ПО продаваемое как лицензии.
Нет ощущения что мы отстаём ?

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/introducing-amazon-honeycode-build-web-mobile-apps-without-writing-code/
[2] https://www.honeycode.aws
[3] https://www.honeycode.aws/templates/templates-all
[4] https://honeycodecommunity.aws/

#amazon #aws #nocode

Amazon

Introducing Amazon Honeycode – Build Web & Mobile Apps Without Writing Code | Amazon Web Services

VisiCalc was launched in 1979, and I purchased a copy (shown at right) for my Apple II. The spreadsheet model was clean, easy to use, and most of all, easy to teach. I was working in a retail computer store at that time, and knew that this product was a big…

1.5K viewsIvan Begtin, edited 09:51

Ivan Begtin

Я всё не успел прокомментировать новость что Amazon AWS приходит в Россию с партнерством с Mail.ru. Новость нельзя сказать что плохая, больше качественной инфраструктуры - всегда лучше. Но, всегда есть нюансы.

Я бы оценил вероятность что российский бизнес резко рванет переводить свою инфраструктуру из серверов Amazon в других юрисдикаций в российкуую - как невысокую. И так можно обеспечить доступность веб-контента через CDN, а недоступность данных для российских силовиков куда актуальнее чем скорость подключения.

А вот зарубежным компаниям которые ещё не локализовали в России персональные данные россиян будет некуда деваться. Если Mail.ru/Amazon будут действовать в тесном контакте с Роскомнадзором, то могут усилить давление на тех кто ещё не хранит данные в России.

#hosting #aws #thoughts

2.3K viewsIvan Begtin, edited 10:22

1 comment

Ivan Begtin

Компания Amazon сделала публичный форк (отдельную ветвь разработки) продукта Elasticsearch [1] после того как компания Elastic сменила модель лицензирования и закрыла код продукта. В ответ Elastic, разработчики, Elasticsearch обвинили их в некорректном и неэтичном поведении [2].

Почему всё это важно? В современном мире огромное значение приобретают зависимости кода и продуктов друг от друга. Elasticsearch - это продукт от которого сейчас зависит огромное число сервисов по всему миру. Конфликт между Elastic и Amazon - это конфликт между бизнес моделями open source где большую выгоду получают крупные игроки обеспечивающие инфраструктурные сервисы за счет open source продуктов.

Если Вы сделаете сейчас очень востребованный open source продукт то да, сколько бы Вы не заработали, но Amazon, Google и Microsoft заработают больше потому что они умеют лучше масштабировать, у них огромная пользовательская база и огромный штат инженеров сопровождения.

Для некоторых качественных open source проектов это осознание является большим жизненным вызовом и они отказываются от модели существования как открытого кода. Но возможно что это чуть ли не единственная возможная для них модель существования.

Эта ситуация ещё одно напоминание о важности целостной государственной/корпоративной политики управления зависимостями. Рисками того что важные компоненты ваших систем могут становиться недоступными, перестать поддерживаться или обретать иную стоимость.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/opensource/stepping-up-for-a-truly-open-source-elasticsearch/
[2] https://www.elastic.co/blog/why-license-change-AWS

#opensource #aws

Amazon

Stepping up for a truly open source Elasticsearch | Amazon Web Services

Last week, Elastic announced they will change their software licensing strategy, and will not release new versions of Elasticsearch and Kibana under the Apache License, Version 2.0 (ALv2). Instead, new versions of the software will be offered under the Elastic…

1.6K viewsIvan Begtin, edited 16:50

Ivan Begtin

О том как публикуются большие наборы исследовательских данных не могу не помнить про каталог данных данных компании Amazon [1]. Все опубликованные там данные не их, а данные исследовательских центров. Их немного, всего 220 наборов данных. Они самым простецким образом описаны вместе с исходным кодом на Github'е [2], но их объёмы - это десятки, сотни терабайт. Это одни из крупнейших наборов данных, один из известнейших из них - это Common Crawl [3] открытый поисковый индекс с 50 миллиардами проиндексированных веб-страниц. Только за февраль/март 2021 года в их индекс добавилось 280 терабайт распакованных данных (примерно 80 терабайт в архиве) [4]

Почему Amazon создали такой реестр и в открытую раздают такие объёмы данных? Всё просто, для тех кто работает в их инфраструктуре доступ к этим данным значительно удобнее. А там такие объёмы что их бессмысленно скачивать себе локально, проще арендовать в инфраструктуре Amazon Web Services сервер и через него работать с этими данными. Лично я так и делал несколько лет назад когда работал с веб архивами и с Common Crawl в частности, было куда проще с инфраструктуры Amazon.

При этом их каталог стабильно растёт именно большими исследовательскими наборами данных и это одна из лучших коммерческих инициатив по обеспечению доступности исследовательских данных.

Ссылки:
[1] https://registry.opendata.aws/
[2] https://github.com/awslabs/open-data-registry/
[3] https://registry.opendata.aws/commoncrawl/
[4] https://commoncrawl.org/2021/03/february-march-2021-crawl-archive-now-available/

#opendata #datacatalogs #aws

GitHub

GitHub - awslabs/open-data-registry: A registry of publicly available datasets on AWS

A registry of publicly available datasets on AWS. Contribute to awslabs/open-data-registry development by creating an account on GitHub.

1.4K viewsIvan Begtin, 18:55

Ivan Begtin

В рубрике интересные наборы данных (за рубежом). Национальное управление архивов и документации США опубликовало два больших набора данных на инфраструктуре Amazon AWS. Это национальный архивный каталог [1] и данные переписи 1940 года [2].

Национальный архивный каталог - это база из 225 гигабайт с описанием 127 миллионов цифровых объектов
Перепись 1940 года - это 15 терабайт включающих метаданные к 3.7 миллионам сканированных документов и сами документы с описанием переписных листов, карт переписи и так далее.
Обо всём этом подробнее в блоге NARA [3]

Надо отдать должное Amazon, в их реестре открытых данных [4] всего 233 набора, довольно скудные метаданные по ним, но все эти наборы и базы данных огромного размера и востребованные аудиторией для которых они публикуются.

Ссылки:
[1] https://registry.opendata.aws/nara-national-archives-catalog/
[2] https://registry.opendata.aws/nara-1940-census/
[3] https://aotus.blogs.archives.gov/2021/04/15/nara-datasets-on-the-aws-registry-of-open-data/
[4] https://registry.opendata.aws/

#opendata #datasets #archives #usa #amazon #aws

1.4K viewsIvan Begtin, 05:30

Ivan Begtin

Тем временем Amazon анонсировали S3 Tables [1], возможность работать с данными таблиц которые хранятся в S3, но работа с ними как с дата файлами и через SQL запросы. Внутри этого всего движок поддерживающий Apache Iceberg, относительно новый открытый формат хранения и распространения таблиц внутри которого файлы Parquet и ассоциированные с ними метаданныею

Много где пишут что такой продукт может подорвать бизнес крупнейших игроков рынка облачной дата аналитики и хранения Databricks и Snowflake [2], цена, как и у всех AWS продуктов, будет сложная, но похоже что честная за такой сервис.

Правда, по личному опыту могу сказать что использование облачных сервисов Amazon это удобно, но всегда влетает в копеечку. На эту тему бесконечное число мемов и даже стартапы есть оптимизирующие облачное использование.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/
[2] https://meltware.com/2024/12/04/s3-tables.html

#opensource #dataengineering #amazon #aws

Amazon

New Amazon S3 Tables: Storage optimized for analytics workloads | Amazon Web Services

Amazon S3 Tables optimize tabular data storage (like transactions and sensor readings) in Apache Iceberg, enabling high-performance, low-cost queries using Athena, EMR, and Spark.

990 viewsIvan Begtin, 11:46

About

Blog

Apps

Platform