Anscombe's Quartet

Я считаю, что одна из очень полезных привычек для инженера - это привычка читать код открытых проектов. Зачастую это помогает освоить новые подходы к написанию решений, или глубже понять инструменты, которыми мы пользуемся каждый день. Я выделил несколько интересных проектов, исходный код которых стоит почитать если вы интересуетесь Big Data / ML инструментами.

Начнем, конечно, с моего любимого Delta формата. Интересные места - то, как работает Optimistic Locking в S3-based среде, имплементация операций Update и Merge, в целом работа с S3-like Filesystem (обратите внимание как имплементированы различные абстракции для транзакционного лога на Azure, S3 и Hadoop-based).

Второй интересный проект, на который я недавно обратил внимание - это находящийся в данный момент в инкубаторе Apache Ratis. Вкратце, Ratis - это гибкая имплементация алгоритма Raft, написанная на Java и выполненная как набор хорошо декомпозированных модулей, позволяющих переиспользовать компоненты этого проекта без импорта огромных зависимостей.

Наконец, последний проект - это написанный на Python mlflow - платформа для автоматизации разработки в сфере ML, с обширным набором интеграций для различных моделей и фрейморков (sklearn, h2o.ai, sagemaker и многие другие). Из примечательного - одним из основных авторов и коммитеров mlflow является Matei Zaharia, один из создателей Apache Spark.

Список, конечно же, не исчерпывающий, и если у вас есть еще на примете какие-нибудь новые и интересные проекты в области Big Data / ML - присылайте, с удовольствием выложу еще подборку.

GitHub

GitHub - delta-io/delta: An open-source storage framework that enables building a Lakehouse architecture with compute engines including…

An open-source storage framework that enables building a Lakehouse architecture with compute engines including Spark, PrestoDB, Flink, Trino, and Hive and APIs - delta-io/delta

864 views12:44