Подборка полезных ссылок по данным, технологиям и не только:
- Sparrow [1] движок для извлечения данных из документов и изображений, использует LLM, открытый код под GPL
- Genealogy of Relational Database Management Systems [2] хорошо нарисованная история создания баз данных, полезно для преподавания этой дисциплины. Минус только в том что она 2018 года и последние разработки не охватывает, плюс в том что большая часть фундаментальных трендов охвачена c 70х годов.
- Hamilton [3] ещё один движок с открытым кодом для преобразования данных. Выглядит неплохо, распространяется под BSD лицензией.
- Meaningful metrics: How data sharpened the focus of product teams [4] о том как устроены метрики в Duolingo. Полезное про то как устроены метрики в массовых технологических продуктах, а заодно является ответом на вопросы о том почему Duolingo устроено именно так как оно устроено.
- Bigtable transforms the developer experience with SQL support [5] анонс поддержки SQL в Bigtable. Кажется "а что тут такого?", а как сильно помогает в пользовательском опыте работы с данными там.
Ссылки:
[1] https://github.com/katanaml/sparrow
[2] https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/projekte/RDBMSGenealogy/RDBMS_Genealogy_V6.pdf
[3] https://github.com/dagworks-inc/hamilton
[4] https://blog.duolingo.com/growth-model-duolingo/
[5] https://cloud.google.com/blog/products/databases/announcing-sql-support-for-bigtable
#opensource #dataengineering #dataproducts #metrics #readings
- Sparrow [1] движок для извлечения данных из документов и изображений, использует LLM, открытый код под GPL
- Genealogy of Relational Database Management Systems [2] хорошо нарисованная история создания баз данных, полезно для преподавания этой дисциплины. Минус только в том что она 2018 года и последние разработки не охватывает, плюс в том что большая часть фундаментальных трендов охвачена c 70х годов.
- Hamilton [3] ещё один движок с открытым кодом для преобразования данных. Выглядит неплохо, распространяется под BSD лицензией.
- Meaningful metrics: How data sharpened the focus of product teams [4] о том как устроены метрики в Duolingo. Полезное про то как устроены метрики в массовых технологических продуктах, а заодно является ответом на вопросы о том почему Duolingo устроено именно так как оно устроено.
- Bigtable transforms the developer experience with SQL support [5] анонс поддержки SQL в Bigtable. Кажется "а что тут такого?", а как сильно помогает в пользовательском опыте работы с данными там.
Ссылки:
[1] https://github.com/katanaml/sparrow
[2] https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/projekte/RDBMSGenealogy/RDBMS_Genealogy_V6.pdf
[3] https://github.com/dagworks-inc/hamilton
[4] https://blog.duolingo.com/growth-model-duolingo/
[5] https://cloud.google.com/blog/products/databases/announcing-sql-support-for-bigtable
#opensource #dataengineering #dataproducts #metrics #readings
GitHub
GitHub - katanaml/sparrow: Data processing with ML and LLM
Data processing with ML and LLM. Contribute to katanaml/sparrow development by creating an account on GitHub.
Про уход Notion из России, это, увы, неизбежное и в большинстве уходов хуже всего то по каким критериям большая часть сервисов определяют российскую аффиляцию. Какое-то время назад я переписывался с JetBrains по поводу использования их продукта и задавал им вопросы по поводу использования их продукта не в РФ и может ли компания использовать продукт если кто-то из команды будет иметь доступ к нему из РФ. Ответ был - нет, не может.
То есть даже если компания зарегистрирована в Казахстане или Армении, если даже там работает большая часть команды, в команде есть кто-то кто даже если изредка, но работает из РФ, например, приезжая к родственникам, это может рассматриваться как нарушение условий использования сервиса. Потому что дословно "ни один сотрудник не имеет права использовать продукт из России".
В этом проблема и с Notion, в этом могут быть будущие проблемы с использованием Google Workspace и других популярных сервисов, хостинга и тд, просто по критериям блокировки использования по подключению из сетей аффилированных с РФ.
У практически всех популярных онлайн сервисов много альтернатив, лично я надеюсь что больше развития получат open source продукты по модели local-first.
#tools #sanctions #opensource
То есть даже если компания зарегистрирована в Казахстане или Армении, если даже там работает большая часть команды, в команде есть кто-то кто даже если изредка, но работает из РФ, например, приезжая к родственникам, это может рассматриваться как нарушение условий использования сервиса. Потому что дословно "ни один сотрудник не имеет права использовать продукт из России".
В этом проблема и с Notion, в этом могут быть будущие проблемы с использованием Google Workspace и других популярных сервисов, хостинга и тд, просто по критериям блокировки использования по подключению из сетей аффилированных с РФ.
У практически всех популярных онлайн сервисов много альтернатив, лично я надеюсь что больше развития получат open source продукты по модели local-first.
#tools #sanctions #opensource