Ivan Begtin
8.01K subscribers
1.9K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
9 женщин не могут родить ребёнка за 1 месяц, но 16 человек могут написать книгу за 5 дней.
Книга Open a GLAM Lab [1] была написана 16 членами сообщества International Open GLAM Labs Community 23-27 сентября 2019 года во время встречи в Катаре. Это сообщество которое сформировалось вокруг идеи открытости галерей, библиотек, архивов и музеев по всему миру. GLAM расшифровывается как Galleries, Libraries, Archives and Museums.

Его манифест можно прочитать на сайте OpenGLAM [2] и в инициативе фонда Викимедия по обновлению принципов и этой инициативы [3]

Open GLAM Labs - это инициатива 60 институтов культуры 30 стран [4], обсуждающих то как должны быть устроены современные лаборатории при учреждениях культуры. Фактически, как объединить исторически гуманитарные области знаний с технологиями и открытостью.

В книге немало хорошо описанных примеров культурных лабораторий по всему миру и рекомендаций по их открытию, включая ссылки на материалы объясняющие почему это важно. Например, Europeana Impact Playbook [5], а также о переосмыслении цифровых культурных коллекций как данных, о трансформации культурных учреждений (обратите внимание, не цифровой трансформации, а просто трансформации, в первую очередь культурной трансформации)

Для всех кто интересуется современными цифровыми архивами, библиотеками и музеями всячески рекомендую эту книгу и, конечно, пример её создания за 5 дней вдохновляет. Чего нехватает в российской движухе на мероприятиях, то что она почти вся игротехническая, "детский сад для взрослых". А вот такой пример пример создания книги - это хороший пример важного, полезного и востребованного продукта созданного совместными усилиями.

Написание книг за короткие сроки также называют книжными спринтами. У них есть методика [6] и большое сообщество в мире. Такого, конечно, очень нехватает в России. Если бы были те кто захотел бы такое профессионально организовывать в России, у них был бы немалый пул клиентов, как минимум, среди ИТ компаний.

А книга Open a GLAM Lab была написана как раз в одном из таких спринтов [7]

Может быть и нам организовывать такие спринты? Есть несколько больших тем о которых давно хочется написать и я уверен что получится собрать тех кто готов будет совместно создать новое знание совместными усилиями.

Ссылки:
[1] https://glamlabs.io/books/open-a-glam-lab/
[2] https://openglam.org/
[3] https://meta.wikimedia.org/wiki/Open_GLAM
[4] https://glamlabs.io
[5] https://pro.europeana.eu/page/impact
[6] https://www.booksprints.net/method/
[7] https://www.booksprints.net/book/a-book-sprint-for-the-glam-sector/

#openglam #glam #opendata #books
Продолжаю читать книгу Nadia Engball Working in Public: The Making and Maintenance of Open Source Software [1] и среди многих интересных вопросов которые которые она упоминает:
- зависимость миллионов проектов, от нескольких которыми управляет всего несколько десятков человек. Пример npm - c 3 500 000 зависимыми проектами и командой разработки из 35 человек.
- то что открытый код - это экономика внимания (attention economy), но это не про внимание клиента (customer attention), а внимания авторов проекта (maintainers attention).
- важный фактор усталости open source разработчиков не от открытости, а от необходимости участия в обсуждениях (participatory), поэтому часто важно делать общедоступным контент, но ограничивать коммуникации комфортным кругом обсуждения.

И, чуть ли не самое главная тема, любого открытого проекта - это tragedy of public good. Когда если что-то бесплатно, то оно немедленно сверхиспользуется.

Я знаю немало проектов по открытости которые на открывают код или данные или другие наработки зная что кто-то будет, либо сверхиспользовать их результаты, либо изначально обладает низкой этикой и большими ресурсами, финансовыми или административными, и открытые наработки использует исключительно в свою пользу, без пользы сообществу.

Много такого наблюдаю вокруг. Помню что Ричард Столлман ещё несколько лет назад говорил и писал об использовании инструментов GNU в облачных сервисах, при этом без раскрытия кода этих сервисов (явный кивок в сторону Google и др.). Или когда Wikipedia используется всеми дата-корпорациями в своих контентных, исследовательских и иных проектах, но финансируют её очень немногие и финансирования всегда недостаточно.

Таких кейсов очень много и они, часто, имеют отраслевую/предметную специфику. Когда понятно что в какой-то области любые проекты по открытости будут быстро "каннибализированы", то и оказывается что там есть коммерческие проекты и дефицит открытых.

С открытыми данными отдельная история в том что они не укладываются бизнес модели и модели существования сообществ открытого кода. Если открытый код - это сборка инструментов, то открытые данные - это топливо.

Это можно сравнить как если Вы выпиливаете деревянные игрушки, то:
- открытый код - это инструкции как делать бесплатно инструменты не покупая их в магазине
- открытые данные - это бесплатные пиломатериалы.

Хотя это и не совсем корректно, поскольку данные не являются исчерпаемым ресурсом, тем не менее отличие от исходного кода существенно с точки зрения существования сообществ, устойчивых бизнес моделей и тд.

Беда многих сообществ открытого кода по всему миру была в том что без институционализации выжили немногие. Часть активистов были поглощены цифровыми командами государства (digital teams, data teams) такими как 18F, AlphaGov, TeamDigitale по разным странам (не стоит их путать с отечественными "командами цифровой трансформации", ничего общего между ними нет). Другая часть активистов ушли в коммерческий или долгосрочные международные проекты изменяющиеся в сторону проектов на данных.

И модель устойчивости существования открытых данных как сообщества сообществ до сих пор не найдена.

Эта рефлексия по поводу открытости есть у всех. Внутри нашей команды мы тоже часто думаем над тем что можно и нельзя открывать, что можно делать общественным проектом, а что нельзя делать потому что одним из ключевых вопросов возникает вопрос: "Вот мы опубликуем вот этот код/данные, но ты же понимаешь что ими просто воспользуются вот эти ... или вот эти ... и нам даже спасибо не скажут". В нашем отечестве это важный вопрос, отражающийся на качестве любой профессиональной работы. Отсев профанации на институциональном уровне не происходит или происходит так что лучше бы не происходил.

Как бы то ни было, опыт сообществ открытого кода важен для понимания что происходит в других сообществах открытости.

Ссылки:
[1] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33

#OpenData #opensource #books
Отвлекаясь от основной темы моего канала хочу порекомендовать канал моей коллеги и соучредителя Инфокультуры Катерины Аксеновой - prometa.pro книжки Катерина читает книги и делает им ёмкие обзоры, в том числе это обзоры про такие книги как "Надзирающий капитализм" Шошанны Зубофф о которой я также писал.

У Катерины отличный канал, с редкими и продуманными текстами, и интересными книгами. Всячески рекомендую!

#recommendations #books #channels
OpenAI представили языковую модель на базе GPT-3 для суммаризации текстов книг [1]. Суммаризатор последовательно создает краткое изложение каждой главы, а потом на основе этих кратких изложений пишет на одну страницу или меньше изложение всей книги. Сейчас для английского языка, а в будущем возможно и для других.

Конечно, OpenAI - это уже не открытый код и не открытые данные, с 2019 года - это вполне себе коммерческая компания [2] предоставляющая платный доступ к языковым моделям и инструментам на из основе.

Ссылки:
[1] https://openai.com/blog/summarizing-books/
[2] https://en.wikipedia.org/wiki/GPT-3

#ai #books
В рубрике интересные книги - свежевышедшая The Informed Company: How to Build Modern Agile Data Stacks that Drive Winning Insights [1] от Dave Fowler и Mattew David о том как организовать современный стэк технологий для работы с данными (data stack), как устроена архитектура с данными в облаке и какие стратегии работы с данными есть у малых, средних и крупных компаний.

Книга рассказывает в подробностях о том что такое Data Source, Data Lake, Data Warehouse и Data Marts (по русски - источники данных, озера данных, хранилища данных и витрины данных), но главное её достоинство для одних и недостаток для других - это простота изложения, вплоть до жанра "озера данных для самых маленьких". Для опытных специалистов это всё может показаться азами, например, там довольно ограниченный перечень описываемых архитектур, структуры и компонентов современного стэка. К примеру в прошлогоднем обзоре Emerging Architectures for Modern Data Infrastructure [2] от Andreessen Horowitz тоже наглядно, но несколько более детальнее>

А вот для руководителей которые должны быть компетентными заказчиками, но часто не разбираются в технологиях эта книга будет очень полезна также как и полезна для обучения студентов современным средам работы с данными.

Этот акцент на понятности у авторов неудивителен, оба они из компании ChartIO, недавно приобретённой Atlassian и у ChartIO есть серия веб-книг DataSchool [3] о том как научиться SQL, как преподавать SQL, как работать с данными в облаке и многое другое. Все они написаны в очень доступном стиле для обучения аналитиков с нуля и тех кто учит аналитиков с нуля. Если присмотреться, то The Informed Company и эти книжки пересекаются по содержанию где-то процентов на 50-60%, главное же изменение в смене акцента аудитории на руководителей и управлении данными.

Ссылки:
[1] https://www.amazon.com/Informed-Company-Modern-Winning-Insights-ebook-dp-B09K5ZMDDN/dp/B09K5ZMDDN/
[2] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
[3] https://dataschool.com/

#data #datamanagement #books #reviews
В качестве воскресного чтения читаю Viral: The Search for the Origin of COVID-19 [1] о лабораторном происхождении COVID-19 за авторством исследователя Alina Chan [2] и журналиста Matt Ridley [3].

Об Алине Чан была в июне 2021 года статья в MIT Technology Review [4] о том как она расследовала лабораторное происхождение COVID-19 и была одним из тех кто добился что администрация Байдена начала официальное расследование.

Книга интересная, хорошо написана, читается как журналистское дата-расследование, можно сказать научная расследовательская журналистика, причём не в режиме теорий заговора, а вполне с критическим подходом анализа всех нестыковок.

Книгу читать я только начал, поэтому говорить о том правы ли авторы её или нет, я не готов, но само чтение интересное.

Ссылки:
[1] https://www.amazon.com/Viral-Search-COVID-19-Matt-Ridley-ebook/dp/B09794TRBB
[2] https://twitter.com/Ayjchan
[3] https://www.mattridley.co.uk/
[4] https://www.technologyreview.com/2021/06/25/1027140/lab-leak-alina-chan/

#investigations #covid19 #books
Полезное чтение о данных и их регулировании:
- Data saves lives: reshaping health and social care with data (draft) [1] черновик регулирования в Великобритании, с примерами и целеполаганием на использование данных в целях спасения жизни и здоровья граждан. Четко и внятно написанный документ,стоит почитать чтобы понимать как развивается регулирование в UK. Можно обратить внимание на то что кроме данных планируется и раскрытие кода под лицензиями MIT and OGLv3
- Public bodies’ access to private sector data [2] научная статья о том как в 12 европейских локальных юрисдикциях органы власти взаимодействуют с бизнесом для получения данных частного сектора
- Open Data Governance and Its Actors [3] свежая книга о регулировании открытых данных от Max Kassen. Я её ещё не читал, но планирую. Судя по содержанию, похоже книга про систематизацию того как устроено раскрытие данных и кто за это отвечает
- Data Federalism [4] очень систематизирующий и длинный лонгрид о взаимодействии властей между собой через призму данных. Автор юрист, очень много конституционных аспектов и особенностей связанных с работой с данными в госорганах США.
- The Political Philosophy of AI: An Introduction [5] политические аспекты применения ИИ. Любопытная книга, я её также пока не читал, и также планирую прочитать.

Ссылки:
[1] https://www.gov.uk/government/publications/data-saves-lives-reshaping-health-and-social-care-with-data-draft/data-saves-lives-reshaping-health-and-social-care-with-data-draft
[2] https://firstmonday.org/ojs/index.php/fm/article/view/11720
[3] https://link.springer.com/book/10.1007/978-3-030-92065-4
[4] https://harvardlawreview.org/2022/02/data-federalism/
[5] https://www.politybooks.com/bookdetail?book_slug=the-political-philosophy-of-ai-an-introduction--9781509548538

#ai #data #policy #books #reading
Свежая и полезная книжка Fundamentals of Data Observability от Andy Petrella из стартапа Kensu в виде первых двух глав. Можно скачать через форму на сайте Kensu, а можно и сразу по этой прямой ссылке. По прямой ссылке не надо оставлять свои контакты;)

Книга полезная тем что хотя и автор из стартапа профильного в теме наблюдаемости данных (data observability) в книге не самореклама, а реальное объяснение компонентной структуры и концепций наблюдения за данными и процессами.

#data #books #review
Закрывается Flibusta [1], независимый библиотечный ресурс, через несколько недель может прекратить свое существование. Причина - рак у его создателя и администратора.

Совершенно точно у книг Flibusta есть множество архивных копий на торрентах, но эти архивные копии не включают обсуждений, материалов форумов, иных текстов с сайтов, не относящихся к книгам.

Кроме того в торрент трекерах книги, или обновлениями за период, или полным дампом, что усложнит чтение тем кому нужна не библиотека целиком, а собственный список для чтения. Имеет смысл сохранить книги которые Вы читаете заранее.

Ссылки:
[1] https://flibusta.is/node/681117

#digitalpreservation #books #flibusta