Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных наборов данных большая коллекция коллекций геопространственных наборов данных geospatial-data-catalogs [1] включает наборы данных из։
- AWS Open Data
- AWS Open Geospatial Data
- AWS Open Geospatial Data with STAC endpoint
- STAC Index Catalogs
- Earth Engine Catalog
- Planetary Computer Catalog

В общей сложности это более 2000 наборов данных довольно большого объёма, многие из них - это спутниковые снимки, а также все метаданные извлечённые из первоисточников.

Обратите внимание, ни один из этих каталогов не является государственным. Earth Engine Catalog - это Google, Planetary Computer Catalog - это Microsoft, каталоги на AWS - это Amazon, а STAC Index - это общественный каталог вокруг спецификации STAC [2].

А также не могу не напомнить о слегка олдскульном, но любопытном каталоге общедоступных инсталляций ArcGIS [3].

Геоданных становится всё больше, думаю что рано или поздно большая часть госпорталов открытых данных будут поддерживать спецификацию STAC, а открытые каталоги big tech корпораций будут агрегировать их оттуда.

Ссылки։
[1] https://github.com/giswqs/geospatial-data-catalogs
[2] https://stacspec.org/en
[3] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf

#opendata #geodata #geospatial #datacatalogs
По поводу Единой биометрической базы данных в России мне много что есть сказать, про разного рода политические аспекты многие журналисты написали, пишут или напишут.

Я же скажу про технические и регуляторные։
1. Важно понимать что прежде чем сама идея единой биометрической базы возникла многие российские компании много инвестировали в биометрию, сбор данных их клиентов и тд. Их причины были рыночными, где-то для защиты от мошенников, где-то для коммерческой слежки (читаем Surveillance capitalism).
2. Для всех этих компаний создаваемая база - это проблема, достаточно серьёзная. Они все теперь зажаты в очень жёсткие рамки, где государство во всём ограничивает компании прикрываясь интересами граждан и никак не ограничивает спецслужбы и, потенциально, другие органы власти.
3. Почему государство прикрывается интересами граждан? Потому что реальная забота об интересах граждан - это усиление граждан в судах и возможность получения значительной компенсации при нарушении прав. А регулирование через штрафы и запреты усиливает не граждан, а те органы власти которые это регулирование будут осуществлять.
4. Это важный аспект перестройки коммуникации с рынками работающими с пользовательскими данными. Стратегия росийского Пр-ва сейчас в том чтобы перевести частный бизнес в подчинённое состояние. Это модель существования "мы вам не мешаем, пока вы делаете то что вам скажут". Это касается не только ЕБС, но тут живой и близкий пример.
5. Это, кстати, касается и всего GR последних лет. Большая часть GR активностей компаний была построена на ситуациях срочной реакции на законопроекты в стиле "сейчас мы вам всем открутим яйца прикрываясь какой-нибудь хренью!" и компании пытались отбиваться чтобы "яйца открутили только чуть-чуть" или "не совсем оторвали". За этим образом скрывается существование исключительно в модели защитного GR.
6. Конечно, единственные выгодоприобретатели это спецслужбы, МВД и потенциальные другие органы власти которые могут получить доступ к этой базе. Ограничения на доступ к ней ровно на столько насколько спецслужбы и МВД бояться что они могут следить друг за другом. Насколько они друг другу не доверяют, насколько они в конфликте, настолько наложены ограничения,но не более
7. Это важно, потому что права гражданина никто сейчас не защищает. Потому что права в законе начинаются и заканчиваются на том что "гражданин имеет право не сдавать биометрию" и то что бизнес не имеет право "принуждать" к его сдаче. Ну, способы принуждения бывают разные. Самый простой - это вписывание в условия договора мелким шрифтом. Да, ты можешь отказаться, если прочитаешь, если обратишь внимание, наверное этот пункт могут вычеркнуть.
8. А если твои данные уже будут в ЕБС то что-как? Права заканчиваются ? А что с ошибками ? А что с разбором инцидентов ? Типа это не для закона ? Нет, это несёрьёзно. Но, повторюсь, права гражданина сейчас никто не защищает.
9. Добавлю что с точки зрения информационной безопасности создание единой базы данных - это, скорее, проблема чем возможность. Единая база - это единая точка сбоя, единый источник утечки и масштабные неуправляемые последствия в случае если это произойдёт.

На этом фоне нельзя не отметить что начинают затыкать рот тем кто выступает против слежки и активно об этом говорит. Например, признание инагентами ребят из Роскомсвободы, не говоря уже о десятках журналистов, многие из которых писали про усиление слежки в России.

Тенденция плохая, не говоря уже о том что лично меня много лет уже поражает насколько российские законотворцы не думают о собственном будущем. Внедрение массовой слежки даёт возможность следить не только за всеми, но и за ними. Это примерно как принять закон о том чтобы создать комнату с компроматом на себя и вручить ключи правоохранителям.

#russia #regulation #privacy #security
В рубрике как это работает у них визуализация стоимости аренды квадратного метра жилья во Франции. Автору в комментариях пишут что надо бы добавить градацию от 20 до 30 евро для Парижа, но в целом и так очень наглядно. А главное что визуализация на открытых государственных данных Министерства экологического перехода страны (Ministère de la Transition écologiqueю). Данные сверхгранулированные, гораздо более детальные чем муниципальное деление. Подробнее в файлах и в методологии.

Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/

#opendata #france #datasets
В рубрике как это работает у них, французский портал code.gouv.fr [1] посвящённый использованию открытого кода. Содержит данные о 15 114 репозиториях кода созданных органами власти и госучреждениями Франции. Например, не все знают что язык программирования OCaml создан и поддерживается французским Institute for Research in Computer Science and Automation (INRIA). Или вот язык программирования Catala [2] для описания юридических текстов.

Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.

Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.

Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.

Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala

#opensource #france
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.

Но Россия есть, и обитаемая зона её не так велика как географическая.

Все данные в формате TSV, сжатый объём около 10GB.

Ссылки։
[1] https://github.com/microsoft/RoadDetections

#opendata #datasets #microsoft
Новый год приближается очень быстро, можно подвести краткие итоги. В этом году я очень много писал в телеграм канал, более 1000 публикаций. Читателей стало больше, но всё ещё разумное количество. Много репостов и просмотров, много реакций и комментариев.

Я начинал этот канал как записную книжку о прочитанном, просмотренном, обдуманном и большую часть времени так и продолжаю его вести. Спасибо что читаете!
Свежее регулирование от Еврокомиссии определяющее раскрытие особо ценных наборов данных (high value datasets) [1].

Охватывает ключевые наборы данных по таким темам как։
- Geospatial
- Earth observation and environment
- Meteorological
- Statistics
- Companies and company ownership
- Mobility

Все данные должны публиковаться под лицензиями CC0 или CC-BY, через API и доступными для массовой выгрузки (bulk download). Еврокомиссия будет мониторить раскрытие данных и раз в два года собирать отчет о выполнении этой директивы.

Обратите внимание, что в этих списках не так много данных о финансах, к примеру, и даже раскрытие по компаниям не так подробно как могло бы быть. Нет данных о бюджетах, о госконтрактах и ещё много чего.

Зато очень много данных связанных с качеством жизни - это данных об окружающей среде, загрязнении воздуха, воды, земли и многое другое.

Поэтому хотя и это регулирование не идеальное, но оно важное и надеюсь оно будет далее расширяться. Причём за основу можно было бы взять данные перечисленные в Global Data Barometer

Можно сравнить эту директиву с регулированием в Казахстане о котором я писал недавно. И найти отличия. Подсказка։ в Казахстане нет ни свободного доступа, ни открытых лицензий, ни иной конкретики.

Про Россию даже писать здесь нечего. Российские НПА требуют раскрытия огромного объёма бессмысленных данных и игнорируют раскрытие реально значимых. Ненужных данных много, нужные всё сложнее получить.

Ссылки։
[1] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562

#opendata #datasets #europe
Если говорить про рынки основанные на данных, то 2022 год - это, безусловно, год Generative AI. Многие уже видели подборку продуктов в этой области [1] и это далеко не все продукты. Следующий год будет проходить под девизом "какую следующую креативную профессию мы собираемся [уничтожить] автоматизировать?".

На втором уровне этого рынка стремительно растёт вопрос на данные которыми можно обучать языковые модели, генеративные сервисы и иные многочисленные продукты.

Многие нынешние лидеры рынков проверки орфографии, поиска, чат-ботов, личных помощников, сервисов электронной почты и тд. столкнутся с необходимостью ожесточенной конкуренции с новичками, дающими лучший сервис с помощью ИИ.

P.S․ В данном случае ИИ это уже не только машинное обучение, но именно огромные языковые модели.

Ссылки։
[1] https://t.co/QiNl7VP8oI

#ai #itmarket #endoftheyear
2023 год наступил, я под него откладывал набор предсказаний, предположений, мыслей того что нас ждёт в этом году. В этом году мой список будет краток и, почти наверняка неполон.

Технологический рынок в целом
- несомненно 2023 год будет годом Generative AI. Везде где хоть как-то создаётся любой контент появится, или расширение существующих, или новые продукты
- стартапы и продукты в этой области будут появляться до 100+ в месяц
- реальный масштаб изменений пока до конца оценить, но он будет велик, без сомнений

Рынок данных
- будет всплеск потребности данных для языковых моделей, рынок сбора данных значительно адаптируется под ИИ
- концепция Modern Data Stack постепенно будет размываться, возможно исчезнет из основного лексикона
- продукты корпоративных каталогов данных будут терять клиентов и востребованность, поскольку функции data lineage будут полноценно реализовывать крупные облачные хранилища данных которыми управляют Google, AWS, Amazon и др.

Открытые данные
- наибольшая активность в этом году будет в темах публичных каталогов данных от Big Tech, данных для машинного обучения и открытых научных данных (FAIR и Open Access)
- усилится работа с открытыми данными в ООН и других межгосударственных структурах
- на государственном уровне в большинстве стран будет некая стагнация, не сильно хуже, не сильно лучше.
- в России открытость государства будет снижаться, затронет это и открытые данные и иные общедоступные ранее данные. В первую очередь любые данные дающие прямую или косвенную оценку состояния экономики и общества.

Государства и регулирование
- будет больше партнерств big tech и национальных правительств. Для создания языковых моделей для национальных языков, для распространения доступа к интернету, для повышения доступности технологий и тд.
- продолжится тренд на усиление регулирования персональных данных по всему миру, давления на big tech по локализации присутствия, центров обработки данных и тд.
- в России начнут применять оборотные штрафы к бизнесу, но к госкорпам и госорганам их не применят/их применение будет невозможно

#opendata #data #dataengineering #government #predictions
В рубрике как это работает у них, проект FairSharing [1] база стандартов, политик и баз данных/каталогов данных связанных с научными исследованиями.

В общей сложности в базе собраны։
- 1973 баз данных
- 1646 стандартов
- 159 политик
- 3487 организаций

Важная особенность в том что все материалы тщательно перелинкованы, включают ссылки на научные публикации, информацию об организациях, их роли и так далее.

Это курируемый каталог, с командой из 8 человек из Data Readiness Group из Университета Оксфорда [2] и десятков если не сотен исследователей вовлеченных в его наполнение.

Изначально специализация команды была в биомедицине, бионауках и всё что подпадает под life sciences, поэтому можно заметить что и FairSharing содержит более всего ресурсов по медицине и биологии, а также то что в самом каталоге есть возможность фильтрации по материалам относящимся к видам животных. Тем не менее, сейчас проект развивается скорее как универсальный. К примеру, уже много материалов по компьютерным наукам и совсем мало по экономике.

Материалов связанных с Россией там очень мало, с другими постсоветскими странами. Есть данные по метеорологии, несколько баз данных по биологии и генетике, профинансированных РНФ, и несколько баз созданных ещё в советское время в рамках World Data Centers.

При этом данные интегрированы с проектами Re3Data от DataCite и ROR.

Лично меня удивило только что сделан он на самостоятельно разработанном движке, а не на Wikidata, к примеру, который смотрится почти идеально для подобных задач. С другой стороны у продуктов на базе Mediawiki и Wikidata свои ограничения, несомненно собственный движок гораздо гибче.

Ссылки։
[1] https://fairsharing.org/
[2] https://datareadiness.eng.ox.ac.uk/

#openaccess #opendata #fair #datastandards
Полезное чтение про ИИ, языковые модели и не только։
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом

- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.

- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.

- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.

- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.

Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/

#ai #readings
Восстанавливаю привычку писать в блог тексты длиннее половины страницы. Написал в рассылку большой пост [1] про общедоступные каталоги межгосударственных структур вроде ООН того как они развиваются и с множеством примеров каталогов данных таких организаций.

Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.

Ссылки։
[1] https://begtin.substack.com/p/cb4

#opendata #un #datasets #blogging
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.

DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.

Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.

Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf

#opendata #dataset #economy #france #indicators
Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3]

Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.

Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.

Ссылки։
[1] https://t.iss.one/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] https://t.iss.one/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats

#startups #data #opendata
Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости.

Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.

Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.

Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.

При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.

Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.

Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html

#privacy #security #iot #google