Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Полезное чтение про данные, технологии и не только։
- GPT-4 Rumors From Silicon Valley [1] коллекция слухов про дату выхода GPT-4, языковой модели которая должна многократно превосходить по возможностям GPT-3 и, соответственно, основанные на GPT-3 инструменты такие как ChatGPT.
- Why Google Missed ChatGPT [2] о том почему не Google сделали ChatGPT и о том как этот продукт разрушает ценность их продукта поиска, ключевым достоинством которого остаётся только быстрая доступность наиболее актуальной информации.
- How analysis dies [3] у Бен Стэнцила опять хороший текст, сейчас о том как умирает анализ тоже в контексте ChatGPT. Главное в рассуждениях о ChatGPT - это резкое ощущение неопределённости будущего у многих кто работает в областях связанных со смыслом и аналитикой.

Ссылки։
[1] https://thealgorithmicbridge.substack.com/p/gpt-4-rumors-from-silicon-valley
[2] https://bigtechnology.substack.com/p/why-google-missed-chatgpt
[3] https://benn.substack.com/p/how-analysis-dies

#ai #future #languagemodels
В рубрике как это работает у них, портал открытых данных Новой Зеландии data.govt.nz [1]. На портале размещено почти 32 тысячи наборов данных от 182 организаций. Более половины опубликованных данных - это геоданные в форматах KML, SHP, DWG, GPKG и геоAPI, ввиде метаданных и ссылок на данные опубликованные в системе ведения геоданных Linz Data Service [2] и на порталах открытых данных на платформе ArcGIS [3].

Кроме органов власти данные на государственном портале публикуют 4 университета [4]. Например, университет Окленда опубликовал 665 наборов данных [5] большая часть из которых это данные которые были размещены вместе с научными статьями на сайте Figshare.
Почти все данные опубликованы под лицензией Creative Commons.

Для наполнения портала и развития темы открытых данных в Новой Зеландии есть государственная стратегия и дорожная карта [6], включающая такие пункты как публикацию плана инвестиций в создание данных, публикацию фреймворка обеспечения качества данных, введение новых обязательных стандартов работы с данными и многое другое.

Портал data.govt.nz работает на базе CKAN, а геоданные, в основном, публикуются в системе ArcGIS и с помощью сервиса Koordinates [7], реже на базе Geonode [8].

Ссылки։
[1] https://data.govt.nz
[2] https://data.linz.govt.nz/
[3] https://doc-deptconservation.opendata.arcgis.com/maps/c417dcd7c9fb47b489df1f9f0a673190_0
[4] https://catalogue.data.govt.nz/organization/?q=University&sort=title+asc
[5] https://catalogue.data.govt.nz/organization/the-university-of-auckland
[6] https://www.data.govt.nz/leadership/strategy-and-roadmap/
[7] https://koordinates.com
[8] https://data.otodc.govt.nz/

#opendata #newzealand
В рубрике интересных продуктов по работе с данными с открытым кодом Monoid [1].

Основная идея в том чтобы дать возможность сканировать базы данных и вручную (!) размечать их на предмет наличия персональных данных. При этом для разметки можно указать свои типы данных (идентификаторы).

Поддерживает из коробки Redshift, Snowflake, Bigquery, MySQL и Postgres. Исходный код на Go и Typescript доступен [2] под лицензией MIT.

Также на сайте есть возможность использовать его как облачный продукт с оплатой начиная от $399 в месяц.

У меня лично смешанные ощущения от этого проекта. С одной стороны он выглядит проработанным, с интерфейсом, открытым кодом, некой простой завершённой функциональностью. С другой стороны, есть множество более сложных и комплексных продуктов которые обеспечивают автоматическую, а не ручную, разметку полей и не только для идентификации персональных данных. Тот же Datahub как каталог данных или утилита Metacrafter которую я лично разработал и которая позволяет автоматически идентифицировать типы данных почти из любого источника.

Впрочем у того же Monoid до сих пор нет инвестиций и нет подтверждения что их бизнес модель хоть как-то выгорит. Так что посмотрим.

Ссылки։
[1] https://monoid.co
[2] https://github.com/monoid-privacy/monoid

#startups #datatools #opensource #data #privacy
В продолжение темы открытости данных в Казахстане о которой я уже писал [1], не могу не добавить ложку дёгтя. Важно то что из-за того что на портале данных data.egov.kz Казахстана данные доступны только после авторизации и только для граждан или лиц получивших местный налоговый код ИИН, то по факту, добавление туда данных из других официальных источников страны, не увеличивает, а снижает уровень доступности и открытости этих данных.

К примеру, есть в Казахстане Единая информационная система охраны окружающей среды [3] где публикуются обобщённые показатели такие как։ Объемы опасных отходов, Объем образованных неопасных отходов и другие. Эти данные общедоступны и их, при небольшом желании, можно скачать с сайта в JSON формате. Экспорта на странице нет, но в коде страницы всё довольно очевидно.

Данные из этой системы упомянуты в постановлении Правительства РК как "Объем опасных отходов по показателям (общие показатели по республике) (отчетный период; вид операции; объем отходов)"․ То есть они должны публиковаться и публикуются на портале [3], но не гражданам и не имеющим ВНЖ недоступны.

Но дело не только в недоступности, но и в том что доступ граждан отслеживается, что довольно странно и, в принципе, в мире практикуется крайне редко.

В целом почти неизбежно при следующих рейтингах и оценках открытости данных в Казахстане уровень открытости там может оцениваться скорее как снижающийся чем иначе.

Ссылки։
[1] https://t.iss.one/begtin/4440
[2] https://oos.ecogeo.gov.kz/
[3] https://data.egov.kz/datasets/view?index=785_megpr

#opendata #kazakhstan #datasets
Я, кстати, вот уже несколько месяцев думаю о том что до конца не могу сформулировать, но что укладывается в идею "критической массы изменений".

В тех областях за которыми я внимательно наблюдаю, массовая слежка и ИИ, всё довольно быстро идёт к накоплению технологий, их внедрения и социальных изменений которые неизбежно, не могут не привести к системным изменениям в обществе, государстве, рынках труда и т.д.

Например, уже выросло несколько поколений о которых с детства собиралась и собирается практически вся информация. Через сотовых операторов, соцсети, государственные системы учёта, финансовые организации и так далее. Ничего о них кроме как в цифре не существует. Включая биометрию, в том числе собираемую пассивными способами. Что будет когда реально не останется людей кроме тех кому 60+ на которых не будет цифрового профиля? Когда в национальных и международных базах будет вся биометрия։ лицо, отпечатки пальцев, геном и т.д. ?

Или вот с ИИ, прогнозы были весьма пессимистичными по скорости появления AGI и даже приближения к нему. Сейчас есть активная демонстрация что это не так, даже текущие результаты в виде продуктов способных на эффективный синтез накопленного, неважного плохого или хорошего человеческого знания, показывают что всё ближе ситуация когда внедрение даже ИИ/алгоритмов на практике может очень существенно изменить существующий рынок труда.

Про сочетание этих двух трендов несущих критическую массу изменений можно ещё говорить отдельно. Тут много фантастических произведений можно придумать про безумных правителей сочетающих ИИ помощников и массовую слежку с дронами, и про террористов способных с помощью роботизированных инструментов совершить много больше вреда. Но смысл в том что развитие некоторых технологий приводят ещё и к той форме критической массы когда оснащённое и агрессивное меньшинство может диктовать свои требования большинству.

Диктаторы 20-го века прятались за огромными стенами и вооружёнными последователями и наёмниками, диктаторов 21-го века можно физически не находить, при этом они могут не терять власти, а штурм их дворцов не лишит их возможности править.

Что-то из этого может быть прекрасным сюжетом новых хорошо иллюстрированных антиутопий, а что-то будет самой что ни на есть реальностью до которой мы ещё можем успеть дожить.

#thoughts
Forwarded from Инфокультура
В каталог каталогов данных Datacatalogs.ru добавлено 18 каталогов данных в форме геопорталов, в большинстве случаев это геопорталы органов власти на базе ArcGIS, но не только.

Особенность геопорталов в том что часто разработчики не предусматривают отдельных разделов выгрузки данных, но данные доступны через документированное или недокументированное API. Часто геопорталы создаются региональными органами власти, например, в форме единых геопорталов региона или города. Существуют геопорталы коммерческих компаний и научных организаций.

Ссылки на добавленные геопорталы։
- https://lgtgis.aari.ru/arcgis/rest/
- https://geoportal.gcras.ru/arcgis/rest/services
- https://gis.gov-murman.ru/
- https://meteo-dv.ru/
- https://gisnao.ru/
- https://gis.rkomi.ru/
- https://agoracle.asutk.ru/arcgis/rest/services
- https://gis.toris.gov.spb.ru/
- https://karta.yanao.ru
- https://map.govvrn.ru
- https://gis.sgm.ru/server/rest/services
- https://maps29.ru/
- https://www.tver.ru/ArcGIS/rest/services
- https://map.novo-sibirsk.ru
- https://geo.govrb.ru
- https://map.samadm.ru
- https://geoportal.egov66.ru
- https://maps.crru.ru/smaps/cmViewer.php

Каталог каталогов данных создан как проект по обнаружению данных, data discovery, с целью упрощения поиска данных по нужным темам и территориям. На сегодняшний день в него включено 280 порталов открытых данных, систем научных репозиториев, геопорталов, реестров открытых данных и порталов открытости бюджетной системы всех регионов России, а также порталы данных о России или связанные с Россией в мире.

Дополнительная цель проекта в архивации порталов данных на случай их возможного исчезновения в будущем.

Мы продолжаем работать над наполнением и визуальным представлением данных в каталоге. В ближайшее время запланирована модернизация веб-интерфейса и публикация самого каталога в форме набора данных и/или API.

Если Вы знаете какие-либо порталы данных, геопорталы и другие каталоги данных не учтённые в datacatalogs.ru - присылайте нам через форму на сайте.

#opendata #datacatalogs #datasets #datadiscovery
То что утекли данные о покупках во Вкусвилл - это, конечно, очень плохо. Как и любые иные максимально персонифицированные данные позволяющие локализовать потребителей. Но что хорошо и правильно - это то что команда Вкусвилла не спрятала голову в песок, а пишут о своей реакции на утечку и принимаемых мерах [1] несмотря на негатив, которого они по любому избежать не смогут.

Всё это, конечно, никак не отменяет того что каждая такая утечка - это необратимый процесс. Посмотрим на реакцию регулятора и коллективные иски и будет ли Вкусвилл публиковать результаты расследования, организует ли внешний аудит безопасности и тд.

Ссылки։
[1] https://vkusvill.ru/media/journal/baza-dannykh-chto-proizoshlo.html

#privacy #dataleaks #leaks
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.

Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed

#data #datatools #startups #france
В рубрике "как это работает у них" два китайских портала открытых данных

Портал открытых данных города Чанчжоу, Китай opendata.changzhou.gov.cn [1]

580 наборов данных опубликовано 66 департаментами города. Из них 563 набора данных в виде файлов и 78 API, некоторые наборы данных одновременно файлы и API.

Для доступа к API требуют авторизации через Jiangsu Unified Identity Authentication System [2], для выгрузки в данных в машиночитаемом виде авторизация не нужна, можно просто скачать.

Наиболее востребованные данные по разрешениям на строительство, часто данные публикуются в виде большой коллекции Excel файлов.

Население Чанчжоу около 5.3 миллионов человек.

Портал открытых данных Пекинского государственного университета, Китай opendata.pku.edu.cn [3]

Создан на базе платформы Dataverse и включает 103 пространства с 355 наборами исследовательских данных по направлениям научных публикаций университета.

Не все данные общедоступны, некоторые доступные под эмбарго, только в момент публикации научной статьи или по запросу.

В Китае сотни существуют сотни порталов данных и открытых данных. А также существуют большие общедоступные наборы из государственных информационных систем. В скором будущем я отдельно напишу про другие их порталы.

Ссылки։
[1] https://opendata.changzhou.gov.cn/
[2] https://www.jszwfw.gov.cn
[3] https://opendata.pku.edu.cn/

#opendata #china #datasets #datacatalogs
В рубрике полезного чтения про данные, технологии и не только։
1. The state of AI in 2022—and a half decade in review [1]

Свежий обзор от McKinsey в виде аналитики по результатам опроса компаний из разных секторов экономики по поводу использования ИИ в их работе. Конечно, это не ИИ по большей части, а разного рода системы принимающие решения автоматически (ADM systems), но у консультантов они все проходят сейчас как "ИИ".

Я, честно говоря, не особенно доверяю обзорам от топовых международных консультантов, они чаще показывают то что эти консультанты продают или собираются продавать, а не реальные тренды. Особенно после появления ChatGPT все эти обзоры кажутся слегка... устаревшими. Тем не менее, для кого-то будет полезно узнать что проблема найма дата-сайентистов и дата-инженеров для крупнейших компаний никуда не исчезла, может что-то ещё полезное найдется.

2. Types of data products [2]

Автор блога Product Management for Data рассуждает о том какие типы продуктов на данных бывает. Для меня всё кажется очевидным, но для кого-то эта систематизация может быть полезной. Вкратце он классифицирует продукты как։ Platform, Insights и Activation. Все этому не хватает примеров, и понимания что часто бизнес модели и продуктовые модели на данных являются гибридными и сложными.

3. NormConf [3]

Онлайн конференция про данные и машинное обучение с кучей явно очень интересных тем, спикеров оттуда знаю немногих, а вот темы выглядят как актуальные. Платить за участие не нужно, регистрация бесплатная. Будет 15 декабря, но надо учитывать разницу во времени с США. Лично я скорее всего посмотреть смогу немного в трансляции, много дел в эти дни( Буду смотреть в записи довольно многое оттуда


Ссылки։
[1] https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2022-and-a-half-decade-in-review
[2] https://pmdata.substack.com/p/types-of-data-products
[3] https://normconf.com

#data #readings #ai
Была или не была утечка данных из school.mos.ru - это мы достоверно узнаем когда на их основе выйдет очередное расследование коррупции (или не выйдет, и мы тогда узнаем что утечки небыло). Скорее всего это прояснится очень скоро. Я бы словам ДИТа Москвы, чисто для профилактики, не верил, особенно после мутной истории с утечкой данных о заболевших ковидом в Москве.

Но давайте предположим что была или будет и вообще после начала мобилизации я на рынке инфобеза в России немало слышал о проблемах того что многие специалисты уехали из страны на фоне мобилизации назад не спешат. И что специалистов среднего уровня большой дефицит, так что сложно поверить что утечек не будет в каком-то разумном будущем.

Так вот предположим происходит утечка с данными из крупной государственной информационной системы. Что делать в этом случае? А далее этот вопрос опросом https://t.iss.one/begtin/4474

#privacy #dataleaks
В Ведомостях заметка о том что " «Сбер» предложил банкам, маркетплейсам и операторам открыть друг другу данные " [1]. Она под пэйволом, но смысл понятен даже из анонса. Если кратко, то Сбер в лице первого зампреда Александра Ведяхина говорит об обмене данными между банками и маркетплейсами и называет это open data в сравнении с open banking.

Как бы прокомментировать это помягче. Ведяхин плохо знает матчасть иначе он бы знал что open data - это не обмен данными между участниками рынка, а предоставление их неограниченному числу лиц под свободными лицензиями и в машиночитаемых форматах. А то что он описывает - это называется data sharing, практики обмена данными между участниками рынков. Причём эти практики в основном инициируются регуляторами для того чтобы монополисты делились данными с другими компаниями. Такие инициативы и многие проекты есть в Европейском союзе, например, в автомобильной отрасли или в фармацевтике. В ЕС есть целое руководство по этой теме Guidance on private sector data sharing [2].

Основная идея в таком обмене данных в том что есть отрасли в которых гражданин/пользователь/налогоплательщик выигрывает от обмена данными. Например, от обмена данными между фарм компании при разработке лекарств и ещё много где. Опять же, гражданин на первом месте во всех таких инициативах.

Выиграет ли что-то гражданин от того что банки и маркетплейсы будут обмениваться о нём информацией? Скорее проиграет, а то и потеряет когда о нём данные утекут в очередной раз.

Поэтому, я был о Ведяхине лучшего мнения, он мало того что путается в терминах, но и предлагает нечто прямо против интересов пользователей. Очень хочется надеяться что регулятор в лице ЦБ даст Сбербанку ․․․․․ (строгий ответ) за такие идейки.

И, повторюсь, что если в Сбербанке реально хотят раскрывать данные, то могут давно начать это делать публикуя их в открытым доступе, под свободными лицензиями в машиночитаемых форматах.

Ссылки։
[1] https://www.vedomosti.ru/technology/articles/2022/12/15/955362-sber-predlozhil-otkrit-drug-drugu-dannie
[2] https://digital-strategy.ec.europa.eu/en/policies/private-sector-data-sharing

#opendata #sberbank #idiotseverythere
Я всё забыл написать, ещё пару месяцев начал и почти доделал небольшую программную библиотеку для Python для чтения данных из файлов в любых форматах с данными։ csv, json, json lines, xml, parquet, orc, xls, xlsx и в перспективе других. Называется pyiterable [1] и воспроизводит и улучшает код который был в утилите командной строки undatum [2] и в ETL движке datacrafter [3].

По сути библиотека позволяет одинаковым образом читать любые табличные и не-табличные данные и возвращать их в виде словарей для Python (python dict). Причём файлы могут быть, например, сжатыми разными архиваторами и это тоже поддерживается.

Аналогично, для ряда форматов, поддерживается не только чтение, но и запись, опять же в виде записей в виде python dict.

Мне эта библиотека нужна была чтобы в итоге заменить код внутри Undatum и сделать универсальную утилиту преобразования данных из любого в любой формат которые могут быть контейнерами для данных.

На картинке изначальная модель библиотеки, сейчас реализовано около 70% возможностей. Ошибки, предложения можно отправлять в issues, исправления в код в pull request

Ссылки։
[1] https://github.com/apicrafter/pyiterable
[2] https://github.com/datacoon/undatum
[3] https://github.com/apicrafter/datacrafter

#datatools #opensource #apicrafter #data
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.

Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]

Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.

В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.

Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data

#opendata #data #cartography #microsoft #amazon #meta #tomtom
Simon Wilson собрал данные по притоку пользователей на платформу Mastodon и выложил данные и визуализацию [1]. Всего на платформу(-ы) Mastodon с 20 ноября 2022 года пришло около 1.8 миллиона человек. Много это или мало ? По сравнению с твиттером пока что мало, в Твиттере более 486 миллионов пользователей было на август 2022 г.

Важно помнить что Mastodon - это не один сайт, а более 16 тысяч связанных платформ для социального контента. К примеру, я пользуюсь mastodon.world, многие используют mastodon.social, как самый популярный, а есть много профессиональных сообществ, например, сообщество по цифровой архивации digipress.club и многие другие.


Ссылки։
[1] https://observablehq.com/@simonw/mastodon-users-and-statuses-over-time

#opendata #twitter #mastodon #social
Для тех кто задавался вопросом почему Google переносит карты с домена на "https://maps [dot] google [dot] com" на "https://google [dot] com/maps" есть объяснение этого события [1].

Нюанс в том что домен google.com теперь целиком будет получать доступ к вашему местонахождению, а не только сервис карт.

Идеи супераппов, кстати, построены на том же принципе. Запросить у вас как можно больше разрешений в рамках одного приложения.


Ссылки։
[1] https://twitter.com/Rudcher/status/1598596534656024576

#privacy #google #data
В рубрике "как это устроено у них" исследование DHS Open for Business [1] о том как организовано финансирование государственной слежки в городах США, взаимосвязь Department of Homeland Security, крупных корпоративных подрядчиков, муниципалитетов и лоббистов из отраслевых ассоциаций. Подготовлен The Public Accountability Initiative (PAI), командой которая ведёт проект LittleSis [2] в виде базы лоббистов, олигархов и госчиновников (Facebook of powerful people).

Доклад о том как DHS раздаёт деньги муниципалитетам в рамках программы Urban Area Security Initiative (UASI) и о том какие системы наблюдения за гражданами внедряются. А там полный список всякого разного среди подрядчиков։ Microsoft, SiteShoot, LexisNexis, Palantir, Motorola Solutions и ещё многие другие. А системы включают такие продукты как объединённые базы данных, системы автоматического распознавания номерных знаков, системы сбора биометрии, системы автоматического формирования профилей, системы анализа социальных сетей и многое другое.

Доклад, в виду специфики интересов авторов, посвящён рекомендациям того что такие технологии надо прекращать финансировать. На удивление я не увидел в рекомендациях того чтобы ставить их под гражданский контроль. Всем кто интересуется направлениями регулирования в этой отрасли и темами predictive policing (предсказательной/прогностической полиции) это будет интересно.

Ссылки։
[1] https://public-accountability.org/report/dhs-open-for-business/
[2] https://www.littlesis.org/

#privacy #security #government #usa #spending