Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
У Privacy International материал о том как британское правительство поменяло способ слежки за мигрантами отпущенными под залог с электронных браслетов на ногах на умные часы [1] для чего привлекли частного подрядчика Buddi Limited [2].

У Guardian в этом году было уже две публикации с расследованиями того как организована слежка за мигрантами [3] уличёнными в преступлениях. Если кратко, то меры включают ношение устройства такого как электронный браслет с передачей информации 24 на 7 и запросом до 5 раз в день присылать фотографии.

Ничего не напоминает? Да, очень похоже на ковидный мониторинг как он был организован в России в Москве. Так вот похоже сама задумка непрерывной слежки для временно или постоянно дискриминируемыми группами населения становятся популярными у полицейский в разных странах.

Когда режим слежки за отпускаемыми под залог или за мигрантами могут внедрить в России? Да сразу после того как появится крупный внутригосударственный лоббист который продавит эту технологию.

Можно обратить внимание что, Buddi Limited, поставщик умных часов Минюста Великобритании, публично позиционировал свои продукты как продукты для пожилых людей.

Ссылки։
[1] https://privacyinternational.org/long-read/4991/buddi-limited-immigration-enforcements-favourite-tracking-buddy
[2] https://www.buddi.co.uk/
[3] https://www.theguardian.com/politics/2022/aug/05/facial-recognition-smartwatches-to-be-used-to-monitor-foreign-offenders-in-uk
[4] https://www.theguardian.com/world/2022/oct/05/ankle-tags-used-to-target-young-black-men-london-mayors-report-finds

#privacy #police #surveillance #crimetech
В рубрике интересных наборов открытых данных публикуемых в России и малоизвестных, поскольку относящихся к узким научным областям знаний. В данном случае к биоинформатике.

- HOMOCOMO [1] проект по полной коллекции моделей связывания факторов транскрипции для человека и мыши с помощью крупномасштабного анализа ChIP-Seq создан на гранты РФФИ, РНФ и Skoltech Systems Biology Fellowship. Данные доступны под лицензией WTFPL ("Do What The Fuck You Want To Public License") [2]
- VDJdb [3] это курируемая база данных последовательностей Т-клеточных рецепторов (TCR) с известной антигенной специфичностью. Основной целью VDJdb является облегчение доступа к существующей информации о специфичности антигена Т-клеточного рецептора, т. е. способность распознавать определенные эпитопы в определенных контекстах MHC. Проект создавался совместным российским и европейским финансированием [4], а все данные и исходных код доступны на Github.
- GTRD (Gene Transcription Regulation Database) [5] наиболее полная коллекция единообразно обработанных данных ChIP-seq по идентификации сайтов связывания факторов транскрипции для человека и мыши. Доступно в виде данных для скачивания в машиночитаемых форматах.

А также многие другие данные создаются как открытые в проектах где российская наука существует и была интегрирована с мировой.

Ссылки։
[1] https://hocomoco11.autosome.org/
[2] https://en.wikipedia.org/wiki/WTFPL
[3] https://vdjdb.cdr3.net/
[4] https://vdjdb.cdr3.net/credits
[5] https://gtrd.biouml.org/#

#opendata #openaccess #FAIR
Разработчики ИИ пугающими темпами создают сервисы и продукты замещающие людей творческих профессий։ художников, писателей, дизайнеров, музыкантов. Все уже слышали про Midjourney и Stable Diffusion, а тут подборка продуктов менее известных, но не менее интересных։
- Soundraw [1] сервис создающий музыку для заднего фона для Вашего видео, игры или ещё чего-либо. Лицензия не позволяет только использовать её для массового прослушивания именно как только музыку, а не как часть составного продукта. Зато просто таки напрашивается как часть продуктов вроде TikTok и его аналогов. Вместе пресета мелодий, тут можно создать музыку под себя настраивая длительность, стиль, ритм и тд.
- Metaphor [2] обещают не много, не мало, а заменить поисковые системы вроде Google. А пока генерируют набор ссылок по структурированному запросу. Выглядит как прототип экспериментальной поисковой системы. В чистом виде Google пока не заменит, но для некоторых областей будет очень интересно, например, в поиске научных публикаций по специализированным темам.
- LexicaArt [3] генератор изображений похожий на Stable Diffusion, но включающий поисковик по тому что успели нагенерировать другие. База там огромная, можно найти иногда необычные изображения, много примеров и, конечно, сгенерировать собственные
- Լex [4] сервис помогающий писателям дописывать куски текстов когда они застревают в какой-то части повествования. Ну, мы же понимаем, вначале помогает, потом заменяет писателей;) Сервис пока доступен ограниченно, но есть видео того как он работает [5]
- Runway [6] сервис по убиранию фона из видел, быстрому редактированию, преобразованию текста в 3D модели и ещё много чему по работе с видео с помощью ИИ

Таких сервисов и продуктов становится всё больше, они появляются каждую неделю и их станет всё больше.
Здесь можно порассуждать что ждёт креативные профессии в ближайшие годы и многочисленные области применения области применения креативного ИИ для развлечения или пользы человечеству.

Ссылки։
[1] https://soundraw.io
[2] https://metaphor.systems/
[3] https://lexica.art/
[4] https://lex.page/
[5] https://www.youtube.com/watch?v=4zctPN_mO4o&t=10s
[6] https://runwayml.com/

#ai #startups
В StackOverflow, сервисе вопросов и ответов, изначально для инженеров и программистов, запретили использование ChatGPT [1]. Пока временно, а там будет видно․ Главная причина в том что ChatGPT генерирует ответы которые выглядят как хорошие, а на самом деле не так уже хороши, а то и плохи.

А вот у Бена Томпсона в блоге пост AI Homework [2] о последствиях применения ChatGPT в некоторых областях, в частности в школе и студентами.

На всякий случай напомню что ChatGPT это свежий движок по генерации ответов и поддержания разговора
от команды которая делала языковую модель GPT-3. Его особенность в высокой осмысленности ответов, которые, даже если неверны, начинают походить на осмысленный диалог. У ChatGPT меньше чем за неделю уже более 1 миллиона пользователей, так что мы ещё немало услышим и о самом продукте и о том что в ближайшие месяцы будет появляться на его основе․

Ссылки։
[1] https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
[2] https://stratechery.com/2022/ai-homework/

#ai #startups
Вышел свежий доклад The State of Open Data 2022 [1] от Figshare посвящённый открытости данных в науке. Как и все доклады типа "The state of ..." это построен на опросе, в данном случае опросе исследователей работающих с данными. Там много любопытного о том как учёные используют данные и обмениваются ими, но интересно и то что открытость науки сейчас это характеристика живой науки. Уж насколько можно считать закрытым Китай, но в докладе есть статья The role of policy makers in China: facilitating the move to open data for researchers and journals о том как в Китае разработали и применяют принципы управления данными Measures for the Management of Scientific Data (MMDS) и открытый обмен данными часть их стратегии.

Ссылки։
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2022/21276984

#opendata #openaccess #openscience #datasharing
Полезная заметка Казахстанские власти хотят закрыть неугодные данные [1] со сравнением прошлого и нового перечней данных подлежащих обязательному раскрытию в Республике Казахстан. Вполне ожидаемо перестанут публиковать некоторые чувствительные данные с одной стороны, а с другой стороны в списке появилась конкретика по содержанию.

Напомню что я ранее писал [2] о новом проекте постановления Пр-ва Казахстана по открытости данных и о том что в нём отсутствуют принципы открытости данных по умолчанию и недискриминационный доступ к данным, сейчас они доступны только гражданам страны. Граждане Казахстана могут оставить свои комментарии к проекту постановления на сайте Открытые НПА [3]. Прошу, не поленитесь, напишите там Ваши комментарии и мнение.

Ссылки։
[1] https://exclusive.kz/kazahstanskie-vlasti-hotyat-zakryt-neugodnye-dannye/
[2] https://t.iss.one/begtin/4440
[3] https://legalacts.egov.kz/npa/view?id=14317392

#opendata #opengov #kazakhstan #policies
Тем временем в Германии Министерство внутренних дел и общества и другие организации создают Институт данных, Dateninstitut [1] для повышения доступности данных для бизнеса и общества. Ещё в начале года на его создание было выделено 1,7 миллиона евро и к концу года он появится. Его создание должны обсуждать сегодня на секции Das Dateninstitut – neue Impulse für die Datenökonomie (Институт данных - новый импульс для экономики данных) [2] конференции Digital-Gipfel 2022 по берлинскому времени сегодня в 10։10 (это 12։10 по Москве, 13։10 по Еревану и 15։10 по Астане). Живая трансляция должна быть доступна на сайте, на немецком языке.

Почему это важно? По сути в Германии создают аналог The Open Data Institute существующего (ODI) в Великобритании. Однако ODI всегда строился и существует как глобальная институция, с претензией на воспроизводство лучших практик в развитых и развивающихся странах. Относительно Dateninstitute пока неизвестно будет ли он действовать локально про Германию, на весь Евросоюз или глобально как ODI.

Ссылки։
[1] https://www.bmi.bund.de/SharedDocs/pressemitteilungen/DE/2022/10/dateninstitut-startschuss.html
[2] https://www.de.digital/DIGITAL/Navigation/DE/Konferenzen/konferenzen.html

#opendata #data #policy #germany #dataeconomy #datapolicy
Top400 A top-down crime prevention strategy in Amsterdam, система предупреждения преступлений в Нидерландах, впервые начатая в 2011 году под названием Top600 и переименованная в Top400 в 2016 году. Основная идея в том чтобы снижать число преступлений через вмешательство в жизнь тех кто наиболее вероятно совершит преступление. Иначе говоря, это обычно то что называется профилактикой преступлений среди лиц ведущих антиобщественный образ жизни.

В ноябре вышел подробный доклад за авторством Fieke Jansen [1] для которого автор запросила множество документов через FOI запросы и исследовала более 4 тысяч страниц текста.

Этот проект создан создан для создания списка, примерно, 400 изначально, а сейчас уже под 1000 человек которые находятся под особым наблюдением полиции.

Для попадания туда есть два пути.

Первый набор критериев это комбинация взаимодействия с полицией и местным сообществом и включает։
• имеет (имели) меры по реабилитации молодежи (признак удваивается)
• находится или находился под наблюдением
• например, часто отсутствовал в школе или не закончил школу
• сменил начальную школу не менее 3 раз
• участвовал в инциденте с домашним насилием (в качестве потерпевшего, свидетеля или подозреваемого)
• был арестован как подозреваемый в возрасте от 12 до 14 лет
• был арестован за торговлю поддельным наркотиком в течение последних 2 лет

Второй набор критериев, это взаимодействие с полицией։
• хотя бы раз за последние 5 лет подозревался с полицией
• имел другие контакты с полицией
• и/или люди из их непосредственного окружения контактировали с полицией

К этому добавляется что полиция Амстердама сотрудничает с программой уличных тренеров (Street coaches) в рамках которой тренеры сообщают об антиобщественном поведении об отдельных лицах и это учитывается как один из критериев попадания в Top400.

Там же в докладе весьма подробно рассказывается про систему Prokid+ в которой регистрируются сведения о детях которые совершают нарушения или ведут антиобщественный образ жизни и о том что школы также сотрудничают с полицией.

Сам доклад всячески рекомендую почитать чтобы понимать в каком направлении сейчас движутся практики профилактики преступлений.

Ссылки։
[1] https://pilpnjcm.nl/wp-content/uploads/2022/11/Top400_topdown-crime-prevention-Amsterdam.pdf

#predictivepolicing #netherlands #privacy #eu
Полезное чтение про данные, технологии и не только։
- GPT-4 Rumors From Silicon Valley [1] коллекция слухов про дату выхода GPT-4, языковой модели которая должна многократно превосходить по возможностям GPT-3 и, соответственно, основанные на GPT-3 инструменты такие как ChatGPT.
- Why Google Missed ChatGPT [2] о том почему не Google сделали ChatGPT и о том как этот продукт разрушает ценность их продукта поиска, ключевым достоинством которого остаётся только быстрая доступность наиболее актуальной информации.
- How analysis dies [3] у Бен Стэнцила опять хороший текст, сейчас о том как умирает анализ тоже в контексте ChatGPT. Главное в рассуждениях о ChatGPT - это резкое ощущение неопределённости будущего у многих кто работает в областях связанных со смыслом и аналитикой.

Ссылки։
[1] https://thealgorithmicbridge.substack.com/p/gpt-4-rumors-from-silicon-valley
[2] https://bigtechnology.substack.com/p/why-google-missed-chatgpt
[3] https://benn.substack.com/p/how-analysis-dies

#ai #future #languagemodels
В рубрике как это работает у них, портал открытых данных Новой Зеландии data.govt.nz [1]. На портале размещено почти 32 тысячи наборов данных от 182 организаций. Более половины опубликованных данных - это геоданные в форматах KML, SHP, DWG, GPKG и геоAPI, ввиде метаданных и ссылок на данные опубликованные в системе ведения геоданных Linz Data Service [2] и на порталах открытых данных на платформе ArcGIS [3].

Кроме органов власти данные на государственном портале публикуют 4 университета [4]. Например, университет Окленда опубликовал 665 наборов данных [5] большая часть из которых это данные которые были размещены вместе с научными статьями на сайте Figshare.
Почти все данные опубликованы под лицензией Creative Commons.

Для наполнения портала и развития темы открытых данных в Новой Зеландии есть государственная стратегия и дорожная карта [6], включающая такие пункты как публикацию плана инвестиций в создание данных, публикацию фреймворка обеспечения качества данных, введение новых обязательных стандартов работы с данными и многое другое.

Портал data.govt.nz работает на базе CKAN, а геоданные, в основном, публикуются в системе ArcGIS и с помощью сервиса Koordinates [7], реже на базе Geonode [8].

Ссылки։
[1] https://data.govt.nz
[2] https://data.linz.govt.nz/
[3] https://doc-deptconservation.opendata.arcgis.com/maps/c417dcd7c9fb47b489df1f9f0a673190_0
[4] https://catalogue.data.govt.nz/organization/?q=University&sort=title+asc
[5] https://catalogue.data.govt.nz/organization/the-university-of-auckland
[6] https://www.data.govt.nz/leadership/strategy-and-roadmap/
[7] https://koordinates.com
[8] https://data.otodc.govt.nz/

#opendata #newzealand
В рубрике интересных продуктов по работе с данными с открытым кодом Monoid [1].

Основная идея в том чтобы дать возможность сканировать базы данных и вручную (!) размечать их на предмет наличия персональных данных. При этом для разметки можно указать свои типы данных (идентификаторы).

Поддерживает из коробки Redshift, Snowflake, Bigquery, MySQL и Postgres. Исходный код на Go и Typescript доступен [2] под лицензией MIT.

Также на сайте есть возможность использовать его как облачный продукт с оплатой начиная от $399 в месяц.

У меня лично смешанные ощущения от этого проекта. С одной стороны он выглядит проработанным, с интерфейсом, открытым кодом, некой простой завершённой функциональностью. С другой стороны, есть множество более сложных и комплексных продуктов которые обеспечивают автоматическую, а не ручную, разметку полей и не только для идентификации персональных данных. Тот же Datahub как каталог данных или утилита Metacrafter которую я лично разработал и которая позволяет автоматически идентифицировать типы данных почти из любого источника.

Впрочем у того же Monoid до сих пор нет инвестиций и нет подтверждения что их бизнес модель хоть как-то выгорит. Так что посмотрим.

Ссылки։
[1] https://monoid.co
[2] https://github.com/monoid-privacy/monoid

#startups #datatools #opensource #data #privacy
В продолжение темы открытости данных в Казахстане о которой я уже писал [1], не могу не добавить ложку дёгтя. Важно то что из-за того что на портале данных data.egov.kz Казахстана данные доступны только после авторизации и только для граждан или лиц получивших местный налоговый код ИИН, то по факту, добавление туда данных из других официальных источников страны, не увеличивает, а снижает уровень доступности и открытости этих данных.

К примеру, есть в Казахстане Единая информационная система охраны окружающей среды [3] где публикуются обобщённые показатели такие как։ Объемы опасных отходов, Объем образованных неопасных отходов и другие. Эти данные общедоступны и их, при небольшом желании, можно скачать с сайта в JSON формате. Экспорта на странице нет, но в коде страницы всё довольно очевидно.

Данные из этой системы упомянуты в постановлении Правительства РК как "Объем опасных отходов по показателям (общие показатели по республике) (отчетный период; вид операции; объем отходов)"․ То есть они должны публиковаться и публикуются на портале [3], но не гражданам и не имеющим ВНЖ недоступны.

Но дело не только в недоступности, но и в том что доступ граждан отслеживается, что довольно странно и, в принципе, в мире практикуется крайне редко.

В целом почти неизбежно при следующих рейтингах и оценках открытости данных в Казахстане уровень открытости там может оцениваться скорее как снижающийся чем иначе.

Ссылки։
[1] https://t.iss.one/begtin/4440
[2] https://oos.ecogeo.gov.kz/
[3] https://data.egov.kz/datasets/view?index=785_megpr

#opendata #kazakhstan #datasets
Я, кстати, вот уже несколько месяцев думаю о том что до конца не могу сформулировать, но что укладывается в идею "критической массы изменений".

В тех областях за которыми я внимательно наблюдаю, массовая слежка и ИИ, всё довольно быстро идёт к накоплению технологий, их внедрения и социальных изменений которые неизбежно, не могут не привести к системным изменениям в обществе, государстве, рынках труда и т.д.

Например, уже выросло несколько поколений о которых с детства собиралась и собирается практически вся информация. Через сотовых операторов, соцсети, государственные системы учёта, финансовые организации и так далее. Ничего о них кроме как в цифре не существует. Включая биометрию, в том числе собираемую пассивными способами. Что будет когда реально не останется людей кроме тех кому 60+ на которых не будет цифрового профиля? Когда в национальных и международных базах будет вся биометрия։ лицо, отпечатки пальцев, геном и т.д. ?

Или вот с ИИ, прогнозы были весьма пессимистичными по скорости появления AGI и даже приближения к нему. Сейчас есть активная демонстрация что это не так, даже текущие результаты в виде продуктов способных на эффективный синтез накопленного, неважного плохого или хорошего человеческого знания, показывают что всё ближе ситуация когда внедрение даже ИИ/алгоритмов на практике может очень существенно изменить существующий рынок труда.

Про сочетание этих двух трендов несущих критическую массу изменений можно ещё говорить отдельно. Тут много фантастических произведений можно придумать про безумных правителей сочетающих ИИ помощников и массовую слежку с дронами, и про террористов способных с помощью роботизированных инструментов совершить много больше вреда. Но смысл в том что развитие некоторых технологий приводят ещё и к той форме критической массы когда оснащённое и агрессивное меньшинство может диктовать свои требования большинству.

Диктаторы 20-го века прятались за огромными стенами и вооружёнными последователями и наёмниками, диктаторов 21-го века можно физически не находить, при этом они могут не терять власти, а штурм их дворцов не лишит их возможности править.

Что-то из этого может быть прекрасным сюжетом новых хорошо иллюстрированных антиутопий, а что-то будет самой что ни на есть реальностью до которой мы ещё можем успеть дожить.

#thoughts
Forwarded from Инфокультура
В каталог каталогов данных Datacatalogs.ru добавлено 18 каталогов данных в форме геопорталов, в большинстве случаев это геопорталы органов власти на базе ArcGIS, но не только.

Особенность геопорталов в том что часто разработчики не предусматривают отдельных разделов выгрузки данных, но данные доступны через документированное или недокументированное API. Часто геопорталы создаются региональными органами власти, например, в форме единых геопорталов региона или города. Существуют геопорталы коммерческих компаний и научных организаций.

Ссылки на добавленные геопорталы։
- https://lgtgis.aari.ru/arcgis/rest/
- https://geoportal.gcras.ru/arcgis/rest/services
- https://gis.gov-murman.ru/
- https://meteo-dv.ru/
- https://gisnao.ru/
- https://gis.rkomi.ru/
- https://agoracle.asutk.ru/arcgis/rest/services
- https://gis.toris.gov.spb.ru/
- https://karta.yanao.ru
- https://map.govvrn.ru
- https://gis.sgm.ru/server/rest/services
- https://maps29.ru/
- https://www.tver.ru/ArcGIS/rest/services
- https://map.novo-sibirsk.ru
- https://geo.govrb.ru
- https://map.samadm.ru
- https://geoportal.egov66.ru
- https://maps.crru.ru/smaps/cmViewer.php

Каталог каталогов данных создан как проект по обнаружению данных, data discovery, с целью упрощения поиска данных по нужным темам и территориям. На сегодняшний день в него включено 280 порталов открытых данных, систем научных репозиториев, геопорталов, реестров открытых данных и порталов открытости бюджетной системы всех регионов России, а также порталы данных о России или связанные с Россией в мире.

Дополнительная цель проекта в архивации порталов данных на случай их возможного исчезновения в будущем.

Мы продолжаем работать над наполнением и визуальным представлением данных в каталоге. В ближайшее время запланирована модернизация веб-интерфейса и публикация самого каталога в форме набора данных и/или API.

Если Вы знаете какие-либо порталы данных, геопорталы и другие каталоги данных не учтённые в datacatalogs.ru - присылайте нам через форму на сайте.

#opendata #datacatalogs #datasets #datadiscovery
То что утекли данные о покупках во Вкусвилл - это, конечно, очень плохо. Как и любые иные максимально персонифицированные данные позволяющие локализовать потребителей. Но что хорошо и правильно - это то что команда Вкусвилла не спрятала голову в песок, а пишут о своей реакции на утечку и принимаемых мерах [1] несмотря на негатив, которого они по любому избежать не смогут.

Всё это, конечно, никак не отменяет того что каждая такая утечка - это необратимый процесс. Посмотрим на реакцию регулятора и коллективные иски и будет ли Вкусвилл публиковать результаты расследования, организует ли внешний аудит безопасности и тд.

Ссылки։
[1] https://vkusvill.ru/media/journal/baza-dannykh-chto-proizoshlo.html

#privacy #dataleaks #leaks
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.

Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed

#data #datatools #startups #france