Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Для тех кто работает с открытыми данными регулярно не могу не напомнить что у Open Knowledge Foundation есть проект Frictionless Data и, в частности, frictionless-py [1], программная библиотека и утилита командной строки для анализа данных и подготовки пакетов данных для публикации. Это инструмент совершенно далёкий для большинства тех кто занимается корпоративной дата-инженерией, но уже немного известный тем кто готовит научные данные для публикации. Инструмент сильно развился за последний год, там теперь поддерживается много разных форматов, наконец-то поддерживаются форматы вроде Parquet и JSONl/NDJSON. Если бы он был на несколько лет раньше, я бы многие свои инструменты делал на его основе. Как бы то ни было это существенная часть экосистемы вокруг ПО порталов для публикации открытых данных CKAN.

Сейчас его же авторы сделали GUI обёртку под названием Open Data Editor [2], продукт позволяющий готовить данные вручную и отправлять на публикацию в CKAN, Zenodo или Github.

Пока ещё это не финальный продукт и ошибки встречаются, но вот это хороший прогресс в экосистеме публикации открытых данных в мире.

Ссылки:
[1] https://framework.frictionlessdata.io
[2] https://opendataeditor.okfn.org

#opensource #opendata #ckan #datatools
Можно сказать новый/старый жанр в технических инструментах, сделай как лидер рынка, но с открытым кодом и приватностью. Bruno - это клиент с открытым кодом для тестирования и работы с API [1], фактическая замена продукта Postman хорошо известного инструмента в среде создателей API.

Особенность Bruno в том что в нём нет никакой необходимости в облачном аккаунте, нет синхронизации в облаке и есть явный акцент на приватности. Дословно это звучит так
Bruno is offline-only. There are no plans to add cloud-sync to Bruno, ever. We value your data privacy and believe it should stay on your device. Read our long-term vision here.

Авторы подробно рассказывают о своём видении подобных инструментов [2], сравнивают их и описывают свой как единственный полностью оффлайновый.

А тем кто хочет синхронизовать свои спецификации API с другими, они дают возможность делать это через git, на Github или другом сервисе.

Лично я на этот инструмент обратил внимание по двум причинам.

Первая, конечно, в том что инструменты моделирования API будут актуальны ещё долго.

И вторая в том что сама модель оффлайн инструментов с синхронизацией через Git представляется хорошей идеей. Не монетизируемой, но востребованной.


Ссылки:
[1] https://www.usebruno.com
[2] https://github.com/usebruno/bruno/discussions/269

#opensource #api
В рубрике интересных наборов данных проект Census Tree [1] как результат работы группы исследователей по сопоставлению данных переписей США с 1870 по 1940 годы и созданию наборов данных связей между людьми. Причём искали их создавая специальный алгоритм сопоставления и используя генеалогические базы данных. Уникально и то что в США существуют открытые микроданные переписей начиная с 1790 года [2] и то что исследователи могут с этим работать.

Результаты представлены в виде коллекции наборов данных [3] сопоставлений связей между двумя переписями. Наборы данных включают файлы от нескольких мегабайт до нескольких гигабайт, но для выгрузки нужна регистрация на OpenICPSR [4].

Данные доступны в формате CSV под лицензией CC-BY 4.0

Ссылки:
[1] https://www.censustree.org
[2] https://usa.ipums.org/usa/full_count.shtml
[3] https://www.censustree.org/data
[4] https://www.openicpsr.org

#opendata #usa #census #sociology #datasets
В рубрике интересных продуктов на данных SemOpenAlex [1] граф знаний на 26 миллиардов RDF triples с базой из более чем 249 миллионов научных работ от 135 миллионов авторов и из 226 тысяч источников.

Проект включает открытое API и возможность скачать дамп целиком [2].

Данные и API доступны под лицензией CC0 и имеют множество возможных применений во всём что касается картирования науки и научной деятельности.

Ссылки:
[1] https://semopenalex.org
[2] https://semopenalex.org/resource/?uri=http%3A%2F%2Fdatasets.metaphacts.com%2Fsemopenalex

#opendata #datasets #researchdata #science #semanticdata
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
Свежая новость о том что Правительство РФ планирует выделить 250 миллионов рублей на раскрытие данных для бизнеса [1] в рамках разработки моделей ИИ. По нынешнему курсу это что-то около 2.5 миллионов долларов США. Много это или мало?

Примеры, навскидку:
- в 2014 году Правительство Великобритании создало два фонда Breakthrough Fund и Release of Data Fund на который ежегодно [2], общий их бюджет составлял 9.5 миллионов фунтов в год, он распределялся грантами по региональным и муниципальным властям чтобы те открывали свои данные.
- в Испании на языковые данные и технологии было выделено 330 миллионов евро на 2020-2026 годы и до этого 90 миллионов евро за 2016-2020 годы [3]

И таких примеров много, особенно, конечно, характерна модель "создания" наборов данных в России. В мире государства инвестируют в ИИ через грантовые программы ВУЗам и научным центрам и предоставление им и на их основе инфраструктуры для их открытой публикации. Те же испанцы публиковали языковые модели на Kaggle и Huggingface.

Судя по тому что я пока видел из активностей Минцифры РФ в этой области, я бы не ждал чего-то выдающегося. Тем более что, похоже, там сами до сих пор не знают что именно будет публиковаться, насколько открыто и так далее.

Ссылки:
[1] https://t.iss.one/government_rus/9165
[2] https://www.gov.uk/government/publications/breakthrough-fund-and-release-of-data-fund
[3] https://plantl.mineco.gob.es/Paginas/index.aspx

#opendata #datasets #ai #russia
В Великобритании правительственная цифровая служба анонсировала [1] сервис создания форм для госагенств GOV.UK Forms [2].

Идея проста, сделать универсальный генератор форм которые могли бы создавать специалисты без технических знаний. Аналог TypeForm, Google Forms и других коммерческих продуктов, но с учётом требований и особенностей госорганов.

Продукт чрезвычайно похож на Сингапурский государственный проект FormSG [3] который ещё и существует с открытым кодом и построенном на тех же принципах, конструктора форм, кроме всего прочего поддерживающего аутентификацию через государственных и частных провайдеров аутентификации в Сингапуре.

Что характерно, FormSG - это открытый код, можно скачать его себе и использовать даже не будучи государственным агентством.

Интересный вопрос в том почему только в Сингапуре и Великобритании есть такие проекты?

Ссылки:
[1] https://gds.blog.gov.uk/2023/10/03/how-were-opening-up-access-to-gov-uk-forms/
[2] https://www.forms.service.gov.uk
[3] https://form.gov.sg

#opensource #govtech #government #singapore #uk
Для тех кто заботится о приватности по умолчанию, Consent-O-Matic [1] расширение для браузера Chrome автоматически закрывающее окна [1] с выбором объёма кук на которые Вы согласны.

Разработано командной из Aarhus University в Дании, поддерживает около 680 видов всплывающих окошек с запросом выбора режима сохранения кук.

На сайте есть, также, версия для Firefox и Safari и полностью открытый код [2]

Ссылки:
[1] https://chrome.google.com/webstore/detail/consent-o-matic/mdjildafknihdffpkfmmpnpoiajfjnjd
[2] https://consentomatic.au.dk/

#opensource #privacy #cookies
У технической команды Dropbox интересная публикация про идентификацию дат из названий файлов [1] и автозаполнение полей форм при их загрузке.

Хорошая практическая задача, а тут ещё и описание подхода и инструментов. Правда почти всё описываемое про англоязычные даты, но, возможно, другие языки просто не описаны.

Причём подход описывается как замена распознаванию дат по правилам. Правда ML подход работает медленнее, о чём они пишут.

А я когда-то делал инструмент для идентификации дат в тексте. Это библиотека qddate (quick-and-dirty date) [2]. Я написал её около 10 лет назад, а 6 лет назад её обновил и выложил в открытый доступ. С тех пор почти не обновлял. Что я могу сказать, так то что распознавание по правилам недооценено и может быть гораздо эффективнее и быстрее. Правда, в qddate я решал задачу производительности и внутри много "грязных хаков" ускоряющих распознавание дат, но, в общем, это из тех задач для которых я считаю ML избыточным.

Хотя и на результат которого достигли эти ребята хотелось бы посмотреть подробнее.

Ссылки:
[1] https://dropbox.tech/machine-learning/using-ml-to-identify-date-formats-in-file-names
[2] https://github.com/ivbeg/qddate

#datatools #data #ml
19-20 октября, EDPC, полезное мероприятие по приватности в Москве. К участникам можно добавить и спикеров из Армении, меня можно равным образом относить к Армении и я там выступаю.
Я лично мероприятие рекомендую, там много интересных спикеров

🎓Eurasian Data Protection Congress - первое мероприятие по приватности, которое организовано сообществами и ассоциациями со всего мира. В нем примут участие 25 спикеров из России, Беларуси, Казахстана и Сербии. Это эксперты, компании, государственные и общественные организации, занимающиеся вопросами защиты персональных данных.

🕒Дата и время мероприятия: 19 октября 2023 года, 10:00
Формат: онлайн.
Стоимость для слушателей: бесплатно.
Язык: русский и английский.
Программа и трансляция EDPC - здесь🔗 и здесь🔗
🔗Добавить в календарь

🎓Оффлайн нетворкинг Евразийского конгресса по защите данных

📌Где: Офис Сити
🕒Дата и время мероприятия: 20 октября, сбор в 16:30

В программе крутейший нетворкинг и неформальное общение, информационный обмен, знакомство со спикерами и друг с другом, а также Обсуждение «ПРИВсущностей» и прошедшей конференции

"🔊РЕГИСТРАЦИЯ НА НЕТВОРКИНГ
(Нужно для оформления пропуска)

Всем отличной пятницы, помните, что самая лучшая пятница этой осени - уже через неделю😎

#events #privacy #russia
Please open Telegram to view this post
VIEW IN TELEGRAM
Полезные ссылки про данные, технологии и ИИ

Проекты
- Polymatic AI [1] свежеанонсированный проект про разработку ИИ моделей для кросс-дисциплинарных исследований в науке. Потенциально интересный продукт может получится, команда состоит из специалистов по ML и предметных экспертов

Инструменты
- Malloy 4.0 [2] свежая версия языка/инструмента Malloy для сложных запросов к базам данных, один из потенциальных заменителей SQL для тех кто не любит SQL. В новой версии много несовместимого с предыдущей, постепенно растёт в очень интересный продукт
- Python 3.12 [3] главные изменения в чуть большей скорости работы, в остальном пока ничего не видно критичного ради чего на него стоит переходить

Чтение
- These Prisoners Are Training AI [4] о том как заключённые в Финляндии помогают тренировать модели для ИИ. В самом деле, а где ещё найти много недорогой рабочей силы для тренировки моделей на национальных языках?
- AI Engineer Foundation [5] новый фонд посвящённый ИИ инженерам. Обещают акцент на Open Source, из анонсированных проектов Agents Protocol, A unified interface standard for the world to communicate with Agents that conform to the protocol. Предлагают также помогать маркетингом проектам для ИИ с открытым кодом.
- Ben Bites [6] отличная рассылка посвящённая свежим ИИ продуктам и сервисам, часть ссылок я подсмотрел там

Ссылки:
[1] https://polymathic-ai.org/
[2] https://malloydata.github.io/blog/2023-10-03-malloy-four/
[3] https://docs.python.org/3/whatsnew/3.12.html
[4] https://www.wired.com/story/prisoners-training-ai-finland/
[5] https://www.aie.foundation/
[6] https://bensbites.beehiiv.com/subscribe?ref=ZCof81aeyC

#data #datatools #opensource #ai #readings
Свежие картинки по LLMops Market Map от CB Insights [1]. Все эти картинки, симпатичные, но они лишь визуально иллюстрируют рынок AI/LLM/Generative AI и инвестиции в него.

Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.

Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/

#ai #analytics #llmops
В Rest of world статья о стереотипах о странах заложенных в генеративные ИИ [1]. Например, Indian person обычно старый мужчина с бородой, Mexican person обычно мужчина в сомбреро, а American person чаще женщина и чаще блондинка на фоне флага.

В целом статья о том как генеративный ИИ сужает мир до стереотипов и в этом мало хорошего, впрочем эта проблема на поверхности и точно будет решаться в новых моделях, инструментах, практике их применения.

Ссылки:
[1] https://restofworld.org/2023/ai-image-stereotypes/

#ai #generativeai #sterotypes #readings
На фоне всё усиливающегося государственного регулирования в области персональных данных в России я не могу не вспомнить как 5 лет назад в 2018 году я проводил исследование "легализованных утечек персональных данных". Это когда персональные данные не хакеры крадут, а когда государственные органы по причине непонимания последствий хренового регулирования и несоблюдения базовых требований разработки информационных систем делают эти данные доступными. Я писал об этом у себя в блоге [1] и были публикации в РБК и не только в 2919 году. А ещё до этого в 2018 году я эти материалы отправлял в Роскомнадзор, одному, не буду называть кому, зам. министру цифрового развития и тд.

Полный текст того исследования я никогда не публиковал и даже убрал его публичную версию, без инструкций по воспроизведению, из открытого доступа, но вот что я вам скажу. Мало что изменилось с тех пор. Исчезли некоторые самые одиозные случаи, вроде того как УЦ Миноброны светил внутренние контакты/email'ы, а также некоторые особо вопиющие случаи раскрытия паспортных данных.

Но, исправили далеко не все!🤦‍♂️Особенно в части утечек связки ФИО + СНИЛС + email. Это не так подгорает по сравнению с хакерскими утечками, но не так уже мало количественно.

По многим причинам я далее не публиковал обновления того исследования, в первую очередь поскольку не было никакого желания чтобы закрывали некоторые важные публичные источники данных, а также с тем что нет желания давать хакерам наводки.

Но... увы, не могу не констатировать что российское государство довольно плохой регулятор персональных данных. Фактически, сапожник без сапог.

Ссылки:
[1] https://beta.begtin.tech/pdleaks-p3-govsys/
[2] https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca

#privacy #reports #readings #personaldata #regulation
Полезное чтение про данные, технологии и не только:
- Generative AI Prohibited Use Policy [1] политика Google по продуктам Generative AI. Документ от марта 2023 года, хорош своей лаконичностью, многим нормотворцам на заметку. Саморегулирование в области ИИ должно быть, в том числе, таким.
- TileDB closes a $34M Series B round [2] про стартап TileDB облачной и с открытым кодом СУБД который привлёк раунд B инвестиций на $34M. Из особенностей продукта это ориентация на данные в виде массивов и адаптированность под данные для машинного обучения и геоданные
- Where is data diplomacy happening? A reading list [3] о том где и как происходит "дипломатия данных" в мире. Неплохой список, со ссылками на практические инициативы, книги и научные статьи.
- From Data to Decision Intelligence: The Potential of Decision Accelerator Labs [4] новый-старый термин Decision Intelligence в статье Stefaan G. Verhulst о недостаточности решений основанных на данных и необходимости их интеграции с существующими процессами, практиками, жизненным опытом и так далее. Термин давно встречается в контексте продуктов для business intelligence [5]
- Ranking Nations [6] книга за авторством Stephen Morse о том как читать и понимать рейтинги стран основанные на статистических показателях. Книга свежая, я лично её ещё не читал, но скорее всего запланирую на ближайшие месяцы. Судя по описанию она весьма полезна для развития критического мышления в приложении к глобальным оценкам.

Ссылки:
[1] https://policies.google.com/terms/generative-ai/use-policy
[2] https://tiledb.com/blog/tiledb-closes-series-b-to-advance-the-vision-of-the-modern-database
[3] https://medium.com/odi-research/where-is-data-diplomacy-happening-a-reading-list-45ce5eddf016
[4] https://medium.com/data-stewards-network/from-data-to-decision-intelligence-the-potential-of-decision-accelerator-labs-33f4060734a8
[5] https://en.wikipedia.org/wiki/Decision_intelligence
[6] https://www.e-elgar.com/shop/usd/ranking-nations-9781800886308.html

#readings #ai #data #policies #statistics