Ivan Begtin – Telegram

Ivan Begtin

9.3K subscribers

2.07K photos

3 videos

102 files

4.8K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

9.3K subscribers

Спасибо Ксении Бабихиной и её коллегам из из Фонд Нужна помощь за их справку [1] по качеству данных в реестре социально ориентированных НКО опубликованном Минэкономразвития 5 июня.

Коллеги использовали наше API проекта "Открытые НКО" [2] которое создавалось какое-то время назад в КГИ, в начале 2020 года было передано и сейчас поддерживается командой Информационной культуры.

Мы используем данные о НКО в разных проектах. В общественных вроде Открытых НКО и в государственных таких как Госрасходы [3] и наша команда также отправила коллегам в Минэкономразвития результаты нашего предварительного анализа который где-то процентов на 70% пересекается с анализом проведённым Ксенией.

Очень хорошо что разные команды делают одно общее дело. Мне нравится в проекте "Если быть точным" [4] Фонда что они занимаются верификацией НКО, это важная и непростая работа и то что проверенные ими организации в реестре СО НКО не оказались, это не один, а сотни вопросов к работе Минэкономразвития.

Ссылки:
[1] https://drive.google.com/file/d/1EWRyzxgBpSqx3v9u82_KMM3HNB8-QZlM/view
[2] https://openngo.ru
[3] https://spending.gov.ru
[4] https://tochno.st/nko

#openngo #ngo #opendata #data

1.6K viewsIvan Begtin, 19:18

IBM отказались в будущем разрабатывать технологии распознавания по лицам, об этом в письме руководителя IBM Арвинда Кришна в адрес Сената США [1] . The Verge подробно разобрали ситуацию с применением [2] технологий распознавания лиц и, в том числе, "расовым предубеждением алгоритмов" и злоупотребление полиции использования этой технологии.

Тема слежки полиции за гражданами сейчас будет одной из важнейших в США точно. 12 июня, завтра выходит фильм "Запрограммированное предубеждение" (Coded Bias) [3] за авторством Joy Buolamwini которая когда и обнаружила и описала то что алгоритмы распознавания лиц плохо различают женщин и людей с темным цветом кожи.

На многое ли это повлияет в мире? Пока сложно предсказать. Этих шагов не возникло бы из-за стихийных митингов в США, обвинений полиции в использовании технологий и активизации НКО противодействующих неэтичному использованию ИИ, например, AI Justice United [4] и другие.

Ссылки:
[1] https://www.ibm.com/blogs/policy/facial-recognition-susset-racial-justice-reforms/
[2] https://www.theverge.com/2020/6/8/21284683/ibm-no-longer-general-purpose-facial-recognition-analysis-software
[3] https://www.hrwfilmfestivalstream.org/film/coded-bias/
[4] https://ajlunited.org/

#facialrecognition #ibm #bias #biometrics #ai

1.6K viewsIvan Begtin, 22:49

Кратко написал у себя в блоге о эталонных базах данных и золотых записях [1], кратко поскольку тема большая и многие случаи того как они создаются в государстве надо разбирать отдельно.

На самом деле из всех приводимых мной там примеров, по настоящему попытки эталонной базы данных предпринимались при создании реестра участников и неучастников бюджетного процесса и единый реестр населения. Это вот прям базы данных в которых сама логика их создания была в создании "золотой записи". Даже ЕГРЮЛ - это не совсем "золотые записи", а скорее справочные сведения.

Тема неисчерпаемая, есть большие области государства где эталонных данных нет в принципе.

Ссылки:
[1] https://begtin.tech/golden-record/

#data #mdm #goldenrecord #registry

Ivan Begtin blog

Единицы правды и золотые записи

Главное что важно помнить при работе с любыми открытыми данными, что за редким исключением, почти все данные довольно плохого качества. Ошибки форматирования, структуры, полноты, актуальности, достоверности и соответствия первоисточнику - это присутствует…

1.5K viewsIvan Begtin, 08:55

Ну то есть в последний момент "реестр СО НКО" переименовали в реестр НКО наиболее пострадавших от коронавируса. И постановление правительства приняли, чтобы протащить эту новую мысль. [1]
Это не "нет слов, одни эмоции", а слова то есть.
Ну, хотя бы определен ответственный и требования к достоверности зафиксированы.
Это ж сколько обращений в прокуратуру можно написать, по каждой недостоверной записи буквально.
И вот эта часть:

3.Министерству экономического развития Российской Федерации:сформировать реестр;осуществлять методическое обеспечение деятельности федеральных органов исполнительной власти по подготовке и представлениюинформациио некоммерческих организациях, предусмотренной Положением, утвержденным настоящим постановлением, для включения в реестр; разместить реестр на официальном портале Министерства экономического развития Российской Федерациив информационно-телекоммуникационной сети "Интернет";

Давайте врать не будем, в Минэкономразвития некому осуществлять эту методическую работу.

Впрочем, я обо всём, очень подробно, ещё напишу

Ссылки:
[1] https://static.government.ru/media/files/JAZ9FWArAwVgNEjmFIkALqrPPb5FqPAD.pdf

#ngo #sonko #data

1.3K viewsIvan Begtin, 10:59

На Украине перезапустили законодательный портал страны при Верховной Раде zakon.rada.gov.ua [1], помимо того что он на 3-х языках: украинский, английский и русский [2], так ещё и все документы опубликованы под Creative Commons Attribution 4.0 International license, а все данные портала опубликованы на портале открытых данных Верховной Рады [3], включая всю базу украинского законодательства Нормативно-правова база України (База даних “Законодавство України”) [4]

На портале есть очень разумный раздел терминологии [5] привязанный к нормативно-правовым документам.

При том что я лично могу сказать что и система обеспечения законодательной деятельности Госдумы в России [6] не так уж плохо сделана, но открытых данных и некоторых других возможностей в ней давно не хватает.

Не рискну перехваливать украинских коллег, почти всегда люди знающие изнутри больше знают про проблемы и ограничения открытости на самом деле, но со стороны это выглядит как весьма неплохой портал прозрачности законодательной деятельности.

Ссылки:
[1] https://zakon.rada.gov.ua
[2] https://zakon.rada.gov.ua/laws?lang=ru
[3] https://data.rada.gov.ua/open
[4] https://data.rada.gov.ua/open/data/zak
[5] https://zakon.rada.gov.ua/laws/main/ru/termin
[6] https://sozd.duma.gov.ru

#opendata #ukraine #laws #data

Официальный вебпортал парламента Украины

Законодательство Украины

База данных "Законодательство Украины" содержит нормативно-правовые документы украинского законодательства, терминологию, аннотации на английском языке, списки первичных актов и т.д.

1.3K viewsIvan Begtin, edited 22:25

Одна из наиболее сложных/трудоёмких задач в Data science - это подготовка и аннотирование данных. Компьютеры не начнут распознавать лица пока не будет базы лиц, пока не будет базы уличных объектов, "умные автомобили" не смогут распознавать их и так далее. Как правило работа по созданию таких наборов данных происходит вручную и она довольно дорогостоящая.

Стартап SuperAnnotate [1] умеет аннотировать наборы данных использую ИИ. У них это неплохо получается и 11 июня они привлекли финансирования на 3 миллиона USD. Это может показаться странным когда ИИ готовит данные для ИИ, но, на самом деле, это вполне ожидаемое развитие событий. ИИ не полностью, а лишь частично заменяет ручной труд, предоставляя подсказки и значительно ускоряя ручную работу.

Ссылки:
[1] https://www.superannotate.com/
[2] https://venturebeat.com/2020/06/11/superannotate-uses-ai-techniques-to-speed-up-data-labeling/

#data #datascience #labeling

SuperAnnotate | Centralize Data Ops for Multimodal AI

Centralize all your AI data needs and vendor management to create and manage high-quality AI data faster than ever.

1.3K viewsIvan Begtin, 22:37

Вы непопулярны в Instagram? Возможно Вы просто недостаточно обнажены

В современных социальных сетях не алгоритм подстраивается под Вас, а Вы под алгоритм. Европейская сеть дата-журналистов и Algorithm Watch провесли тестирование алгоритмов Instagram [1]. В тестировании участвовали 26 волонтеров и 37 профессионалов по созданию контента, были проанализированы 2400 фотографий.

Вывод из анализа - популярность и оголение тела оказались взаимосвязаны не только в головах тех кто смотрит, но и в алгоритмах Instagram. Чем больше в Ваших фотографиях обнажённого тела, тем больше вероятность что оно окажется в лентах других людей.
Подробнее в документе [2] исследования.
Ссылки:
[1] https://algorithmwatch.org/en/story/instagram-algorithm-nudity/
[2] https://docs.google.com/document/d/1L7A5hmskm3Y3huSXHNtIIoiVijHD3dkDqubff4Yvkg8/edit#

#instagram #ai #bias

Undress or fail: Instagram’s algorithm strong-arms users into showing skin - AlgorithmWatch

An exclusive investigation reveals that Instagram prioritizes photos of scantily-clad men and women, shaping the behavior of content creators and the worldview of 140 millions Europeans in what remains a blind spot of EU regulations.

2.4K viewsIvan Begtin, 04:47

Депутат партии Ямина, Матан Кахана, в Кнессете Израиля решил соблюсти шаббат и, одновременно, завалить рассмотрение спорного законопроекта поправками. Его помощник Лави Эйзенманн попросил своего отца Шамая Эйзенманна написать программу для генерации поправок. Тот с помощью Visual Basic и Excel сгенерировал 6000 поправок за 75 минут [1]

Закон всё равно приняли, но вопрос о том следует ли ограничивать законодательную активность депутатов в очередной раз стал весьма актуален.

Зато какой рынок для LegalTech, разработка инструментов по приведению в паралич законодательных собраний. И задача сложная, анализ естественного языка, генерация осмысленного текста, можно и искусственный интеллект применить.

Ссылки:

[1] https://www.jpost.com/israel-news/yamina-uses-computer-program-to-thousands-of-amendments-630758

#legaltech #israel #deputies #laws

The Jerusalem Post

Yamina uses computer program to generate thousands of amendments

The amendments, which suggested changing every word in the bill little by little, were used to waste hours of deliberations on the bill on Sunday.

1.4K viewsIvan Begtin, 05:01

Почему крупнейшие компании в США отказываются поставлять государству (полиции) технологии распознавания по лицам? Потому что опасаются массового бойкота их продукции со стороны потребителей.

Почему в России столь легко внедряются эти же технологии? Потому что бойкотировать некого. NTechLab - это, типа, небольшой стартап в связке с Ростехом, у него нет массового потребителя.

Но бойкот - это форма мирного протеста, когда он не возможен, то во что он выльется? К разработчикам "алгоритмов двойного назначения" приставят госохрану? До них и до внедряющих властей дойдет что любой пиар в этой теме работает против них?

Вопросы этики в ИТ - это давно уже вопросы не-нейтральности технологий. Понимают ли создатели алгоритмов последствия их применения?

#algorithms #facerecognition

1.3K viewsIvan Begtin, 11:24

Новость расстраивающая меня лично, это то что в США закрыли проект pulse.cio.gov, сервис мониторинга аналитики и сертификатов доменов в зоне .gov в США. Его код остался открытым [1], но в состоянии архивации. Функции перенесены в портал Digital Dashboard [2], с полностью закрытым функционалом и его кода нет в репозиториях 18F [3].

Конечно жаль, открытый код 18f в США и десятков официальных органов в мире всегда был хорошим примером того что можно было бы сделать в России. Но команда Трампа сменила команду Обамы, вопросы открытости медленно, но верно сходили на второй и на третий план, и здесь, также, открытого кода стало меньше.

Но, в остальном всё осталось по прежнему. Органы власти в США по прежнему лидируют по публикации открытого кода на Github [4], во многом за счёт огромного объёма кода публикуемого государственными исследовательскими центрами.

Ссылки:
[1] https://github.com/18F/pulse
[2] https://digitaldashboard.gov/
[3] https://github.com/18F
[4] https://government.github.com/

#opensource #opendata #opengov

GitHub - 18F/pulse: How the federal .gov domain space is doing at best practices and policies.

How the federal .gov domain space is doing at best practices and policies. - GitHub - 18F/pulse: How the federal .gov domain space is doing at best practices and policies.

1.3K viewsIvan Begtin, 13:23

9 женщин не могут родить ребёнка за 1 месяц, но 16 человек могут написать книгу за 5 дней.
Книга Open a GLAM Lab [1] была написана 16 членами сообщества International Open GLAM Labs Community 23-27 сентября 2019 года во время встречи в Катаре. Это сообщество которое сформировалось вокруг идеи открытости галерей, библиотек, архивов и музеев по всему миру. GLAM расшифровывается как Galleries, Libraries, Archives and Museums.

Его манифест можно прочитать на сайте OpenGLAM [2] и в инициативе фонда Викимедия по обновлению принципов и этой инициативы [3]

Open GLAM Labs - это инициатива 60 институтов культуры 30 стран [4], обсуждающих то как должны быть устроены современные лаборатории при учреждениях культуры. Фактически, как объединить исторически гуманитарные области знаний с технологиями и открытостью.

В книге немало хорошо описанных примеров культурных лабораторий по всему миру и рекомендаций по их открытию, включая ссылки на материалы объясняющие почему это важно. Например, Europeana Impact Playbook [5], а также о переосмыслении цифровых культурных коллекций как данных, о трансформации культурных учреждений (обратите внимание, не цифровой трансформации, а просто трансформации, в первую очередь культурной трансформации)

Для всех кто интересуется современными цифровыми архивами, библиотеками и музеями всячески рекомендую эту книгу и, конечно, пример её создания за 5 дней вдохновляет. Чего нехватает в российской движухе на мероприятиях, то что она почти вся игротехническая, "детский сад для взрослых". А вот такой пример пример создания книги - это хороший пример важного, полезного и востребованного продукта созданного совместными усилиями.

Написание книг за короткие сроки также называют книжными спринтами. У них есть методика [6] и большое сообщество в мире. Такого, конечно, очень нехватает в России. Если бы были те кто захотел бы такое профессионально организовывать в России, у них был бы немалый пул клиентов, как минимум, среди ИТ компаний.

А книга Open a GLAM Lab была написана как раз в одном из таких спринтов [7]

Может быть и нам организовывать такие спринты? Есть несколько больших тем о которых давно хочется написать и я уверен что получится собрать тех кто готов будет совместно создать новое знание совместными усилиями.

Ссылки:
[1] https://glamlabs.io/books/open-a-glam-lab/
[2] https://openglam.org/
[3] https://meta.wikimedia.org/wiki/Open_GLAM
[4] https://glamlabs.io
[5] https://pro.europeana.eu/page/impact
[6] https://www.booksprints.net/method/
[7] https://www.booksprints.net/book/a-book-sprint-for-the-glam-sector/

#openglam #glam #opendata #books

International GLAM Labs Community

Open a Glam Lab

Open a GLAM Lab book

1.4K viewsIvan Begtin, 05:19

Вышла моя колонка в РБК по поводу реестра СО НКО [1] и его невысокого качества. Внимательный читатель найдёт все ответы и недосказанное внутри этого текста.

Я отдельно напомню также о том что я писал ранее в РБК о том как государство использует статус НКО для вывода деятельности из под 223-ФЗ и 44-ФЗ [2]

А также 2 мои заметки на Яндекс Дзен 2-х летней давности о том как устроен некоммерческий сектор [3] [4]

Если кратко, то конечно, всегда хочется надеяться что некоторые косяки некоторых реестров, таких как реестр СО НКО, это ошибки, а не коррупция, непрофессионализм, а не злой умысел.

Ссылки:
[1] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
[2] https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
[3] https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261/kak-ustroen-nekommercheskii-sektor-vrossii-chast-1-5a363ff08139ba06ba669bf7
[4] https://zen.yandex.ru/media/id/5a315e1300b3dd77beb64261/kak-ustroen-nekommercheskii-sektor-v-rossii-chast-2-5a3a1e898139ba9e538c916b

#ngo #sonko

Незачет по НКО: чем плох реестр социально ориентированных организаций

Минэкономразвития отнесло к социально ориентированным НКО профсоюзы, частные вузы и участников рынка госзакупок — фундаментальная проблема российского некоммерческого сектора так и осталась нерешенной

1.3K viewsIvan Begtin, 07:43

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Рейтинг конкурентности закупок по федеральным органам власти и регионам теперь доступен на сайте проекта «Госрасходы» ^_^.

Для составления рейтинга были проанализированы все закупки за 2014-2019 годы со снижением цены (НМЦК) закупки и количеством допущенных участников в трех диапазонах: 4-6, 7-9 и больше 10 участников.

Для каждого года, каждого региона и федерального органа власти, в каждом из перечисленных диапазонов рассчитывался процент конкурентных закупок по отношению к общему числу закупок. После этого оценкам был присвоен вес (чем больше участников закупок в диапазоне - тем больше вес) и рассчитан индекс конкурентности по годам и общий за шесть лет.

Индекс конкурентности составлен в двух параметрах: количественный параметр позволяет оценить количество конкурентных закупок, а стоимостной - суммы контрактов, заключенных по конкурентным закупкам.

Конечно, не обошлось без проблем со структурой и качеством данных: К сожалению, наиболее очевидный подход к сопоставлению контрактов с заявками невозможен, потому что в данных между протоколами и контрактами нет прямой связи, а только опосредованная, через извещения. Несмотря на наличие атрибута «реестровый номер контракта» это поле остается пустым. Но нашей опытной команде аналитиков это не помешало найти другой способ составления рейтинга.

С результатами по регионам и ФОИВ можно ознакомиться по ссылкам (и в случае с регионами «поиграть» с интерактивной плиточной картой и графиками):
[1] Федеральные органы власти: оценка конкурентности закупок
[2] Регионы России: оценка конкурентности закупок

89 viewsIvan Begtin, 09:18

Forwarded from Инфокультура

UPD: Хорошая новость, к нам присоединится еще один спикер!

В онлайн-дискуссии примет участие Татьяна Попова, заместитель генерального директора компании IBS.

Ссылка на онлайн-трансляцию вебинара «Утечки персональных данных из государственных информационных систем».

🕰 15:00
📌 YouTube: https://youtu.be/aO3XDzClHTk

В программе обсуждение следующих вопросов:
- каковы основные причины утечек персональных данных из государственных информационных систем;
- что необходимо делать, чтобы предотвращать случаи утечек;
- как мы можем обезопасить себя и защитить свои данные.

Эксперты:
- Иван Бегтин, директор АНО «Информационная культура»;
- Михаил Петров, директор Департамента цифровой трансформации Счетной палаты;
- Михаил Емельянников, управляющий партнер консалтингового агентства «Емельянников, Попова и партнеры», экcперт в области информационной безопасности и безопасности бизнеса.

Модератор Василий Буров, соучредитель АНО «Информационная культура».

Подключайтесь к эфиру и задавайте вопросы спикерам!

93 viewsIvan Begtin, 10:36

Написал в своём блоге очень краткий обзор национальной стратегии работы с данными в Ирландии [1] и напомню что у меня там же есть краткие обзоры национальных стратегий работы с данными по странам [2], я примерно полтора года понемногу их туда добавляю.

Ссылки:
[1] https://begtin.tech/ireland-data-strategy/
[2] https://begtin.tech/tag/data-strategy/

#data #datastrategy #ireland

Ivan Begtin blog

Стратегия работы с данными публичного сектора Ирландии

Продолжая серию публикаций о стратегиях работы с данными, привожу в пример Ирландскую стратегию работы с данными в публичном секторе Стратегия была разработана в 2018 году и её целью было охватить период с 2019 по 2023 годы [1] Стратегия построена из следующих…

1.3K viewsIvan Begtin, 13:31

Из симпатичных лично мне стартапов хочу отдельно выделить те которые помогают работать с данными удобным образом и помогают неспециалистам/не ИТшникам делать это с большим комфортом.

Пример: Trevor.io.
Авторы создали интерактивный визуальный построитель запросов (query builder), поместили в облако, поддержали наиболее популярные базы данных и связали с Google таблицами, Slack'ом и возможностью строить дашборды.

Получилось очень неплохо, я бы даже сказал что получилось отлично. Авторы подняли небольшую неизвестную сумму инвестиций и сам стартап происходит из Берлина. Но учитывая как хорошо и аккуратно он сделан я не сомневаюсь что скоро их приобретёт один из крупных онлайн игроков облачной аналитики.

Минус у продукта такой же как и у других облачных сервисов в том что надо много доверия чтобы подключать к облаку свою боевую базу. А то есть всё таки нужно приложить усилия чтобы доверять сервису. Но, с другой стороны, если у Вас база данных и так в облаке, то и риски не превышают тех что были ранее.
—
Другой облачный аналитический стартап Mode.
В нём нет такого интерактива в построении SQL запросов, зато очень много возможностей создания быстрых аналитических продуктов. Отчёты, дашборды - всё это то для чего Mode подходит практически идеально.

Те же минусы что у всех других продуктов облачной аналитики - надо отдавать доступ к своей базе данных и те же плюсы, минимальные расходы на покупку лицензий BI и возможность очень быстро сделать аналитику из коробки.

Этот стартап кремниевой долины поднял в общей сложности $46,4M с 2013 года в общей сложности. Причём последние $23M в феврале 2019 года.

—
И, наконец, Looker, облачная аналитическая система, полноценная cloud BI.
Поддерживает более 50 SQL диалектов, удобная для аналитиков в работе с данными, не такая удобная в построении SQL запросов, но весьма гибкая система для 99% процентов задач по визуальному анализу данных бизнеса. Цены не раскрывают, но обещают большие скидки для НКО и образовательных организаций.

Я всё чаще вижу Looker в технологических стеках компаний, особенно при стыковке с облаком Google и онлайн сервисами. Одна из важных возможностей - это преднастроенные шаблоны под цифровой маркетинг или продажи, буквально аналитика из коробки. У Looker особенно хороша поддержка большого числа корпоративных баз данных и крупных облачных сервисов от Amazon, Microsoft, Google и других.

Создан в 2011 году, получил инвестиций в $280M и, в итоге был куплен Google за $2.6B.

Из других онлайн аналитических продуктов заслуживают внимания: Domo, Tableau, Sisense Data Teams (ранее Periscope Data), Студия данных Google, Redash, Databox

Для российского потребителя пока у них у всех одна беда - плохая интеграция с российскими сервисами.

#onlineanalytics #analytics

Trevor | Your team's favorite data tool

Trevor is a business intelligence platform that makes it easy for everyone on your team to get answers from data, even if they don't know SQL.

1.4K viewsIvan Begtin, 15:29

Многочисленные напоминания
За эти годы многие ресурсы, полезные инструменты и материалы были созданы мной и нашей командой. Я периодически напоминаю что они есть и их можно использовать.

Телеграм теперь вновь легализован в России и нет никаких оснований не подписаться на мой телеграм канал я пишу про технологии, про данные, про открытость, реже про госзакупки, чаще про мировые и российские новости
https://t.iss.one/begtin

Канал Инфокультуры содержит видеозаписи не только последних 3-х вебинаров по приватности, но и множество лекций про открытые данные и не только со дней открытых данных. Не проходите мимо, смотрите и подписывайтесь
https://www.youtube.com/channel/UCve6269kQEJ1LW52HXKtTng

Открытое API для данных проекта Счетной палаты Spending.gov.ru и там же открытые данные. Включая данные по нацпроектам
https://spending.gov.ru/pages/devs_api/
https://spending.gov.ru/devs/opendata/

Открытый код Инфокультуры, мой собственный код
https://github.com/infoculture
https://github.com/ivbeg
https://github.com/datacoon
а также открытый код частей проекта Госрасходы (Счетная палата) и иного открытого кода
https://code.ach.gov.ru/public

Подписка на рассылку Инфокультуры
https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05

Множество моих презентаций разной степени актуальности
https://www.slideshare.net/ivbeg/presentations

Мой личный сайт и блог, там же можно подписаться. Пишу туда сильно реже, и в основном то где есть текст побольше и картинки
https://begtin.tech

Данные опубликованные на Data.world в профиле Инфокультуры, немного, но удобно структурированы
https://data.world/infoculture

Полезные репозитории ссылок
Реестр госдоменов
https://github.com/infoculture/govdomains

Awesome список по журналистике данных
https://github.com/infoculture/awesome-datajournalism

Awesome список по открытым данным в России
https://github.com/infoculture/awesome-opendata-rus

Awesome список по Data Ops
https://github.com/datacoon/awesome-dataops

Undatum утилита обработки больших BSON/JSON/CSV файлов
https://github.com/datacoon/undatum

Russian Names библиотека автоматической идентификация пола по ФИО для русского языка
https://github.com/datacoon/russiannames

Awesome список по цифровой форенсике (цифровому дознанию) сбору данных с помощью онлайн инструментов
https://github.com/ivbeg/awesome-forensicstools

И ещё много всего, в следующей порции регулярных напоминаний расскажу о проектах которые не упомянул сейчас.

#opendata #data #projects #opengov #opensource

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

1.6K viewsIvan Begtin, 22:02

Программирование уже давно не только отдельная профессия, но и часть ранее, не компьютеризированных профессий/областей знаний.
Компьютерная лингвистика или биоинформатика хорошие тому примеры, но есть и менее привычные области.

Например, программирующие историки. Проект Programming Historian [1] из небольшого руководства много лет назад превратился большой образовательный проект помогающий историкам работать с цифровыми материалами,

Проект существует на английском, французском и испанском языках. Включает 82 урока, по работе с API, сбору данных, настройке цифровой среды, манипулированию данными, Python, сетевому анализу и не только.
Каждый урок содержит всё необходимое для понимания предметной области и применения на практике. А все они опубликованы с открытым кодом https://github.com/programminghistorian

Для исторической науки, по мере оцифровки существующих архивов и коллекций, использование технологий всё более актуально. Среди цифровых гуманитарных наук (digital humanities) это одно из самых очевидных применений.

Какие ещё гуманитарные профессии помимо историков и журналистов Вы знаете где происходит их "цифровой переход" и навыки программирования и работы с данными становятся ключевыми?

Ссылки:
[1] https://programminghistorian.org

#opendata #programming

The Programming Historian

The Programming Historian offers novice-friendly, peer-reviewed tutorials that help humanists learn a wide range of digital tools. - The Programming Historian

1.3K viewsIvan Begtin, 22:16

Департамент здравоохранения Великобритании отказался от разработки своего мобильного приложения для отслеживания контактов при COVID-19 и вместо этого использовали решение предложенное Apple и Google [1]. Это же решение используется в централизованных мобильных приложениях властями Германии и Италии.

Ссылки:
[1] https://www.theguardian.com/world/2020/jun/18/uk-poised-to-abandon-coronavirus-app-in-favour-of-apple-and-google-models

#privacy

UK abandons contact-tracing app for Apple and Google model

NHS will switch to alternative design by tech giants, says Matt Hancock in latest embarrassing U-turn

1.2K viewsIvan Begtin, 13:55

Цифровые двойники собаки теперь возможны. Исследователи в University of Bath (Великобритания) научились записывать действия собак и переносить их в компьютерную игру [1]. Исследователи таким образом записали животных 14 пород из местного центра помощи и спасения животных.

Важная особенность - это значительное снижение стоимости подобной оцифровки и то что она возможна с помощью одной относительно недорогой RGBD камеры

Ссылки:
[1] https://www.bath.ac.uk/announcements/digitise-your-dog-into-a-computer-game/

#tech #digital #digitaltwins

Digitise your dog into a computer game

Researchers from CAMERA have developed motion capture technology that enables you to digitise your dog without a motion capture suit and using only one camera.

2.9K viewsIvan Begtin, 14:00

Data Literacy Guidebook - это пособие по "дата-справедливости' и по "дата-грамотности". Довольно любопытное пособие было опубликовано [1] 12 июня от Data Justice Lab, проектной лаборатории при Школе Университета Кардиффа по журналистике, медиа и культуре.

Пособие весьма любопытное, его тема - это обзор инструментов. По цифровой самозащите, по алгоритмической экологии и по там как исследовать и расследовать предрассудки у алгоритмов. Фактически - это обзор существующих проектов по всему миру и обзор неплохой.

Всего 17 страниц простым английским языком.

Ссылки;
[1] https://datajusticelab.org/2020/06/12/djl-publishes-guidebook-on-data-literacy-tools/
[2] https://datajusticelab.org/

#privacy

Data Justice Lab

Data Justice Lab publishes guidebook on data literacy tools

The Data Justice Lab has published a guidebook of data literacy tools for advancing data justice. You can download it here as pdf file. Assembled and analysed by the Lab’s Jess Brand and Ina Sander…

2.2K viewsIvan Begtin, 14:08