Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Может ли аудит алгоритмов помочь в борьбе с их предубежденностью? [1] статья в The Markup о том что алгоритмы уже неоднократно ловят на предубеждениях, есть несколько инициатив регулирования подобного в США, но ни одна до сих пор не доведена до закона/обязательного требования.

Есть около десятка стартапов/консультантов с фокусом на аудит алгоритмов, но сам рынок/среда аудита всё ещё в довольно таки неопределенной сфере.

Впрочем всё развивается столь быстро что можно ожидать уже в этом или следующем годах обязательных требований по алгоритмическому аудиту.

Ссылки:
[1] https://themarkup.org/ask-the-markup/2021/02/23/can-auditing-eliminate-bias-from-algorithms

#ai #algorithms
ФНС предупредила о тщательных налоговых проверках в компаниях, которые дробят бизнес ради ИТ-манёвра. Об этом стало известно в начале марта 2021 года.

Как пишут «Ведомости» [1] со ссылкой на письмо ФНС № СД-4-2/561 «О пункте 1 статьи 54.1 Налогового кодекса Российской Федерации», «создание ИТ-компании в результате реорганизации существующих юридических лиц (разделение, выделение) должно исследоваться налоговыми органами в каждом отдельно взятом случае на предмет наличия признаков «дробления бизнеса», когда единственной целью этих действий является получение права на применение пониженных ставок налога на прибыль организаций и тарифов страховых взносов». [2]

Источник - TADviser [3]

Всё чем я могу дополнить эту новость - это то что это было неизбежно, а для некоторых может быть ещё и больно когда выяснится не только про дробление, а про "налоговую оптимизацию", фирмы однодневки и тд.

В общем хочется пожелать "жизни и процветания" ИТ бизнесу на 2021 год в России.

Ссылки:
[1] https://www.vedomosti.ru/economics/articles/2021/03/02/859934-drobit-biznes
[2] https://www.garant.ru/products/ipo/prime/doc/400126871/
[3] https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F:%D0%9B%D1%8C%D0%B3%D0%BE%D1%82%D1%8B_%D0%B4%D0%BB%D1%8F_%D0%98%D0%A2-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D0%B9_%D0%B2_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8

#nalog #tax #it
Пока мы в Инфокультуре (@infoculture) организуем день открытых данных в Москве [1], а на самом деле неделю которая началась 1-го марта и до 5-го марта идут вебинары каждый вечер, а 6-го марта день насыщенный дискуссиями и зарубежными спикерами.

А вот в Нью-Йорке день открытых данных - это недельная конференция которая начинается с 6-го марта и продолжается до 14-го марта включительно [2]. А организаторы этой Open Data Week - это мэрия Нью-Йорка как основной организатор и BetaNYC [3] как их партнер от гражданского общества.

Многие другие события дня открытых данных, весьма интересные, есть по всему миру на сайте OpenDataDay [4]

Ссылки:
[1] https://opendataday.ru/msk
[2] https://www.open-data.nyc/
[3] https://beta.nyc
[4] https://opendataday.org

#opendata #opengov
Наша любимая тема, госфинансы. На дне открытых данных будет отдельная секция/дискуссия только про неё. Вести будет Оля Пархимович @ahminfin. Инфокультура за эти годы сделала много проектов про госфинансы такие как Госрасходы (https://clearspending.ru) и Открытые НКО (https://openngo.ru), а значительная часть нашей команды с позапрошлого года ведёт проект Госрасходы (https://spending.gov.ru) проект Счетной палаты с большим акцентом на аналитику, нацпроекты и госпрограммы.

Про День открытых данных я ещё много буду писать до 6-го марта включительно, обязательно регистрируйтесь и слушайте и участвуйте.

#opendata #opengov #govfinances #opendataday
Forwarded from Инфокультура
Приглашаем на онлайн-дискуссию «Доступность данных о госфинансах»

🔹 Дата и время: 6 марта, 13:25 - 14:25

Доступность данных о госфинансах зависит, прежде всего, от открытости, формата представления и качества этих данных, а также от того, насколько эти данные понятны обычным гражданам, не обладающим экспертными знаниями. На дискуссии мы обсудим, какие проекты помогают сделать данные о госфинансах более доступными, с какими проблемами сталкиваются команды проектов, эксперты и пользователи открытых данных, какие шаги может предпринять сообщество, чтобы эти проблемы преодолеть.

Спикеры:
— Альберт Бертяков, аналитик проекта «Госрасходы» Счетной палаты РФ
— Александр Левашов, главный редактор TAdviser.ru
— Наталия Лукьянова, начальник отдела по обеспечению открытости бюджета Комитета финансов Санкт-Петербурга
— Ольга Панчихина, заместитель начальника Инспекции по аудиту национальных проектов, Счетная палата РФ

Модератор: Ольга Пархимович, руководитель разработки проекта «Госрасходы»

Регистрация
Наши друзья из Роскомсвободы (@roskomsvoboda) проводят очередной Хакатон DemHack 2 [1] на тему приватности и доступности информации.

Я предложил на хакатон задачку "Мониторинг использования технологий слежки наблюдения за гражданами за гражданам" которая звучит так:
Извлечение из Реестра деклараций о соответствии данных о технических средствах слежки за гражданами, поиск и визуализация сведений о госконтрактах с этими техническими средствами
(данные здесь и здесь, а также есть недокументированное API для поиска по сертификатам и декларациям соответствия.
По закупкам данные на порталах
spending.gov.ru и clearspending.ru).

Честно говоря я давно про эту задачу (и проблему) думаю и даже думал не сделать ли такой общественный проект, но, всё же, Инфокультуре он не профилен напрямую, Инфокультура создавалась про хорошее - развитие открытости, а тут задача для крепкого вотчдога (организации/команды ориентированной на мониторинг злоупотреблений гос-ва).

Поэтому она идеально подходит для DemHack и я надеюсь на то что найдутся команды которые возьмутся за неё.

Тем временем могу сказать что у меня довольно часто за последние годы разговоров с людьми внутри государства, довольно грамотно аргументирующих почему что-то не может быть открыто или почему какие-то госданные должны быть закрыты. И имеющие хорошие доводы почему госслежка необходима (для борьбы с мошенниками, преступникам и там ещё много чего).

Я вот хорошо их понимаю и их аргументы, но, я считаю крайне важным отсутствие безнадзорной государственной слежки. Иначе говоря, даже если внедряются какие-либо системы слежки за гражданами они должны быть прозрачны, аудируемы, подотчётны законодательной и судебной власти, без излишней концентрации в одних руках (одном органе власти), жёстко регламентированы и так далее. Я считаю что если придерживаться того что называется государственной позицией, то возможно только такое. Контроль и надзор не государства за гражданами, а контроль и надзор государства за отдельными его частями.

Впрочем, конечно, лучше жить в мире где этой слежки совсем нет или её минимум. Если такое вообще возможно.

А пока, присоединяйтесь к хакатону и создавайте проекты которые помогали бы гражданам и тем органам власти которые осуществляют контроль и надзор за другими органами власти чтобы те не нарушали права человека.

Ссылки:
[1] https://demhack.ru

#it #surveillance
Sky News пишут о том что Open Government Partnership утверждает что Великобритания провалила обещания по открытости которые давала в своём плане открытости [1]

Даже не знаю как прокомментировать. UK была основателем Open Government Partnership и это довольно серьёзно если даже они не держат своих добровольных обещаний. Впрочем в статье немало о том что Brexit плохо повлиял на политику в Великобритании и эта ситуация одно из его последствий.

Ссылки:
[1] https://news.sky.com/story/uk-government-censured-for-a-lack-of-transparency-and-accountability-12234248

#opengov #uk
О том как устроены большие международные исследовательские проекты на данных и данные в определённых областях. International Soil Reference and Information Centre (ISRIC) [1] появился в 1964 году в виде Международного музея почвы в Утрехте, Голландия. В 1984 году был переименован в текущее название, в 2011 году получили статус WDC-Soils в международном проекте ISC World Data System.

Организация собирает данные о состоянии почвы, публикует их на специальном хабе данных ISRIC Data Hub [2] и создаёт интерактивные проекты такие как Soils Revealed [3], Soilgrids [4] и многочисленные проекты связанные со сбором и анализом сведений о состоянии почв в Евросоюзе, африканских и других странах. Данные по России в их наборах данных и интерактивных картах тоже есть.

На что можно обратить внимание.
- для публикации данных они используют каталог данных/цифровых геообъектов geonetworks [5] - это специальный open source инструмент позволяющий работать с геоданными и отображать их удобным образом;
- они одни из авторов Гармонизированной мировой базы почв версия 1.2 [6] публикуемой ФАО (агенство при ООН).

В России, кстати, также есть ИС ПГБД (Информационная система «Почвенно-географическая база данных России») [7] созданная Почвенным дата-центром МГУ имени М.В. Ломоносова, там даже есть некоторое количество карт, но ни о какой доступности наборов данных/баз данных и речи нет. Как и большая часть других результатов научной работы в России эти данные не публикуются и уж точно не публикуются под открытыми лицензиями.

Правда российские данные и данные других стран публикуются в международных проектах, например, около десятка российских исследовательских организаций предоставляют данные для проекта ФАО Global Soil Organic Carbon Map [8].

Российские научные данные имеют ту большую местную особенность что не собираются даже органами власти субъектов федерации и на федеральном уровне. В результате отечественный портал data.gov.ru "забит административными данными", небольшими и довольно бессмысленными. Для сравнения, большая часть данных на американском портале data.gov - это именно научные данные. Поиск по "soil" (почва) [9] выдаёт там более 5360 наборов данных.

Всё это я хочу завершить тезисами:
1. Очень часто доступные данные о России надо искать вне России, в международных проектах/банках данных. Их, обычно, хорошо знают специалисты и гораздо хуже те кто не знает где их искать.
2. Инвентаризация государственных информационных систем в России полностью игнорирует программные комплексы и базы данных созданные в исследовательских центрах.

Ссылки:
[1] https://www.isric.org/about
[2] https://data.isric.org/geonetwork/srv/rus/catalog.search#/home
[3] https://soilsrevealed.org
[4] https://soilgrids.org/
[5] https://github.com/geonetwork/core-geonetwork
[6] https://www.fao.org/soils-portal/data-hub/soil-maps-and-databases/harmonized-world-soil-database-v12/en/
[7] https://soil-db.ru/
[8] https://54.229.242.119/GSOCmap/
[9] https://catalog.data.gov/dataset?q=soil&sort=score+desc%2C+name+asc

#science #opendata #openaccess #soil #russia
CNews пишут о том что МВД проектирует новый мегаЦОД за 7 миллиардов рублей [1] который будет создан в Москве, на ул. Поморская, 50. Там много вопросов про стоимость работы, обоснование почему так устроено ценообразование на ПИРы, не сомневаюсь что журналисты за этим контрактом пристально будут следить. Я хочу на примере этого контракта поднять 3, на мой взгляд, самые ключевые проблемы / характеристики госИТ в России в последние годы.

1. Делать всё самим.
Фактически, вместо того чтобы вводить стандарты и требования к аттестации коммерческих ЦОДов для нужд госорганов все они "ломанулись" делать собственные ЦОДы. Причины этого понятны: нажористость маржинальность строительных контрактов выше чем ИТ, возможностей освоения бюджетных средств больше и многие интеграторы, или получили строительные лицензии, или отпочковали дочерние компании уже давно.

2. Централизация инфраструктуры в Москве.
Кроме того что органы власти делают всё больше собственной инфраструктуры она ещё и концентрируется в Москве и подмосковье. И то что МВД свой ЦОД строит в Москве тоже показательно. Почему так происходит? Отчасти из-за сверхконцентрации бизнеса в Москве, отчасти из-за простоты найма квалифицированных специалистов, а отчасти от того что местным лоббистам проще и быстрее договариваться о проектах именно здесь.

3. Централизация полномочий в федеральных ГИС
Такой активный рост в создании всеобъемлющих информационных систем - это также история про централизацию, но централизацию власти. Если внимательно вчитаться в концепции и НПА по этим ФГИС то быстро выяснится что каждая из систем делает региональные и муниципальные власти более зависимыми от федеральной или лишает их полномочий или делает их более управляемыми. Это то явление которое я называю техноунитаризацией, когда формально есть разграничение полномочий, но через внедрение информационных систем, фактически, одни ветви и уровни власти начинют зависеть от других.

У всех трёх явлений есть несколько важных последствий:
1. Снижение качества госинформатизации поскольку по-факту конкуренции и сравнения качества не происходит. Федеральная власть практически никогда не берёт лучшие региональные практики, а субъектам федерации не дают бесплатных решений, а только некоторые навязанные общие ФГИС.

2. Значительное повышение критичности любой техногенной катастрофы в Москве. Можно без шуток говорить о том что отключение электричества в Москве на месяц развалит страну. Помимо сверхконцентрации денег, в Москве теперь ещё и сверхконцентрация данных и критической невосстановимой ИТ инфраструктуры. Я вот ничего не слышал про то чтобы хоть кто-то из создателей ЦОДов в Москве и подмосковье всерьёз задумался о полноценном георезервировании и проводил бы соответствующие учения.

3. Сверхконцентрация данных в одном месте - это ещё и вопрос власти другого рода. Если все данные на каждого жителя региона хранятся только в Москве, то это ещё и контроль центробежности. В случае любых сепаратистских настроений получить данные уже не получится. Есть ли такая логика у тех кто целенаправленно создаёт ЦОДы именно в Москве? Я не знаю, но допускаю.

Ссылки:
[1] https://www.cnews.ru/news/top/2020-04-29_mvd_proektiruet_megatsod

#government #it #data
Я редко пишу про этот проект Инфокультуры, потому что он не про данные, он про понятность. Много лет назад моим увлечением была оценка сложности текстов, и как-то я потратил несколько месяцев жизни на то, чтобы адаптировать 5 формул оценки читабельности английского языка для русского языка. Во всех формулах использовались те или иные метрики и коэффициенты: среднее число слов в предложении, среднее число слогов в слове и тд. Вот их-то я и адаптировал для русского языка.

И вот уже много лет существует проект "Простой русский язык" https://plainrussian.ru, где можно проверить любой текст (например, новости на сайте Казначейства или Правительства РФ), а также использовать API для проверки.

Это, действительно, очень простой, бесплатный, открытый сервис, доступный каждому.

Если есть идеи и предложения, что хотелось бы в нём увидеть дополнительно, не стесняйтесь, пишите мне.

#API #plainlanguage
В рубрике интересные наборы данных, все официальные рассылки членов конгресса и сената США за последние 10 лет обновляемые в реальном времени [1]. Данные представлены в виде поиска и, довольно нестандартно, в виде экземпляра базы данных Kibana [2] в открытом доступе.

Всего там 130 тысяч сообщений

Для тех кто интересуется российско-американскими отношениями, там можно искать по слову "Russia". Для тех кто смотрит на эту базу как пример, это хороший проект по сбору официальных госданных в один набор данных. Впрочем жанр рассылок в России не принят, я не знаю ни одного депутата который бы такое практиковал.

Ссылки:
[1] https://www.dcinbox.com/
[2] https://data.dcinbox.com/app/kibana#/discover?_g=()&_a=(columns:!(_source),index:'4c918f00-3ec4-11e8-84ed-5320ec3a205a',interval:auto,query:(language:lucene,query:''),sort:!(_score,desc))

#opendata #datasets
Сколько НПА принимают наши органы власти? В августе прошлого года я уже писал [1] про базу Lawstats [2] которую я в свободное время веду на data.world.

И я тогда ещё писал прогноз о количестве новых НПА мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ

Пора проверить этот прогноз:
- Постановления Правительства (ПП): в 2020 году - 2469 против 1960 в 2019 году. Разница в 509, а то есть рост +25,97%. Я почти угадал!
- Распоряжения Правительства (РП): в 2020 году - 3710 против 3273 в 2019 году. Разница в 437, а то есть рост +13,36% но менее прогнозируемых мной 4000 РП, хотя и близко
- Указы Президента РФ (УП): в 2020 году - 822 против 604 в 2019 году. Разница 218, а то есть рост +36,09%. Это просто таки чудо, но даже больше чем я предполагал
- Федеральные законы (ФЗ): в 2020 году 543 - против 444 в 2019 году. Разница в 99, а то есть рост +22,3% . Я прогнозировал 600 ФЗ, но увы, не дотянули наши законодатели и пока не побит рекорд 2018 года в 572 принятых законов.

У меня руки не дошли (с) посмотреть ещё и на НПА ФОИВов, ну да кто-то рано или поздно и без меня подсчитает статистику.

Что-то я всем этим, конечно, хочу сказать, но главную мысль которую я хочу донести в том что когда мы наконец-то прекратим быть петроимперией/нефтяной сверхдержавой, то пора уже поручить экспортному центру научиться торговать интеллектуальным трудом нормотворцев по созданию регуляторных документов на заказ.

Ссылки:
[1] https://t.iss.one/begtin/2067
[2] https://data.world/infoculture/lawstats

#opendata #opengov #lawstats #laws #regulations #lawmaking
Завтра в 11:00 начнётся День открытых данных. На всякий случай советую зарегистрироваться заранее, лучше сегодня, чтобы точно не пропустить письмо со ссылкой на трансляцию и активно поучаствовать. [1]

В этом году мы впервые проводим День открытых данных онлайн, он претерпел много изменений, мы пригласили много зарубежных спикеров и будет секция на английском языке. Запросов на участие в секциях в этом году было значительно больше чем у нас возможности организовать мероприятия. Поэтому если всё пройдет как запланировано мы следующий день открытых данных проведем в виде Недели открытых данных (прям как это делают сейчас в Нью-Йорке), а также придумаем формат большого числа промежуточных мероприятий.

Могу сказать что вебинары которые шли с 1 марта уже очень удались. Напоминаю, обязательно зарегистрируйтесь заранее!

Ссылки:
[1] https://opendataday.ru/msk

#opendata #odd2021
Forwarded from Инфокультура
Программа Дня открытых данных 2021!

11:00 - 11:15 Открытие
11:15 - 12:15 Дискуссия. Бизнес на открытости: зачем заниматься открытым кодом и открытыми данными
12:20 - 13:20 Дискуссия. Как инструменты оценки влияют на открытость государства?
13:25 - 14:25 Дискуссия. Доступность данных о госфинансах
14:30 - 15:30 Дискуссия. Данные переписи населения 2021: приватность vs польза для общества
15:35 - 15:55 Представление проекта Каталога образовательных материалов по открытости, инструментам и данным
16:00 - 17:00 Выступления. Что происходит с тематикой открытости в мире?
Сессия пройдет на английском языке с синхронным переводом (трансляция перевода https://youtu.be/9-xEv6P0zQI).
17:00 - 17:10 Закрытие. Подведение итогов с модераторами дискуссий

Подробная программа на сайте https://opendataday.ru/msk#program

Скоро начинаем 😉 Подключайтесь к трансляции! https://youtu.be/K9OqCigs5qw
Ко дню открытых данных завершилось голосование по Moscow Dataviz Awards 2021 [1] это ежегодная международная премия за достижения в области инфографики, визуализации данных и дата-арта.

Посмотрите на победителей, достойны не только они, но и огромное число других заявок. Лично я особенно рад что эта премия стала международной, много заявок было и из других стран.

О победителях подробнее в блоге Максима Осовского в Facebook [2]

Ссылки:
[1] https://moscowdatavizawards.com
[2] https://www.facebook.com/osovskiy/posts/10221955712660074

#opendata #dataviz #datajournalism #moscow #awards
Forwarded from Инфокультура
Подключайтесь к дискуссии «Доступность данных о госфинансах».

Доступность данных о госфинансах зависит, прежде всего, от открытости, формата представления и качества этих данных, а также от того, насколько эти данные понятны обычным гражданам, не обладающим экспертными знаниями. На дискуссии мы обсудим, какие проекты помогают сделать данные о госфинансах более доступными, с какими проблемами сталкиваются команды проектов, эксперты и пользователи открытых данных, какие шаги может предпринять сообщество, чтобы эти проблемы преодолеть.

Спикеры:
— Альберт Бертяков, аналитик проекта «Госрасходы» Счетной палаты РФ
— Александр Левашов, главный редактор TAdviser.ru
— Наталия Лукьянова, начальник отдела по обеспечению открытости бюджета Комитета финансов Санкт-Петербурга
— Ольга Панчихина, заместитель начальника Инспекции по аудиту национальных проектов, Счетная палата РФ

Модератор: Ольга Пархимович, руководитель разработки проекта «Госрасходы».

https://youtu.be/K9OqCigs5qw
Forwarded from Инфокультура
Подключайтесь к международной сессии Дня открытых данных. Обсуждаем, что происходит с тематикой открытости в мире.

Движение за открытые данные переживает заметную трансформацию — мир переходит к «третьей волне» открытых данных. Если на предыдущем этапе преобладала концепция «открытости по умолчанию», которая вызывала много споров и возражений, то сейчас становится все более очевидной необходимость публикации данных для решения конкретных задач. Недостаточно просто публиковать данные, важно осознавать, какую реальную пользу эти данные могут принести обществу.

Мы пригласили представителей международных проектов, чтобы обсудить мировой опыт, который накоплен за эти годы.

Спикеры:
— Джереми Роллисон, Senior Director European Government Affairs Microsoft;
— Годфри Такавараша, Data Manager at Humanitarian Data Exchange;
— Саркис Дарбинян, управляющий партнёр Digital Rights Center;
— Иван Бегтин, директор АНО «Информационная культура»

Трансляция: https://youtu.be/K9OqCigs5qw
Перевод: https://youtu.be/9-xEv6P0zQI