Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
March 1, 2021
Напоминаю что День открытых данных в этом году пройдет онлайн [1] где кроме мероприятий 6-го марта проходит серия мастер-классов первый из которых пройдет сегодня, 1 марта в 18:00 (MSK, GMT+3), мастер-класс «Вскрываем декларации. Как при помощи регулярных выражений привести Word'овскую табличку к пригодной для анализа форме».

Мастер-классы будут проходить ежедневного до 5-го марта включительно.

А потом, 6 марта, будет серия интересных дискуссий по злободневным вопросам. В этом году мы позвали много зарубежных экспертов и будет особенно интересно узнать о том что происходит в мире.

Обязательно регистрируйтесь на сайте, приходите и распространяйте!

Ссылки:
[1] https://opendataday.ru/msk

#opendata #infoculture
March 1, 2021
March 1, 2021
OpenAI опубликовали описание DALL-E [1], версию GPT-3 [2] с 12 миллиардами параметров и используемую для автоматического создания изображений из текстового описания. Ко всему этому есть исходный код [3], научная статья [4], а также множество наглядных примеров.

С развитием этой технологии она может найти много областей применения, например, для автоматизации составления фотороботов, или для людей ограниченных в возможности рисовать руками, или для художников из недалёкого будущего кто будет рисовать словами, а не кистью.

Ссылки:
[1] https://openai.com/blog/dall-e/
[2] https://arxiv.org/abs/2005.14165
[3] https://github.com/openai/dall-e
[4] https://arxiv.org/abs/2102.12092

#ai #visual #research #study
March 2, 2021
Вышло исследование Artificial Intelligence Policy and Funding in Canada [1] за авторством Ana Brandusescu [2] о том как в Канаде сформировалась экосистема компаний и их поддержки в области искусственного интеллекта. К исследованию прилагается набор данных в Excel [3] и в других форматах со списком компаний.

У исследования весьма простая и внятная методология основанная на анализе реестров юр. лиц, контрактов, грантов Правительства Канады и других открытых источников. При желании его не сложно повторить в России и масштабы, скорее всего, будут похожи.

Кстати ситуация в Канаде похожа на российскую:
- государство, в основном, инвестирует в технологии ИИ которые помогают частному сектору
- у Канады есть госполитика в области ИИ, но нет национальной стратегии
- компании пойманные правозащитниками на эксплуатации прав человека тем не менее являются предквалифицированными поставщиками для государства
- страх и опасения цифрового колониализма присутствует и там тоже

Хорошее исследование, вполне воспроизводимое в наших реалиях.

Ссылки:
[1] https://www.mcgill.ca/centre-montreal/files/centre-montreal/aipolicyandfunding_report_v8_withinfographic21955.pdf
[2] https://www.mcgill.ca/centre-montreal/people-0/professors-practice/ana-brandusescu
[3] https://www.mcgill.ca/centre-montreal/file/91477

#ai #research #studies
March 2, 2021
March 2, 2021
Forwarded from VVAGR
March 2, 2021
Может ли аудит алгоритмов помочь в борьбе с их предубежденностью? [1] статья в The Markup о том что алгоритмы уже неоднократно ловят на предубеждениях, есть несколько инициатив регулирования подобного в США, но ни одна до сих пор не доведена до закона/обязательного требования.

Есть около десятка стартапов/консультантов с фокусом на аудит алгоритмов, но сам рынок/среда аудита всё ещё в довольно таки неопределенной сфере.

Впрочем всё развивается столь быстро что можно ожидать уже в этом или следующем годах обязательных требований по алгоритмическому аудиту.

Ссылки:
[1] https://themarkup.org/ask-the-markup/2021/02/23/can-auditing-eliminate-bias-from-algorithms

#ai #algorithms
March 3, 2021
ФНС предупредила о тщательных налоговых проверках в компаниях, которые дробят бизнес ради ИТ-манёвра. Об этом стало известно в начале марта 2021 года.

Как пишут «Ведомости» [1] со ссылкой на письмо ФНС № СД-4-2/561 «О пункте 1 статьи 54.1 Налогового кодекса Российской Федерации», «создание ИТ-компании в результате реорганизации существующих юридических лиц (разделение, выделение) должно исследоваться налоговыми органами в каждом отдельно взятом случае на предмет наличия признаков «дробления бизнеса», когда единственной целью этих действий является получение права на применение пониженных ставок налога на прибыль организаций и тарифов страховых взносов». [2]

Источник - TADviser [3]

Всё чем я могу дополнить эту новость - это то что это было неизбежно, а для некоторых может быть ещё и больно когда выяснится не только про дробление, а про "налоговую оптимизацию", фирмы однодневки и тд.

В общем хочется пожелать "жизни и процветания" ИТ бизнесу на 2021 год в России.

Ссылки:
[1] https://www.vedomosti.ru/economics/articles/2021/03/02/859934-drobit-biznes
[2] https://www.garant.ru/products/ipo/prime/doc/400126871/
[3] https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F:%D0%9B%D1%8C%D0%B3%D0%BE%D1%82%D1%8B_%D0%B4%D0%BB%D1%8F_%D0%98%D0%A2-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D0%B9_%D0%B2_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8

#nalog #tax #it
March 4, 2021
Пока мы в Инфокультуре (@infoculture) организуем день открытых данных в Москве [1], а на самом деле неделю которая началась 1-го марта и до 5-го марта идут вебинары каждый вечер, а 6-го марта день насыщенный дискуссиями и зарубежными спикерами.

А вот в Нью-Йорке день открытых данных - это недельная конференция которая начинается с 6-го марта и продолжается до 14-го марта включительно [2]. А организаторы этой Open Data Week - это мэрия Нью-Йорка как основной организатор и BetaNYC [3] как их партнер от гражданского общества.

Многие другие события дня открытых данных, весьма интересные, есть по всему миру на сайте OpenDataDay [4]

Ссылки:
[1] https://opendataday.ru/msk
[2] https://www.open-data.nyc/
[3] https://beta.nyc
[4] https://opendataday.org

#opendata #opengov
March 4, 2021
Наша любимая тема, госфинансы. На дне открытых данных будет отдельная секция/дискуссия только про неё. Вести будет Оля Пархимович @ahminfin. Инфокультура за эти годы сделала много проектов про госфинансы такие как Госрасходы (https://clearspending.ru) и Открытые НКО (https://openngo.ru), а значительная часть нашей команды с позапрошлого года ведёт проект Госрасходы (https://spending.gov.ru) проект Счетной палаты с большим акцентом на аналитику, нацпроекты и госпрограммы.

Про День открытых данных я ещё много буду писать до 6-го марта включительно, обязательно регистрируйтесь и слушайте и участвуйте.

#opendata #opengov #govfinances #opendataday
March 4, 2021
Forwarded from Инфокультура
March 4, 2021
Наши друзья из Роскомсвободы (@roskomsvoboda) проводят очередной Хакатон DemHack 2 [1] на тему приватности и доступности информации.

Я предложил на хакатон задачку "Мониторинг использования технологий слежки наблюдения за гражданами за гражданам" которая звучит так:
Извлечение из Реестра деклараций о соответствии данных о технических средствах слежки за гражданами, поиск и визуализация сведений о госконтрактах с этими техническими средствами
(данные здесь и здесь, а также есть недокументированное API для поиска по сертификатам и декларациям соответствия.
По закупкам данные на порталах
spending.gov.ru и clearspending.ru).

Честно говоря я давно про эту задачу (и проблему) думаю и даже думал не сделать ли такой общественный проект, но, всё же, Инфокультуре он не профилен напрямую, Инфокультура создавалась про хорошее - развитие открытости, а тут задача для крепкого вотчдога (организации/команды ориентированной на мониторинг злоупотреблений гос-ва).

Поэтому она идеально подходит для DemHack и я надеюсь на то что найдутся команды которые возьмутся за неё.

Тем временем могу сказать что у меня довольно часто за последние годы разговоров с людьми внутри государства, довольно грамотно аргументирующих почему что-то не может быть открыто или почему какие-то госданные должны быть закрыты. И имеющие хорошие доводы почему госслежка необходима (для борьбы с мошенниками, преступникам и там ещё много чего).

Я вот хорошо их понимаю и их аргументы, но, я считаю крайне важным отсутствие безнадзорной государственной слежки. Иначе говоря, даже если внедряются какие-либо системы слежки за гражданами они должны быть прозрачны, аудируемы, подотчётны законодательной и судебной власти, без излишней концентрации в одних руках (одном органе власти), жёстко регламентированы и так далее. Я считаю что если придерживаться того что называется государственной позицией, то возможно только такое. Контроль и надзор не государства за гражданами, а контроль и надзор государства за отдельными его частями.

Впрочем, конечно, лучше жить в мире где этой слежки совсем нет или её минимум. Если такое вообще возможно.

А пока, присоединяйтесь к хакатону и создавайте проекты которые помогали бы гражданам и тем органам власти которые осуществляют контроль и надзор за другими органами власти чтобы те не нарушали права человека.

Ссылки:
[1] https://demhack.ru

#it #surveillance
March 4, 2021
Sky News пишут о том что Open Government Partnership утверждает что Великобритания провалила обещания по открытости которые давала в своём плане открытости [1]

Даже не знаю как прокомментировать. UK была основателем Open Government Partnership и это довольно серьёзно если даже они не держат своих добровольных обещаний. Впрочем в статье немало о том что Brexit плохо повлиял на политику в Великобритании и эта ситуация одно из его последствий.

Ссылки:
[1] https://news.sky.com/story/uk-government-censured-for-a-lack-of-transparency-and-accountability-12234248

#opengov #uk
March 4, 2021
О том как устроены большие международные исследовательские проекты на данных и данные в определённых областях. International Soil Reference and Information Centre (ISRIC) [1] появился в 1964 году в виде Международного музея почвы в Утрехте, Голландия. В 1984 году был переименован в текущее название, в 2011 году получили статус WDC-Soils в международном проекте ISC World Data System.

Организация собирает данные о состоянии почвы, публикует их на специальном хабе данных ISRIC Data Hub [2] и создаёт интерактивные проекты такие как Soils Revealed [3], Soilgrids [4] и многочисленные проекты связанные со сбором и анализом сведений о состоянии почв в Евросоюзе, африканских и других странах. Данные по России в их наборах данных и интерактивных картах тоже есть.

На что можно обратить внимание.
- для публикации данных они используют каталог данных/цифровых геообъектов geonetworks [5] - это специальный open source инструмент позволяющий работать с геоданными и отображать их удобным образом;
- они одни из авторов Гармонизированной мировой базы почв версия 1.2 [6] публикуемой ФАО (агенство при ООН).

В России, кстати, также есть ИС ПГБД (Информационная система «Почвенно-географическая база данных России») [7] созданная Почвенным дата-центром МГУ имени М.В. Ломоносова, там даже есть некоторое количество карт, но ни о какой доступности наборов данных/баз данных и речи нет. Как и большая часть других результатов научной работы в России эти данные не публикуются и уж точно не публикуются под открытыми лицензиями.

Правда российские данные и данные других стран публикуются в международных проектах, например, около десятка российских исследовательских организаций предоставляют данные для проекта ФАО Global Soil Organic Carbon Map [8].

Российские научные данные имеют ту большую местную особенность что не собираются даже органами власти субъектов федерации и на федеральном уровне. В результате отечественный портал data.gov.ru "забит административными данными", небольшими и довольно бессмысленными. Для сравнения, большая часть данных на американском портале data.gov - это именно научные данные. Поиск по "soil" (почва) [9] выдаёт там более 5360 наборов данных.

Всё это я хочу завершить тезисами:
1. Очень часто доступные данные о России надо искать вне России, в международных проектах/банках данных. Их, обычно, хорошо знают специалисты и гораздо хуже те кто не знает где их искать.
2. Инвентаризация государственных информационных систем в России полностью игнорирует программные комплексы и базы данных созданные в исследовательских центрах.

Ссылки:
[1] https://www.isric.org/about
[2] https://data.isric.org/geonetwork/srv/rus/catalog.search#/home
[3] https://soilsrevealed.org
[4] https://soilgrids.org/
[5] https://github.com/geonetwork/core-geonetwork
[6] https://www.fao.org/soils-portal/data-hub/soil-maps-and-databases/harmonized-world-soil-database-v12/en/
[7] https://soil-db.ru/
[8] https://54.229.242.119/GSOCmap/
[9] https://catalog.data.gov/dataset?q=soil&sort=score+desc%2C+name+asc

#science #opendata #openaccess #soil #russia
March 5, 2021
CNews пишут о том что МВД проектирует новый мегаЦОД за 7 миллиардов рублей [1] который будет создан в Москве, на ул. Поморская, 50. Там много вопросов про стоимость работы, обоснование почему так устроено ценообразование на ПИРы, не сомневаюсь что журналисты за этим контрактом пристально будут следить. Я хочу на примере этого контракта поднять 3, на мой взгляд, самые ключевые проблемы / характеристики госИТ в России в последние годы.

1. Делать всё самим.
Фактически, вместо того чтобы вводить стандарты и требования к аттестации коммерческих ЦОДов для нужд госорганов все они "ломанулись" делать собственные ЦОДы. Причины этого понятны: нажористость маржинальность строительных контрактов выше чем ИТ, возможностей освоения бюджетных средств больше и многие интеграторы, или получили строительные лицензии, или отпочковали дочерние компании уже давно.

2. Централизация инфраструктуры в Москве.
Кроме того что органы власти делают всё больше собственной инфраструктуры она ещё и концентрируется в Москве и подмосковье. И то что МВД свой ЦОД строит в Москве тоже показательно. Почему так происходит? Отчасти из-за сверхконцентрации бизнеса в Москве, отчасти из-за простоты найма квалифицированных специалистов, а отчасти от того что местным лоббистам проще и быстрее договариваться о проектах именно здесь.

3. Централизация полномочий в федеральных ГИС
Такой активный рост в создании всеобъемлющих информационных систем - это также история про централизацию, но централизацию власти. Если внимательно вчитаться в концепции и НПА по этим ФГИС то быстро выяснится что каждая из систем делает региональные и муниципальные власти более зависимыми от федеральной или лишает их полномочий или делает их более управляемыми. Это то явление которое я называю техноунитаризацией, когда формально есть разграничение полномочий, но через внедрение информационных систем, фактически, одни ветви и уровни власти начинют зависеть от других.

У всех трёх явлений есть несколько важных последствий:
1. Снижение качества госинформатизации поскольку по-факту конкуренции и сравнения качества не происходит. Федеральная власть практически никогда не берёт лучшие региональные практики, а субъектам федерации не дают бесплатных решений, а только некоторые навязанные общие ФГИС.

2. Значительное повышение критичности любой техногенной катастрофы в Москве. Можно без шуток говорить о том что отключение электричества в Москве на месяц развалит страну. Помимо сверхконцентрации денег, в Москве теперь ещё и сверхконцентрация данных и критической невосстановимой ИТ инфраструктуры. Я вот ничего не слышал про то чтобы хоть кто-то из создателей ЦОДов в Москве и подмосковье всерьёз задумался о полноценном георезервировании и проводил бы соответствующие учения.

3. Сверхконцентрация данных в одном месте - это ещё и вопрос власти другого рода. Если все данные на каждого жителя региона хранятся только в Москве, то это ещё и контроль центробежности. В случае любых сепаратистских настроений получить данные уже не получится. Есть ли такая логика у тех кто целенаправленно создаёт ЦОДы именно в Москве? Я не знаю, но допускаю.

Ссылки:
[1] https://www.cnews.ru/news/top/2020-04-29_mvd_proektiruet_megatsod

#government #it #data
March 5, 2021
March 5, 2021
March 5, 2021
Сколько НПА принимают наши органы власти? В августе прошлого года я уже писал [1] про базу Lawstats [2] которую я в свободное время веду на data.world.

И я тогда ещё писал прогноз о количестве новых НПА мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ

Пора проверить этот прогноз:
- Постановления Правительства (ПП): в 2020 году - 2469 против 1960 в 2019 году. Разница в 509, а то есть рост +25,97%. Я почти угадал!
- Распоряжения Правительства (РП): в 2020 году - 3710 против 3273 в 2019 году. Разница в 437, а то есть рост +13,36% но менее прогнозируемых мной 4000 РП, хотя и близко
- Указы Президента РФ (УП): в 2020 году - 822 против 604 в 2019 году. Разница 218, а то есть рост +36,09%. Это просто таки чудо, но даже больше чем я предполагал
- Федеральные законы (ФЗ): в 2020 году 543 - против 444 в 2019 году. Разница в 99, а то есть рост +22,3% . Я прогнозировал 600 ФЗ, но увы, не дотянули наши законодатели и пока не побит рекорд 2018 года в 572 принятых законов.

У меня руки не дошли (с) посмотреть ещё и на НПА ФОИВов, ну да кто-то рано или поздно и без меня подсчитает статистику.

Что-то я всем этим, конечно, хочу сказать, но главную мысль которую я хочу донести в том что когда мы наконец-то прекратим быть петроимперией/нефтяной сверхдержавой, то пора уже поручить экспортному центру научиться торговать интеллектуальным трудом нормотворцев по созданию регуляторных документов на заказ.

Ссылки:
[1] https://t.iss.one/begtin/2067
[2] https://data.world/infoculture/lawstats

#opendata #opengov #lawstats #laws #regulations #lawmaking
March 5, 2021