Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В Open Data Institute обзор их попыток рисовать "карты данных" [1]. Хорошая затея, не от владельцев, а от характеристик данных. Впрочем все карты данных сложны в отрисовке, всегда упираешься в сложность темы, отраслевую специфику и необходимость понимания как работа с данными устроена. Мне ближе подход идущий от инвентаризации источников данных, тогда карта данных - это лишь промежуточный продукт брейншторма

Ссылки:
[1] https://theodi.org/article/data-access-archipelago-mapping-the-myriad-ways-we-share-data/

#opendata
У Минкомсвязи (официальное сокращённое наименование - Министерства цифрового развития и т.д.) не открывается нормальным образом сайт под https потому чтор работает он с сертификатом Symantec который постепенно Google выводит из поддержки в Google Chrome.

Если открыть сайт https://minsvyaz.ru в Google Chrome то можно увидеть предупреждение безопасности.

Ситуация смешная сапожника без сапог.
#security
Проблема с HTTPS совсем не новая, у многих стран и госорганов плохо с политиками безопасности и приватности и тут в пору вспомнить "а как там у них". В США на правительственном уровне действует проект Pulse [1] где мониторится внедрение не только HTTPS на каждом веб-сайте, но и его безопасные расширения. Например в США для госдоменов сейчас обязательным является использование стандарта HSTS [2], есть требования по использованию HTTPS-only [3] без использования HTTP протокола, а также есть требования по отказу от старых алгоритмов шифрования RC4 и RC5 и старых версий SSLv2 [4].

Всё это и мониторит Pulse, кстати проект с открытым кодом и ничто не мешает и никогда не мешало Минкомсвязи взять этот код и организовать мониторинг госсайтов в России. А если у них нет списка госдоменов, то он есть тут в открытом доступе [5].

А то ведь рано или поздно такой мониторинг сделает кто-нибудь от общественности и будут регулярно тыкать Минкомсвязь в некомпетентность. Некрасиво будет, ну право слово.

Ссылки:
[1] https://pulse.cio.gov/https/domains/
[2] https://https.cio.gov/guide/#options-for-hsts-compliance
[3] https://https.cio.gov/
[4] https://cyber.dhs.gov/bod/18-01/
[5] https://github.com/infoculture/govdomains

#security #privacy #https
Многие, очень многие, говорят что ИТ в России сейчас стремительно меняется и разделяется, очень чётко на ИТ бизнес которые ориентируется на государство и на ИТ бизнес который ориентируется только на другой бизнес или на граждан. Причём этот водораздел становится всё более явным, для многих на рынке работать с госсектором, даже через посредников - это дополнительные риски, издержки и куча ограничений

И наоборот компании работающие с органами власти не хотят или не могут работать с корпоративными заказчиками.

Но, при этом, все без исключения заинтересованы в защите от госрегулирования, именно в защите, поскольку хорошего от нормотворцев сейчас практически никто не ждёт. Лишь очень редко и лишь в ослаблении ряда положений в законах которые реально мешают, но не в принятии новых.

Но откуда берётся такое разделение? Я бы сформлировал следующие причины:
1. Госзакупки. 94-ФЗ и потом 44-ФЗ привели к тому что на рынке ГЗ постепенно остались те компании которые готовы играть по условиям предложенных законотворцами. А то есть без авансирования, без возможности менять условия договора при изменении ситуации, без возможности улаживания конфликтов кроме как через ограниченный набор формальных процедур, с необходимостью имитировать конкуренцию и помогать заказчику затачивать ТЗ под свои услуги/продукты.

2. Нарастающие требования к ГосИТ, в том числе во введении в эксплуатации госинформсистем, требования по импортозамещению и тд. С того момента как вообще тема импортозамещения всплыла многие интеграторы столкнулись с ситуацией необходимости: или переучивать сотрудников, или уходить с госрынка. Иначе говоря это для всего ИТ рынка завязанного на гос-во совсем не бесплатная история.

3. Не транслируемость решений для гос-ва на другие рынки. Я знаю несколько ИТ компаний интеграторов которые работают на постсоветском пространстве. Их продукты в других странах отличаются от российских и, в основном, их делают другие команды. Причина в том российское госИТ накладывает кучу своих ограничений по использованию российской криптографии, ЕСИА и других специфичных для страны продуктов не переносимых на другие рынки - коммерческие и других стран

4. ИТ в государстве - это всегда водопадная модель ИТ разработки. Там просто невозможно что-то другое и эта невозможность закладывается ещё с планов мероприятий по разработке ИТ систем и госпроектов на уровне Правительства. Во все эти планы не закладываются сценарии решения о том что делать если что-то пойдёт не так, если что-то не получится, если где-то решение надо будет поменять.

5. Начиная с определённых сумм в госИТ - это "клановая" игра. И правила её в том что без административного веса у ИТ игрока на рынке мало шансов даже при наличии сильной команды и продукта(-ов).

Наверняка к этому можно добавить ещё немало. Я лишь повторю тезис что очень заметно резко нарастающее разделение между ИТ компаниями ориентированных на работу с государством и компаний не работающих с государством ни при каких условиях.

#it
Для разнообразия о том как развиваются технологии открытости государства в мире, на примере стран которые упоминаются гораздо реже. Обычно говорят все про англоязычные страны, а проекты идут и в странах с другими языками.

- Collecticity [1] - французский проект партисипаторного бюджетирования, активно развивающийся стартап
- Cap Collectif [2] - французская SaaS платформа для проектов по сбору идей, партисипаторному бюджету и публичных консультаций
- OGP Toolbox [3] - большая коллекция инструментов и открытого кода по проектам по открытости государства на разных языках и из разных стран
- Decidim [4] - испанский стартап партисипаторного бюджетирования

в области открытых данных очень много продуктов о которых я писал уже ранее. С открытым кодом CKAN, DKAN, JKAN, DataVerse позволяют создавать собственные порталы открытых данных с открытым кодом. А OpenDataSoft, DataPress, Junar и Socrata предоставляют SaaS платформы для таких порталов.

К слову российские метод рекомендации по публикации открытых данных были абсурдны потому как под них ни одна мировая платформа или решения с открытым кодом не подходят. Только в нашей любимой стране придумывают такие велосипеды с квадратными колёсами.


Ссылки:
[1] https://www.collecticity.fr/
[2] https://cap-collectif.com/
[3] https://ogptoolbox.org/en/
[4] https://decidim.org/

#data
Ключевое в законопроекте о кибердружинах - это источники финансирования. Законопроект, как я понимаю, в Госдуму ещё не внесён и о нём написали только Cnews [1], но надо и важно понимать как устроена вся подобная активность. В ней практически нет инициативы, а практически все про-государственные активисты прагматичны. Если за инициативой не будет денег, то и работать эти кибердружины не будут.

А откуда взять деньги? Каналов финансирования не так уж и много:
1. Госзаданиями на региональные ГБУ и АНО созданные местными властями. Это кибердружины на прямом госфинансировании.
2. Субсидиями на социально-ориентированные НКО от профильных департаментов субъектов федерации.
3. Или если эту тему добавят явным или неявным направлением в программы Фонда президентских грантов.

Всё это, разумеется, если вообще допустить что законопроект будет внесён, принят и будет существовать не для галочки.

Ссылки:
[1] https://safe.cnews.ru/news/top/2018-11-02_v_rossii_legalizuyut_armiyu_kiberdonoschikov

#privacy
Напомню что от Инфокультуры мы проводим опрос об открытости государства в России. Не поленитесь и, пожалуйста, заполните его по ссылке https://goo.gl/CGJBJK

Зачем он нужен? Мы проводим исследование в этой области и его результаты, как и многих других исследований, опубликуем.

#opendata #opengov
Интернет-вещей, диктаторы и демократия - рубрика неожиданных проектов.
DictatorAlert [1] - это журналистский проект в виде Twitter-бота [2] который сообщает о том что в аэропорту Женевы (Швейцария) сел самолёт диктатора.

Под диктаторами авторы проекта называют руководителей авторитарных стран согласно Democracy Index 2016 [3]. То есть Россия, Казахстан, Азербайджан, Беларусь под этот их критерий подпадают и самолёты перечислены в списке [4].

Как только самолёт садится в аэропорту, бот пишет соответствующий твит и с указанием номера, марки и страны происхождения самолёта, а также постит обновлённую картинку со статистикой прилёта. На 6 ноября там на первых трех местах: Объединённые арабские эмираты, Катар и Кувейт.

Как этот бот работает? В аэропорту Женевы стоит частная ADS-B антенна [5] с помощью которой журналисты получают сигналы о всех прибывающих самолётах. Это тот же принцип на котором работают FlightRadar24 [6] и другие аналогичные сервисы.

У бота 17 тысяч подписчиков и им пользуется, например, департамент юстиции США осуществляющий мониторинг отмывания доходов [7].

Это пример того что расследовательская журналистика в современном мире - это не обязательно только про данные, это и про другие технологии тоже.

Ссылки:
[1] https://dictatoralert.org/
[2] https://twitter.com/GVA_Watcher
[3] https://www.eiu.com/public/topical_report.aspx?campaignid=DemocracyIndex2016
[4] https://dictatoralert.org/wp-content/uploads/2017/08/GVAplanes090817.xlsx
[5] https://ru.wikipedia.org/wiki/%D0%90%D0%97%D0%9D-%D0%92
[6] https://www.flightradar24.com/
[7] https://www.justice.gov/criminal-mlars

#data #techmedia
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
8 ноября в 18:00 в рамках проекта "Госзатраты" мы проведем вебинар о том, как использовать инструмент OpenRefine для очистки и предварительного анализа данных о государственных контрактах и федеральных субсидиях.

На вебинаре вы узнаете о том, какие форматы данных можно загружать в OpenRefine и на какие параметры нужно обращать внимание при импорте файлов, познакомитесь с интерфейсом программы, научитесь использовать сортировку и кластеризацию, строить фасеты различных типов, использовать фильтры, преобразовывать значения в ячейках (в том числе и с помощью скриптового программирования).

Для участия в вебинаре необходимо зарегистрироваться, установить OpenRefine (https://openrefine.org) на свой компьютер, скачать массив данных с выборкой контрактов и субсидий (ссылка на который будет отправлена зарегистрированным участникам) и подключиться к вебинару 8 ноября в 18:00. Ссылку для подлючения к вебинару мы пришлем заранее всем зарегистрированным слушателям.

Ссылка для регистрации: https://infoculture.timepad.ru/event/840884/
Полиции Нидерландов удалось взломать IronChat [1], приложение когда-то разрекламированное Эдвардом Сноуденом как безопасное для переписки [2]. Причём полиция ещё и отключила сервер IronChat (или так совпало что он внезапно ушёл в оффлайн) [3] и сумели расшифровать 258 тысяч сообщений между преступниками.

Всё это о том что если что-то невозможно расшифровать сейчас, то это не означает что нельзя будет расшифровать в будущем и всё то что накапливается сейчас у провайдеров по закону Яровой может быть рано или поздно расшифровано.

Ссылки:
[1] https://ru.wikinews.org/w/index.php?curid=192631
[2] https://web.archive.org/web/20180825222626/https://blackbox-security.com/index_new.php
[3] https://www.politie.nl/en/news/2018/november/02-apeldoorn-police-have-achieved-a-breakthrough-in-the-interception-and-decryption-of-crypto-communication.html

#privacy
Ожидаемая история про закон о больших данных [1], его похоже что раскритикова ли все включая Роскомнадзор. Но все мы уже пуганые и были уже законопроекты которые проходили все три чтения за несколько дней, поэтому "бить в набат" надо сразу да и чует моё сердце, это ещё не конец истории.

Ссылки:
[1] https://www.kommersant.ru/doc/3793839

#data
Что читать про открытость государства, открытые данные, рынок данных и другие темы о которых я пишу у себя на канале?

Вот лишь несколько источников которые я читаю регулярно:
- The GovLab Digest https://thegovlab.org/govlab-digest/ - регулярный дайджест новостей об открытых данных, открытости государства и краудсорсинге. Хороший подбор ссылок на публикации, в том числе научные по этой теме
- Data Elixir https://dataelixir.com/ - большая рассылку по data science, много новостей о инструментах работы с данными
- Towards Data Science https://towardsdatascience.com/ - регулярные новости мира data science, с акцентом на практические вопросы
- Блог Open Data Institute https://theodi.org/knowledge-opinion/blog/ и их рассылка https://theodi.org/knowledge-opinion/the-week-in-data/ - о разных аспектах открытых данных


#opendata #data #opengov
Что делать когда Ваш начальник алгоритм? / When Your Boss Is an Algorithm ?
Эта свежая статья в New York Times [1] от Алекса Розенблата посвящена тому как Uber манипулирует водителями, а сам автор статьи является также автором книги Uberland: How Algorithms Are Rewriting the Rules of Work. которая гораздо подробнее рассказывает о том же.

Автор провел интервью со 125 водителями Uber и много времени провёл на форумах и группах обсуждения водителей в Uber и пишет очень важные вещи о внутреннем устройстве Uber-экономики.

Вот лишь несколько важнейших тезисов для понимания:
1. Uber активно использует схему upfront pricing когда показывает водителям и пассажирам разные цены чтобы больше маржи оставлять себе. Это касается всех ценовых манипуляций для пассажиров и важное тут в том что водители просто не в курсе этих манипуляций.
2. Пока мы только обсуждаем китайскую модель социальных рейтингов - для водителей в Uber она уже работает по полной. Рейтинг из 5 звёзд очень условен потому что водителей "деактивируют" после падения рейтинга менее 4.5. Это резко поменяло рынок превратив из рынка продавца в рынок клиента (и посредника - Uber) в результате водители оказались вынуждены терпеть отвратительное поведение пассажиров из-за страха потерять в рейтинге.
3. Итоговый вывод из статьи и книги - неутешителен. Хотим мы этого или нет, а алгоритмы манипулируют нами. И если для таких сервисов как Uber и его аналогов мире такси - этому есть не только противники, но и сторонники для которых рынок меняется от рынка продавца к рынку покупателя. То для других областей применения алгоритмов, например, для мониторинга KPI сотрудников, для областей строительства, производства и др., алгоритмические боссы способны заменить средний менеджемент.

Всё это важно не только для государства как регулятора и НКО сфокусированных на этике алгоритмов, но и для самого бизнеса который если не найдёт способ саморегулирования в этой области, то может столкнуться с сильным общественным и регуляторным противодействием.

Ссылки:
[1] https://www.nytimes.com/2018/10/12/opinion/sunday/uber-driver-life.html

#privacy #data
Для тех кто читает мой канал в поисках новостей о цифровой трансформации рекомендую канал @digitaltransit где близкая к тому о чём я пишу тематика и, если я пишу часто очень субъективно, то в этом канале всё куда более обезличено.
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера портал открытых данных Цюриха опубликовал 50 тысяч 3D-моделей зданий города bit.ly/2PTdQ9r
Вышло свежее исследование НИУ ВШЭ (Институт статистических исследований и экономики знаний) по ИКТ сектору [1]

Из важного:

В России производство ИКТ формирует лишь 0,3% ВВП.

Наиболее весома доля производства ИКТ в ВДС предпринимательского сектора в Республике Корея (7,2%), Швеции, Финляндии, Венгрии, Японии, США (1,6–2,4%). Российский уровень (0,4%) немного превышает показатели Канады, Латвии, Бельгии, Испании (0,3%).

В последние годы объем производства отечественной ИКТ-промышленности устойчиво снижается. В 2017 г. падение по сравнению с 2016 г. составило 8%. Отрицательную динамику определили организации, осуществляющие производство коммуникационного оборудования (82% к уровню 2016 г.), бытовой электроники (87%) и технических носителей информации (90%). При этом объем продаж собственной продукции организаций, осуществляющих производство компьютеров и периферийного оборудования, вырос на 18%, производство элементов электронной аппаратуры и печатных схем (плат) — на 5%.

В товарной структуре производства ИКТ преобладают коммуникационное оборудование (43,1% отгруженной продукции собственного производства), а также компоненты, части ИКТ-товаров — интегральные схемы, диоды и транзисторы, печатные платы и другие элементы (27,8%). Десятая часть реализованной продукции — компьютеры и периферийное оборудование. Занимаются организации ИКТ-промышленности также оказанием ИТ-услуг — их доля составила немногим более 2%.

UPD. Как правильно уточняют коллеги, это цифры не про всё ИКТ, а про его производственную часть. Что не меняет незначительность его производственной части в любом случае

Ссылки:
[1] https://issek.hse.ru/news/227732702.html

#it
Пока другие органы власти ищут разного рода специалистов и говорят про цифровую экономику, коллеги из Счетной палаты ищут крутых дата-инженеров в свою команду в ФКУ ЦЭАИТ СП.

4 вакансии на Headhunter'е и все про данные и про разработку на данных:
- https://hh.ru/vacancy/28816458
- https://hh.ru/vacancy/28816087
- https://hh.ru/vacancy/28812187
- https://hh.ru/vacancy/28811935

Хорошо ли это? Безусловно. In-house команды нужны любой крупной организации работающей с данными. Даже если часть работы аутсорсится внешним командам.

#data #jobs