Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Минутка рекламы на канале

Если Вы еще не решили куда поступать в этом году и где становиться магистром, то без зазрения совести рекомендую магистерскую программу "Журналистику данных" https://www.hse.ru/ma/datajourn/

Кроме возможности заняться интересной ветвью журналистики - это еще и возможность совместить знания медиа рынки с навыками программирования. Учиться делать спецпроекты и еще многое другое.

Все связано с открытыми данными, конечно же.

Инфокультура является индустриальным партнером программы и мы берем на практику и стажировку студентов.

#opendata #datajournalism
В качестве очередного примера того что и зачем крупные корпорации выкладывают как открытые данные.
Google опубликовали два набора данных Open Images [1] и Youtube-8M [2] в виде огромных баз для обучения алгоритмов распознавания изображений и видео соответственно.

Все под свободными лицензиями, Creative Commons, публикуется в целях формирования сообщества людей работающих над развитием алгоритмов машинного обучения.

Другой пример. Нефтяные компании начали публиковать свои отчеты о выплатах правительствам других стран. Делают они это на своих сайтах и в системах раскрытия государственных структур. Например, отчет Nexen Petroleum U.K. Limited [3] внутри ZIP файлов находятся CSV файлы с их отчетами.

О том как раскрывают данные нефтяные компании можно прочитать в Extract-a-fact [4]

Ссылки:
[1] https://github.com/openimages/dataset
[2] https://research.google.com/youtube8m/index.html
[3] https://extractives.companieshouse.gov.uk/company/01051137
[4] https://www.extractafact.org/

#opendata #corpopendata
Приватность в нашем дата-обществе становится все более актуальной темой. Возможно даже более актуальной чем моя любимая тема про открытые данные. Общественные проекты возникают по всему миру один за другим. Мы пока мало задумываемся о корпоративной слежке за нами поскольку на фоне безумия творимого российскими законодателями корпорации выглядят разумными и понимающими.
Тем не менее золотая пора проектов ориентированных на приватность в Рунете уже не за горами. Я сосредоточусь на зарубежных примерах того что будет актуально и в России.
Me and my shadow https://myshadow.org
коллекция статей, приложений, расследований посвященных использованию перс данных. Относительно простой проект с большим числом рассмотренных инструментов
 — 
Trackography https://trackography.org/
география из наиболее популярных ресурсов по странам и по тем кто следит через них за пользователями. В России его аналог можно сделать взяв, например, топ 500 наиболее посещаемых ресурсов Рунета и показав как устроена слежка в их контексте. Важное — показывать слежку с юрисдикцией, с анализом условий использования, data retention и другим юридическим условиям использования
 — 
PrivacyTools https://privacytoolsio.github.io
Отличный каталог инструментов обеспечения приватности для всех платформ и сервисов.
 — 
Have I beed pwned ? https://haveibeenpwned.com/
Важнейший ресурс для тех кто хочет отслеживать не был ли скомпрометирован ее/его пароль при хакерских взломах. 3,8 миллиарда записей о взломанных аккаунтах, API и сервис уведомления
 — 
Awesome self-hosted list https://github.com/Kickball/awesome-selfhosted
Большой список ПО с открытым кодом способное заменить многочисленные онлайн сервисы такие как системы управления почтой, файлами, проектами и тому подобное. Главная идея в том что Вы не теряете контроль за данными возникающими в процессе Вашей работы.

List of two factor auth websites https://twofactorauth.org/ Каталог сервисов поддерживающих двухфакторную авторизацию. Я делал аналог такого сервиса по России, около полугода назад, но тогда возникли проблемы с хостингом на котором он разворачивался. Проект актуален и сейчас.

Наиболее крупные заметки я, также, дублирую в блоге на Medium тут - https://medium.com/@ibegtin/privacy-tools-f32aae644d88 и

#privacy
Среди всех интернет изданий которые я читаю - у меня есть любимое, это Roem.ru и их канал https://t.iss.one/roemru могу порекомендовать всем кто хочет быть не просто в курсе новостей Рунета, но и узнать новости изнутри крупнейших холдингов.

У Роем особая форма подачи материалов с максимальным вовлечением участников событий и очень часто в комментарии приходят представители интернет-бизнеса и люди знающие что реально за этой новостью стоит. Формат, в каком-то смысле уникальный, и часто делает сами комментарии даже интереснее события, что для Интернет-изданий до сих пор редкость.

Так что я лично рекомендую Roem и сам его читаю с завидной регулярностью. Оно одно из немногих СМИ которое я открываю каждый день и читаю без фильтров именно по той причине что его контент для меня полностью релевантен.

Вообще идеальное сочетание было бы для меня - это двух СМИ. Роем как формата и GovInsider (https://govinsider.asia/) по содержанию). Комментарии от инсайдеров дают хорошее понимание реальной ситуации, а тема госинноваций как в GovInsider дает картину происходящего в трансформации госуправления.
Alphabet (ранее известный как Google) выпустили в открытый доступ проект Facets [1] по визуализации наборов данных и их характеристик. Примеры работы Facets можно посмотреть на наборе данных Quick Draw [2]. Сам проект сделан на базе библиотеки Polymer [3] и TypeScript [4], а также интегрируется в Jupyter Notebook [5], крайне популярный среди специалистов в работе с данными.

Можно обратить внимание что визуализация в Facets, в основном, ориентирована на визуализацию наборов данных для задач исследований и обучения на данных. Этот инструмент напрямую связан с инициативой PAIR [6] того же Alphabet в котором описан не только этот, но и многие другие инструменты помогающие создавать продукты с элементами искусственного интеллекта.

Ссылки:
[1] https://pair-code.github.io/facets/
[2] https://pair-code.github.io/facets/quickdraw.html
[3] https://www.polymer-project.org/
[4] https://www.typescriptlang.org/
[5] https://jupyter.org/
[6] https://ai.google/pair

#google #alphabet #visualization
Когда-то от Инфокультуры мы регулярно проводили вебинары, в прошлом году довольно быстро перескочили в формат лекций перед хакатонами, а в этом уже многое было и еще немало будет во всех форматах.

Завтра, в 19:00, пройдет первый вебинар по теме открытых финансовых (государственных) данных где я буду говорить про следующие темы:
- где взять финансовые, в первую очередь, бюджетные данные
- как устроены системы в которых они собираются и накапливаются
- как находить финансовые данные про бюджетные учреждения и муниципалитеты
- какие общественные проекты и стартапы их используют
- примеры аналитических, общественных и коммерческих проектов про финансовые, в первую очередь, бюджетные данные.

Про примеры буду говорить особенно.

Во время вебинара будет время на вопросы и ответы, но если Вы мне их зададите тут в комментариях или пришлете на [email protected] то будет больше шансов что я на них отвечу подробно и подготовленно.

Подробнее по этой ссылке [1]
А записаться можно вот тут - [2]



Ссылки:
[1] https://www.facebook.com/events/1905428503029698/
[2] https://my.webinar.ru/event/987062/?t=23483

#opendata #clearspending #openbudgets
Sunlight Foundation выпустили полугодовой отчет [1] о прозрачности администрации Дональда Трампа где, по сути, обвиняют администрацию в высокой секретности по сравнению с предыдущими администрациями в Белом доме.
Из положительного можно отметить только то что Дональд Трамп не закрыл проект 18F [2] по инсорсингу (создание внутри госорганов ИТ проектов) последних веб-сайтов и федеральных ИТ проектов в США.

В остальном - одни минусы. Меньше открытых данных, меньше общей открытости, агрессия в сторону прессы и многое другое. Sunlight Foundation не единственные из НКО кто находится в оппозиции новой администрации. ProPublica наблюдает за его деятельностью [3], а многие из активистов работавших с администрацией Барака Обамы, теперь уходят из госпроектов.

Например, Noah Kunin, член команды 18F, покидает с критикой текущей администрации "Why I’m leaving 18F" [4].

Возвращаясь к отчету, действительно, трудно не признать что при Дональде Трампе США перестали делать акцент на открытости как на безусловной ценности, много акцентов переведено на технологии, но при этом далеко не все технологические компании готовы активно сотрудничать с администрацией.

Ссылки:"
[1] https://sunlightfoundation.com/2017/07/20/trump-administration-open-government-record/
[2] https://18f.gsa.gov/
[3] https://www.propublica.org/trump-administration/
[4] https://medium.com/@noahkunin/why-im-leaving-18f-48970131d547

#opendata #opengov
Для тех кто задумывается о будущем регулирования Интернета в России, вот самый свежий китайский опыт. В Урумчи, столице Синьцзянь-Уйгурского автономного района КНР, власти потребовали от граждан в обязательном порядке установить специальную шпионскую программу на свои телефоны на базе Android. Об этом подробно пишут Mashable [1] и The Next Web [2] со ссылкой на Radio Free Asia [3] (текст на китайском)

Приложение собирает информацию о переписке через чаты Weibo и WeChat, данные Wi-FI подключения, информацию о SIM карте и сканирует файлы в форматах 3GP,AMR,AVI,WEBM,FLV,IVX,M4A,MP3,MP4,MPG,RMVB,RAM,WMA,WMV,TXT,HTML,CHM,PNG,JPG на телефоне пользователя на предмет соответствия их MD5 отпечатков 46 тысячам отпечаткова материалов/документов/видео/аудио признанных террористическими.

Инструкция по инсталляции рассылается через социальную сеть WeChat, пользователи которые не установят приложение или удалят его после установки, могут быть задержаны на 10 суток.

Ранее новость о разработке приложения уже проходила в апреле 2017 года в The Paper [4] (текст на китайском) однако там не было ничего, ни о принципах работы приложения, ни о задержании в случае не установки приложение.

И, вдогонку, в продолжение темы запретов VPN'ов и мессенженров. Ответ на вопросы тех кто задается мыслями о том как государство может помешать использовать зарубежные мессенжеры не имея доступа к телефону. Во первых, может воспользовавшись подходом выше, а во вторых, возвращаясь в 2015 год можно вспомнить что в Китае, в том же Урумчи, тем кто использовал запрещенные сервисы просто отключали телефонную связь, о чем пишут Mashable [5] и NYT [6]

Ссылки:
[1] https://mashable.com/2017/07/21/china-spyware-xinjiang/#VLuEQrOiIOqV
[2] https://thenextweb.com/asia/2017/07/25/chinas-forcing-its-citizens-to-install-a-terrifying-big-brother-app-on-their-phones-or-go-to-jail/
[3] https://www.rfa.org/mandarin/yataibaodao/shaoshuminzu/ql2-07132017112039.html
[4] https://www.thepaper.cn/newsDetail_forward_1672043
[5] https://mashable.com/2015/11/24/china-xinjiang-messaging-whatsapp/
[6] https://www.nytimes.com/2015/11/24/business/international/china-cuts-mobile-service-of-xinjiang-residents-evading-internet-filters.html?_r=0

#privacy #safety #security
Roem.ru пишут про программу НаСФИТ по защите детей от нежелательного трафика [1]

Будьте готовы что неизбежно, еще раз, _неизбежно_ в рамках этой программы государство будет добираться до конечных устройств пользователей.

Сценарии могут быть разные. Это может быть приложение/мобильное приложение от оператора связи. Это может быть государственное приложение как это сделано у китайцев в Урумчи, это может быть какой-то гибридный путь, но суть в том что будут найдены аргументы и основания для доступа к конечным устройствам пользователей.

Без этого все модели фильтрации контента будут неэффективны.
А когда это будет реализовано, вот тогда и начнется реальная проблема с приватностью.

Но это все совсем не про цифровую экономику, а скорее про ее исчезновение. Информационная безопасность - это контекст, барьер и известные обоснованные или необоснованные, но ограничения. Она не формирует добавленной стоимости, а создает нагрузку на весь остальной бизнес.

Сама же программа "Цифровая экономика" была опубликована на сайте Правительства 31 июля 2017 г. [2] и включает информационную безопасность как одно из базовых направлений [3].

А вот теме открытых данных там посвящено совсем немного. Только пункт 1.8: "Обеспечить благоприятные правовые условия для сбора, хранения и обработки данных, в том числе с использованием новых технологий, при условии защиты прав и законныхинтересов субъектов данных и владельцев".


Ссылки:
[1] https://roem.ru/02-08-2017/256101/nasfit/
[2] https://government.ru/docs/28653/
[3] https://government.ru/media/files/9gFM4FHj4PsB79I5v7yLVuPgu4bvR7M0.pdf

#privacy #security #safety
12-13 августа пройдет хакатон BudgetPro [1], первый в серии хакатонов конкурса BudgetApps [2] который вот уже 3-й год Инфокультура [3] проводит с Минфином России.

Каждый раз на хакатонах, встречах, вебинарах я рассказываю, дословно "Россия самая открытая страна в части государственных финансов" и мне не верят. Пока не дослушают в основном, потому что не надо путать открытость и эффективность, гарантированное качество и так далее. Открытость далеко не всегда является панацеей от бед госусправления, она лишь дает возможность внешней оценки того что часто и так понятно изнутри.

Вот с госфинансами в России уникальная, в каком-то смысле ситуация. Открытых данных гораздо больше чем публичных проектов их использующих. Непубличных проектов проектов, вернее проектов которые просто не светятся, очень много. На одних только данных с портала госзакупок зарабатывают сотни миллионов рублей в год только компании работающие в информационно-аналитической части этого бизнеса.

Это такие проекты как:
- Госзаказ.Здравоохранение
- TenderLand
- Zakupki360
- ИКС-Прайс НМЦК
и десятки других.

Сложнее с данными которые используются косвенным образом, но используются определенно. Но многие бизнес проекты на бюджетных данных так и не возникли. Например, в России до сих пор нет качественных аналогов OpenGov [4] и ClearGov [5] несмотря на явное наличие спроса.

Очень мало мобильных приложений для работы с любыми госданными. Почти нет аналитических инструментов по отраслям: внешняя торговля, алкорынок или многие другие.

Возможностей и идей очень много для всех тех кто хочет заниматься данными всерьез.

Ссылки:
[1] https://www.facebook.com/events/271158443366756/
[2] https://budgetapps.ru
[3] https://infoculture.ru
[4] https://opengov.com
[5] https://cleargov.com

#opendata #budgetapps #budgetpro
Мне не верят когда я говорю и пишу о том что российская система раскрытия информации о госфинансов одна из самых открытых, а зря. Раскрытие информации о госфинансах в России, действительно, носит беспрецендентный характер.

Для сравнение посмотрите на уровень публикации информации о контрактах в Канаде.
Все контракты федерального правительства публикуются на официальном сайте [1] начиная с 2004 года и варьируются от 3200 контрактов в 2004 году, до 26000 в 2017. Это только контракты федерального уровня, начиная с сумм от $10 000 канадских долларов (479 900 рублей). Всего опубликовано чуть более 200 тысяч контрактов за все время раскрытия информации.

Типичный пример записи о контракте [2] не содержит: документов, детализации предметов закупки, реквизитов поставщика (вот так и угадывай по его названию), реквизитов заказчика, места исполнения и взаимосвязи с бюджетом и еще сотен других реквизитов.

Главное из этого всего - это, конечно, документы контракта. В России уровень открытости госрасходов и не только по госконтрактам, но и по субсидиям, грантам и многому другому - беспрецедентный. Он отражает не только уровень прозрачности, но и уровень забюрократизованности.

Стран в которых правительства раскрывают тексты договоров с подрядчиками - единицы. Тех в которых публикуют все как открытые данные - еще меньше. Это не значит что это однозначно хорошо и правильно, это означает что как раз эта тема одна из самых прозрачных в России.

Ссылки:
[1] https://open.canada.ca/en/search/contracts
[2] https://open.canada.ca/search/contracts/reference/e670070a9aca70e09f10541130dc3a1f

#opendata #opengov #budget #procurement
Это действительно важный сервис который давно все ожидали, но ФНС открыли его всего на несколько дней. Остается пока только гадать когда его снова откроют и откроют ли
Forwarded from Roem.ru (Ivan Illyn)
Федеральная налоговая служба (ФНС) планировала 25 июля 2017 года предоставить сервис «Прозрачный бизнес» [1]. Тест площадки с ограниченным числом данных прошёл несколькими днями ранее. На сайте могли бы публиковаться данные о задолженностях юрлиц, штрафах и налоговых правонарушениях, сведения о доходах и расходах по бухгалтерской отчётности. Перечисленные данные не являются налоговой тайной, но труднодоступны. На практике возможность проверить своего контрагента через «Прозрачный бизнес» у предпринимателей так и не появилась — почти две недели сайт не работает, пропало даже то, что в июле налоговикам удалось опубликовать в тестовых целях.

«Первое размещение на сайте ФНС России наборов открытых данных, предусмотренных пунктами 3 — 5 настоящего Порядка размещения сведений, осуществляется 25 июля 2017 года». — заявленный срок запуска проекта «Прозрачный бизнес» из приложения к Приказу [2] руководителя ФНС М. В. Мишустина.

Ранее в июле 2017 года у ФНС не работали [3] сайты Единого государственного реестра юридических лиц, «НДС-офис интернет-компаний», «Единый реестр субъектов малого и среднего предпринимательства», но эти проекты вернулись в сеть.

Ссылки:

[1] https://pb.nalog.ru/
[2] https://www.nalog.ru/rn77/about_fts/docs/6908061/
[3] https://roem.ru/10-07-2017/254195/nalogiupali/
Для всех кто интересуется о том как идет архивация сайтов в рамках проекта "Национальный цифровой архив"
https://archive.infoculture.ru и доступны ли архивы.

Последние новости проекта:
- все последние архивы собраны в виде JSON https://cdn1.sdlabs.ru/public/_packages/webcollect2017.json
- интерфейс выгрузки и поиск по всему собранному тут - https://hubofdata.ru/group/webarchive
- выкачаны следующие ресурсы:
— все сайты Агентства ипотечного жилищного кредитования в поддоменах ahml.ru
— сайты банков с отозванными лицензиями: банк Югра
— копия сайта Активный гражданин gorod.mos.ru
— все сайты относящиеся к органам власти финансового блока Правительства: Минфин России, Федеральное казначейство, ФТС России, Росалкогольрегулирование, ФНС России (за исключением fias.nalog.ru)
— множество малых ресурсов
- теперь по умолчанию на hubofdata.ru проставляются ссылки на копии архивов в ресурсе Backblaze.

Напомню что проект создан для сохранения всего того ценного цифрового наследия которое находится под угрозой исчезновения по политическим, экономическим, культурным или любым иным причинам.

Значительная часть архива состоит из копий сайтов органов власти и проектов созданных на госсредства поскольку они часто исчезают сразу после завершения их финансирования или закрытия. Сейчас копии делаются полными слепками, с сохранением всех аудио, видео файлов, изображений и документов, что отличает наш архив от "Интернет архива" который сохраняет только наиболее популярные веб страницы.

Помочь проекту можно:
- финансово, пожертвованием на https://archive.infoculture.ru
- материально, пожертвовав диски для создания физических копий архива
- содержательно, предлагая сайты которые находятся под угрозой уничтожения - пишите мне о них тут в Telegram @ibegtin или на почту [email protected]
- поиском финансирования для организации беспрерывного сохранения информации. Мы сможем развернуть Heritrix и делать копии сайтов в непрерывном режиме.


#opendata #archiving
История Левана Квиркелия на хабре [1] о том как в ДИТе Москвы ему ограничивали доступ к API для его приложения - это пример того насколько важно для госорганов не только публиковать данные, но и тщательно блюсти отсутствие конфликтов интересов.

То что данные - это новая нефть понимают уже все, но те кто сидит на источниках данных и создает преимущества для одних в ущерб другим, это более похоже на преступление чем на что-то еще. Открытые данные это как та большая волна которая поднимает все корабли. У Вас никогда не будет конфликта интересов если данные открываются для всех и доступ к ним не дискриминирован. Если Вы задаете четкие правила с самого начала, то к Вам потом не будет претензий.

Очень хочется дождаться комментариев ДИТа Москвы. Потому что обвинение слишком серьезно чтобы его проигнорировать. Если их комментариев не будет, нам придется признать что все написанное Леваном правда и с ДИТом и публикуемыми им данными работать более нельзя.

Ссылки:
[1] https://habrahabr.ru/post/335010/

#opendata #stories
В продолжение истории Левана Квиркелия, официальный ответ ДИТа появился в блоге Артема Ермолаева на Эхе Москвы [1].

Фактически из этого ответа мы можем узнать о том что ДИТ предлагает пользоваться собственным приложением, а не сторонними. В этом и есть проблема. Для ДИТа и Правительства Москвы в целом сторонние разработчики оказываются конкурентами, а не партнерами. При всех обвинениях в показе порнографии вместо рекламы это означает лишь одно - неспособность договариваться с разработчиками и готовность полностью закрывать API.


Ссылки:
[1] https://echo.msk.ru/blog/arermolaev/2033512-echo/

#opendata #opengov
Дайджест международных новостей про открытые данные и проекты на их основе:
- 13 визуализаций OpenStreetMap на сайте opensource.com [1]
- Forbes пишет о том что онлайн курсы по работе с данными могут быть столь же эффективны как получение высшего образование в этой области (master degree) [2]
- Toyota, Intel и другие создают консорциум по большим данным [3] в автомобильной отрасли
- на Украине подведены итоги конкурса TAPAS на открытых данных [4]

В России:
- завтра 12-го и 13-го августа пройдет хакатон Budget-Pro по работе с финансовыми данными (данные Минфина, ФНС и др) [5]

Полезное:
- коллекция подсказок по инструментам работы с AI [6]

Инструменты:
- особенности визуализации гистограм [7]

Ссылки:
[1] https://opensource.com/article/17/8/openstreetmap
[2] https://www.forbes.com/sites/gregoryferenstein/2017/08/10/thoughts-on-how-online-data-science-courses-stack-up-to-a-masters-degree/#4a2eecb02c88
[3] https://www.reuters.com/article/us-toyota-consortium-idUSKBN1AQ2GF
[4] https://www.eurasia.org/Programs/ukraine_TAPAS
[5] https://budget-pro.ru
[6] https://startupsventurecapital.com/essential-cheat-sheets-for-machine-learning-and-deep-learning-researchers-efb6a8ebd2e5
[7] https://tinlizzie.org/histograms/

#opendata #bigdata #data
В BuzzFeed вышла интереснейшая статья [1] как на основе данных Flightradar24 исследователи выявили секретные полеты самолетов ФБР и других спецслужб. Статья важная для тех кто понимает как и почему открытость информации так интересна и так мешает различным государственным агентствам, в данном случае в США.

С той же статьи интересные ссылки на другое издание в США "The Intercept" [2] - медиа посвященное исключительно слежке государства и корпораций за гражданами. У них есть чрезвычайно интересный проект, каталог, [3] с описанием аппаратных продуктов, например, устанавливаемых на самолетах для отслеживания спутниковых телефонов или сетей Wi-Fi.

И тут бы очень хотелось придумать теорию заговора согласно которой Wi-Fi и другую радиосвязь запрещают на бортах самолетов потому что это мешает оборудованию спецслужб отслеживать Wi-Fi, сотовые и другие сети на земле.

Ссылки:
[1] https://www.buzzfeed.com/peteraldhous/hidden-spy-planes
[2] https://theintercept.com
[3] https://theintercept.com/surveillance-catalogue/

#opendata #opengov #intercept #privacy
Во всех конкурсах которые мы проводили и проводим, будь то BudgetApps, или предыдущий конкурс Apps4Russia и во всех хакатонах и тд. участники пытаются сделать что-то визуальное полагая что именно это может быть продуктом или что это может быть журналистикой будущего (в реальности же это прошедшая часть настоящего).

Дата журналистика - да, это пока еще интересно и может быть чем-то действительно интересным, но куда интереснее то о чем говорить не решаются - это переформатирование ландшафта СМИ, включая резкое сокращение журналистов в медиа в ближайшие годы.

Написание огромного числа заметок может быть автоматизировано. Причем оно может быть автоматизировано сразу с нескольких подходов:
1. Робот полностью сам пишет заметку, на основе задания редактора
2. Робот пишет заметку, а журналист/редактор дополняет и "очеловечивает ее"
3. Журналист пишет заметку, а робот ее дополняет тем что он может написать сам.

Темы могут быть совершенно любые, главное чтобы для них были данные и алгоритмы их интерпретирующие. Алгоритмы достаточно сложные, умеющие создавать разный текст, добавляя нюансы и особенности.
Все что касается потоков госинформации - могут быть оформлены в виде автоматизированных заметок.
Это:
- законопроекты
- новости с сайтов госорганов
- госзакупки
- отзывы лицензий у банков
- банкротства предприятий
- новости о публичных предприятиях
- судебные разбирательства
- ... и многое другое

Убьет ли это журналистику как профессию? Я думаю нет, скорее профессионализирует. Из массовой профессия превратится в технологизированную и профессиональную жанровую.
Причем я подозреваю что многое для этого уже сделано и автоматизированная журналистика существует и практикуется давно [1]
Но ее все еще сильно меньше чем могло бы быть и чем будет.

Так отчего она так медленно внедряется, что останавливает помимо опасений журналистов лишиться работы?

Например, июльская новость - Google профинансировали проект по автоматизации местных новостей [2], британское новостное агенство Press Association получило грант в $805 000 на создание автоматизированного программного обеспечения пишущего локальные новости, до 30 тысяч новостей в месяц. Все это работает на огромных массивах данных, открытых данных.

А также стоит почитать доклад от Alexander Fanta "Putting Europe's robots on map: automated journalism in news agencies" [3] о том как автоматизированная журналистика внедряется в Европе.

Ссылки:
[1] https://en.wikipedia.org/wiki/Automated_journalism
[2] https://www.recode.net/2017/7/7/15937436/google-news-media-robots-automate-writing-local-news-stories
[3] https://reutersinstitute.politics.ox.ac.uk/publication/putting-europe%E2%80%99s-robots-map-automated-journalism-news-agencies

#opendata #datajounalism
Платформа OpenSpending [1] получила масштабное обновление [2] и теперь основано на Fiscal Data Package [3], специальном формате разработанном Open Knowledge International для публикации данных о госрасходах.

Кроме того обновление получили API, инструменты упаковки данных, их просмотра и навигации. OpenSpending - это централизованная платформа работающая по модели "централизованное хранилище, децентрализованные витрины".

Какое-то время назад мы рассматривали возможность публикации данных из Госзатрат [4] на OpenSpending, но столкнулись с очень значительной сложностью трансформации данных. Оказалось это сложно сделать без потери качества, определенных атрибутов характерных только для России.

OpenSpending можно отнести к ключевым инфраструктурным проектам по открытости фискальных данных в мире. Другим таким проектом является Open Contracting [5], международный стандарт публикации открытых данных о государственных договорах.

Ссылки:
[1] https://openspending.org
[2] https://blog.okfn.org/2017/08/16/openspending-platform-update/
[3] https://specs.frictionlessdata.io/fiscal-data-package/
[4] https://clearspending.ru
[5] https://www.open-contracting.org/

#opendata #openspending