Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В Люксембурге администрация авиационной навигации опубликовала результаты 3D сканирования (LIDAR) территории аэропорта [1] которое проводилось в формате eTOD (Electronic Terrain and Obstacle Data) [2] по требованиям ICAO (International Civil Aviation Organization).

Подобное сканирование проводят во всех странах где есть хоть один аэропорт, но только в Люксембурге опубликовали результаты онлайн в полном объёме.

Другие данные собираемые ICAO также можно увидеть на их GIS портале [3]

Ссылки:
[1] https://data.public.lu/en/organizations/administration-de-la-navigation-aerienne/#datasets
[2] https://www.skybrary.aero/index.php/Electronic_Terrain_and_Obstacle_Data_(eTOD)
[3] https://gis.icao.int/gallery/index.html

#opendata #avia
К вопросу о медиастартапах. Шведский Newsworthy https://www.newsworthy.se мониторят кучу статистических данных Евросоюза и генерят новостные лиды.

Тоже дата журналистика с элементами робожурналистики, с той лишь разницей что они не текст финальный создают, а значительно облегчают поисковые возможности.

Кстати создать такой сервис в России можно, даже не супер сложно на самом деле, но покупателей на него будет 5-10 изданий, в основном федерального значения и рынок совсем скромный. Так что у нас в можно запускать это скорее как некий in-house проект.

Другой интересный проект - это нидерландский LocalFocus https://www.localfocus.nl/en/ по созданию интерактивной инфографики с данными. Они так и пишут что превращают данные в истории.

#opendata #ddj #datajournalism
Культура конкуренции - это когда Gitlab [1], один из конкурентов Github'а, поздравляет их и Microsoft [2] с тем что Microsoft покупает Github и делает это без издёвки, а очень даже корректно и легкой рекламой своей платформы.

Большая волна поднимает все корабли и в противес Microsoft другие техногиганты могут обратить внимание на Bitbucket и Gitlab как основных конкурентов Github'а за эти годы.

Кроме того несмотря на большую работу Microsoft по открытию своих платформ и интеграции других платформ в собственные решения (Linux Subsystem для W10) и многое другое, до сих пор есть разработчики у которых они вызывают настороженное отношение.

Впрочем это будет понятно после переназначения CEO Github'а которое планировалось на август этого года.

А пока Gitlab демонстируют явную готовность к этой большой игре.

Ссылки:
[1] https://gitlab.com
[2] https://about.gitlab.com/2018/06/03/microsoft-acquires-github/

#opensource
Forwarded from Рюмочная ИПП
Маша Медведева (PhD из России) вместе с коллегами в Университете Гронингена в Нидерландах смогли с помощью алгоритма машинного обучения предсказывать решения ЕСПЧ с точностью 75%, и каждую неделю по четвергам она выдает прогноз на неделю. Обучение основано на персоналиях судей и прошлых пресс-релизах. Программа называется Юрий (https://amp.gs/kMN1).

Сайт не очень информативен — по всей видимости, проект только начал работу, но в репозитории Медведевой (https://amp.gs/kMNz) есть архив с данными и код, который позволяет всё реплицировать. Из него, в частности, видно, что исследователи использовали метод опорных векторов (SVM) — один из наиболее распространённых алгоритмов классификации, по крайней мере до прихода глубоких нейронных сетей.
Microsoft официально купили Github за 7.5 миллиарда USD [1] с оплатой акциями, в их пресс релизе упоминается 28 миллионов разработчиков итого получается по 267 USD за одного разработчика, не так уж много если подумать.

А тем временем с начала анонса начался массовый импорт проектов в GitLab [2], о чём активно обсуждают на YCombinator [3] и Reddit [4]

При том что я лично не разделяю таких острых опасений в адрес Microsoft, думаю что скорее они будут налаживать мостики и отношение с FOSS сообществом, тем не менее, да, много вопросов может быть у авторов большого числа проектов.

Ссылки:
[1] https://news.microsoft.com/2018/06/04/microsoft-to-acquire-github-for-7-5-billion/
[2] https://www.bleepingcomputer.com/news/technology/gitlab-sees-huge-traffic-spike-after-news-of-microsoft-buying-github/
[3] https://news.ycombinator.com/item?id=17223116
[4] https://www.reddit.com/r/Ubuntu/comments/8odwlb/gitlab_sees_huge_spike_in_project_imports_seems/

#opensource #microsoft #github
В The Economist свежая статья Data detectives [1] о том как сбор данных, распознавание лиц, биометрические данные и огромные базы данных меняют работу полиции по всему миру. Подробная статья, с большим числом примеров, написанная живым языком и с объяснением того как всё теперь устроено (или будет устроено очень скоро) в мире расследований.

Сама статья про расследования в реальном мире, о том что в России называется оперативно-розыскными действиями, но и с примерами того как, например, EM системы (Electronic Monitoring) активно заменяют малые сроки заключения, а в полицейские камеры, те которые они носят на груди или на спине, встраивают алгоритмы распознавания лиц.
И многое другое.

Если говорить про Россию то менее всего стоит рассчитывать на то что это обойдёт нас стороной. Пока ещё нет профессиональных программ подготовки дата-следователей и дознавателей, пока ещё системы электронного мониторинга забюрократизированы и громоздки, но внутри правоохранительной системы есть те кто прекрасно понимают возможности которые даёт им работа с большими данными.

Ссылки:
[1] https://www.economist.com/technology-quarterly/2018-05-02/justice

#bigdata #police #digitaltransformation
Дайджест ссылок о которых не хватает времени рассказать подробнее:
1. The Atlas https://www.the-atlas.com/ - каталог проектов по улучшению городской среды, не только технологических проектов, но и инфраструктурным и организационным. Там же можно найти параметры проекта, результаты и вендора. По сути - это каталог решений для городских проблем и каталог поиска поставщика для таких решений, но с акцентом на лучшие практики и жизненные ситуации. Идея весьма здравая, охватывает только США

2. Мало кто знает, в Новой Зеландии лидирующее ведомство в работе с данными это их статистическое агентство Stats NZ. Именно там находится ключевой чиновник Government Chief Data Steward (Главный государственный управляющий данными) который отвечает за работу с данными в органах власти https://www.stats.govt.nz/about-us/data-leadership/ Заранее отвечая на вопрос - нет, для России такая схема не годится.

3. Напомню что один из крупнейших каталогов порталов данных и отдельных больших датасетов есть в Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets

4. Один из наиболее проработанных проектов дата-журналистики, The Atlas of Redistricting https://projects.fivethirtyeight.com/redistricting-maps/ о том как переопределяются границы избирательных округов в США.

5. The Stanford Open Policing project https://openpolicing.stanford.edu/ научный проект Университета Стенфорда по сбору базы по причинам по которым полиция останавливает пешеходов и автомобили. База по более чем половине штатов США, с описанием уровня детализации для каждого штата. А также публикации на основе собранных данных. Это делается в рамках Computational Journalism Lab https://cjlab.stanford.edu/

6. Music Map от Pudding Cool https://pudding.cool/2018/01/music-map/ (за декабрь 2017 года) и https://pudding.cool/2018/06/music-map/ (за май 2018 года) - это пример того как на данных просмотров видео на Youtube можно измерить предпочтения по 3000 городов. Ссылки на видео не всегда ведут к изначальным роликам, похоже их авторы иногда меняют после публикации, но довольно легко эти ролики снова находятся на Youtube и действительно цифры по просмотру сходятся.

#opendata #data #datavis
Трансперенси Инт. Россия опубликовали API проекта Декларатор [1] о чём подробно пишет Теплица Социальных Технологий [2], а само API можно найти в разделе "Открытые данные" [3]

Ребята в трансперенси проделали большую работу по открытости деклараций и не так давно проводили хакатон по использованию этих данных. Доступность данных по стандарту popolo [4] значительно упрощает работу за счёт возможности использования существующих инструментов.


Ссылки:
[1] https://declarator.org/
[2] https://te-st.ru/2018/05/29/project-declarator-opened-the-api/
[3] https://declarator.org/opendata/
[4] https://www.popoloproject.com/

#opendata
А я тем временем расскажу вам то о чём публично почти не рассказывал. Проект аналогичный декларатору я делал ещё в далёком 2010 году. Тогда, при президенте Медведеве был Институт современного развития (ИНСОР) и в рамках ИНСОРа я разрабатывал около 6 проектов которые можно отнести к гражданским проектам и проектам общественного контроля.

Это был, например, прототип портала data.gov.ru (в итоге использовался не он), самая первая версия проекта Госзатраты [1], тогда он назывался Росгосзатраты и был на данных гораздо меньшего объекта и только по контрактам федеральной власти.

Проект должен был быть показан Медведеву в рамках Тверского экономического форума, но, возникла накладка и Медведев вместо форума свернул и поехал на Селигер.

А одним из проектов который так и не стал публичным был проект "Публичные доходы". Мы собрали сотни файлов деклараций чиновников за 2009 и 2010 годы и автоматически их обработали и имели базу более чем в 50 тысяч деклараций, порядок был примерно как у трансперенси сейчас. Только коллеги в трансперенси многое делали и делают руками, а мы принципиально делали только парсерами для файлов с декларациями.

В начале 2011 года была встреча Д. Медведева со всякими общественниками и там в том числе был я и я говорил ровно про эти проекты и о том что они уже готовы и чтобы придать им государственный статус не нужно было бюджетных расходов, проекты уже готовы, а поддержание их требует минимальных трат.

На что многоуважаемый Дмитрий Анатольевич мне тогда витьевато ответил что это очень хорошо что общественники создают такие проекты, и что не надо государству этим заниматься.

После перехода ДМ в председатели Правительства, проекты ИНСОРа быстро зачахли и практически все они исчезли. Только Госзатраты мы фактически реконструировали с нуля поскольку ещё и появился новый госпортал zakupki.gov.ru и все форматы данных сменились и их стало на порядок больше. Тогда же мы и начали делать его от КГИ.

Тогда до появления Открытого правительства оставалось чуть более одного года. Но с его появлением лучше не стало, ни один из существовавших ранее проектов по открытости который создавался государством или рядом с ним не пережил его появления.

Ссылки:
[1] https://clearspending.ru

#opendata #spending
Facebook публикуют рейтинг стран [1] по уровню использования IPv6 [2] посетителями их сайта. Для тех кто не знает - IPv6 это давняя, но до сих пор не до конца внедрённая технология адресация в Интернете пришедшая на смену IPv4. Цель её внедрения в том что адресное пространство IPv4 заканчивается и это усугубляется ещё и массовым внедрением интернета-вещей которое приводит к исчерпанию доступных IP адресов.

До сих пор немногие российские провайдеры и компании его используют и предоставляют услугу адресации по IPv6 своим клиентам.

В каком-то смысле этот рейтинг стран - это тоже показатель деятельности российского Минсвязи за эти годы поскольку именно задачей регулятора является предупреждение будущих проблем у игроков отрасли, а они обязательно настанут.

Данные можно скачать в CSV или JSON прямо на сайте

За наводку спасибо Михаилу Климареву из канала Zatelecom [3]

Ссылки:
[1] https://www.facebook.com/ipv6/?tab=ipv6_country
[2] https://ru.wikipedia.org/wiki/IPv6
[3] https://t.iss.one/zatelecom

#opendata #telecom
Тем временем с момента покупки Microsoft'ом Github'а в конкурирующую платформу для хостинга кода Gitlab было перенесено 50 тысяч проектов [1] из которых 13 тысяч было перенесено в течение часа после анонса новости о покупке в понедельник.

С одной стороны это капля в море 8 миллионов проектов размещённых на Github, с другой стороны OSS сообщество помнит высказывание Стива Балмера о том что "Linux это рак".

Ответная позиция, например, Фонда свободного программного обеспечения в том что "Программы Microsoft вредоносны" [2] и "Microsoft: враг рода человеческого?" [3]. В обсуждениях разработчики приводят немало примеров поведения Microsoft далёким от работы с сообществом OSS [4]

С другой стороны в последние годы Microsoft стали основным контрибьютором в код Linux и Linux Foundation официально приветствует решение Microsoft о покупки Github [5].

Пока же Gitlab анонсировали бесплатность их Gold и Ultimate тарифов для проектов с открытым кодом и с для образовательных учреждений [6].

Gitlab гораздо лучше остальных конкурентов сумели поймать волну и хештег #movingtogitlab в Twitter'е набирает обороты [7]


Ссылки:
[1] https://motherboard.vice.com/en_us/article/ywen8x/13000-projects-ditched-github-for-gitlab-monday-morning
[2] https://www.gnu.org/proprietary/malware-microsoft.ru.html
[3] https://www.gnu.org/philosophy/microsoft.ru.html
[4] https://news.ycombinator.com/item?id=17227286
[5] https://www.linuxfoundation.org/blog/microsoft-buys-github-the-linux-foundations-reaction/
[6] https://itsfoss.com/gitlab-free-open-source/
[7] https://twitter.com/hashtag/movingtogitlab

#opensource
Какие data-стартапы бывают и успешно развиваются.

Стартапов основанных на данных по всему миру возникает довольно много. Некоторые из них основаны на открытых данных данных, другие на создании удобных интерфейсах работы с данными компаний и частных лиц, третьи на алгоритмах помогающих придавать любым данным новое качество.

Накопив какое-то количество описаний data-стартапов я их разместил их описание заметкой в блоге. Подробнее тут https://begtin.tech/data-startups/

#opendata #data #startups
Правильная работа с негативом - это общаться с аудиторией и объяснять, объяснять и ещё раз объяснять. Nat Friedman, будущий CEO Github'а подробно ответил на вопросы разработчиков на Reddit'е в жанре AMA (Ask Me Anything) [1]. За год это самая популярная тема на Reddit по числу комментариев, их там более 1400+ и второй по популярности по просмотрам.

Я бы сказал что это хороший кейс для российских стартаперов и глав компаний, но в России такая практика большая редкость.

Ссылки:
[1] https://www.reddit.com/r/AMA/comments/8pc8mf/im_nat_friedman_future_ceo_of_github_ama/

#github
70+ корифеев интернета (luminaries) включая Тима Бернерса Ли, Винта Сёрфа и многих других хорошо известных в Интернет-среде и ИТ подписали письмо обращение к Президенту Европарламента [1] о необходимости отмены статьи 13 в проекте директивы о копирайте в Директиве единого цифрового рынка )Directive for Copyright in the Digital Single Market Directive).

Эта статья требует немного немало, а обязательной премодерации всего контента который пользователь загружает на платформы. Её цель - защита правообладателей и её не без оснований считают директивой вводящей государственную слежку за материалами пользователей и интернет-цензуру.

Директива ещё не принята, возможно ещё есть время на её изменение и, кстати, не стоит полагать что российские платформы с user generated content это не затронет.

Текст письма по ссылке: [2]

Ссылки:
[1] https://www.eff.org/deeplinks/2018/06/internet-luminaries-ring-alarm-eu-copyright-filtering-proposal
[2] https://www.eff.org/files/2018/06/12/article13letter.pdf

#privacy #censorship
В эпоху HTTPS государствам гораздо сложнее фильтровать интернет, невозможно заблокировать конкретную страницу, необходимо блокировать сразу весь домен поскольку при фильтрации ссылки за HTTPS не видны. Это одно из не многих, не единственное, последствие массового внедрения HTTPS от крупнейших до самых незначительных сайтов.

Существенное изменение в сетевой инфраструктуре переводит государственную цензуру в законодательное и иное регуляторное воздействие на платформы собирающие пользовательские данные, всё созданное и публикуемое пользователями онлайн, обязывая платформы вводить премодерацию и исполнять выписанные им предписания. То как платформы платформы взаимодействуют с такими запросами и пользователями приобретает всё более значительную роль.

31 мая EFF опубликовали обзор 2018 года [1] крупнейших платформ США по наличию у них публичных политик удаления материалов, возможности делать такие запросы легально, уведомлению пользователей о том что их материалы снимаются (с объяснением почему), предоставлению возможности оспаривания и ограничениями блокировки контента по территориальному принципу, если это возможно.

Под оценку попали сервисы таких компаний как:
- Apple
- Google (Alphabet)
- Facebook
- Microsoft
- Twitter
и многие другие.

Оценки большей части далеко не блестящие, но, например, Youtube, Apple Store и Google Play получили оценку по всем 5 направлениям, остальные так или иначе хуже.

Подробнее в таблице сравнения сервисов [2] и в итоговом отчёте [3]

Ссылки:
[1] https://www.eff.org/who-has-your-back-2018#introduction-government-censorship-in-the-age-of-https
[2] https://www.eff.org/files/2018/05/31/whyb-2018-chart-3b.pdf
[3] https://www.eff.org/files/2018/05/31/whyb_2018_report.pdf

#privacy #censorship
В Великобритании правительство открыло ключевые части OS MasterMap, картографических данных выского качества. Официальный анонс [1] и детальное описание публикуемых данных [2].

Данные публикуются с акцентом на поддержку малого бизнеса для которого приобретение данных является существенной нагрузкой для их бюджета.

Ссылки:
[1] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/716023/OSMM_narrative.pdf
[2] https://www.gov.uk/government/news/unlocking-of-governments-mapping-and-location-data-to-boost-economy-by-130m-a-year

#opendata
Финансовый отчёт норвежского государственного пенсионного фонда
- за 1 кв 2018 г. https://www.nbim.no/contentassets/2d7320021b0e40b7bb6a45c3d827a635/government-pension-fund-global---1q-2018-report.pdf
- годовой отчёт за 2017 г. https://www.nbim.no/en/transparency/reports/2017/annual-report-2017/
- и отчёт о владении (ownership report) https://www.folketrygdfondet.no/getfile.php/132669-1495538600/Download%20center/Ownership%20reports/Ownership%20report%202016.pdf
- официальная статистика всех пенсионных фондов Норвегии https://www.ssb.no/en/pensjonsfond

Это примерно всё что я думаю про Пенсионный Фонд РФ не только в контексте грядущего повышения пенсий, но и самого смысла его существования.

Дополню для журналистов которые хотят писать по этой теме. Если Вы просто пройдётесь по сайтам государственных фондов сравнимых с Россией пенсионных систем и сделаете _сравнение их открытости_ Вы сами всё поймете.

#opendata #opengov
Январское исследование IDB: Open Up guide: Testing how to use opendata to combat corruption in Mexico [1] довольно подробно описывает процессы раскрытия и использования данных о деятельности государства в Мексике и как они используются обществом для противодействия коррупции.

Исследование короткое, но полезное, с методикой описания видов и оценки качества данных и их применимости.

Ссылки:
[1] https://drive.google.com/file/d/1de9WwYhUsgY8LJLnQmDJY3RyM2Lw1TN7/view

#opendata #mexico