Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Компания Uber открыла проект Movement [1] в котором по запросу готова предоставлять данные о более чем 2 миллиардах поездках машин на Uber по всему миру. Подробнее о том как устроен их проект в ролике на Youtube [2] и, на русском языке, в заметке на Roem [3].

Резонный вопрос который может задать любой читатель этой новости в том зачем коммерческая компания будет предоставлять данные которые являются, в том числе, топливом на котором она строит свою бизнес модель. Ответ в том что для создания репутации и "торга" с властями городов по всему миру. Власти пытающиеся ограничить Uber получают в обратную сторону данные которых они так желают. Журналисты получают возможность ссылаться на Uber в своих data-расследованиях.

И да, конечно, Uber не единственный краудсорсинговый проект придерживающийся подобной политики. В основном его, конечно, реализуют общественные проекты такие как Wikipedia, OpenStreetMap, Dmoz и десятки других созданные некоммерческими организациями и общественными движениями. Но, также, подобная практика есть и у коммерческих компаний. Некоторые из них дают собственные данные, например, Google раздающий данные из своего Transparency report [4] или Citymapper призывающий власти публиковать больше открытых данных [5], [6].

Что можно сказать точно, так это то что крупные международные игроки куда больше вкладывают усилий в популяризацию работы, как со своими данными, так и в публикацию открытых данных властями, по сравнению с практически всем российским интернет-бизнесом. Не называя имен конкретных компаний, можно говорить о том что они лоббируют эксклюзивный доступ к госданным и не предоставляют их, ни пользователям, ни по запросу. В результате, рано или поздно окажется что единственный способ получить данные из некоторых российских компаний будет очень негуманным, лоббированием регулирования раскрытия ими информации через российских законодателей. Но этот способ борьбы с вампирами с помощью людоедов красивым никому не покажется.


Ссылки:
[1] https://movement.uber.com/cities
[2] https://www.youtube.com/watch?time_continue=5&v=bszvEIMVsIc
[3] https://roem.ru/09-01-2017/239968/uber-movment/
[4] https://www.google.com/transparencyreport/
[5] https://theodi.org/news/citymapper-government-open-data-improve-cities
[6] https://medium.com/citymapper/building-a-city-without-open-data-124356672deb

#opendata #opengov #citydata #uber #ubermovement
Для тех кто интересуется качеством данных пост в блоге Uber Engineering о том как управление качеством данных организовано в Uber [1]. Особенность их работы в том что данные поступают непрерывно, в реальном времени, данные большого объёма и метрики для понимания общей ситуации также нужны максимально оперативно. Для чего они разработали собственную систему управления качеством данных, Argos [2].

В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.

Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.

Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/

#dqm #dataops #uber #argos