Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
One Nation Tracked [1] декабрьская статья в New York Times о том что приватности не существует для всех включая президента Трампа. Журналисты "где-то" раздобыли файл с 50 миллиардами записей пингов (коротких сообщений о метонахождении) от телефонов к базовым станциям в США, проделали большую работу по сопоставлению их с координатами и сделали массу визуализаций.

Я писал об этом ранее, а сейчас вышли ещё и технические подробности [2]. Можно ли на основе этих данных идентифицировать конкретного человека? Да, можно.

Ссылки:
[1] https://www.nytimes.com/interactive/2019/12/19/opinion/location-tracking-cell-phone.html
[2] https://medium.com/nightingale/twelve-million-phones-one-dataset-zero-privacy-an-interview-with-the-new-york-times-stuart-a-e2988d398ba3

#privacy #leaks
Рубрика "Без комментариев". Я так понимаю что пока Meduza [1], а вскоре и остальные СМИ пишут о том что база паспортов всех проголосовавших через электронное голосование оказалась в открытом доступе.

Плохое в этом то что вообще была эта программа и то что она оказалась в открытом доступе (как и база к ней). Это не фатальная утечка, там только номера паспортов, но крайне неприятная, в виду контекста. Я пока не могу придумать рабочий кейс при котором просто список номеров паспортов без иной информации может повредить, но, как бы, даже такого лучше не допускать. Если, кстати, кто-то понимает как такие утечки могут наносить ущерб - напишите в @begtinchat

Хорошее, в том что при таких масштабах голосования неизбежно должны были быть и ошибки в паспортах и я не удивлюсь если сам реестр недостоверных паспортов на который ссылается Медуза, мягко скажем, не вполне достоверен. Во всяком случае доверия к данным МВД у меня лично по умолчанию значительно ниже чем к данным в Минкомсвязи.

P.S. То что некоторые телеграм каналы и не только эти сведения распространяют, это как раз разница политактивизма и профессионального подхода. Лично я считаю правомерным распространять причины утечек только после выполнения последовательных шагов:
- предупредить источник утечки данных
- передать журналистам для публикации материала (при условии отсутствия раскрытия самих персональных данных)

А распространять саму базу - это, мягко скажу, если доказать что это перс данные - то незаконно, а даже если не доказать, то неэтично. Конкретные примеры каналов приводить не буду.

Ссылки:
[1] https://meduza.io/feature/2020/07/09/vlasti-fakticheski-vylozhili-v-otkrytyy-dostup-personalnye-dannye-vseh-internet-izbirateley

#pdleaks #leaks
Огромная по масштабам утечка кодов Intel, более 20гб доступны уже сейчас [1] и это только начало, главные риски Intel в том что там могут найти специально зашитые бэкдоры, смешным образом, по слову "backdoor" в исходном коде и в том что поскольку Intel не так много исходного кода раскрывало и подвергало публичной проверке кода на безопасность, есть хороший шанс на большое число zero-day уязвимостей которые будут ещё долго всплывать.

В Arstechnica подробнее о том как такое стало возможно [2], если коротко то плохо настроенный сервер в Akami CDN и криво настроенное ПО, а также пароли в формате Intel123 и intel123.

Нет 100% защиты от таких утечек, но в в целом это плохая ситуация для Intel. Если в этой утечке найдут бэкдоры или какие либо подтверждения сокрытия проблем с их процессорами, то это неизбежно отразится и на стоимости их акций и в виде проблем на рынке.

Ссылки:
[1] https://t.iss.one/exconfidential/590
[2] https://arstechnica.com/information-technology/2020/08/intel-is-investigating-the-leak-of-20gb-of-its-source-code-and-private-data/

#security #leaks
Помните в мае 2019 года я публиковал доклад об утечках персональных данных из государственных информационных систем? [1] Хотите знать что изменилось за эти годы? А ничего не изменилось.

1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.

В качестве примера сайт https://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.

Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.

Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
Но вернуться к этой теме всё равно придется несмотря на её "подвешенное состояние", с её регулятором Роскомнадзором, взаимодействовать бессмысленно, по моему опыту, у Минцифры тема не на повестке, у Счетной палаты у неё нет полномочий, а говорить об этом с людьми в Прокуратуре - это сразу жесткий вариант и неизвестно работающий ли.

Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.

#privacy #leaks
В Бразилии масштабнейшая утечка персональных данных о гражданах [1], утекли сведения о доступе к информации о 243 миллионах бразильцев через систему e-SUS-Notificia [2]

А я хочу напомнить что в России сейчас параллельно существуют и создаются сразу несколько федеральных государственных информационных систем содержащих информацию о гражданах:
- Портал Госуслуг
- ЕГР ЗАГС
- Единая государственная информационная система в сфере здравоохранения
- Цифровой профиль
- Единый реестр населения

Главный критерий риска которых можно измерить в ответе на вопрос "О скольки гражданах в информационной системе сведения могут утечь одномоментно?". Можно даже индекс риска систем составлять по масштабу охвата граждан.

Ссылки:
[1] https://tjournal.ru/tech/244359-dannye-243-millionov-zhiteley-brazilii-popali-v-set-iz-za-parolya-v-ishodnom-kode-gosudarstvennogo-sayta
[2] https://notifica.saude.gov.br/

#privacy #leaks
Новость достаточно важная чтобы о ней написать, но недостаточная чтобы говорить только о ней. Утечка данных о заболевших COVID-19 в Москве - это не первая и не последняя такая утечка в мире. Недавно была куда большая по объёмам утечка данных в Бразилии. Но это не отменяет всего того безобразия того как реестр заболевших COVID'ом вели в Google Docs.

Слов нет, но эмоций много. Я сегодня отказывался комментировать это СМИ чтобы не ругаться матом в прямом эфире.

#leaks
Мне очень не хочется это комментировать, но, простите, не могу удержаться. (c)

Ведение баз заболевших в таблицах в Google - это называется не человеческий фактор, а халатность. Это данные составляющие врачебную тайну и их вообще не имели право использовать за пределами медицинских информационных систем или иных регламентированных ГИС. А когда утекут данные по слежки Правительства Москвы за горожанами через городскую сеть WiFi, приложение Активный гражданин и др. - это тоже будет "человеческий фактор"? А неспособность властей Москвы сформировать четкие этические и технические регламенты работать с персональными данными - это тоже человеческий фактор?

Как бы помягче сказать, это ситуация не про дисциплинарные проверки и не про увольнения, а про уголовные дела. Особенно если канал утечки до конца не перекрыли и пытливые умы найдут в этих таблицах тех людей кого они там найти не должны были и не найдут тех кого были должны.

#leaks #moscow
Большая утечка данных в Бразилии, в блоге компании PSafe [1] (португальский язык) упоминается о 220 миллионах лиц, а утечка, похоже, затрагивает также юридические лица и базу автомобилей. Нет подробностей о её источнике и где эти данные можно скачать, но первоисточник новости по ссылке выше, остальные, лишь ссылаются на него [2].

Ссылки:
[1] https://www.psafe.com/blog/vazamento-expoe-numero-de-cpf-de-milhoes-de-brasileiros-alerta-psafe/
[2] https://olhardigital.com.br/en/2021/01/20/safety/database-leak-exposes-cpf-of-almost-the-entire-population-of-brazil/

#leaks #brazil
Для тех кто интересуется о том как устроены приложения по мониторингу COVID-19 в других странах и какие есть методики их анализа и результаты можно узнать из декабрьского исследования Unmasked II [1] от Citizenlab посвящённого приложениям PeduliLindungi в Индонезии и приложений StaySafe PH и COVID-KAYA в Филлипинах.

По сравнению с другими исследованиями и анализом, авторы провели полноценный анализ безопасности приложений, разобрали код и даже смогли вытащить данные из базы Firebase которое филиппинское приложение использовало для отправки сведений о пользователях. В октябре 2020 года исследователи вначале нашли код аутенификации внутри запросов от приложения, а потом с его помощью вытащили из базы Firebase 190 тысяч записей с координатами филлипинских пользователей. Причём разработчик, судя по всему, так и не смог исправить эту ошибку до конца хотя и около месяца пытался это сделать (подробности в исследовании).

Мы в своём исследовании "Приватность государственных мобильных приложений в России" [2] сознательно не проводили такого анализа информационной безопасности, эта тема ближе к компаниям специализирующимся на проверках безопасности, пентестах и так далее. Но это совсем не значит что российские госприложения работающие с данными граждан сделаны так хорошо что там такие проблемы не могут быть.

Ссылки:
[1] https://citizenlab.ca/2020/12/unmasked-ii-an-analysis-of-indonesia-and-the-philippines-government-launched-covid-19-apps/
[2] https://privacygosmobapps.infoculture.ru/

#privacy #covid19 #security #leaks
В Мексике произошла предположительная утечка данных о 91 миллионе избирателей [1]. На теневых форумах продают эти данные и утверждают что они содержат все личные данные мексиканских избирателей на 2021 год.

Характерны комментарии в треде обсуждения "и вот так же они будут хранить наши биометрические данные?".

Ссылки:
[1] https://twitter.com/UnderTheBreach/status/1416664889603526660

#privacy #leaks #voters
Я рассказывал ранее что госорганы крайне халатно относятся к персональным данным граждан, особенно граждан которые вступают с ними в любые взаимоотношения, например, трудовые или договорные. Ещё один наглядный пример федерального уровня, Минобороны России продаёт высвобождаемое имущество и публикует протоколы торгов включая паспортные данные представителей компаний. Их довольно легко "нагуглить" запросом 'паспорт серия site:mil.ru/files filetype:pdf' [1]

Удивительно что никто из граждан так и не засудил представителей Минобороны за такое.

И это один пример из тысяч и не все они находятся так просто, но пытливые умы могут найти многое.

Ссылки:
[1] https://www.google.com/search?q=паспорт+серия+site:mil.ru/files+filetype:pdf

#leaks #milru #government #privacy #personaldata
Свежая новость, в Аргентине украдены данные о 45 миллионах паспортов граждан [1] [2]. Взлом произошёл через VPN аккаунт Министерства здравоохранения страны и уже подтвержден Министерством внутренних дел. А сам хакер уже планирует продавать эти данные.

Честно говоря, сложно добавить к этой новости что-то кроме того что для особо крупных баз данных физ лиц нельзя использовать те же подходы что и для защиты данных меньшего объёма. Чем больше база - тем больше риск. И планы нашего правительства по ускорению создания Единого регистра населения, цифровым паспортам и тд. лично у меня вызывают очень большие опасения. Баз будет много, они будут дублировать друг друга и число людей имеющих к ним доступ растёт.

Последствия могут быть катастрофичными.

Ссылки:
[1] https://roem.ru/19-10-2021/287005/argentina-id-breach/
[2] https://therecord.media/hacker-steals-government-id-database-for-argentinas-entire-population/

#privacy #leaks #argentina
ICIJ опубликовали данные из Pandora Papers [1]. Они доступны для поиска на их сайте и в виде дампов [2] для графовой базы данных Neo4J. Проще всего их скачать из репозитория на Github [3] в виде файла дампа на 429 МБ, а работать с данными в Neo4J Desktop [4]. Я думаю что сейчас в ближайшее время много будет желающих заглянуть в эти данные, журналисты так наверняка найдут там что-то интересное.

И, конечно, есть актуальная задача преобразовать эти данные в более популярные формы, потому что дампы Neo4J только в Neo4J и можно обрабатывать, а простых инструментов конвертации этих дампов нет, только через загрузку в Neo4J и последующий экспорт данных.

Ссылки:
[1] https://offshoreleaks.icij.org/investigations/pandora-papers
[2] https://offshoreleaks.icij.org/pages/database
[3] https://github.com/ICIJ/offshoreleaks-data-packages/tree/main/data
[4] https://neo4j.com/download/

#leaks #data #opendata #datasets
Некий хакер на одном из хакерских форумов пишет что продают базу в 150 ГБ на 48 миллионов QR кодов вакцинированных россиян за $100k и за меньгие деньги по частям. В качестве подтверждения доступна часть базы в одном онлайн сайте с поиском по инициалам и дате рождения и выложен файл в 10 тысяч анонимизированных записей.

Ссылки в данном случае я сознательно не даю, знающие люди знают где искать.

Если это подтвердится, то это будет крупнейшая утечка персональных данных граждан из российских ФГИС и мощнейшая дискредитация вакцинации и Госуслуг(

Очень хочется надеяться что утечку быстро прикроют или что масштабы её сильно меньше. Но если это не так, боюсь что для Минцифры наступят тяжелые времена.

UPD. И, конечно, хочется дождаться какой-либо независимой проверки что там действительно все эти данные, а не сгенерированный фэйки.

#leaks #data #personaldata #privacy
На всякий случай напомню что в 2019 году я публиковал исследование по "легальным утечкам" из государственных информационных систем [1], вот тут можно скачать его в PDF целиком [2]. И с той поры несколько раз собирался его обновить/повторить, но в итоге отложил на неопределенный срок потому что очень сложно делать такое исследование публично и не навредить тем чьи данные утекают, а непублично его можно делать только по чьему-то заказу, а в России, повторюсь, нет активного интересанта регулятора способного такую работу заказать.

По факту персональные данные публикуются _официально_ повсеместно. В реестрах образовательных учреждений субъектов федерации, если ты ИП. В реестрах граждан имеющих право на обеспечение жильем, в реестрах экспертов, на электронных торговых площадках, протоколах результатов торгов госимуществом, доверенностей приложенных к договорам и офертам поставщиков, документах экспертизы реконструкции объектов культурного наследия, протоколах собрания ТСЖ, аудиторские заключения нко с паспортными данными учредителей и такого ещё много.

Писать об этом давая ссылки нельзя, владельцы баз данных и публикаторы материалов инертны и не исправляют месяцами и годами.

Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
[2] https://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1

#privacy #leaks #personaldata
О данных, веб-сайтах и том как с ними работают. Я рассказывал что веду архивацию госсайтов, в том числе самописными инструментами, которые архивируют данные из открытых API которые веб-краулеры не поддерживают. Такая утилита есть APIBackuper для сфокусированной архивации и ещё для 5 популярных CMS у которых такое общедоступное API есть по умолчанию. Некоторые владельцы сайтов это API по умолчанию сразу отключают, но у большинства оно доступно и через него можно скачивать весь тот же контент что есть на сайте, только быстрее, удобнее и автоматически.

Но бывают и вопиющие случаи. Не буду называть конкретный орган власти/госорганизацию, но у них на веб-сайт предусмотрена подписка на рассылки СМИ. Подписка реализована встроенными средствами CMS и, барабанная дробь, открытые интерфейсы этой CMS отдают данные о всех подписчиках. К счастью, их там не так много, чуть более 200 человек и данные там хоть и персональные, но не самые чувствительные, только email+ФИО+факт подписки, но картина показательная о том как организована работа с данными в госорганах.

В данном случае даже не знаю что лучше, написать им чтобы исправили, или забить на них и пусть сами разбираются с последствиями (там правда, ничего серьёзного нет, обычный контентный сайт).

Таких случаев много, много случаев публикации чувствительных данных, просто доступа к данным и тд. Госзаказчики чаще всего просто не знают на каких инструментах создана их инфраструктура и поэтому так много недокументированных API у госсайтов и государственных информационных систем. Это вопрос не только культуры работы с данными, но и обычной технологической культуры и полнейшее отсутствие централизованного аудита и мониторинга государственного технологического сектора.

#tech #government #governmentit #privacy #leaks
В свете последних событий я слегка упустил тему с последними утечками персональных данных которые публиковали украинские хакеры (Яндекс.Еда, СДЭК и др.) и интенсивными хакерскими атаками в первую очередь на органы власти в России.

И тут есть два аспекта. Первый, что делать если "shit happened" и второй, что делать если "shit will happen soon".

Первый вопрос в том как должны себя вести компании когда у них произошли утечки данных и достаточно существенные чтобы это нельзя было бы скрыть.

Должны ли они?
- уведомить регулятора(-ов)
- уведомить всех пострадавших
- написать публичный отчет о подробностях инцидента
- поименовать и уволить/иным образом наказать ответственных
- описать полный перечень принимаемых действий для неповторения утечки в будущем
- обеспечить материальную компенсацию пострадавшим

Что-то ещё не перечисленное выше? Что компании должны сделать и делать в таких случаях?

Потому что текущие утечки - это серьёзно, но могут быть утечки и посерьёзнее. Например, утечки из крупных государственных систем или биллинга физ. лиц естественных монополий или внутренний документооборот крупных корпораций и многое другое.

А второй аспект про то что надо делать прямо сейчас компаниям/организациям для минимизации ущерба до того как дерьмо случится. Потому что можно почти на 100% быть уверенными что произошедшее только начало и оно точно случится, в зоне риска могут быть все недостаточно защищённые информационные системы, частные и государственные.

Регулирование в России и в мире развивается по принципу усиления ответственности для операторов и обработчиков персональных данных. И в России сейчас говорят об оборотных штрафах для компаний.
Что должны делать компании прямо сейчас?
- кратно увеличивать расходы на информационную безопасность
- проводить срочный аудит унаследованных информационных систем
- ужесточать ответственность за несанкционированный доступ к данным
и тд.

#security #privacy #leaks
То что утекли данные о покупках во Вкусвилл - это, конечно, очень плохо. Как и любые иные максимально персонифицированные данные позволяющие локализовать потребителей. Но что хорошо и правильно - это то что команда Вкусвилла не спрятала голову в песок, а пишут о своей реакции на утечку и принимаемых мерах [1] несмотря на негатив, которого они по любому избежать не смогут.

Всё это, конечно, никак не отменяет того что каждая такая утечка - это необратимый процесс. Посмотрим на реакцию регулятора и коллективные иски и будет ли Вкусвилл публиковать результаты расследования, организует ли внешний аудит безопасности и тд.

Ссылки։
[1] https://vkusvill.ru/media/journal/baza-dannykh-chto-proizoshlo.html

#privacy #dataleaks #leaks
Чума, война и утечки данных (с)

Как и многие, я слежу за тем сколь многие данные утекают сейчас из российских сайтов, информационных систем и сервисов. Причём если раньше были утечки у коммерческих компаний и их продуктов, вроде утечек СДЭК, Деливери.Клаб, Яндекс.Еда и Вкусвилл и регулятор(-ы) чуть ли не сразу заговорили об оборотных штрафах, а пользователи, не без оснований, возмущались непомерно малыми штрафами. Я знаю какое-то количество людей до сих пор расстроенных что не получили компенсации от коммерческих компаний после масштабных утечек.

Однако, лично меня ещё тогда заботил вопрос, а что будет когда утечки данных начнут происходить с сайтов госорганов или госкомпаний или разного рода гос-НКО. Им регулятор тоже будет грозить оборотными штрафами?
И вот что можно пронаблюдать сейчас։
- утечки персональных данных из как минимум трёх продуктов Сбера։ Сберлогистика, СберПраво и СберСпасибо
- утечки персональных данных проектов Агентства Стратегических Инициатив
- утечка данных о зарегистрированных пользователях с сайта Минтруда
- утечка данных о сотрудниках и студентах НИУ ВШЭ

Ссылки я приводить не буду, ищущие да и обрящут. Про большую часть упомянутого писали, или СМИ, или профильные телеграм каналы.

И? Где регулятор? Где тотальная проверка организаций после утечек? Где публичные расследования и увольнения руководителей по ИТ и инфобезу если они вообще там есть?

Коммерческие компании, при всех их недостатках, всё это время реагировали куда адекватнее на утечки их данных. Так что всё это показывает, и регулятора, и затронутые госструктуры крайне неприглядно.

Тут есть ещё два немаловажных факта о которых нельзя не упомянуть։
1. Сбер - это не только множество сервисов для потребителей, но и ГосТех. Только если в случае СберПрава вы идёте и пользуетесь им добровольно, то ГосТех - это история принудительная. А что если ГосТех протечёт ...? Пока не так страшно, потому что я давно уже пишу что ничего критического они туда ещё не поместили, но нынешней репутацией Сбербанка сама затея становится ещё более сомнительной.
2. Стремительное закрытие госорганами многих доступных данных, вроде госзакупок, субсидий, данных об учредителях и владельцах недвижимости было, в первую очередь, чтобы скрыть их от журналистов расследователей. Резонный вопрос теперь, а толку то? У журналистов расследователей теперь на руках с каждой неделей всё больше данных из утечек. На их основе можно проводить довольно серьёзный анализ, и то что ещё не так много было публикаций, так это только потому что это персональные данные и этические ограничения.


#data #leaks #privacy #government