Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В качестве регулярного напоминания о том где искать данные и какие каталоги данных существуют:
- Хаб открытых данных (hubofdata.ru) создан на базе системы каталогов данных CKAN нами (@infoculture) ещё до появления государственных порталов данных. Можно использовать для загрузки данных, а нами используется как хранилище метаданных к архивам, причём не только данных, но и веб-сайтов.

- Данные НКО (ngodata.ru) портал созданный нами для того чтобы НКО могли бы публиковать данные по результатам своей работы. Задумка была хорошая, но заинтересованность НКО в распространении своих данных мы явно
переоценили. В то же время немало данных Инфокультуры опубликовано и там тоже.

- Каталог каталогов данных (datacatalogs.ru) - создан как агрегатор метаданных о каталогах данных. Охватывает,
наверное, почти все каталоги данных в России и о России, а также некоторые цифровые репозитории где должны быть данные (в том числе), например, репозитории научных публикаций.

- DataCrafter (data.apicrafter.ru) - каталог данных созданный в рамках нашего коммерческого проекта APICrafter. Значительная часть данных открыта и общедоступна. Всё ещё в бета режиме и пока используется для технологических экспериментов в основном. Вроде того что я постоянно рассказываю о классификации данных и разметки типов полей данных по их смыслу (кодам ИНН, ФИО, персональным данным, справочникам и тд)

Всё это то что находится в открытом доступе, а также много данных которые мы постоянно собираем и до которых _не доходят руки_, потому что собрать данные != документировать данные != привести данные удобный вид.

#opendata #dataportals #datasets #datadiscovery
Любопытный продукт про работу с данными с открытым кодом JuiceFS [1], облачная файловая система с поддержкой многих облачных провайдеров и предоставляющая S3 совместимый интерфейс. Базовая архитектура продукта в том что все метаданные хранятся в Redis или в другом key-value хранилище, а файлы в S3 совместимом хранилище файлов. Никакой магии, но полезный рабочий инструмент. Авторы пошли тем же путём что я уже часто описываю - сделать популярный open source продукт и привлекать венчурные инвестиции на облачное решение [2].

Другой интересный продукт схожего типа Seaweedfs [3] также создающий онлайн хранилище с поддержкой десятка если не больше хранилищ метаданных собственным хранилищем файлов. Что интересно, как и другие продукты по распределённому хранению файлов, он развивается в сторону объектного хранения. Фактически key-value хранилища для блобов (кусков данных по которым не осуществляется поиск, например бинарных файлов).

А один из самых известных и успешных проект среди распределённых хранилищ - это MinIO [4], они подняли $126M инвестиций на S3 совместимое ПО и это не облачный продукт, а именно серверное ПО, покупатели, в основном, хостеры и корпорации создающие публичные и приватные файловые хранилища. В основе их же продукт с открытым кодом по AGPL3 лицензией.

Файловые хранилища - это "нижняя" часть инфраструктуры работы с данными. Иногда можно полностью обойтись облачными решениями, а иногда надо разворачивать собственное хранение первичных и промежуточных файлов.

Ссылки:
[1] https://github.com/juicedata/juicefs
[2] https://juicefs.com/
[3] https://github.com/chrislusf/seaweedfs
[4] https://www.min.io
[5] https://www.crunchbase.com/organization/minio-inc

#data #datainfrastructure #storage #startups
В рубрике интересных наборов данных, Google Mobility Report, данные о передвижении жителей стран во время COVID-19. Компания опубликовала и обновляет файлы в виде CSV файла по всему миру, CSV файлов по странам и в виде PDF отчетов по каждой стране [1]. Всего данных на 844 МБ в распакованном виде, данные по России тоже есть.

Одно ограничение в том что условия использования указанные там - это условия использования Google [2], а это, конечно, не свободная лицензия.

Тем не менее практическое применение этим данным вполне возможно найти.

Ссылки:
[1] https://www.google.com/covid19/mobility/
[2] https://policies.google.com/terms?hl=ru

#opendata #data #covid19
Несомненно полезная визуализация онтологии инициатив Data and AI for Good [1]. Автор Jake Porway, сооснователь проекта DataKind просистематизировал несколько десятков инициатив по неплохой методологии [2] собрал вот такую визуальную картину.

Если кратко, то у инициатив "за всё хорошее" в данных и в ИИ есть два вектора:
- уменьшить ущерб
- увеличить пользу

Думают об этом, создают проекты, сообщества, инициативы, регулирование и кодексы очень многие. С разными подходами и этическими базисами. Ещё до рисования этой картинки и текста, летом 2021 года автор собирал кластеры участников процесса и получилось неплохо.

Ссылки:
[1] https://data.org/news/a-taxonomy-for-ai-data-for-good/
[2] https://data.org/wp-content/uploads/2022/02/Landscape-Methodology_FINAL.pdf
[3] https://docs.google.com/document/d/1WoIQUJHFSMG-biaB5pNPdrPauK2Sn920VAvP68dyQ1I/edit
#data4good #ai4good #data #policies
Я уже писал про содержание российского портала data.gov.ru [1] и выкладывал его дамп для тех кто хочет его исследовать [2].

Чтобы дополнительно объяснить что с ним не так нужны были сравнимые по уровню и масштабу каталоги данных и такие каталоги есть.
В каталоге Humanitarian Data Exchange data.humdata.org опубликовано около 31 тысячи наборов данных, а в каталоге-агрегаторе OpenDataSoft data.opendatasoft.com размещено около 25,6 тысяч наборов данных. Очень близкие цифры с data.gov.ru где опубликовано 26 тысяч наборов данных и вполне можно сравнивать.

Поскольку я непрерывно скачиваю каталоги данных, могу приводить цифры, не всегда финальные, но уже показательные

Так вот, предварительные и уже показательные цифры:
- data.gov.ru - 100% наборов данных, 26 тысяч наборов, всё вместе 29GB
- data.humdata.org - 205GB объём уже скачанных 21% наборов данных (6600), ожидаемый итоговый объём 950-1000ГБ
- data.opendatasoft.com - 145 GB объём 40% уже скачанных данных, ожидаемый итоговый объём около 300-350GB

Откуда такая разница и почему на российском национальном портале данных их так мало?

Есть 3 основные причины:
1. Низкая интеграция портала с государственными информационными системами, только на портале электронного бюджета размещаются сотни гигабайт данных.
2. Полное отсутствие геоданных, в то время как значительная часть данных на других порталах - это Shape-файлы, используемые в геопродуктах.
3. Формальное раскрытие данных "из под палки" и по белому списку. Когда есть обязательный перечень бессмысленных требований по публикации в форматах открытых данных вакансий или списков подведов и, как результат, в виде открытых данных публикуются CSV файлы в 1-2 строки или и вовсе пустые.

И ещё для сравнения, на портале открытых данных Великобритании, data.gov.uk, только CSV файлов без сжатия опубликовано 222ГБ. Остальных скачанных данных у меня нет на руках, но я бы оценил объём остальных данных как примерно столько же. А самые большие данные там по госзакупкам и анонимизированные цифры статистики по выписке рецептурных лекарств по районам. Уникальные данные, мало где в мире публикуемые.

Какой вывод можно из всего этого сделать? К сожалению всё те же, довольно бессмысленно пользоваться российским федеральным порталом открытых данных, проще извлекать данные из первоисточников, сайтов органов власти и региональных порталов данных.

Ссылки:
[1] https://t.iss.one/begtin/3508
[2] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #dataportals #data
О ГосТехе в канале Координация профанации вышло аж 3 публикации [1] [2] [3] где автор весьма дотошно разбирает историю ГосТеха в России. Что не значит что ГосТех совершенно бесмысленная история, но что означает что то как он запускается и публичные коммуникации вокруг вызывают очень много вопросов.

Я скажу от себя лично, вне зависимости от того насколько в итоге архитектура Гостеха будет грамотной, а технические решения полезны, публичные коммуникации по нему проваливаются. Материалов в открытом доступе минимум, архитектурных сведений минимум, ответы на вопросы шаблонные и так далее. Публично вся эта инициатива подаётся _очень плохо_, как я писал ранее после их мероприятия в РАНХиГС, выглядело всё это демотивирующе и антихаризматично, даже не нейтрально уныло, а просто плохо.

Ссылки:
[1] https://telegra.ph/GosTeh-SHryodingera-02-10
[2] https://telegra.ph/GosTeh-SHryodingera-02-11
[3] https://telegra.ph/GosTeh-SHryodingera-02-13

#govtech #government #it
В рубрике полезных инструментов работы с данными, low code инструменты с открытым кодом по превращению данных в приложения.

- Budibase [1] позволяет строить простые приложения, поддерживает PostgreSQL, MySQL, MSSQL, MongoDB, Rest API и др. Кроме открытого кода есть облачная версия [2]. В примерах разного рода формы для заполнения. Написан на Javascript.

- Tooljet [3] также позволяет делать простые приложения и также поддерживает много разных баз данных PostgreSQL, MongoDB, Elasticsearch и др., написан на Javascript. Также представлен открытым кодом и облачной версией [4]

- N8N [5] автоматизация потоков задач и данных, с открытым кодом и удобным интерфейсом. Имеет много интеграций и не только с базами данных.

Таких продуктов ещё десятки, low code платформы это одна из наиболее "горячих тем" в последние пару лет. Всё чаще они позиционируются как "постройте внутреннее приложение за минуты".

Ссылки:
[1] https://github.com/Budibase/budibase
[2] https://budibase.com/pricing
[3] https://github.com/ToolJet/ToolJet
[4] https://tooljet.com/pricing
[5] https://github.com/n8n-io/n8n

#nocode #lowcode #platforms #tools
В рубрике полезного регулярного чтения, Руководство по цифровому участию [1] от People Powered о том как выбирать платформу и как организовывать процесс участия граждан в принятии решений - как собирать обратную связь, как обеспечивать онлайн голосование и многое другое. Руководство есть и на русском языке в том числе.

Авторы также составили матрицу из 50 платформ, с открытым кодом и коммерческих, из которых можно выбирать решение под свои задачи [2].

Я тут могу лишь вспомнить что с в России в 2010-2013 было несколько экспериментов соучастия граждан в цифровых моделях управления. Были сайты петиций (РОИ), систем обсуждения/публичной экспертизы нормативно-правовых документов, партисипаторной демократии и так далее. Но большая часть из них выродились или погибли.

Прижились только:
- системы жалоб (gorod.spb.gov.ru, gorod.mos.ru и аналогичные проекты)
- систем комментариев без гарантии обратной связи (regulation.gov.ru)
- инициативное бюджетирование (несколько региональных проектов)

А вот в мире проекты общественного соучастия на взлёте уже несколько лет, их всё больше и они получают инвестиции и развиваются как общественные проекты.

Ссылки:
[1] https://ru.peoplepowered.org/digital-guide-home
[2] https://airtable.com/shrxxpcHHnMc1xZSx/tblELFP9tGX07UZDo

#opengovernment #participation #opensource
... Дмитрий Данилов сообщил, что в дальнейшем планируется расширить функции нового подразделения, поручив ему надзор за исполнением законодательства о защите персональных данных граждан и информации ограниченного доступа, в том числе хранящейся в автоматизированных информационных системах государственных органов, корпораций с госучастием, а также научных учреждений и организаций. Соответствующие возможности прокурорам открывает внесенный в Госдуму законопроект, позволяющий в рамках надзора получать персональные данные. Его уже одобрил думский комитет по безопасности и противодействию коррупции.

В статье Коммерсанта [1] о появлении Отдела по надзору за исполнением законов в сфере информационных технологий и защиты информации внутри Генеральной прокуратуры РФ. Я бы ожидал в 2022 году больше уголовных дел в отношении системных интеграторов и появления аналогичных отделов в прокуратурах субъектов федерации, с фокусом на региональные ИТ.

Ссылки:
[1] https://www.kommersant.ru/doc/5216010

#digital #russia
Есть и другие новости, Налоговая служба США (IRS) законтрактовалась с компанием ID.me на работы по идентификации и распознаванию по лицам тех кто сдаёт личную налоговую отчетность онлайн. Об этом статья в Scientific American [1] со ссылкой на сайт IRS [2]. Главная причина - резкий всплеск мошенничества и преступлений связанных с подменой личности. Об этом в США был большой госдоклад за 2020 год [3] систематизирующий такие преступления.

Отдельная тема упоминаемая в статье, о том что частная компания обеспечивает идентификацию людей для госоргана и опасения что нельзя отдавать такие критичные функции бизнесу.

По моим наблюдениям, в России противоположная ситуация. Многих тревожит требование по биометрии именно потому что это делается как государственная система и сразу возникают страхи всеобъемлющей слежки.

Ссылки:
[1] https://www.scientificamerican.com/article/facial-recognition-plan-from-irs-raises-big-concerns/
[2] https://www.irs.gov/newsroom/irs-unveils-new-online-identity-verification-process-for-accessing-self-help-tools
[3] https://www.ftc.gov/system/files/documents/reports/consumer-sentinel-network-data-book-2020/csn_annual_data_book_2020.pdf

#privacy #facialrecognition #biometrics #usa #irs
Не так давно я писал про распознавание классов данных в DataCrafter'е и про небольшой движок с открытым кодом metacrafter [1], но не все и не всегда понимают зачем это нужно и для чего вообще используются подобные инструменты и нужно понимание того что содержится в таблицах с данными. Я постараюсь об этом рассказать в подробностях.

То что я ранее упоминал как классы данных, иногда называют метки данных (data labels), но самое распространённое название - это semantic type (семантический тип данных). В отличие от простых типов данных таких как числа, числа с плавающей запятой, строки, даты, бинарные блоки и так далее, семантические типы определяют смысл и предназначение именно этих данных. Смысл и предназначение как в содержании, так и в последующих вариантах применения.

Например, типом поля может быть строка, а семантическим типом может быть: адрес, номер телефона, название организации или ФИО человека. Каждый из этих семантических типов имеет разный смысл и разные модели использования. Где-то это ссылка на справочные значения, где-то данные требующие расшифровки и декомпозиции, а где-то и метрики для последующего анализа и отображения.

Многие инструменты умеют определять семантические типы весьма неплохо. Например, Talend ETL поддерживает несколько десятков семантических типов данных [2] что используется в преобразованиях данных. Некоторые семантические типы понимает и распознает Google DataStudio [3] что позволяет сразу размечать данные в наборе для разных видов визуализации. А в таком инструменте как Dataprep [4] семантические типы данных используются в задачах очистки наборов данных. И таких применений ещё много.

Поэтому отвечая на вопрос: зачем это нужно, перечислю наиболе очевидные области применения:
1. Идентификации персональных данных в целях комплаенса и соответствия требованиям.
2. Автоматизация обработки данных включая (сопоставление схем, обогащение данных, автоматизация преобразований)
3. Обеспечение качества данных: автоматизация проверки на соответствие данных шаблонам и подсказки для инженеров QA.
4. Автоматизация документирования данных автоописанием полей данных на основе их смысла
5. Улучшение визуализации в BI системах за счёт того что система начинает понимать природу данных и предлагать разные способы их визуализации
6. Повышение находимости данных (data discoverability) через доп фильтры для поиска и через дополнительный способ навигации по данным.

Наиболее остроактуальные темы - это повышение качества данных и идентификация персональных данных. Многие онлайн платформы, вроде Snowflake, автоматизируют идентификацию семантических типов.

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://help.talend.com/r/en-US/Cloud/data-preparation-user-guide/predefined-semantic-types
[3] https://developers.google.com/datastudio/connector/semantics
[4] https://docs.dataprep.ai/user_guide/clean/clean_df.html

#data #datatools #dataconcepts
В рубрике полезных инструментов с открытым кодом для работы с данными Datasette [1]. Незаменим когда надо очень быстро и простым образом опубликовать данные так чтобы можно было их не просто скачать, но и связывать с другими данными, делать SQL запросы и просматривать онлайн.

Инструмент автоматически создаёт интерфейс поверх набора данных и даёт возможности поиска по нему разными способами. Его особенность в том что он работает поверх базы SQLlite, которую также можно скачать.

Примеры публикаций датасетов с помощью datasette:
- global-power-plants.datasettes.com [2] - база электростанций по всему миру
- fara.datasettes.com [3] - реестр инагентов в США (FARA)
- covid-19.datasettes.com [4] - база кейсов по COVID-19
И многие другие.

Интерфейс который создает datasette неидеален и лично мне он не нравится, но для многих он может быть и будет полезен.

Ссылки:
[1] https://datasette.io/
[2] https://global-power-plants.datasettes.com/
[3] https://fara.datasettes.com/
[4] https://covid-19.datasettes.com/

#datatools #opendata #data #opensource
Коллекция полезных размышлений о том как считать ROI у команд работающих с данными [1] [2] [3] и о разнице в работе между data engineer, data scientist, analytics engineer, data analyst и machine learning scientist. Размышления полезны, и с точки зрения стратификации задач, и с точки зрения понимания как оценивать результат от каждого специалиста.

Например, ставить KPI дата-инженеру или analytics engineer довольно бессмысленно, инженеры работают на основе тикетов, можно обеспечивая работу систем и инфраструктуры. А вот работу data scientist'ов можно и, некоторые утверждают, обязательно измерять в KPI.

Но, здесь конечно, надо оговориться что всё это ролевое разделение в первую очередь относится к in-house командам, включая команды на аутстаффе. Для команд которые работают как внешние подрядчики существуют разные KPI для заказчики и внутри для руководства.

Ссылки:
[1] https://medium.com/data-monzo/how-to-think-about-the-roi-of-data-work-fc9aaac84a3c
[2] https://benn.substack.com/p/method-for-measuring-analytical-work?r=7f8e7
[3] https://hex.tech/blog/data-team-roi

#data #datamarket #roi #kpi
Я ранее писал о headless BI [1] и headless CMS [2], так называемых безголовых (headless) продуктов, не имеющих интерфейсов для конечных пользователей. В случае CMS это достаточно давнее изменение в подходе, его смысл в том что разделить интерфейсы редактирования текста и интерфейсы его представления. А важно это потому что каналы дистрибуции контента могут быть множественными: веб сайт, приложение для телефона, сайт для планшета, канал в Telegram, канал в Slack и ещё много чего. Поэтому headless CMS довольно неплохо развиваются, своя ниша у них уже давно есть.

С headless BI все чуть сложнее, но несколько стартапов в этой области уже существуют. Отделить создание аналитической базы и базы метрик от пользовательского интерфейса также важно в некоторых случаях поскольку систем интерфейсов может быть много и разных, а метрики нужны одни и те же.

Другой пример headless продуктов это Netlify, Fly.io, Appfleet и ещё с десяток других FaaS провайдеров (Functions-as-a-Service), где от веб интерфейса остаётся только биллинг, а вообще вся работа идёт через командную строку или API. Для работы с этими платформами можно использовать любой инструмент, свой, из экосистемы, сделать на заказ и тд. Эти продукты тоже можно отнести к headless.

Практически все headless продукты экосистемные, с заходом на то что они быстро и легко в существующую экосистему встраиваются и также позволяют поверх них и в связке создавать свои продукты.

Интересный вопрос в том какие headless продукты будут следующими? Headless CRM, ERP, CDP? Такого пока нет. Headless mobile apps пока подпадает под headless CMS. Продукты в области data engineering и data science почти все безголовые от рождения, кроме старых ETL систем разве что.

Если есть идеи куда может развиваться эта концепция и какие продукты можно создавать то поделитесь своими мыслями в чате @begtinchat.

Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://t.iss.one/begtin/1902

#headless #data #products #startups
Pinterest заопонсорсили MemQ [1], высокопроизводительную PubSub платформу которую они сделали на замену Kafka. Они ранее писали про неё осенью 2021 г. о том что после замены Kafka на MemQ получили экономию в 80%, правда применяют его для передачи логов и тестировали на AWS, но как бы это показательно.

Продукт выглядит интересно, единственный недостаток что может Kafka будет и медленнее, но универсальнее и вокруг уже много продуктов в экосистеме.

Ссылки:
[1] https://github.com/pinterest/memq
[2] https://medium.com/pinterest-engineering/memq-an-efficient-scalable-cloud-native-pubsub-system-4402695dd4e7

#data #datatools #opensource
В рубрике "как это работает у них" портал открытых данных Министерства экономики Франции data.economie.gouv.fr [1]. На портале опубликовано 418 наборов данных 21 подразделения министерства.

Качественные особенности портала:
- все данные можно скачать в CSV, Excel и JSON форматах
- данные включающие даты, можно скачать в формате iCalendar (.ical)
- данные включающие геоданные можно скачать в форматах GeoJSON, SHP и KML
- ко всем данным и каталогу вцелом есть API
- содержание каталога можно скачать в CSV/Excel/RDF форматах.

Некоторые данные весьма большого объёма, например, 265 тысяч записей [2] из системы регистрации жалоб на бизнес SignalConso [3]

Ссылки:
[1] https://data.economie.gouv.fr
[2] https://data.economie.gouv.fr/explore/dataset/signalconso/information/
[3] https://signal.conso.gouv.fr/

#opendata #france #data #economics
Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.

Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.

А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.

В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.

По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.

Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/

#datadiscovery #opendata #data #datatools #standards
Даже не знаю как такое прокомментировать. А сколько "взломов" может происходить прямым подкупом админов? А кто в нашей стране отвечает за аудит информационных систем?
Forwarded from ВЧК-ОГПУ
16 февраля 2022 года ГУ МВД по Москве возбуждено дело, которое может стать одним из самых громких за последнее время. Сотрудникам Управления К МВД РФ и УФСБ по Москве и МО удалось выявить хакеров, которые взломали «критическую информационную инфраструктуру Российской Федерации».
 
Речь идет о взломе ГИС РД dom.mos.ru («Дома Москвы»), интегрированной в Государственную информационную систему ЖКХ (ГИС ЖКХ) dom.gosuslugi.ru. С хакерами за работу расплатились криптовалютой (USDT Tether), однако выявить заказчиков атаки на «критическую инфраструктуру» удалось. И ими оказались вовсе не западные враги. Главным подозреваемыми в рамках возбужденного дела по статье 274.1 УК РФ ( Неправомерное воздействие на критическую информационную инфраструктуру Российской Федерации) является… группа столичных чиновников, включая руководство Жилищной инспекции по ЗАО Москвы, действовавших вместе с руководителями управляющих компаний (так и сказано в материалах дела) .
 
А услуги хакеров им были нужны, чтобы более 1000 жилых домов, фактически являющихся аварийными, были приняты Мосжилинспекцией к сезонной зимней эксплуатации без соответствующих документов.

Хакеры взломали dom.gosuslugi.ru и внесли ложные отметки в государственной информационной системе ГИС "ЖКХ", будто дома, которые в реальности являются аварийными, готовы и приняты к зиме, без фактической подгрузки документов в систему.  

Пока дело возбуждено в отношении «неустановленных лиц», но вскоре в нем появятся обвиняемые.