Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.57K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Russian OSINT
Нашёл крутейший исследовательский проект под названием Sherloq, который представляет собой божественную GUI лабораторию из 36 инструментов с открытым исходным кодом для анализа фотографий. Проект создан профессиональным фотографом Гвидо Бартоли.

Пожалуй данное решение можно считать одним из лучших бесплатных проектов на данный момент в области форензики фотографий. Шерлок может помочь с анализом метаданных фото, определением геолокации, шумами, выявлением фальсификации фотошоп (сканы паспортов например), HEX, анализом яркости, свойств JPEG и т.д.

https://github.com/GuidoBartoli/sherloq
К вопросу о сайтах органов власти и почему это важно. Минобрнауки недавно обновили сайт и поломали _все ссылки_ на документы и разделы с ними. Как следствие теперь ссылки вроде ссылок на документы антикоррупционного регулирования [1] ведут в 404 ошибку. А именно эти ссылки указаны на страницах деклараций сведений о доходах почти всех ВУЗов. К примеру, МГУ [2], ссылка под названием "Нормативные правовые и иные акты в сфере противодействия коррупции" в разделе "Противодействие коррупции".
Новая ссылка на сайте Минобрнауки выглядит так [3], но её ещё надо найти.

Ссылки:
[1] https://minobrnauki.gov.ru/ru/activity/anticorr/npa/index.php
[2] https://www.msu.ru/info/documents.html
[3] https://minobrnauki.gov.ru/open_ministry/anticorr/npa/index.php?sphrase_id=159545

#government
Через неделю, 17 августа я буду вести вебинар о веб-архивах, как они устроены, почему это важно и как архивировать веб-сайты и соц сети практически и организационно.
Forwarded from Инфокультура
17 августа в 13:00 приглашаем на вебинар, посвященный основам веб-архивации.

На вебинаре Иван Бегтин, директор АНО «Инфокультура» и руководитель проекта Национальный цифровой архив, расскажет о практических основах веб-архивации:
🔹Как организовать веб-архив
🔹Как устроены современные веб-архивы
🔹Какие международные и российские проекты существуют в этой сфере
🔹Каковы основные веб-стратегии, стандарты и инструменты архивации
🔹С какими проблемами сталкиваются создатели веб-архивов
🔹Как сохранять социальные сети

Мероприятие пройдет в Zoom. Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1733872/
На WeatherSpark [1] замечательные визуализации средней погоды по городам мира. Есть и Россия и Москва конкретно, с рекомендацией лучшей погоды с конца июня по середину августа [2]. Как раз этот период заканчивается через несколько дней.

Сервис визуализации исходного кода (на самом деле структуры файлов в репозитории) на Github. Можно посмотреть пример на проекте undatum [3] и исходный код визуализатора [4]. Может быть полезно и просто неплохо выглядит.

Подборка курсов по Machine Learning для тех кто только начинает изучать эту область знаний [5].

Ссылки:
[1] https://weatherspark.com
[2] https://weatherspark.com/y/100524/Average-Weather-in-Moscow-Russia-Year-Round
[3] https://octo-repo-visualization.vercel.app/?repo=datacoon%2Fundatum
[4] https://octo.github.com/projects/repo-visualization
[5] https://github.com/dair-ai/ML-YouTube-Courses

#dataviz #ml
Обновлённый список отечественного ПО обязательного к предустановке от нашего Правительства в свежем постановлении [1]. Про предыдущий список я ранее писал в телеграм канале [2].

И в рассылке писал о том куда и как передают данные эти приложения [3].

Я по прежнему считаю предустановку ПО решению Правительства РФ/Минцифры РФ очень плохим решением. Вместо защиты прав граждан, исполнительная власть берет на себя ответственность за то как эти приложения за гражданами следят. Вместо ограничений на слежку, она поощряется.

Понятно что квалифицированные пользователи будут все эти приложения сразу же удалять, но таких меньшинство.

И я ведь регулярно говорил о том что все блокировки бесполезны пока государство не контролирует конечные устройства? Догадайтесь какое/какие приложения из этого списка будут использоваться в этих целях.

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202108100022
[2] https://t.iss.one/begtin/2414
[3] https://begtin.substack.com/p/15

#privacy #apps #government
Команда OpenAI представили новый продукт на основе языковой модели GPT-3. Этот продукт Codex создан чтобы переводить естественный язык в программный код. В видео представления продукта можно увидеть как он оперативно и довольно точно пишет код [1] руководствуясь довольно конкретными фразами. Тем кто считает что жизнь программистов будущего беспечна стоит задуматься о том уже скоро профессия может претерпеть существенные и, возможно, необратимые изменения. Вместо программистов будут нанимать "инженеров управления робо-программистами", а low-code и no-code платформы станут доступны самым неопытным пользователям/заказчикам программ.

Я бы предсказал ещё и появление нового поколения BI систем с голосовыми помощниками где руководители смогут сами формулировать показатели и частоту их обновления. Без кода, без аналитиков, без программистов. Думаете невозможно?

Ссылки:
[1] https://www.youtube.com/watch?v=SGUCcjHTmGY

#gpt3 #openai #automatedprogramming
Честно говоря меня поражает как в 2021 году компании которые вроде бы умеют в открытый код, всё ещё не умеют/не понимают открытые данные. Хорошая новость в том что в исследовании "Как называется это место?
Населённые пункты на карте России" [1] в коей то веки команда исследователей Яндекса опубликовали данные [2]. Для некоммерческого использования, конечно, но и понятно. Но совершенно удивительно что в Яндексе нет людей знающих что такое свободные лицензии, Creative Commons или ODBl. Такое ощущение что данные публиковались специально именно таким образом чтобы их нельзя было легально загрузить в Википедию или OpenStreetMap.

Впрочем Яндекс это лишь один из примеров дата-корпораций живущих по модели data-in, no data-out (DINDO). Подобных DINDO корпораций довольно много, тот же Facebook до того как запустили инициативу Data for Good вполне были DINDO, в общем много таких. Что, впрочем, не оправдывает нынешних строителей суверенных экосистем во всепоглощающем пожирании данных и почти полном отсутствии политики их раскрытия для общественного блага.

Ссылки:
[1] https://yandex.ru/company/researches/2021/oikonyms
[2] https://yastatic.net/s3/milab/2021/toponyms/data/RussianOikonymsDataset.zip

#opendata #yandex #datasets
NOAA сообщают что этот июль был самым жарким [1]. Похоже что текущими темпами мы застанем последствия глобального потепления гораздо раньше.

Интересно, куда двинется развитие технологий после этого? В стороны повышения эффективности сельского хозяйства? В сторону бегства человечества от реальности? В сторону тотального контроля за населением?

Ссылки:
[1] https://www.noaa.gov/news/its-official-july-2021-was-earths-hottest-month-on-record

#future
Вышел отчет Всемирного экономического форума Developing a Responsible and Well-designed Governance Structure for Data Marketplaces [1] об инициативе Data for Common Purpose Initiative [2] и фокусе на Data Marketplace
Service Providers (DMSPs) (новый термин характеризующий сервисы каталогов и рынков данных).

Заход интересен в акценте именно на Data Marketplaces, с фактически, рекомендациями регулировать именно их, в каком-то смысле, подходами близкими к регулированию бирж. Подход вполне понятный, но что-то мне подсказывает что маловероятно что он приживётся.

Ссылки:
[1] https://www.weforum.org/reports/developing-a-responsible-and-well-designed-governance-structure-for-data-marketplaces
[2] https://www3.weforum.org/docs/WEF_WP_DCPI_2021.pdf

#data #regulation #reports
Ирина Юзбекова в Forbes пишет о том что Google может, по факту, перестать выполнять 149-ФЗ если суд заставит его разблокировать Царьград [1].

Я лично ставлю на то что скорее Царьград останется заблокированным, а Google останется в России. Но гарантии этого нет, а вот уход Google с российского рынка для многих может оказаться очень болезненным.

Ссылки:
[1] https://www.forbes.ru/tehnologii/437419-google-predupredil-o-riskah-dlya-rossii-v-sluchae-proigrysha-v-sude-cargradu

#google
Напоминаю что завтра с 13:00 по Москве буду вести вебинар по организации веб-архивов.

Буду говорить о том кем, как, зачем веб-архивы ведутся. Если Вы планируете участвовать и заранее у Вас есть вопросы, можете написать их заранее и я постараюсь ответить.

Регистрация тут https://infoculture.timepad.ru/event/1733872/

#archives
В рубрике регулярные интересные наборы данных коллекция машиночитаемых текстов библий [1] в форматах XML и JSON. Тексты на 13 языках, включая синоидальный перевод на русском языке. Все данные свободны для некоммерческого использования и опубликованы под лицензией CC-BY-NC.

Ссылки:
[1] https://github.com/thiagobodruk/bible

#datasets #data #opendata
Одна из моих "любимых тем" - это культура работы госорганов с программным обеспечением и массовое использование пиратского ПО. В 2019 году я писал об этом большой пост в блоге [1] со сравнением органов власти. Если, в целом, использование пиратского ПО померять сложно, то для Microsoft Office это возможно потому что пользователи часто ставят ПО из файлопомоек и не меняет метаданные пиратских команд вшитые в эти офисные пакеты по умолчанию. Выявляются такие инсталляции через наличие меток вроде "RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz, MultiDVD Team, SamForum.ws, diakov.net" в метаданных Company для файлов .doc, docx, xls, xlsx, ppt и pptx ну и ряда других более редких.

Годы идут, кажется что тема стала менее актуальной, но не совсем. Одно из применений цифровой архивации госсайтов которую я сейчас веду в цифровом архиве [2] - это извлечение метаданных из файлов на сайтах госорганов. Когда-то я сделал для этого утилиту metawarc [3] которая извлекает метаданные из WARC файлов веб-архивов.

Опуская дальнейшие технические подробности повторюсь что как использовали пиратское ПО так и используют. На сайте Минцифры, к примеру, как минимум 3 презентации за 2019 год имеют метку SPecialiST RePack:
- https://digital.gov.ru/uploaded/files/sistema-i-struktura-realizatsii-np-tse-na-territorii-vo.pptx
- https://digital.gov.ru/uploaded/files/byichkov-ke25-1.pptx
- https://digital.gov.ru/uploaded/files/3-tsod-gorkavenko-dmitrij.pptx

Правда, одна из них от ИКС Холдинг, другая от Правительства РСЯ, а третья от представителя Правительства Вологодской области. То есть, как бы, не сотрудники Минцифры. А вот от сотрудников Минцифры в 2020 году только один документ - https://digital.gov.ru/uploaded/files/7uvedomlenie-o-voznik-konf-interesov2020.docx
но и он по шаблону от 2015 года.

Оговорюсь лишь что это по результатам анализа 582 файлов и то что сайт не заархивирован ещё полностью и анализировались только первые 13 выгруженных гигабайт.

Статистику 2-х летней давности я публиковал на data.world [3], новые цифры будут уже в каталоге DataCrafter'а [4].

P.S. На самом деле можно всё это анализировать и без тотальной выгрузки сайтов, но такой анализ скорее развлечение чем осмысленная деятельность поэтому в приоритетах у меня другие исследования/расследования пока.

Ссылки:
[1] https://begtin.tech/government-piracy/
[2] https://ruarxive.org
[3] https://data.world/infoculture/government-piracy
[4] https://beta.apicrafter.ru

#piracy #government
Zoom поймали на лжи о end-to-end шифровании и передачи данных Facebook и Google [1].

Новость не из неожиданных, потому что Zoom уже ловили на передаче данных в Китай [2].

Много подробностей в комментариях у Брюса Шнаера [3] и, я тоже не могу не прокомментировать что единственный способ избежать ухудшения ситуации с торговлей данных - её легализация и регулирование. Особенно в отношении особо крупных "экосистем" и мегакорпораций.

Ссылки:
[1] https://arstechnica.com/tech-policy/2021/08/zoom-to-pay-85m-for-lying-about-encryption-and-sending-data-to-facebook-and-google/
[2] https://www.businessinsider.com/china-zoom-data-2020-4
[3] https://www.schneier.com/blog/archives/2021/08/zoom-lied-about-end-to-end-encryption.html

#zoom #data
В рубрике интересные наборы данных, базы датасетов от GWU Libraries с собранными данными из соцсетей в контексте конкретных событий [1] вроде выборов президента в США, выборов в конгресс или коронавируса.

В основном данные из Twitter'а поскольку их собрать куда проще чем из других соц. сетей.

Ссылки:
[1] https://dataverse.harvard.edu/dataverse/gwu-libraries

#opendata #datasets
Фонд президентских грантов опубликовал данные по всем заявкам и результатам их реализации в разделе открытые данные [1]. Данные в Excel, зато весьма подробные. Идеально было бы, конечно, увидеть полные данные которые есть на карточках проектов на сайте Фонда и сами данные в форматах CSV/JSON, но и эта публикация уже очень хорошо потому что зная состояние сектора для многих в среде НКО и Excel'ем то пользоваться не всегда привычно.

А тут много данных и все полезные. Мы добавим их в наши некоммерческие проекты Открытые НКО [2] и Хаб открытых данных [3], а также в DataCrafter [4]

Ссылки:
[1] https://президентскиегранты.рф/public/open-data
[2] https://openngo.ru
[3] https://hubofdata.ru
[4] https://beta.apicrafter.ru

#datasets #ngo #openngo
Хороший обзор стартапов и тренда на рост значимости качества данных (data quality) по частоте упоминания в резюме, росту инвестиций в эту отрасль и другие признаки [1].

Я ранее уже упоминал весьма любопытные стартапы Soda [2] и Anomalo [3], а в этом обзоре ещё упоминаются Aquarium [4] и Datafold [5] и многие другие.

Качество данных, действительно, одна из ключевых задач инженерии данных и большой растущий рынок для инструментов в этой области.

Ссылки:
[1] https://gradientflow.com/data-quality-unpacked/
[2] https://t.iss.one/begtin/2810
[3] https://t.iss.one/begtin/2388
[4] https://www.aquariumlearning.com
[5] https://www.datafold.com/

#data #dataquality
Но есть и хорошие новости.
В кои-то веки разумное регулирование, направленное на преодоление провала рынка "асимметрия информации":
"В частности, новые правила обяжут кинотеатры предупреждать зрителей о том, сколько минут будет длиться реклама и показ трейлеров перед началом самого фильма. Эта информация будет размещена в зоне кассового обслуживания. Таким образом зрители смогут лучше рассчитать своё время и не опоздать на сеанс." #MarketFailure #AcasymmetricInformation #правительство #кино
https://government.ru/news/43025/