Ivan Begtin – Telegram

Ivan Begtin

7.99K subscribers

1.86K photos

3 videos

101 files

4.57K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

7.99K subscribers

Forwarded from Russian OSINT

Нашёл крутейший исследовательский проект под названием Sherloq, который представляет собой божественную GUI лабораторию из 36 инструментов с открытым исходным кодом для анализа фотографий. Проект создан профессиональным фотографом Гвидо Бартоли.

Пожалуй данное решение можно считать одним из лучших бесплатных проектов на данный момент в области форензики фотографий. Шерлок может помочь с анализом метаданных фото, определением геолокации, шумами, выявлением фальсификации фотошоп (сканы паспортов например), HEX, анализом яркости, свойств JPEG и т.д.

https://github.com/GuidoBartoli/sherloq

1.5K viewsIvan Begtin, 10:57

К вопросу о сайтах органов власти и почему это важно. Минобрнауки недавно обновили сайт и поломали _все ссылки_ на документы и разделы с ними. Как следствие теперь ссылки вроде ссылок на документы антикоррупционного регулирования [1] ведут в 404 ошибку. А именно эти ссылки указаны на страницах деклараций сведений о доходах почти всех ВУЗов. К примеру, МГУ [2], ссылка под названием "Нормативные правовые и иные акты в сфере противодействия коррупции" в разделе "Противодействие коррупции".
Новая ссылка на сайте Минобрнауки выглядит так [3], но её ещё надо найти.

Ссылки:
[1] https://minobrnauki.gov.ru/ru/activity/anticorr/npa/index.php
[2] https://www.msu.ru/info/documents.html
[3] https://minobrnauki.gov.ru/open_ministry/anticorr/npa/index.php?sphrase_id=159545

#government

Министерство науки и высшего образования Российской Федерации

Нормативные правовые и иные акты в сфере противодействия коррупции

Министерство науки и высшего образования Российской Федерации осуществляет функции по выработке и реализации государственной политики и нормативно-правовому регулированию в сфере высшего образования, а также функции по нормативно-правовому регулированию и…

1.5K viewsIvan Begtin, 13:54

Через неделю, 17 августа я буду вести вебинар о веб-архивах, как они устроены, почему это важно и как архивировать веб-сайты и соц сети практически и организационно.

1.3K viewsIvan Begtin, 13:55

Forwarded from Инфокультура

17 августа в 13:00 приглашаем на вебинар, посвященный основам веб-архивации.

На вебинаре Иван Бегтин, директор АНО «Инфокультура» и руководитель проекта Национальный цифровой архив, расскажет о практических основах веб-архивации:
🔹Как организовать веб-архив
🔹Как устроены современные веб-архивы
🔹Какие международные и российские проекты существуют в этой сфере
🔹Каковы основные веб-стратегии, стандарты и инструменты архивации
🔹С какими проблемами сталкиваются создатели веб-архивов
🔹Как сохранять социальные сети

Мероприятие пройдет в Zoom. Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1733872/

1.4K viewsIvan Begtin, 13:55

На WeatherSpark [1] замечательные визуализации средней погоды по городам мира. Есть и Россия и Москва конкретно, с рекомендацией лучшей погоды с конца июня по середину августа [2]. Как раз этот период заканчивается через несколько дней.

Сервис визуализации исходного кода (на самом деле структуры файлов в репозитории) на Github. Можно посмотреть пример на проекте undatum [3] и исходный код визуализатора [4]. Может быть полезно и просто неплохо выглядит.

Подборка курсов по Machine Learning для тех кто только начинает изучать эту область знаний [5].

Ссылки:
[1] https://weatherspark.com
[2] https://weatherspark.com/y/100524/Average-Weather-in-Moscow-Russia-Year-Round
[3] https://octo-repo-visualization.vercel.app/?repo=datacoon%2Fundatum
[4] https://octo.github.com/projects/repo-visualization
[5] https://github.com/dair-ai/ML-YouTube-Courses

#dataviz #ml

The Weather Year Round Anywhere on Earth - Weather Spark

Get monthly, daily, and hourly graphical reports of the average weather: daily highs and lows, rain, clouds, wind, etc. Great for event and trip planning!

1.5K viewsIvan Begtin, 10:32

Обновлённый список отечественного ПО обязательного к предустановке от нашего Правительства в свежем постановлении [1]. Про предыдущий список я ранее писал в телеграм канале [2].

И в рассылке писал о том куда и как передают данные эти приложения [3].

Я по прежнему считаю предустановку ПО решению Правительства РФ/Минцифры РФ очень плохим решением. Вместо защиты прав граждан, исполнительная власть берет на себя ответственность за то как эти приложения за гражданами следят. Вместо ограничений на слежку, она поощряется.

Понятно что квалифицированные пользователи будут все эти приложения сразу же удалять, но таких меньшинство.

И я ведь регулярно говорил о том что все блокировки бесполезны пока государство не контролирует конечные устройства? Догадайтесь какое/какие приложения из этого списка будут использоваться в этих целях.

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202108100022
[2] https://t.iss.one/begtin/2414
[3] https://begtin.substack.com/p/15

#privacy #apps #government

publication.pravo.gov.ru

Распоряжение Правительства Российской Федерации от 31.07.2021 № 2129-р ∙ Официальное опубликование правовых актов ∙ Официальный…

2.0K viewsIvan Begtin, 10:39

Команда OpenAI представили новый продукт на основе языковой модели GPT-3. Этот продукт Codex создан чтобы переводить естественный язык в программный код. В видео представления продукта можно увидеть как он оперативно и довольно точно пишет код [1] руководствуясь довольно конкретными фразами. Тем кто считает что жизнь программистов будущего беспечна стоит задуматься о том уже скоро профессия может претерпеть существенные и, возможно, необратимые изменения. Вместо программистов будут нанимать "инженеров управления робо-программистами", а low-code и no-code платформы станут доступны самым неопытным пользователям/заказчикам программ.

Я бы предсказал ещё и появление нового поколения BI систем с голосовыми помощниками где руководители смогут сами формулировать показатели и частоту их обновления. Без кода, без аналитиков, без программистов. Думаете невозможно?

Ссылки:
[1] https://www.youtube.com/watch?v=SGUCcjHTmGY

#gpt3 #openai #automatedprogramming

OpenAI Codex Live Demo

OpenAI Codex is an AI that translates natural language to code.

0:00 - Introduction
2:48 - Hello World
13:08 - Building a game
25:15 - Codex plugin for Microsoft Word

Learn more: https://openai.com/blog/openai-codex

2.4K viewsIvan Begtin, 17:35

Честно говоря меня поражает как в 2021 году компании которые вроде бы умеют в открытый код, всё ещё не умеют/не понимают открытые данные. Хорошая новость в том что в исследовании "Как называется это место?
Населённые пункты на карте России" [1] в коей то веки команда исследователей Яндекса опубликовали данные [2]. Для некоммерческого использования, конечно, но и понятно. Но совершенно удивительно что в Яндексе нет людей знающих что такое свободные лицензии, Creative Commons или ODBl. Такое ощущение что данные публиковались специально именно таким образом чтобы их нельзя было легально загрузить в Википедию или OpenStreetMap.

Впрочем Яндекс это лишь один из примеров дата-корпораций живущих по модели data-in, no data-out (DINDO). Подобных DINDO корпораций довольно много, тот же Facebook до того как запустили инициативу Data for Good вполне были DINDO, в общем много таких. Что, впрочем, не оправдывает нынешних строителей суверенных экосистем во всепоглощающем пожирании данных и почти полном отсутствии политики их раскрытия для общественного блага.

Ссылки:
[1] https://yandex.ru/company/researches/2021/oikonyms
[2] https://yastatic.net/s3/milab/2021/toponyms/data/RussianOikonymsDataset.zip

#opendata #yandex #datasets

Компания Яндекс

Исследование о названиях населённых пунктов

Самые распространённые, длинные, короткие и просто неожиданные названия. С комментариями лингвистов.

2.1K viewsIvan Begtin, 12:19

NOAA сообщают что этот июль был самым жарким [1]. Похоже что текущими темпами мы застанем последствия глобального потепления гораздо раньше.

Интересно, куда двинется развитие технологий после этого? В стороны повышения эффективности сельского хозяйства? В сторону бегства человечества от реальности? В сторону тотального контроля за населением?

Ссылки:
[1] https://www.noaa.gov/news/its-official-july-2021-was-earths-hottest-month-on-record

#future

1.8K viewsIvan Begtin, 20:17

Вышел отчет Всемирного экономического форума Developing a Responsible and Well-designed Governance Structure for Data Marketplaces [1] об инициативе Data for Common Purpose Initiative [2] и фокусе на Data Marketplace
Service Providers (DMSPs) (новый термин характеризующий сервисы каталогов и рынков данных).

Заход интересен в акценте именно на Data Marketplaces, с фактически, рекомендациями регулировать именно их, в каком-то смысле, подходами близкими к регулированию бирж. Подход вполне понятный, но что-то мне подсказывает что маловероятно что он приживётся.

Ссылки:
[1] https://www.weforum.org/reports/developing-a-responsible-and-well-designed-governance-structure-for-data-marketplaces
[2] https://www3.weforum.org/docs/WEF_WP_DCPI_2021.pdf

#data #regulation #reports

World Economic Forum

Developing a Responsible and Well-designed Governance Structure for Data Marketplaces

This Briefing Paper extracts insights from the discussions with thought leaders and experts to serve as a point of departure for governments and other members of the global community to discuss governance structures and regulatory frameworks

1.7K viewsIvan Begtin, 17:53

Ирина Юзбекова в Forbes пишет о том что Google может, по факту, перестать выполнять 149-ФЗ если суд заставит его разблокировать Царьград [1].

Я лично ставлю на то что скорее Царьград останется заблокированным, а Google останется в России. Но гарантии этого нет, а вот уход Google с российского рынка для многих может оказаться очень болезненным.

Ссылки:
[1] https://www.forbes.ru/tehnologii/437419-google-predupredil-o-riskah-dlya-rossii-v-sluchae-proigrysha-v-sude-cargradu

#google

Google предупредил о рисках для России в случае проигрыша в суде «Царьграду»

Google перестанет удалять из поисковой выдачи запрещенный в России контент, если суд удовлетворит иск «Царьграда» к американской компании, который грозит ей гигантским штрафом или нарушением санкционного режима. Ранее Google предложила «Царьграду» ми

1.9K viewsIvan Begtin, 05:37

Напоминаю что завтра с 13:00 по Москве буду вести вебинар по организации веб-архивов.

Буду говорить о том кем, как, зачем веб-архивы ведутся. Если Вы планируете участвовать и заранее у Вас есть вопросы, можете написать их заранее и я постараюсь ответить.

Регистрация тут https://infoculture.timepad.ru/event/1733872/

#archives

infoculture.timepad.ru

Как организовать веб-архив и архив социальных сетей. Стандарты, инструменты и продукты / События на TimePad.ru

17 августа в 13:00 (мск) приглашаем на вебинар, посвященный основам веб-архивации.

1.7K viewsIvan Begtin, 11:39

В рубрике регулярные интересные наборы данных коллекция машиночитаемых текстов библий [1] в форматах XML и JSON. Тексты на 13 языках, включая синоидальный перевод на русском языке. Все данные свободны для некоммерческого использования и опубликованы под лицензией CC-BY-NC.

Ссылки:
[1] https://github.com/thiagobodruk/bible

#datasets #data #opendata

GitHub - thiagobodruk/bible: Bible: JSON + XML

Bible: JSON + XML. Contribute to thiagobodruk/bible development by creating an account on GitHub.

1.6K viewsIvan Begtin, 12:32

Одна из моих "любимых тем" - это культура работы госорганов с программным обеспечением и массовое использование пиратского ПО. В 2019 году я писал об этом большой пост в блоге [1] со сравнением органов власти. Если, в целом, использование пиратского ПО померять сложно, то для Microsoft Office это возможно потому что пользователи часто ставят ПО из файлопомоек и не меняет метаданные пиратских команд вшитые в эти офисные пакеты по умолчанию. Выявляются такие инсталляции через наличие меток вроде "RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net" в метаданных Company для файлов .doc, docx, xls, xlsx, ppt и pptx ну и ряда других более редких.

Годы идут, кажется что тема стала менее актуальной, но не совсем. Одно из применений цифровой архивации госсайтов которую я сейчас веду в цифровом архиве [2] - это извлечение метаданных из файлов на сайтах госорганов. Когда-то я сделал для этого утилиту metawarc [3] которая извлекает метаданные из WARC файлов веб-архивов.

Опуская дальнейшие технические подробности повторюсь что как использовали пиратское ПО так и используют. На сайте Минцифры, к примеру, как минимум 3 презентации за 2019 год имеют метку SPecialiST RePack:
- https://digital.gov.ru/uploaded/files/sistema-i-struktura-realizatsii-np-tse-na-territorii-vo.pptx
- https://digital.gov.ru/uploaded/files/byichkov-ke25-1.pptx
- https://digital.gov.ru/uploaded/files/3-tsod-gorkavenko-dmitrij.pptx

Правда, одна из них от ИКС Холдинг, другая от Правительства РСЯ, а третья от представителя Правительства Вологодской области. То есть, как бы, не сотрудники Минцифры. А вот от сотрудников Минцифры в 2020 году только один документ - https://digital.gov.ru/uploaded/files/7uvedomlenie-o-voznik-konf-interesov2020.docx
но и он по шаблону от 2015 года.

Оговорюсь лишь что это по результатам анализа 582 файлов и то что сайт не заархивирован ещё полностью и анализировались только первые 13 выгруженных гигабайт.

Статистику 2-х летней давности я публиковал на data.world [3], новые цифры будут уже в каталоге DataCrafter'а [4].

P.S. На самом деле можно всё это анализировать и без тотальной выгрузки сайтов, но такой анализ скорее развлечение чем осмысленная деятельность поэтому в приоритетах у меня другие исследования/расследования пока.

Ссылки:
[1] https://begtin.tech/government-piracy/
[2] https://ruarxive.org
[3] https://data.world/infoculture/government-piracy
[4] https://beta.apicrafter.ru

#piracy #government

Ivan Begtin blog

Государство как пират

Пиратское ПО в России всегда было популярно. Результаты этого исследования это попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.

1.7K viewsIvan Begtin, 12:57

Zoom поймали на лжи о end-to-end шифровании и передачи данных Facebook и Google [1].

Новость не из неожиданных, потому что Zoom уже ловили на передаче данных в Китай [2].

Много подробностей в комментариях у Брюса Шнаера [3] и, я тоже не могу не прокомментировать что единственный способ избежать ухудшения ситуации с торговлей данных - её легализация и регулирование. Особенно в отношении особо крупных "экосистем" и мегакорпораций.

Ссылки:
[1] https://arstechnica.com/tech-policy/2021/08/zoom-to-pay-85m-for-lying-about-encryption-and-sending-data-to-facebook-and-google/
[2] https://www.businessinsider.com/china-zoom-data-2020-4
[3] https://www.schneier.com/blog/archives/2021/08/zoom-lied-about-end-to-end-encryption.html

#zoom #data

Zoom to pay $85M for lying about encryption and sending data to Facebook and Google

Zoom users to get $15 or $25 each in proposed settlement of class-action lawsuit.

2.6K viewsIvan Begtin, 19:07

VC.ru написали про приложение Минцифры AppList [1] текст в стиле "А кому оно вообще нужно?", вопрос резонный и я с ним согласен. А кому? Ну и жаль что коллеги из Минцифры не отвечают на вопросы журналистов. На мои, правда, тоже отвечают что-то редко;)

Ссылки:
[1] https://vc.ru/tech/281811

#privacy

«Приложение не делает ничего»: разбор App List от Минцифры — малоизвестной программы, предустановленной на Android — Техника на…

App List есть на смартфонах и планшетах, продаваемых в России с 1 апреля 2021 года. Минцифры планирует и дальше его развивать, но эксперты считают, что приложение никому, кроме чиновников, не нужно, а пользователи ставят ему низкие оценки в Google Play.

1.8K viewsIvan Begtin, 11:16

В рубрике интересные наборы данных, базы датасетов от GWU Libraries с собранными данными из соцсетей в контексте конкретных событий [1] вроде выборов президента в США, выборов в конгресс или коронавируса.

В основном данные из Twitter'а поскольку их собрать куда проще чем из других соц. сетей.

Ссылки:
[1] https://dataverse.harvard.edu/dataverse/gwu-libraries

#opendata #datasets

dataverse.harvard.edu

GWU Libraries Dataverse

Datasets from George Washington University Libraries.

1.5K viewsIvan Begtin, 14:23

Фонд президентских грантов опубликовал данные по всем заявкам и результатам их реализации в разделе открытые данные [1]. Данные в Excel, зато весьма подробные. Идеально было бы, конечно, увидеть полные данные которые есть на карточках проектов на сайте Фонда и сами данные в форматах CSV/JSON, но и эта публикация уже очень хорошо потому что зная состояние сектора для многих в среде НКО и Excel'ем то пользоваться не всегда привычно.

А тут много данных и все полезные. Мы добавим их в наши некоммерческие проекты Открытые НКО [2] и Хаб открытых данных [3], а также в DataCrafter [4]

Ссылки:
[1] https://президентскиегранты.рф/public/open-data
[2] https://openngo.ru
[3] https://hubofdata.ru
[4] https://beta.apicrafter.ru

#datasets #ngo #openngo

президентскиегранты.рф

Открытые данные

Единый оператор грантов Президента Российской Федерации на развитие гражданского общества с 3 апреля 2017 года.

1.6K viewsIvan Begtin, 15:21

Хороший обзор стартапов и тренда на рост значимости качества данных (data quality) по частоте упоминания в резюме, росту инвестиций в эту отрасль и другие признаки [1].

Я ранее уже упоминал весьма любопытные стартапы Soda [2] и Anomalo [3], а в этом обзоре ещё упоминаются Aquarium [4] и Datafold [5] и многие другие.

Качество данных, действительно, одна из ключевых задач инженерии данных и большой растущий рынок для инструментов в этой области.

Ссылки:
[1] https://gradientflow.com/data-quality-unpacked/
[2] https://t.iss.one/begtin/2810
[3] https://t.iss.one/begtin/2388
[4] https://www.aquariumlearning.com
[5] https://www.datafold.com/

#data #dataquality

Data Quality Unpacked - Gradient Flow

Companies have a pressing need for good data By Kenn So and Ben Lorica. As much as we loathe to repeat what has been written hundreds of times, we have to: the world is data driven. Companies gather more data about their customers to build better products…

1.8K viewsIvan Begtin, 08:55

Но есть и хорошие новости.

1.4K viewsIvan Begtin, 11:00

Forwarded from Комиссия по Регуляторике

В кои-то веки разумное регулирование, направленное на преодоление провала рынка "асимметрия информации":
"В частности, новые правила обяжут кинотеатры предупреждать зрителей о том, сколько минут будет длиться реклама и показ трейлеров перед началом самого фильма. Эта информация будет размещена в зоне кассового обслуживания. Таким образом зрители смогут лучше рассчитать своё время и не опоздать на сеанс." #MarketFailure #AcasymmetricInformation #правительство #кино
https://government.ru/news/43025/

Правительство утвердило новые правила оказания услуг кинозрителям

Постановление от 16 августа 2021 года №1338

1.4K viewsIvan Begtin, 11:00