Ivan Begtin
9.33K subscribers
2.32K photos
4 videos
109 files
5.01K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Попалось на глаза довольно давнее исследование [1] частотности применения комбинаций цифр в PIN кодах. Исследованию уже 13 лет, но, ИМХО, всё ещё актуальное. Кроме того датасет из 3.4 миллионов PIN кодов тоже доступен [2] и он относительно недавно обновлялся.

Применимо всё это не только к PIN кодам, но и ко всем аналоговым и цифровым замкам с цифрами.

Лично я раньше, регулярно, раз в месяц, устраивал себе день паранойи с ревизией паролей и мер безопасности данных и тд.

Потом слегка расслабился, стал делать это куда реже, но самые частые PINы совершенно точно не использую уже давно.

Ссылки:
[1] https://www.datagenetics.com/blog/september32012/
[2] https://github.com/Slon104/Common-PIN-Analysis-from-haveibeenpwned.com

#security #datasets #opendata
71👍1
Чуть менее чем 2.5 года назад я писал про портал открытых данных Узбекистана data.egov.uz в лонгриде Что не так с порталом открытых данных Узбекистана? [1] и решил посмотреть на него совсем недавно и... ничего не изменилось.

Наборов данных стало больше, не 6623, а уже 10412. Не так уж мало, казалось бы. Но... если в 2023 году было 2823 набора данных в одну строку, то сейчас их уже 5207, это 50% от всего опубликованного. А всего 114 наборов данных объёмом более чем в 1000 записей, это чуть более 1%. Общий несжатый объём данных с портала, если сохранять их в JSON - 426 мегабайт (в 2023 году было 284 мегабайта).

На скриншотах примеры таких однострочных датасетов.

В чём смысл такой нарезки наборов данных на бесконечное число однострочных датасетов? Он исключительно в том чтобы показать количество, а не качество. Потому что реальным пользователям данных такие однострочные наборы данных не нужны вообще ни для чего.

Поэтому изменилось ли что-то с открытыми данными в Узбекистане? Увы нет

Ссылки:
[1] https://begtin.substack.com/p/31

#opendata #uzbekistan #datasets
4👍4🌚2
В качестве регулярных напоминаний.

Я пишу в этом телеграм канале @begtin о технологиях, преимущественно, связанных с работой с данными, открытых данных, цифровой архивации и близких к этому темам почти все из которых являются, либо моей работой, либо моими хобби.

Также о том что я делаю и делают команды проектов которые я веду или с которыми я связан:
- @ruarxive - новости по цифровой и веб-архивации в контексте России и русскоязычных ресурсов
- @opendataam - открытые данные в Армении, новости о данных связанных с Арменией
- @infoculture - новости Информационной культуры, НКО ведущей ряд проектов в по открытости РФ
- @datenosearch - новости проекта поисковика по датасетам Dateno, на английском языке
- begtin.substack.com - блог/рассылка где я время от времени пишу лонгриды на русском языке
- medium.com/@ibegtin - англоязычный блог для лонгридов на английском языке. Пишу туда не очень часто, а надо бы чаще
- linkedin.com/in/ivbeg - регулярные публикации на английском языке в LinkedIn, по большей части про работу с данными.

#writings #opendata #digitalpreservation #data
👍104🔥3
Для тех кто подумывает опубликовать данные и ориентируется на пользователей которые:
a) Хотят смотреть на структуру данных и искать по ним
б) Немного умеют в SQL

Есть достаточно давний открытый инструмент datasette. Он позволяет опубликовать базу SQLite так чтобы над ней был удобный веб интерфейс с возможностью просматривать содержимое и делать SQL запросы.

Инструмент реально простой, умеет экспортировать JSON и CSV, даёт API и очень простой стандартизованный интерфейс расширяемый разными надстройками. Его довольно часто используют госорганы в Европе и в разных некоммерческих проектах чтобы сделать какие-то CSV файлы доступными. Там и инструкции все начинаются с того что "возьмите Ваши CSV файлы и преобразуйте их в базу SQLite".

Для тех кто любит использовать открытый код для того чтобы делиться данными - это полезный инструмент.

#opendata #opensource #datatools #data
👍102
Для некоторых задач уникальный по функциональности инструмент manus.im китайский облачный ИИ агент помогающий в практических исследовательских задачах, создаёт код и структурированное описание по запросу. Он оказался очень хорош в задачах которые у меня возникают время от времени - поиску недокументированного API. Этот тип задач я регулярно задаю разным ИИ агентам и Manus справляется пока что лучше всех. Неидеально, но очень неплохо, с меньшим числом глюков из-за проверки собранных результатов.

На скриншоте пример задачи с поиском недокументированного API на Arab Development Portal (www.arabdevelopmentportal.com), сайте агрегаторе официальной статистики арабских стран.

#opendata #ai #llm
👍8🔥7🙏1
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.

Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.

Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.

А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.

Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF

Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.

На случай если сотрудники/подрядчики Минэка РФ захотят замести следы, внезапно что-то удалить внести исправления к опубликованному.

Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.

Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.

#opendata #russia #datasets
🔥8👍3🙏32👏1
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.

#opendata #russia #datacatalogs
🔥22💯10😢5👍3😱21
В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚

А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.

В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.

#opendata #datacatalogs
👍14🤣9🔥21
В рубрике как это устроено у них портал исследовательских данных Австралии researchdata.edu.au

Включает 224 тысячи наборов данных из которых 96 тысяч доступны онлайн.

Портал является поисковой системой по десяткам академических репозиториев, архивов, госпорталов открытых данных и геопорталам.

Он более похож на Dateno, позволяя искать по 9 видам фасетов (фильтров).

Кроме данных в нём также доступен поиск по исследовательским проектам, персонам и организациям, сервисам и программным продуктам и так далее.

Большая часть материалов опубликованы под свободными лицензиями.

Это довольно много, для сравнения в Dateno присутствует 676 тысяч наборов данных относящихся к Австралии, преимущественно относящихся к порталам открытых данных и геопорталам.

При этом в Dateno до сих сильно меньше исследовательских данных, в основном по той причине что по исследовательским данным есть много альтернативных инструментов поиска. Поэтому Research Data и Dateno скорее дополняют друг друга и скорее всего индексировать именно этот портал мы не будем, а вот индексировать первоисточники индексируемые Research Data определенно стоит.

Кроме того в Research Data практически нет статистических данных и временных рядов, кстати, не знаю почему, в Австралии довольно продвинутые системы публикации официальной статистики.

#opendata #datacatalogs #australia
21
Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.

Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!

1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.

Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.

Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.

Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!

#irony #datacatalogs #opendata
😁29👏16🤣12👍432🔥1