Ivan Begtin
9.13K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
May 24, 2024
May 25, 2024
May 27, 2024
Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.

Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].

Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.

Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.

Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/

#opendata #datasets #data #geodata #microsoft
May 28, 2024
В рубрике закрытых данных в России Минэнерго закрыло статистику о производстве бензина, в РБК подробности [1] а формулировки то там какие «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом»

С такими формулировками можно всё закрыть вообще. У нефтяной компании есть сайт? Его закрытие тоже «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом» .

АЗС публикуют цены? И их надо закрыть. А цены на бензин запретить обсуждать. 😠

Ссылки:
[1] https://www.rbc.ru/economics/29/05/2024/66574a469a79471b5a6f192e

#opendata #closeddata #russia #energy
May 29, 2024
May 29, 2024
Смешная картинка про российскую ГосТехИИзацию. 😂 Но вместо того чтобы говорить что не так с ГосТех'ом в РФ, я скажу что так с ГосТехом в Сингапуре. В основе ГосТеха в Сингапуре много открытого исходного кода и открытых продуктов созданных командой разработчиков их технологического государственного агентства Продукты живые, исходный код доступен https://github.com/opengovsg

Ответить на вопрос что не так с ГосТехом в РФ каждый может самостоятельно😜

#govtech #singapore #russia #opensource
May 29, 2024
May 29, 2024
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search
May 30, 2024
Два интересных и противоположных текста. В NYTimes о том как Марк Цукерберг поднабрал кармы и репутации выбрав open-source путь для развития AI в Meta. И, в целом, текст про пользу от открытия кода LLAMA.

Второй текст авторский от John Luttig из фонда Founders Fund, финансирующего многие AI стартапы что у нас на слуху, о том что фундаментальные модели ИИ будут с закрытым кодом. Потому что дорого, потому что национальная безопасность и много разных соображений.

Где правда? Я бы предположил что правда в будущих прецедентах. Если кто-то из недружественных для США стран попадётся на применении open-source LLM в каком-нибудь военном непотребстве конфликте, то open source LLM пришибут очень быстро.

Как бы то ни было тема важная, забывать про неё нельзя.

#opensource #ai #LLM
May 30, 2024
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software
May 30, 2024
В рубрике полезных инструментов по работе с данными:
Milvus Lite [1] безсерверная версия продукта Milvus, с открытым кодом и библиотекой для Python. Является векторной базой данных позволяющей реализовывать поиск по тексту или по изображениям. А также много примеров по применению вместе с языковыми моделями. [2]. Про движок Milvus [3] также забывать не стоит.

Относительно векторных баз данных то чуть ли не лучший их обзор - это примеры в документации LLamaindex [4] в разделе "Vector stores". Нет информации о производительности хранилищ, зато там перечислены практически все такие продукты.

Правда я подозреваю что DuckDB может оказаться более удобным инструментом для векторных данных и операций, если не уже, то скоро.

Ссылки:
[1] https://github.com/milvus-io/milvus-lite
[2] https://github.com/milvus-io/bootcamp/tree/master/bootcamp/tutorials
[3] https://milvus.io/
[4] https://docs.llamaindex.ai/en/stable/examples/

#vectordb #opensource #databases
May 31, 2024
Хорошая статья [1] о том как добиться высокой производительности Python при обработке очень больших файлов с данными на примере данных конкурса One Billion Row Challenge [2].

Ключевое что можно из статьи вынести:
- да, по умолчанию Python медленный, но есть много способов его очень сильно ускорить
- Polars и DuckDB дают сильнейшее ускорение, буквально 30кратное и делают обработку данных особенно быстрой
- Pandas - это медленно, пора отказываться от него где возможно
- замена CPython на PyPy заметно ускоряет процесс
- всё это без использования GPU, на ноутбуке

А я не могу не вспомнить что уже есть One Trillion Rows Challenge [3] где Dask претендуют на лучшую скорость обработки данных [4]

Больше соревнований хороших и разных!

Ссылки:
[1] https://towardsdatascience.com/python-one-billion-row-challenge-from-10-minutes-to-4-seconds-0718662b303e
[2] https://1brc.dev
[3] https://t.iss.one/begtin/5529
[4] https://docs.coiled.io/blog/1trc.html

#data #dataengineering #contests #python
May 31, 2024
В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.


Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health

#readings #ai #data #privacy
June 1, 2024
June 2, 2024
June 2, 2024
Нашёл презентацию Paul Bradshaw о недокументированных API веб-сайтов и как их искать [1]. Рецепты у него довольно простые:
- используйте Chrome Developers Tools и аналог в Firefox
- изучайте структуру ссылок и XHR типы запросов
- учитесь декодировать параметры

Ну и примеры недокументированных API тоже. Презентация должна быть доходчивой для журналистов, для которых собственно он и пишет как автор The Online Journalism Handbook.

У меня на эту же тему было несколько презентаций в контексте проблем с архивацией сайтов и в контексте поиска недокументированных API.

Так вот ключевой инструмент в работе с ними - это поисковые системы, возможность найти точки подключения проиндексированные ими.

Второй значимый инструмент - это "типовые", но недокументированные API многих программных продуктов. В первую очередь типовые API CMS.

И третий - это мобильные приложения, декодирование байткода которых или перехват их обращений к сайту также может дать много чего интересного.

Но, опять же, это всё полезно, в первую очередь журналистам, OSINT'щикам и хакерам. Для других задач нужно куда реже.

Ссылки:
[1] https://github.com/paulbradshaw/undocumentedapis/blob/main/Undocumented%20APIs.pdf

#api #readings #datajournalism
June 2, 2024
В рубрике как это устроено у них в мире существует как минимум две большие инициативы по международной кооперации вокруг открытых данных и открытости государства.

Первая - это Open Government Partnership [1], партнёрство открытых правительств где страны и регионы участники публикуют добровольные обязательства, а НКО из этих стран мониторят их соблюдение. Всего там сейчас 75 стран и более 100 городов. Причём 55 городов и территорий присоединились в 2024 году.

Основные инициативы OGP - это открытость бюджетов, открытость парламентов, вовлечение граждан в госуправление, открытость информации, открытые данные, противодействие коррупции и ещё многое другое.

В обязательствах стран и регионов не всегда есть открытые данные, часто акцент делается на партисипаторном бюджетировании. Тем не менее открытые данные есть в повестке большей части стран и многих территорий.

Из постсоветских стран в OGP участвуют Кыргызстан, Украина, Литва, Латвия, Эстония, Грузия и Армения и ряд городов из этих стран. Например, города Армавир, Гюмри, Ванадзор, Ереван. Правда в Армении почти нет обязательств властей по публикации открытых данных, на сегодняшний день.

Акцент на вовлечение городов и территорий у OGP произошёл относительно недавно, в основном поскольку застопорилось участие национальных правительств и однозначной политической ориентированностью организации.

В OGP, к примеру, нет таких стран как Вьетнам, Таиланд, Малайзия, Турция, Индия - всё это страны с большими публичными инициативами по открытости данных и национальными программами в этой области.

Другая большая международная инициатива - это Open Data Charter, о ней я расскажу в следующий раз.

Ссылки:
[1] https://www.opengovpartnership.org
[2] https://www.opengovpartnership.org/ogp-local/

#opendata #opengov #datasets #data
June 4, 2024
В рубрике интересных наборов данных

- Kiwi-Torrent-Research [1] датасет torrent файлов, включает 107 миллионов torrent'ов указывающих на 1.68 миллиардов файлов. Всего торрентов там на 59.6 GB в сжатом виде. В основе более десятка источников, в основном из Archive.org. Многие источники 3-4 летней давности, так что дамп не самый актуальный по содержанию, но, несомненно, один из самых крупных если не крупнейших.
- Rijden de Treinen train services [2] открытые данные архива данных о движении поездов в Нидерландах. Данные с 2019 по 2024 годы, в сжатом виде около 2 GB. Включают информацию о фактическом движении поездов включая информацию об остановке, времени прибытия, времени отправления, операторе, поезде и многом другом. Очень хороший обучающий датасетов учить студентов. Его используют в DuckDB для демонстрации работы базы данных [3] заодно с датасетом по расстояниям между станциями.

Ссылки:
[1] https://github.com/Kiwi-Torrent-Research/Kiwi-Torrent-Research
[2] https://www.rijdendetreinen.nl/en/open-data/train-archive
[3] https://duckdb.org/2024/05/31/analyzing-railway-traffic-in-the-netherlands.html

#opendata #datasets
June 5, 2024