Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это устроено у них портал открытых данных Торонто [1], крупнейшего города Канады с численностью в 2.7 миллиона человек.

Портал построен на базе ПО каталога открытых данных CKAN поверх API которого сделан веб-интерфейс включающий дополнительные возможности такие как:
- отображение содержания набора данных
- отображение схемы/структуры данных
- метрики качества набора данных
- возможность выгрузки в разных форматах JSON/CSV/XML
- примеры кода для работы с API
- автоматизированная визуализация данных

Любопытная надстройка с открытым кодом [2].

Сам проект создан и развивается в рамках городского плана развития открытых данных [3] весьма детально описывающего стратегию города по публикации данных.

Ссылки:
[1] https://open.toronto.ca
[2] https://github.com/open-data-toronto/ckan-customization-open-data-toronto
[3] https://www.toronto.ca/legdocs/mmis/2018/ex/bgrd/backgroundfile-110740.pdf

#opendata #canada #datacatalogs
Кто-то говорит что скоро ИИ заменит разработчиков, а на сайте фонда Sequoia статья о следующем миллиарде разработчиков [1]. Сейчас их около 100 миллионов, достижим ли миллиард? Оптимистично ли это для рынка/человечества или наоборот катастрофа ? Интересно что автор ссылается на отчёт Github'а The State of Octoverse [2] где упоминается 100 миллионов разработчиков на Github'е и 26% (21 миллион) рост их числа за прошедший год.

Интересное предсказание, вполне возможно что небезосновательное.

Ссылки:
[1] https://www.sequoiacap.com/article/the-next-billion-developers-perspective/
[2] https://github.blog/2023-11-08-the-state-of-open-source-and-ai/

#opensource #it
Forwarded from Open Data Armenia
Постепенно возвращаясь к нашим публичным активностям, хотим поблагодарить тех наших подписчиков и единомышленников, кто уже помог нам с автоматизацией сбора данных из различных важных источников. Будем очень рады, если круг таких людей расширится, потому что наша миссия – не только собрать все важные для Армении и армян данные в машиночитаемом и общедоступном виде, но и развивать сообщество неравнодушных к этой теме людей.

Вот список задач, ожидающих своих героев. Не забывайте прокомментировать задачу, если берётесь за неё.

Stay tuned!
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] https://www.nsdata.cn
[2] https://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] https://data.cma.cn/en
[5] https://www.forestdata.cn
[6] https://www.agridata.cn
[7] https://www.geodata.cn
[8] https://www.nms.org.cn
[9] https://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] https://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch
Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.

Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23

#ai #opendata #wikidata #datasets #research #readings
Я давно не писал про проект реестра всех каталогов данных в мире Common Data Index [1], а там довольно много обновлений.

1. У каждого каталога данных добавлен макрорегион к которому он относится. Макрорегионы - это группировки стран по местонахождению, например, Северная Африка или Юго-восточная Азия. В основе привязки классификатор UN M49. Это удобно для поиска каталогов данных по странам и территориям
2. Для каталогов добавлено свойство is_national, является ли каталог данных национальным порталом открытых данных. Таких каталогов не так много
3. Охвачены практически все страны кроме 31 и все из неохваченных, или беднейшие страны мира, или мельчайшие островные государства. Это не значит что по ним нет наборов данных, а значит что по ним нет отдельных каталогов данных.
4. Сейчас всего 9912 каталогов данных. Какие-то записи удаляются как дубликаты, какие-то добавляются как новые. Большая часть нового - это каталоги геоданных
5. Самая сложная часть - это повышение качества реестра поскольку в большинстве случаев, например, наименование владельца каталога можно указать только вручную.
6. Для языков каталогов данных добавлена их расшифровка. Теперь не только код "ES", но и его название на английском "Spanish" и так для всех языков всех каталогов.

В целом могу сказать что не хватает какого-то гибридного инструмента между Semantic Mediawiki, Airtable и базой данных так чтобы можно было бы вносить изменения, и вручную, и через API, и отображать данные без труда при любых изменениях схем.
Потому что сейчас работа над реестров ведётся полувручную через автоматизированные скрипты изменения сразу кучи YAML файлов. Файловая система используется как аналог СУБД, а потом изменения собираются в JSON lines датасеты.

Следующим шагом за реестром был и остаётся поисковик по наборам данных о котором я ещё обязательно напишу, но тут уже без промежуточных результатов. Его получится увидеть только когда он будет хотя бы MVP.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #datasets
В рубрике как это работает у них портал показателей и одновременно портал открытых данных статистической службы Ирландии data.cso.ie [1]. Каждый показатель рассматривается, одновременно, ещё и как набор данных и на каждой отдельной странице показателя есть, как отображение для статистиков и аналитиков, с выбором параметров и визуализацией так и для разработчиков с API и возможностью полной выгрузки набора данных в форматах XLSX, CSV, PX, JSON-Stat.

В основе продукт PxStat с открытым кодом [2] разработанный статслужбой достаточно давно и поддерживаемый в рамках открытой разработки.

Ссылки:
[1] https://data.cso.ie
[2] https://github.com/CSOIreland/PxStat

#opendata #datasets #opensource #datacatalogs #statistics #ireland
Я ничего не писал про увольнение Сэма Альтмана из OpenAI ожидая когда станут известны подробности и подробности уже прозвучали, он переходит в Microsoft, что, для Microsoft, несомненно большой выигрыш. Тем временем просто интереса ради почитать обзор того как менялся состав правления OpenAI за 6 лет [2], там немало любопытного и непрозрачного было.

Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.

Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board

#ai #microsoft
OneTable [1] новый ожидаемый стандарт/инструмент по преобразованию табличных данных из Apache Hudi, Delta Lake и Apache Iceberg. Развивают его OneHouse, Google и Microsoft и уже заявлена поддержка 4-х видов каталогов данных и 8 движков для запросов. Стандарт никак не затрагивает открытые данные, потому что никто не использует в них такие форматы, но затрагивает корпоративные системы использующие подобные форматы.

Обещают что проект в итоге будет передан в Apache Foundation, уже сейчас можно опробовать через репозиторий открытого кода и демо на Docker.

Ссылки:
[1] https://onetable.dev/

#data #datatools #opensource
В рубрике как это устроено у них проект OpenEI (Open Energy Initiative) [1] развивается Департаментом энергетики США и включает инфраструктурные ресурсы для исследователей в области энергетики. В том числе репозитории открытых научных данных:
- Open Energy Data Initiative [2] 26 озёр данных посвящённых теме энергетики, общим объёмом 2.7 петабайта
- Geothermal Data Repository [3] данных по геотермальным источникам, 271 терабайт
- Marine and Hydrokinetic Data Repository [4] данных по морским и гидрокинетическим источникам, 29 терабайт

А также многие другие данные [5].

Все данные, включая наиболее крупные наборы данных, доступны без взимания платы. К большинству наборов данных приложены примеры в Jupyter Notebook, доступ предоставляется через инфраструктуру Amazon AWS, Azure или Google Cloud. Всё за что нужно платить исследователям - это за использование инфраструктуры облачных сервисов Microsoft, Amazon или Google, и только в тех случаях, когда им нужны высокопроизводительные расчёты.

От себя добавлю что 3 петабайта открытых данных это не предел, есть наборы данных и общедоступные озёра данных и большего размера.

Ссылки:
[1] https://openei.org
[2] https://data.openei.org
[3] https://gdr.openei.org/
[4] https://mhkdr.openei.org/
[5] https://openei.org/wiki/Data

#energy #opendata #usa #datacatalogs #datasets
Большая симпатичная подборка того как не надо и как надо рисовать графики Friends Don't Let Friends Make Bad Graphs [1].

Все примеры скорее про научные публикации чем про дата журналистику, с открытым кодом для R Studio.

Ссылки:
[1] https://github.com/cxli233/FriendsDontLetFriends

#dataviz #opensource
Я читаю свежие новости по поводу того что Правительство РФ запланировало к лету 2024 года сформировать нацпроект "Экономика данных" [1] [2] и почему-то у меня в голове это складывается исключительно со словами "токсичный оптимизм". В России, в принципе, по деятельности Правительства РФ и отдельных госорганов пиара многократно больше чем смысловых публикаций. Я об этом писал много раз, про снижение прозрачности госбюджета в связи с нацпроектами, про совершенно мутную историю с Гостехом и ещё много о чём. Внимательные читатели всё это помнят.

Так вот в виду отсутствия содержания, придётся комментировать их обещания. Далее нежирным текстом из публикации пр-ва, жирным текстом мой комментарий.

👩‍💻граждане получат возможность управлять доступностью сведений о себе,

Единственный вариант сделать такое - это заставить бизнес централизованно сдавать данные гос-ву или хранить сразу в специальном госхранилище. Нас ждут полный разгул для спецслужб и правоохранителей, новый уровень пробива и утечек и, конечно же, никакой гарантии что данные управление которыми пользователь отзывает не останутся в госхранилище помеченные как удалённые.

⚡️искусственный интеллект будет использоваться для анализа медицинских изображений, а также во всех отраслях экономики,

В медицине он уже давно используется и во всех областях где есть применение тоже используется. Правительство на это никак не влияет, использование ИИ, а вернее разного рода алгоритмов - это естественное развитие цифровизации отраслей.

⚡️все госуслуги будут доступны онлайн в проактивном режиме,

Здесь не могу не мрачно ухмыльнуться, потому что Мишустин лучше всех знает почему проактивное оказание услуг невозможно. У государства, особенно у региональных и муниципальных властей банально нет ресурсов для проактивного оказания услуг связанных с финансовой поддержкой. Я бы сказал "а спросите его почему ФНС не сделало до сих пор автоматического, а не по запросу, налогового вычета", но спрашивать некому. Поэтому коротко - это вранье, при этом Правительстве такого не будет, а следующее "сольёт тему".

⚡️все государственные информационные системы будут использовать единую платформу цифровизации «ГосТех»,

Не, ну серьёзно? Обратим внимание на отточенность формулировок, не "построены на", а "будут использовать", это важный нюанс. Чтобы ГИСы "использовали ГосТех" достаточно сделать ЕСИА частью ГосТеха и заставить всех разработчиков ГИСов использовать ЕСИА во всех случаях. Будет ли с этого кому-то польза? Сомневаааюсь.

📈капитализация 100 крупнейших ИТ-компаний увеличится в 2,5 раза,

Есть два способа этого добиться.
1-й обозвать ИТ компаниями 100 крупнейших компаний и тогда совокупная капитализация будет больше чем в 2.5 раза.
2-й девальвировать рубль в 2.5 раза, а то и больше.
Чтобы всё быстрое ё$*&^% грохнулось лучше второй вариант, но в целом пугающее заявление


⚡️рост ВВП благодаря развитию технологий составит более 11 трлн рублей,

Возвращаемся к предыдущему пункту те же рецепты, тот же ужас.

🔒будет обеспечена тотальная технологическая защищенность данных,

Столько вопросов, столько вопросов. И про тотальность, и про защищённость и про то что за данные защищать и чьи. Что, неужто утечек данных больше не будет? А с какого-года? А кто за это будет отвечать? А зуб[ы] дадут что тотально и защищённо? В общем звучит как лютый bullshit.

🛡ИИ поможет в создании безопасных условий жизни.

А тут всё очень похожие вопросы. Жизни кого? Впихивать инфобез под видом "безопасных условий жизни" в экономику данных - это не про экономику и не про данные, это про продолжение ужесточения регулирования, про усиление правоохраны, про внедрение всяческих проектов "Безопасный город" и тд. Экономика от этого не растёт.

Пока даже бессмысленно говорить о том чего там нет, потому что ничего пока в этом нацпроекте нет, его и самого то нет кроме как в форме благопожеланий.

Ссылки:
[1] https://t.iss.one/government_rus/9863
[2] https://t.iss.one/government_rus/9870

#government #data #bullshit
Please open Telegram to view this post
VIEW IN TELEGRAM
Как говорится ни добавить/ни убавить. Если нацпроект "Экономика данных" будет таким же как пиар Пр-ва РФ, то не будет в России ни данных, ни экономики.
Media is too big
VIEW IN TELEGRAM
Рубрика "Циничный пиар"
"Россия - родина слонов великих технологий!"
Я не знаю, кто писал текст для этого ролика, которым, судя по всему, открывалась вчерашняя стратсессия в "Бункере" по закрытию цифровой экономики формированию нового нацпроекта "Экономика данных". Но я точно знаю, без чьей визы на этом тексте не обошлось. И все постоянные читатели канала тоже это знают. Поэтому сейчас и здесь я это имя называть не буду.
Я представляю, как этот сборник лозунгов о светлом будущем одной отдельно взятой экономики данных (тм) смотрелся на "бункерном" мега-экране с высококачественным звуком в формате вражеской системы Dolby TrueHD. После такого вдохновляющего перформанса хочется вскочить, схватить лопату и отбойный молоток, пешком пойти в сибирскую тайгу и заполярную тундру, валить лес, прокладывать новый БАМ, вручную тащить суверенный интернет в самые глухие селения - в общем, делать всё, что, по мысли пиарщиков, должны делать зрители, проникшиеся грандиозностью концепции этой рекламы.

PS. Прокрутил ролик 10 раз. Всё хотел разглядеть в нем великие российские технологии (тм). Увидел ноутубуки Apple со стыдливо заклеенным яблоком на крышке, китайский клон робособаки от Boston Dynamics, видеостену на РИФе, собранную из корейских мониторов Samsung, какую-то картинку с инфографикой почему-то на вражеском языке, пиарщицу в лабутенах, с задумчивым видом и макбуком бродящую между стойками в ЦОДе, набитыми отнюдь не импортозамещенным "железом"... Была пара кадров с взлетающим "Протоном" - но это не великая российская, а великая советская технология, которой через пару лет исполнится 60