Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]

Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619

#opensource #llm #ai #datatools
Forwarded from Open Data Armenia
[RU] Мы работаем над созданием общественного геопортала Армении где можно было бы наглядно смотреть на открытые геоданные, скачивать их, сравнивать, делать визуализации. И для этого мы собираем общедоступные геоданные.

Некоторые источники геоданных уже известны, это:
- проект Sustainable Caucasus [1]
- портал Центра экологических исследований РАН Армении [2]
- портал о земле ArmSIS [3] (более недоступен)
- портал ООН, Humanitarian Data Exchange [4]

С одной стороны геоданных много, и многие уже собраны на data.opendata.am, а с другой точки зрения всегда мало.

Если Вы знаете интересные источники геоданных по Армении/об Армении/Армянских культуре и истории в мире, просим поделиться ими, можно письмом на [email protected] или в чате в телеграм @opendataamchat.

Данные могут быть в форматах KML, SHP, GeoJSON, GML, API Esri ArcGIS, WFS, WMS, GPX и многие другие.

[EN] We are working on the creation of a public geoportal of Armenia where it would be possible to visually look at open geodata, download them, compare them, make visualizations. And for this purpose we are collecting publicly available geodata.

Some sources of geodata are already known, they are:
- Sustainable Caucasus project [1]
- the portal of the Environmental Research Center of the Armenian Academy of Sciences [2]
- ArmSIS land portal [3] (no longer available)
- UN portal, Humanitarian Data Exchange [4].

On the one hand there is a lot of geodata, and many are already collected on data.opendata.am, but on the other hand there is always not enough.

If you know interesting sources of geodata on Armenia/about Armenia/Armenian culture and history in the world, please share them, you can send an email to [email protected] or chat in telegram @opendataamchat.

Data can be in KML, SHP, GeoJSON, GML, Esri ArcGIS API, WFS, WMS, GPX and many other formats.

Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] https://og.cens.am:8081/
[3] https://armsis.cas.am/
[4] https://data.humdata.org/group/arm

#opendata #geodata #geoportal #armenia #request
В рубрике как это устроено у них проект PLATEAU [1] в Японии создан Министерством Земель, Инфраструктуры, Транспорта и Туризма и в рамках проекта создано 211 3D моделей городов и территорий Японии.

Все модели опубликованы как открытые данные на портале geospatial.jp в формате CityGML v2 и v3, а также сами 3D модели можно просмотреть онлайн в сервисе PLATEAU View [3] (осторожно, сильно нагружает браузер)

Общий объём 3D моделей составляет более 100GB в сжатом виде и более 2ТБ в распакованном.

Ссылки:
[1] https://www.mlit.go.jp/plateau/open-data/
[2] https://www.geospatial.jp
[3] https://plateauview.mlit.go.jp/

#opendata #japan #geodata #datasets #bigdata
В рубрике как это устроено у них раскрытие государственных данных в Таиланде, в основном осуществляется на Национальном портале открытых данных [1] где уже опубликовано более 15 тысяч наборов данных.

Одна из особенностей Таиланда в том что раскрытие данных полу-централизовано, у регионов и органов власти существуют свои порталы, но все они являются поддоменами Национального портала, например ranong.gdcatalog.go.th [2], и buengkan.gdcatalog.go.th [3] и созданы на базе движка CKAN. Из всех этих порталов данные автоматически и стандартизировано агрегируются на центральный портал.

Кроме того геоданные с портала отображаются на геопортале страны [4] работающем на базе TerriaJS

Всего в Таиланде порядка 134 порталов открытых данных и каталогов геоданных [5].

У ODI недавно был отчет на тему Таиланда [6] к слову, хорошо оформленный, но довольно слабый поскольку про сам Таиланд там очень мало, а кейсы все по другим странам: Великобритания, Франция, Словакия и тд. В общем-то, возникает вопрос, причём тут Таиланд?

А в целом в Таиланде, как и в большинстве стран Юго-Восточной Азии в последние годы бум раскрытия данных и модернизации раскрытия официальной статистики.

Ссылки:
[1] https://gdcatalog.go.th
[2] https://buengkan.gdcatalog.go.th
[3] https://ranong.gdcatalog.go.th
[4] https://geo.gdcatalog.go.th
[5] https://dateno.io/registry/country/TH
[6] https://theodi.org/insights/reports/empowering-thailands-digital-government-with-open-data/

#opendata #thailand #data #datacatalogs #geodata
В качестве регулярных напоминаний о том где взять открытые данные:

Списки на Github
- awesome-public-dataset один из крупнейших списков общедоступных данных
- awesome-citygml - список доступных 3D моделей городов, много, по разным странам
- awesome-gis в основном открытый код для ГИС, но и раздел с геоданными
- awesome-opendata-rus довольно давно ещё собранный нами в Инфокультуре и пополняемый контрибьюторами список данных по РФ
- awesome-italian-public-dataset список открытых данных в Италии
- awesome-syntetic-data список инструментов по генерации синтетических данных

Каталоги каталогов данных
- Dateno Registry реестр каталогов данных который мы ведём в Dateno
- datacatalogs.org каталог порталов открытых данных от Open Knowledge Foundation
- datacatalogs.ru каталог порталов открытых данных в РФ и постсоветском пространстве от Инфокультуры

Поисковики по данным
- Dateno.io поисковик по более чем 15 миллионов наборов данных, со множеством фасетов и источников
- Google Dataset Search поисковик по датасетам от Google. На сегодняшний день крупнейший в мире
- BASE (Bielefeld Academic Search Engine) один из крупнейших поисковиков по научным данным
- OpenAIRE Explore европейский поисковик и агрегатор по научным данным ЕС и не только.
- Findata.cn китайский поисковик по научным данным Китая и данным связанным с Китаем от Китайской Академии Наук
- SciDb.cn китайский агрегатор научных данных, аналог OpenAIRE
- GeoSeer единственный известный мне поисковик по геоданным (кроме Dateno, конечно)

Крупные [над]национальные порталы открытых данных
- Data.europa.eu портал открытых данных Евросоюза
- Data.gov портал открытых данных США
- Data.gov.uk портал открытых данных Великобритании

Данные для ИИ и обучения нейросетей
- Kaggle крупнейший каталог данных для ИИ, поддерживается Google
- Hugging Face большое сообщество дата сайентистов и каталог данных

#opendata #datasets #data
Не будь я занят во многом другом, сам бы в таком поучаствовал, но для тех кто в РФ и хочет поделать хорошего в плане открытости это хорошая возможность.
Мы ищем аналитика в Сбериндекс для развития портала открытых данных

Сбериндекс - это исследовательская лаборатория Сбера, которая работает над экономической статистикой на основе транзакционных данных банка. Осенью этого года мы начинаем модернизацию сайта открытых данных www.sberindex.ru, которая ориентирована на рост детальности наборов данных и удобство для пользователей. Мы ищем аналитика, которому было бы интересно внедрять передовые практики поставки статистических данных и развивать функциональность портала открытых данных.

Обязанности и функции:
◽️ Проводить анализ передовых практик порталов и стандартов открытых статистических данных , быть заказчиком и консультантом в проектировании и разработке портала открытых данных
◽️ Быть менеджером продукта - администрирование, мониторинг размещения данных, интеграций, инициация изменений, стратегия развития портала и т.д.
◽️ Координировать и организовывать сотрудничество с разработчиками, пользователями, поставщиками данных, исследователями
◽️ Участвовать в разработке дэшбордов, визуализаций данных, лендингов для исследований совместно с аналитиками данных
◽️ Разрабатывать техническую документацию, руководства для пользователей, стандарты лучших практик, схемы рабочих процессов для публикации данных
◽️ Помогать пользователям и владельцам данных, проводить обучение, информировать о работе портала

Требования:
◽️ высшее образование (техническая специальность)
◽️ прикладные навыки использования основных библиотек Python
◽️ знание основ управления данными, баз данных, визуализации данных, опыт работы с API
◽️ знание различных форматов данных (parquet, JSON-Stat, CSV и т.п.) и метаданных
◽️ интерес к стандартам и практикам публикации открытых данных, готовность погружаться в изучение и внедрение лучших практик
◽️ плюсом будут навыки разработки технических требований, знакомство с процессами разработки порталов данных, умение определять потребности пользователей дата-продуктов

Резюме и мотивационное письмо можно направлять на [email protected]
К вопросу о состоянии открытости данных в РФ, я не очень верю что в ближайшие месяцы (годы?) случится чудо и оживёт государственный портал data.gov.ru. Пока не проглядывается сценарий при котором внутри гос-ва тренд на систематическую открытость вернулся. Больше шансов что мы в Dateno соберём больше данных чем когда-то было в data.gov.ru. Там уже сейчас проиндексировано много разного и можно больше.

Но есть посмотреть профиль РФ в Dateno, то там проиндексировано только около 15 каталогов данных из 154. Почему так? Можно ли лучше?

Конечно можно, и ограничения тут очень понятные:
1. Большая часть российских госресурсов сейчас не индексируются с зарубежных датацентров. Это преодолевается развертыванием прокси в РФ и индексация через прокси. И РФ не единственная страна где есть такие ограничения.
2. Значительная часть открытых данных в России публикуется по метод рекомендациям Минэка. Они очень плохо написаны, индексировать сайты публикующие данные по ним сложно, но возможно. Только этот парсер будет только под российские госпорталы, и то не все. И, по большей части, с устаревшими данными.
3. Очень много в РФ своих геопродуктов, самописных порталов данных и тд. Это также требует написания множества парсеров. Штук 40-50. Более менее стандартизированы только порталы NextGIS, Bitrix и Орбис, но их не так много.
4. Часть порталов с данными используют известное ПО типа Ipt, Pure, Figshare и до них пока ещё не дошли руки, но как только дойдут они добавятся в общий индекс.

В итоге, если специально не заморачиваться российской спецификой получится проиндексировать ещё 20-40 каталогов данных через прокси и за счёт парсеров для универсального софта, а в остальном надо приложить существенные усилия чтобы проиндексировать оставшиеся.

В этом смысле, собрать данные, например, по Финляндии гораздо проще. Там уже большая часть каталогов данных проиндексирована, да и не проиндексированные работают на типовом ПО которое тоже скоро будет индексироваться.

Вся эта национальная специфика очень сильно снижает видимость и находимость данных. И в Dateno ещё можно более-менее, но измерить эту доступность, а, к примеру, в Google Dataset Search невозможно даже посмотреть сколько датасетов и источников есть по странам.

#opendata #dateno #datasets #datacatalogs
Кому принадлежат языки? Я имею в виду не языки программирования, а я разговорные языки. Вопрос этот одновременно философский, не без политики, и очень практичный.

Практичный потому что во многих задачах связанных с аттрибутированием объектов, будь то документы, данные, тексты, изображения и тд. можно идентифицировать язык его содержания, то далеко не всегда содержатся сведения о его географической привязке/происхождении. К примеру, если содержание на испанском языке, то как понять связан ли объект/происходит ли из Испании, а может он из Мексики, или из Чили?

Аналогично, если содержание на арабском языке, то то есть десяток стран откуда оно может происходить. И так довольно много разных языков, в первую очередь межгосударственных языков, официальных языков ООН, языков распространившихся в результате культурной/колониальной экспансии с 14 по 20 века и тд.

Какие-то языки, такие как английский, французский, испанский, португальский, уже давно имеют меньше носителей речи в странах своего происхождения чем в странах культурной и языковой экспансии.

Одновременно с этим есть узко национальные языки, применение которых почти всегда означает что объект связан с конкретной культурной средой находящейся в конкретной стране. К примеру, японский, малайский, индонезийский, фарси, польский, финский и другие языки имеют почти 100% атрибуцию с конкретной географической территорией.

Всё так, языки можно частично разметить и использовать матрицу сопоставления языка и страны. Но так работает не всегда. Один объект может несколько языковых и территориальных характеристик. К примеру, румынский исследователь на румынском языке пишет о геологических разломах в Иране. Относить его статью к Румынии или к Ирану? Или польский турист публикует GPX трек путешествия по Греции, описывая его на польском языке. Относить ли его к Польше или к Греции? Эти случаи не самые сложные, их можно разбирать по приоритетности геопривязки. Имея несколько геоклассификацией определять несколько или одну приоритетными к контексте.

Самое сложное, пока что, из того что я встречал - это статьи в глобальных энциклопедиях вроде Википедии. Как их классифицировать? Как разметить все статьи в выбранной вики с точки зрения геопривязки? Как вообще превратить Википедию в базу именно геоданных? Понятно что часть статей имеющих координаты или указание территорий легко сопоставляются через Wikidata, но большую часть статей простым образом не разметишь.

Всё это практические, прикладные вопросы взгляда на языки. У меня перед глазами есть несколько задач анализа больших баз данных с содержанием на разных языках где такие вопросы очень актуальны.

А есть ещё те самые философские вопросы. Кому принадлежат языки, буквально? Примерно как некоторые развивающиеся страны пытающиеся отказаться от английского или французского языка, как языка колониального наследия. Потому что в их восприятии это не универсальные языки, а языки конкретных стран Великобритании и Франции.

Или почему, к примеру, у многих есть восприятие что у России монополия на русский язык? Санкционные действия многих создателей контента пошли по пути отказа от русского языка. Хотя кроме РФ у него широкая диаспора, это разговорный язык всей Центральной Азии и значительной части Кавказа.

Национальные регуляторы и цензоры также приоритетом видят для себя языки которые они считают "своими". Что добавляет давления на глобальные проекты знаний с их стороны.

Не должны ли все языки быть достоянием человечества и наступит ли тот момент когда ни одно национальное правительство не будет "владеть" языками тех кто живёт на территории их стран?

#languages #thoughts