В рубрике как это устроено у них, портал открытых данных Франции data.gouv.fr [1]
Включает более 40 тысяч наборов данных, в основном в форматах CSV, JSON и форматах геоданных GML, GeoJSON, Shape
Создан и поддерживается Etalab, подразделением их межминистерского управления по цифре. Работает на платформе udata [3] каталоге данных созданном специально под этот портал.
Важные особенности:
- большой раздел примеров использования данных [4] более 3000 примеров
- данные публикуют не только госорганы [5] но и предприятия и НКО
Ссылки:
[1] https://data.gouv.fr
[2] https://etalab.gouv.fr
[3] https://github.com/etalab/udata
[4] https://www.data.gouv.fr/fr/reuses/
[5] https://www.data.gouv.fr/fr/organizations/izivia/
#opendata #france #bestpractices
Включает более 40 тысяч наборов данных, в основном в форматах CSV, JSON и форматах геоданных GML, GeoJSON, Shape
Создан и поддерживается Etalab, подразделением их межминистерского управления по цифре. Работает на платформе udata [3] каталоге данных созданном специально под этот портал.
Важные особенности:
- большой раздел примеров использования данных [4] более 3000 примеров
- данные публикуют не только госорганы [5] но и предприятия и НКО
Ссылки:
[1] https://data.gouv.fr
[2] https://etalab.gouv.fr
[3] https://github.com/etalab/udata
[4] https://www.data.gouv.fr/fr/reuses/
[5] https://www.data.gouv.fr/fr/organizations/izivia/
#opendata #france #bestpractices
В рубрике как это работает у них, портал открытых транспортных данных Франции transport.data.gouv.fr [1] я писал о нём несколько лет назад и за эти годы портал активно развивался.
На портале уже размещено 417 наборов данных [2] причем 112 наборов данных - это данные реального времени!
Данные публикуются в соответствии с 6 национальными стандартами описания транспортных данных.
Многие данные можно, также, увидеть на интерактивной карте [7] в реальном времени по местам публикации этих данных их владельцами.
Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/datasets?
[3] https://normes.transport.data.gouv.fr/
[4] https://transport.data.gouv.fr/explore
#opendata #france #transport #datasets
На портале уже размещено 417 наборов данных [2] причем 112 наборов данных - это данные реального времени!
Данные публикуются в соответствии с 6 национальными стандартами описания транспортных данных.
Многие данные можно, также, увидеть на интерактивной карте [7] в реальном времени по местам публикации этих данных их владельцами.
Ссылки:
[1] https://transport.data.gouv.fr
[2] https://transport.data.gouv.fr/datasets?
[3] https://normes.transport.data.gouv.fr/
[4] https://transport.data.gouv.fr/explore
#opendata #france #transport #datasets
О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].
Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.
Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.
Ссылки:
[1] https://explore.data.gouv.fr
#opendata #france #eu
Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.
Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.
Ссылки:
[1] https://explore.data.gouv.fr
#opendata #france #eu
Сейчас многие активно обсуждают решение Сената Франции с рекомендацией Правительству Франции о признании Нагорно-Карабахской республики и призывом к выводу азербайджанских войск с территории Республики Армения [1], а я как раз давно планировал написать о том как Сенат Франции публикует данные о своей деятельности.
На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.
Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.
Ссылки:
[1] https://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/
#opendata #datasets #france #parliaments #opengov
На сайте Сената есть баннер со ссылкой на их портал открытых данных [2] где не только собраны сведения о выборах, принятых законопроектах, сенаторах, полученных ими грантах и всё это в форматах CSV, JSON и XML, но там также есть такое редкое явление как полные дампы базы данных публикуемые в формате SQL дампов для СУБД Postgres.
Например, база поправок в законодательство, Ameli [3] и в 100 мегабайтном ZIP файле содержит 500 мегабайтный SQL файл. Для полной радости не хватает только чтобы они вообще всю базу целиком публиковали для выгрузки, а не несколькими SQL файлами и чтобы к данным и к дампам баз данных была бы более полная документация.
Ссылки:
[1] https://www.senat.fr/dossier-legislatif/ppr22-003.html
[2] https://data.senat.fr/
[3] https://data.senat.fr/ameli/
#opendata #datasets #france #parliaments #opengov
www.senat.fr
Établir une paix durable entre l'Arménie et l'Azerbaïdjan - Sénat
proposition de résolution en application de l'article 34-1 de la Constitution, visant à appliquer des sanctions à l'encontre de l'Azerbaïdjan et exiger son retrait immédiat du territoire arménien, à faire respecter l'accord de cessez-le-feu du 9 novembre…
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.
Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed
#data #datatools #startups #france
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.
Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed
#data #datatools #startups #france
Pathway
Pathway - Power Your AI with Live Data
Python ETL framework for stream processing, real-time analytics, RAG, and LLM pipelines.
В рубрике как это работает у них визуализация стоимости аренды квадратного метра жилья во Франции. Автору в комментариях пишут что надо бы добавить градацию от 20 до 30 евро для Парижа, но в целом и так очень наглядно. А главное что визуализация на открытых государственных данных Министерства экологического перехода страны (Ministère de la Transition écologiqueю). Данные сверхгранулированные, гораздо более детальные чем муниципальное деление. Подробнее в файлах и в методологии.
Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/
#opendata #france #datasets
Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/
#opendata #france #datasets
В рубрике как это работает у них, французский портал code.gouv.fr [1] посвящённый использованию открытого кода. Содержит данные о 15 114 репозиториях кода созданных органами власти и госучреждениями Франции. Например, не все знают что язык программирования OCaml создан и поддерживается французским Institute for Research in Computer Science and Automation (INRIA). Или вот язык программирования Catala [2] для описания юридических текстов.
Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.
Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.
Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.
Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala
#opensource #france
Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.
Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.
Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.
Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala
#opensource #france
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
Как развивается цифровая инфраструктура научных данных во Франции. С 2022 года действует проект Un écosystème au service du partage et de l’ouverture des données de recherche (Экосистема на службе обмена и открытия данных исследований ) в виде сайта recherche.data.gouv.fr [1] которая является, с одной стороны частью национального портала открытых данных data.gouv.fr [2], а с другой реализуется Ministère de l'Enseignement Supérieur et de la Recherche (Министерством управления образованием и наукой) в рамках Le deuxième plan national pour la science ouverte (Второго национального плана по открытости науки 2021-2024 включающего темы открытости публикаций, открытости научных данных и открытости программного кода созданного в результате научных исследований.
Особенность французской научной экосистемы в большом числе автономных исследовательских центров которые в рамках этого проекта объединены через специальный комитет Министерства и как участники проекта в ролях кластеров данных (междисциплинарных центров) [4], центром компетенций, ресурсных центров и других участников.
Один из уже доступных результатов проектов - это национальный репозиторий открытых научных данных Recherche Data Gouv Génération datapaper (entrepot.recherche.data.gouv.fr) [5] созданный на базе продукта Dataverse. Там уже опубликованы 2413 наборов данных и 30 тысяч файлов из которых часть данных будет собираться из других научных репозиториев, сейчас подключен SciencesPo [6] и явно будут подключаться другие в течение 2023 года, благо Dataverse это позволяет без особых сложностей.
Одна из целей проекта в том чтобы стать службой европейского открытого научного облака (EOSC) [7], а то есть расширить интеграцию французских исследовательских центров в Европейскую цифровую научную инфраструктуру и, хотя это явно не заявляется, но кажется очень логичным, спозиционировать национальный портал исследовательских данных как один из универсальных репозиториев рекомендуемых ведущими научными изданиями для размещения данных.
В конце концов у китайцев же получается с SciDb [8], так может получится и во Франции, хотя это и выглядит слегка необычно поскольку в Евросоюзе есть наднациональные универсальные репозитории.
Интересно как будет развиваться дальнейшая интеграция раскрываемых государством данных и этого исследовательского портала, рискну предположить появление единого французского поисковика по всем открытым порталам данных, научным и государственным, потому что их много и не все собраны только в федеральных источниках и не все туда агрегируются.
Ссылки:
[1] https://recherche.data.gouv.fr/fr
[2] https://data.gouv.fr
[3] https://cache.media.enseignementsup-recherche.gouv.fr/file/science_ouverte/20/9/MEN_brochure_PNSO_web_1415209.pdf
[4] https://recherche.data.gouv.fr/fr/page/ateliers-de-la-donnee-des-services-generalistes-sur-tout-le-territoire
[5] https://entrepot.recherche.data.gouv.fr
[6] https://data.sciencespo.fr
[7] https://recherche.data.gouv.fr/fr/page/a-propos-de-recherche-data-gouv
[8] https://scidb.cn
#likbez #france #openaccess #opensciences #datasets #datacatalogs #opendata
Особенность французской научной экосистемы в большом числе автономных исследовательских центров которые в рамках этого проекта объединены через специальный комитет Министерства и как участники проекта в ролях кластеров данных (междисциплинарных центров) [4], центром компетенций, ресурсных центров и других участников.
Один из уже доступных результатов проектов - это национальный репозиторий открытых научных данных Recherche Data Gouv Génération datapaper (entrepot.recherche.data.gouv.fr) [5] созданный на базе продукта Dataverse. Там уже опубликованы 2413 наборов данных и 30 тысяч файлов из которых часть данных будет собираться из других научных репозиториев, сейчас подключен SciencesPo [6] и явно будут подключаться другие в течение 2023 года, благо Dataverse это позволяет без особых сложностей.
Одна из целей проекта в том чтобы стать службой европейского открытого научного облака (EOSC) [7], а то есть расширить интеграцию французских исследовательских центров в Европейскую цифровую научную инфраструктуру и, хотя это явно не заявляется, но кажется очень логичным, спозиционировать национальный портал исследовательских данных как один из универсальных репозиториев рекомендуемых ведущими научными изданиями для размещения данных.
В конце концов у китайцев же получается с SciDb [8], так может получится и во Франции, хотя это и выглядит слегка необычно поскольку в Евросоюзе есть наднациональные универсальные репозитории.
Интересно как будет развиваться дальнейшая интеграция раскрываемых государством данных и этого исследовательского портала, рискну предположить появление единого французского поисковика по всем открытым порталам данных, научным и государственным, потому что их много и не все собраны только в федеральных источниках и не все туда агрегируются.
Ссылки:
[1] https://recherche.data.gouv.fr/fr
[2] https://data.gouv.fr
[3] https://cache.media.enseignementsup-recherche.gouv.fr/file/science_ouverte/20/9/MEN_brochure_PNSO_web_1415209.pdf
[4] https://recherche.data.gouv.fr/fr/page/ateliers-de-la-donnee-des-services-generalistes-sur-tout-le-territoire
[5] https://entrepot.recherche.data.gouv.fr
[6] https://data.sciencespo.fr
[7] https://recherche.data.gouv.fr/fr/page/a-propos-de-recherche-data-gouv
[8] https://scidb.cn
#likbez #france #openaccess #opensciences #datasets #datacatalogs #opendata
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.
А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.
Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]
Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.
Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement
#opendata #openscience #openaccess #france #europe
А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.
Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]
Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.
Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement
#opendata #openscience #openaccess #france #europe
Хорошо иметь исторические данные за несколько столетий и пример их практического использования французский проект "История политического конфликта" (Une histoire du conflit politique) [1] в котором собраны данные показателей жизни и голосования во Франции начиная с 1789 года в виде индикаторов по всей стране, карт, отдельным муниципалитетам и политическим предпочтениям.
Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]
Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html
#opendata #datasets #digitalhumanities #france #dataviz
Все данные и их визуализации доступны для выгрузки в форматах CSV и DTA (Stata) [2]
Ссылки:
[1] https://unehistoireduconflitpolitique.fr
[2] https://unehistoireduconflitpolitique.fr/telecharger.html
#opendata #datasets #digitalhumanities #france #dataviz
25 recommandations pour l'IA en France или, по русски, 25 рекомендаций для ИИ выпустила французская Комиссия по искусственному интеллекту.
Вот 7 наиболее приоритетных, в моём вольном переводе:
1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.
По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.
Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france
#opendata #ai #france #strategies #reports #readings
Вот 7 наиболее приоритетных, в моём вольном переводе:
1. Создать условия для коллективного освоения ИИ и его проблем, запустив план по повышению осведомленности и обучению нации.
2. Вложить значительные средства в цифровые компании и трансформацию бизнеса, чтобы поддержать французскую экосистему ИИ и сделать ее одним из мировых лидеров.
3. Сделать Францию и Европу крупным центром вычислительных мощностей в краткосрочной и среднесрочной перспективе.
4. Изменить наш подход к персональным данным, чтобы продолжать защищать их и в то же время способствовать инновациям для удовлетворения наших потребностей.
5. Обеспечить влияние французской культуры путем предоставления доступа к культурному контенту при соблюдая прав интеллектуальной собственности.
6. Применять принцип экспериментирования в государственных исследованиях в области ИИ для повышения их привлекательности.
7. Разработать последовательную и конкретную дипломатическую инициативу, направленную на создание глобального управления ИИ.
По ссылке есть документ на французском языке и краткое изложение на английском. Если есть возможность, я рекомендую читать именно на французском, например, а автопереводом. Там гораздо больше рассказывается, в том числе про открытость данных и значимость для открытой экосистемы.
Ссылки"
[1] https://www.gouvernement.fr/actualite/25-recommandations-pour-lia-en-france
#opendata #ai #france #strategies #reports #readings
info.gouv.fr
Un rapport pour saisir les opportunités de l’intelligence artificielle | info.gouv.fr
Alors que l'intelligence artificielle (IA) évolue à un rythme effréné, la Commission de l'IA publie un rapport contenant 25 recommandations pour que la France puisse tirer parti de cette révolution technologique et en saisir toutes les opportunités.
В рубрике как это работает у них портал transport.data.gouv.fr во Франции посвящённый открытым данным мобильности. На нём опубликованы многочисленные датасеты с данными по трафику общественного транспорта, дорогами, парковками, морском транспорте и многое другое. Причём очень много API с данными реального времени.
Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.
Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.
#opendata #datasets #france #transport
Используется десятками компаний большая часть из которых малые и средние предприятия. Пока покрывают 15 из 19 регионов Франции, с каждым годом наращивают покрытие.
Франция одна из немногих стран с подобным системным подходом по раскрытию данных по транспорту.
#opendata #datasets #france #transport
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.
Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.
До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.
#privacy #scoring #uk #france #ai
Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.
До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.
#privacy #scoring #uk #france #ai
La Quadrature du Net
À France Travail, l’essor du contrôle algorithmique
Mise à jour du 12 juillet 2024 : le directeur général de France Travail a souhaité utiliser son droit de réponse. Vous la trouverez à la suite de l'article.
« Score de suspicion » visant à évaluer l'honnêteté des chômeur·ses, « score d’employabilité » visant…
« Score de suspicion » visant à évaluer l'honnêteté des chômeur·ses, « score d’employabilité » visant…
В рубрике как это устроено у них данные кадастра Франции доступны как открытые данные для массовой выгрузки (bulk download) [1] их можно скачать в форматах EDIGEO, DXF или TIFF и использовать в собственных приложениях. Особенность в том что доступны они не через API, а в виде сжатых файлов которые можно скачать одномоментно. Общий объём данных несколько десятков, может быть даже сотен гигабайт в сжатом виде. А также доступны регулярные полные слепки кадастра начиная с февраля 2017 года.
Ссылки:
[1] https://cadastre.data.gouv.fr/
[2] https://cadastre.data.gouv.fr/data/dgfip-pci-vecteur/2024-07-01/edigeo/feuilles/
#opendata #france #datasets #data #cadastre #land
Ссылки:
[1] https://cadastre.data.gouv.fr/
[2] https://cadastre.data.gouv.fr/data/dgfip-pci-vecteur/2024-07-01/edigeo/feuilles/
#opendata #france #datasets #data #cadastre #land
В рубрике как это работает у них открытые данные по доменам в зоне .fr (Франция) на сайте Afnic [1] В том числе руководство [2] (на французском языке).
В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.
Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.
Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf
#opendata #france #domains
В общей сложности это данные по 8.7 миллионам доменов, объёмом около 600МБ в формате CSV.
Afnic не является государственной структурой и они не имеют обязательств публиковать данные, но делают это поскольку разделяют ценности открытости.
Ссылки:
[1] https://www.afnic.fr/produits-services/services-associes/donnees-partagees/
[2] https://www.afnic.fr/wp-media/uploads/2021/03/Open-Data-fr-afnic-Guide-Utilisateurs.pdf
#opendata #france #domains
Afnic
Données partagées : l’open-data du .fr Data : les services d’exploitation des données du .fr - Afnic
Avec les services Open Data, SQUAW et la liste quotidienne des noms de domaine enregistrés, l’Afnic partage des millions de données d’activité du .fr.
В рубрике как это устроено у них Hakala [1] французский репозиторий данных для гуманитарных и социальных наук. Предоставляет открытое API [2], интерфейс OAI-PMH [3] и содержит чуть менее 800 тысяч цифровых объектов.
Кажется большим, но есть нюансы. Они почти всегда есть с научными репозиториями данных. В данном случае де-факто поиск не данных, а файлов/ресурсов и большая их часть (71%) это изображения, а самих датасетов там не более 1-2 % если к ним относить ещё и карты, большая часть которых, тоже, растровые изображения.
Иначе говоря, если смотреть глазами инженера, аналитика данных или дата сайентиста, то никаких данных там нет, а только фрагментированные первичные данные. Но учёные социологи и гуманитарии к данным, по всей видимости, относят всё что приложено к научной статье, а для гуманитарных статей это обычно изображения, видео, звуки, тексты.
Всё это к философским рассуждениям о том что такое данные и все они сводятся к тому что ответ зависит от того с кем разговариваешь. Кто аудитория? Потому что разные ответы для разных пользователей.
А также, чтобы два раза не возвращаться, ещё один интересный проект за пределами англосферы про систематизацию научных данных - это Cat OPIDoR [2] каталог научных репозиториев данных, баз данных и сервисов для их публикации и обработке во Франции. Отличается тем что сделан на Semantic Mediawiki. В каком-то смысле альтернатива re3data и других каталогов научных дата репозиториев.
Ссылки:
[1] https://nakala.fr
[2] https://api.nakala.fr/doc
[3] https://api.nakala.fr/oai2?verb=Identify
[4] https://cat.opidor.fr
#opendata #data #openaccess #france #datacatalogs
Кажется большим, но есть нюансы. Они почти всегда есть с научными репозиториями данных. В данном случае де-факто поиск не данных, а файлов/ресурсов и большая их часть (71%) это изображения, а самих датасетов там не более 1-2 % если к ним относить ещё и карты, большая часть которых, тоже, растровые изображения.
Иначе говоря, если смотреть глазами инженера, аналитика данных или дата сайентиста, то никаких данных там нет, а только фрагментированные первичные данные. Но учёные социологи и гуманитарии к данным, по всей видимости, относят всё что приложено к научной статье, а для гуманитарных статей это обычно изображения, видео, звуки, тексты.
Всё это к философским рассуждениям о том что такое данные и все они сводятся к тому что ответ зависит от того с кем разговариваешь. Кто аудитория? Потому что разные ответы для разных пользователей.
А также, чтобы два раза не возвращаться, ещё один интересный проект за пределами англосферы про систематизацию научных данных - это Cat OPIDoR [2] каталог научных репозиториев данных, баз данных и сервисов для их публикации и обработке во Франции. Отличается тем что сделан на Semantic Mediawiki. В каком-то смысле альтернатива re3data и других каталогов научных дата репозиториев.
Ссылки:
[1] https://nakala.fr
[2] https://api.nakala.fr/doc
[3] https://api.nakala.fr/oai2?verb=Identify
[4] https://cat.opidor.fr
#opendata #data #openaccess #france #datacatalogs
В рубрике как это устроено у них я уже несколько раз писал про проект DBNomics [1] от французского think tank'а Cepremap и поддерживаемый пр-вом Франции.
Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.
Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.
Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.
Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.
До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.
А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.
Ссылки:
[1] https://db.nomics.world
#opendata #statistics #indicators #france #dateno
Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.
Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.
Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.
Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.
До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.
А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.
Ссылки:
[1] https://db.nomics.world
#opendata #statistics #indicators #france #dateno
Тем временем французы на национальном портале открытых данных Франции data.gouv.fr добавили возможность получать данные в формате Parquet [1]
Какие молодцы!
Ссылки:
[1] https://www.data.gouv.fr/fr/posts/telecharger-des-donnees-massives-au-format-parquet/
#opendata #parquet #france #dataengineering
Какие молодцы!
Ссылки:
[1] https://www.data.gouv.fr/fr/posts/telecharger-des-donnees-massives-au-format-parquet/
#opendata #parquet #france #dataengineering