Ivan Begtin
9.33K subscribers
2.32K photos
4 videos
109 files
5.01K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Стремительно набирающий популярность продукт MindsDB [1] который позиционируется как Data Driven AI Agents и позволяет подключать любую базу данных и получать ответы на её основе. В том числе он предоставляет MCP сервер к которому можно подключить языковую модель.

Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.

Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.

Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем

Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb

#opensource #ai #data
🤔4😐2
Про применение ИИ в отношении официальной статистики AI Assistant [1] в статслужбе Италии ISTAT. К слову разговоры про ИИ в официальной статистике идут давно, но неспешно. Например, в презентации из Института статистики Португалии за 2024 год [2] был обзор инициатив, но практически все они про машинное обучение.

Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.

У UNECE есть подборка кейсов применения ИИ для статистики [4].

Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.

Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/

#statistics #ai #data
3👍2
Как в мире публикуют геоданные? Крупнейший коммерческий игрок - это компания ArcGIS с их облачными и корпоративными продуктами. В России все активно импортозамещаются на NextGIS, есть и другие коммерческие ГИС продукты и онлайн сервисы.

Однако в мире открытого кода наиболее популярные гео каталога данных - это Geonetwork, GeoNode и, с некоторым допущением, GeoServer.

Geonetwork - это OGC совместимый каталог георесурсов, включая файлы, внешние ссылки. Его активно применяют в Латинской Америке и Евросоюзе, например, EEA geospatial data catalogue, также Geonetwork хорошо расширяется метаданными и используется в Европейской инициативе INSPIRE по публикации системно значимых геоданных странами участниками ЕС. Geonetwork правильнее всего рассматривать как поисковик и агрегатор. В реестре каталогов данных Dateno 568 инсталляций Geonetwork

GeoNode - это продукт наиболее приближенный именно к каталогу данных. Его используют для публикации данных вручную и он поддерживает множество стандартов доступа к данным, включая DCAT для порталов открытых данных. Например, его использует Правительство Казахстана как Геопортал НИПД. В реестре каталогов Dateno 295 записей о каталогах данных на базе Geonode.

И, наконец, Geoserver - это один из наиболее популярных open source геопродуктов, используется повсеместно для публикации слоёв карт и других данных как OGC сервисов. В реестре Dateno 1111 таких серверов. Главный недостаток - это отсутствие/неполнота метаданных, которые чаще описываются в надстройке поверх данных внутри Geoserver.

В России всего 22 инсталляции на базе этих продуктов, большая часть из них недоступна с IP адресов не из российских подсетей. Для сравнения, в странах ЕС их более 600, не считая других геопорталов.


#opendat #datacatalogs #opensource #data #geodata #geonetwork #geonode #geoserver
👍431
Смотря на современные приложения, неважно, с открытым кодом или закрытым, я всё более прихожу к их классификации по типам интеграции с облаками и работе без интернета.

И эта классификация выглядит вот так:
- cloud-only - приложение не работает без облачного (SaaS) сервиса и превращается в кирпич при отсутствии интернета или сетевых ограничениях
- cloud-first - приложение сильно зависит от облачного сервиса, много теряет при его отсутствии, но что-то может делать и без него
- local-first - приложение которое всё может делать локально, но какие-то функции делает лучше при наличии доступа к внешним сервисам, включая облачные
- local-only - приложение не предусматривающее никого использования внешних сервисов. Для применения его с облачными и SaaS сервисами пользователь должен сделать набор осознанных действий явным образом

Относится к этому можно как то что cloud-only продукты - это то что является одной из приоритетных бизнес моделей у современных стартапов, в том числе с открытым кодом и любое продвижение их это как бесплатный маркетинг продуктов с зависимостью (там всегда подписочная модель).

А local-only - это выбор параноиков и фанатиков. Параноики те кто эксплуатируют ПО в средах без Интернета, а фанатики бывают разные, но в основном те кто категорически ненавидят бигтехи и AI-техи.

Всё остальное - это шкала градаций между ними и относится к этому стоит как то что local-only подход всё более дискомфортен для разработчиков ПО. По разным причинам: низкие доходы, сложности сопровождения, ограничения в выборе инструментов разработки и тд. А cloud-only идёт против интересов квалифицированного пользователя работа которого всё более зависит от облачных сервисов которыми он управляет всё менее.

По моему личному опыту все лучшие продукты сейчас - это local-first. Условно когда я могу подключить приложение к локальной ИИ модели через Ollama или к облачной одного из провайдеров. Задача возникающая не абстрактно, а из реального кейса разработчиков одного из инструментов работы с данными и обсуждающих режим работы local-only поставку языковой модели вместе с продуктом.

Всё это очень важно когда речь идёт о каких-либо продуктах с открытым кодом и оценке зависимости от внешних сервисов собственной инфраструктуры.

#data #opensource #clouds
👍191🔥1🤨1
404Airlines.pdf
1003.1 KB
В рубрике как это устроено у них 404Media пишет о том Airlines Reporting Corporation (ARC), брокер данных для американских авиакомпаний таких как Delta, American Airlines и United продали данных о пассажирах CBP, Customs and Border Protection (Службе таможни и защиты границы) которая является частью Департамента внутренней безопасности США (DHS).

Данные включают имена пассажиров, все данные перелёта и финансовые детали их полётов. Причём контракт был заключён в июне 2024 года и продлится до 2029 года. А раскопали это журналисты анализируя базу госконтрактов США, в статье больше подробностей.

Сама статья требует регистрации так что прилагаю её в PDF для тех кто регистрироваться не хочет.

В чём разница практик работы с правоохранителей с данными? В США органы безопасности покупают данные у частных владельцев и все участники этого процесса стараются это не афишировать, но иногда это всплывает. Анализировать базы полетов целиком, конечно, им гораздо удобнее, чем запрашивать данные по конкретным лицам.

В России регуляторы поступают гораздо проще, просто требуя сдавать данные куда надо и сопротивляться этому у бизнеса возможностей немного, особенно если сам бизнес государственный или с госучастием.

А теперь, перейдем к неожиданной теме, экономике данных. В США настоящая экономика данных потому что есть брокер данных и у него есть покупатель/покупатели приобретающий этот и иные дата продукты. Государство является крупнейшим покупателем, причём вполне возможно что чуть ли не основным маркетмэйкером. Иначе говоря экономика данных предполагает наличие оборота данных в рамках экономических отношений.

А в России сейчас то что называется экономикой данных - это административная экономика. Поскольку федеральное правительство идёт по пути изъятия данных у бизнеса в собственных интересах и ограничивая оборот данных между частными компаниями. Собственно когда говорят про регулирование правильно читать это как ограничения.

А с точки зрения гражданина все эти практики одинаково порочны.

#dataeconomy #data #privacy #USA #airlines
8👍42🔥21
В рубрике как это устроено у них каталог данных океанографических кампаний Франции [1] публикуемых Ifremer, исследовательским центром Франции по изучению океанов.

Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.

Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров

Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их

Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr

#opendata #datasets #data #oceans #france
42
Глядя на продолжающийся поток стартапов применяющий ИИ к разным областям работы с данными, наблюдаю явный перекос в сторону ликвидации профессии корпоративных дата аналитиков как класса и замена их "умными дашбордами" и "ИИ агентами".

Ссылки приводить не буду, дабы не рекламировать кого-то без необходимости, но тенденция явная и заметная, а также хорошо понимания потенциальными клиентами, руководством компаний и иными лицами принимающими решения.

Из того что я вижу так то что ИИ реально может исключить аналитиков из цепочки создания аналитических продуктов и оперативной аналитики, но, чем больше это будет происходить тем острее была и остаётся проблема качества данных.

Качество данных и вся "чёрная работа" связанная с их подготовкой, очисткой, валидацией и тд. очень плохо автоматизируется и вот тут-то стартапов возникает куда меньше. Во первых потому что это внутренняя кухня работы с данными и не на поверхности, а во вторых поскольку у технических руководителей почти всегда значительно меньшие бюджеты.

И, конечно же, в третьих, потенциальные решения и продукты не так очевидны. Я лично вообще пока не вижу каких-то быстрореализуемых "идей на поверхности" как автоматизировать создание хороших наборов и баз данных.

Поэтому мои предсказания что работа аналитиков со временем будет распадаться на:
1. Аналитиков по качеству и подготовке данных
2. Программистов и проектировщиков аналитических AI агентов и дашбордов
3. Предметных специалистов которые ещё и могут немного в аналитику.

А вот у дата инженеров всё проще, пока мало что меняется, только объёмы данных растут.

#thoughts #data #dataengineering
👌11🤔95😢3
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.

Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.

К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.

Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300

#opendata #datasets #data #ai
🔥15
Я ранее писал про российскую базу статистики ЕМИСС и то в каком она состоянии и то что её Росстат и Минцифры закрывают в конце 2025 года. Мы все материалы из ЕМИСС начали архивировать, первичные заархивировали, а когда будут готовы обработанные, то рано или поздно они станут общедоступными.

И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.

А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)

Итого: 41,8% показателей не обновлялись с 2022 года

Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)

При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.

Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.

Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).

Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.

#opendata #data #statistics #russia
10👍4👏1😐1
Любопытная книжка Library Catalogues as Data: Research, Practice and Usage
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.

Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/

#openaccess #glam #libraries #opendata #data
👍84
Тренды и мысли по поводу данных и ИИ. Собрал в кучу размышления последних недель:
1. Почти все LLM умеют в анализ текстовых и легко преобразуемых в тексты данных и документов и совсем почти не умеют в бинарное, например, разобрать какой-нибудь geopackage или 3D модель или файлы parquet. Интересно появятся ли сервисы умеющие такое или надо делать своё уже?
2. MCP протокол внедряется повсеместно включая сервисы которые предлагают быстрое создание MCP на базе API. При том что MCP выглядит кривым-косым и неправильным архитектурно. Нужны и другие интерфейсы к API и к данным. Причём для данных MCP кажется особенно кривым инструментом. Но тренд явный и нарастающий
3. Корп каталоги данных по прежнему актуальны для задач комплаенса и для организации работы инженеров и data scientist'ов когда есть условно от 5 дата команд и более, но в целом это уже сложившийся и постепенно отмирающий, не развивающийся рынок.
4. Нет сервисов дата документации, не считая Castor'а который купили Coalesce. Сервисы документирования API есть, создания документации к интерфейсам есть, а дата документации автоматизированной нет.
5. Ведущие ИИ агенты хорошо анализируют Excel файлы, и PDF файлы, файлы MS Word, но не дают потокового API для этих задач.
6. Как интегрировать веб-архивацию и LLMки сейчас? Сделать универсальный MCP интерфейс к WARC файлам? Рынка здесь нет, польза может быть.
7. DuckDB массово используется как ядро для огромного числа продуктов, коммерческих, открытых, некоммерческих и тд. Хочешь сделать инструмент для манипуляции данными? DuckDB самый очевидный ответ, альтернативы Polars или Clickhouse

#thoughts #data #dataengineering
75👍4
В качестве регулярных напоминаний.

Я пишу в этом телеграм канале @begtin о технологиях, преимущественно, связанных с работой с данными, открытых данных, цифровой архивации и близких к этому темам почти все из которых являются, либо моей работой, либо моими хобби.

Также о том что я делаю и делают команды проектов которые я веду или с которыми я связан:
- @ruarxive - новости по цифровой и веб-архивации в контексте России и русскоязычных ресурсов
- @opendataam - открытые данные в Армении, новости о данных связанных с Арменией
- @infoculture - новости Информационной культуры, НКО ведущей ряд проектов в по открытости РФ
- @datenosearch - новости проекта поисковика по датасетам Dateno, на английском языке
- begtin.substack.com - блог/рассылка где я время от времени пишу лонгриды на русском языке
- medium.com/@ibegtin - англоязычный блог для лонгридов на английском языке. Пишу туда не очень часто, а надо бы чаще
- linkedin.com/in/ivbeg - регулярные публикации на английском языке в LinkedIn, по большей части про работу с данными.

#writings #opendata #digitalpreservation #data
👍104🔥3
Для тех кто подумывает опубликовать данные и ориентируется на пользователей которые:
a) Хотят смотреть на структуру данных и искать по ним
б) Немного умеют в SQL

Есть достаточно давний открытый инструмент datasette. Он позволяет опубликовать базу SQLite так чтобы над ней был удобный веб интерфейс с возможностью просматривать содержимое и делать SQL запросы.

Инструмент реально простой, умеет экспортировать JSON и CSV, даёт API и очень простой стандартизованный интерфейс расширяемый разными надстройками. Его довольно часто используют госорганы в Европе и в разных некоммерческих проектах чтобы сделать какие-то CSV файлы доступными. Там и инструкции все начинаются с того что "возьмите Ваши CSV файлы и преобразуйте их в базу SQLite".

Для тех кто любит использовать открытый код для того чтобы делиться данными - это полезный инструмент.

#opendata #opensource #datatools #data
👍102
В рубрике полезных инструментов для работы с данными, много лет назад я столкнувшись с тем что регулярно надо откуда-то доставать из API датасеты и с тем что каждый раз много мороки писать скрипты самому и ещё дольше просить кого-то из разработчиков это делать, я написал утилиту apibackuper для скрейпинга через декларативное программирование в конфиг файлах.

Изначально она была для архивации данных в рамках Национального цифрового архива @ruarxive, но оказалась очень удобной во всех смыслах. К слову и в Dateno часть сборщиков метаданных работают на базе apibackuper

Как это работает? Точки подключения к API описываются в специальном конфигурационном файле в расширением cfg в формате configparser.

После запуска утилита последовательно делает запросы к API, сохраняет результаты в виде JSON файлов внутри ZIP контейнера и позволяет потом экспортировать результаты в формат построчного JSON (NDJSON).

Кроме простого перебора выгрузки из API, там же есть режим когда после перебора точки подключения с поиском/листанием данных нужно запросить карточку каждого объекта и/или скачать ассоциированные с данными файлы.

Оказалось очень удобным инструментом, сам пользуюсь им регулярно и надо бы его давно обновить, но руки не доходят потому что "и так работает".

Если бы я делал его сейчас то:
1. Использовал бы JSON файлы сжатые ZST вместо ZIP контейнера
2. Вместо конфиг файлов использовал бы YAML (это несложно, кстати)
3. Добавил бы систему расширений
4. Добавил бы многопоточный режим выгрузки
5. Добавил бы библиотеку шаблонов для подключения к разным типовым API.

И тд, но, в целом, и без этого всё работает. На скриншоте пример конфиг файла для выгрузки метаданных и файлов из системы "Артефакт" (ar.culture.ru) Минкультуры РФ и то как эти данные выглядят в самом API.

#opensource #datatools #data #scraping #API #digitalpreservation
142🔥1
Полезные ссылки для работы с данными, технологиями и не только:
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.

#opensource #data #datatools
👍6🔥42
В США опубликовали AI Action plan документ стратегии ИИ который выглядит на удивление разумным и продуманным.

Какие то меры не применимы за пределами США, это целый столп III Lead in International AI Diplomacy and
Security
, его трудно воспроизвести кому-то кроме Китая или ЕС, но многое другое может интересовать разных регуляторов.

Из интересного там это Build World-Class Scientific Datasets. Такое редко встретишь напрямую с госрегулировании, а ведь это создание научных наборов данных мирового класса.


#data #ai #regulation
🔥111👍1
Любопытный инструмент SwellDB [1] генерация таблиц и обогащение данных с помощью LLM (OpenAI) с использованием SQL или датафреймов.

Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]

Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.

А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.

Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf

#dataengineering #data #opensource
8
В качестве регулярных напоминаний, несколько лет назад я делал библиотеку для Python под названием newsworker по автоматическому извлечению новостей из веб-страниц вместо RSS лент, она всё ещё работает и актуальна.

Когда я её создавал у меня была большая идея в создания новостного агрегатора с сайтов которые RSS ленты не экспортировали, к примеру, это более половины сайтов госорганов и госучреждений. Ключевое было в том чтобы не писать парсеры для каждого сайта, а чтобы было достаточно скормить анализатору ссылку и он уже сам бы нашёл блоки с новостями, понял бы какие ссылки там есть, идентифицировал бы даты и новостные блоки и создавал бы новостную ленту из которой можно было бы сконструировать RSS/ATOM ленту что называется low code, без усилий.

Для той же цели я создавал ещё одну библиотеку qddate которая умеет определять даты написанные 300+ способами, на разных языках и форматах. Собственно newsworker извлекал из веб страницы тексты, находил даты, анализировал компоновку веб страницы, идентифицировал заголовок, текст, ссылки, дату и сохранял результаты. qddate писалась довольно нестандартно, вместо регулярных выражений там применялись шаблоны pyparsing и жёстко вкодированные якоря для быстрого отсева нерелевантных текстов. Самое трудоёмкое, собственно, было именно в идентификации дат.

Хотя я давно эту библиотеку newsworker не обновлял, задачи по созданию агрегатора давно отпали, но код всё ещё работает и для тех кто решает подобные задачи она может пригодится.

Возможно, сейчас можно было бы пойти путём автоматизированного вайб кодинга и натравливать LLM на каждую такую страницу, и LLM может сделать индивидуальные парсеры, но... старые подходы тоже работают и, возможно, не хуже, а то и лучше. это

Общая концепция вокруг этого всего у меня была в восприятии любого веб-ресурса как базы данных. Автоматический интеллектуальный скрейпинг условно любого контента. С новостями это было проще всего, это было, в принципе, решаемо.

#opensource #data #datatools
🔥10💯1
Свежий план Правительства Китая по развитию ИИ, для тех кому лень читать его на китайском языке, вот краткие тезисы

1️⃣ ИИ — для всех:
Развиваем технологии вместе — от государств до граждан. В фокусе — устойчивое развитие и решение глобальных задач.

2️⃣ Поддержка инноваций:
Создаём международные платформы, снижаем барьеры, делимся опытом и находим прорывы вместе.

3️⃣ ИИ в каждую отрасль:
Промышленность, медицина, образование, агро — ИИ должен приносить пользу повсюду.

4️⃣ Цифровая инфраструктура:
Сети, дата-центры, вычислительные мощности — особенно для стран Глобального Юга. Без базы — нет прогресса.

5️⃣ Открытая экосистема:
Поддержка open source, совместимость систем, доступ к разработкам для всех. Без монополий.

6️⃣ Данные — топливо ИИ:
Безопасный и законный обмен данными. Качество, разнообразие, защита приватности.

7️⃣ Зелёный ИИ:
Энергоэффективные алгоритмы и оборудование. ИИ не должен вредить планете.

8️⃣ Общие стандарты:
Согласованные международные нормы: безопасность, этика, прозрачность.

9️⃣ Государства — пример:
Госуслуги с ИИ — быстрее, точнее, прозрачнее. Но с уважением к правам и приватности.

🔟 Безопасность прежде всего:
Анализ рисков, защита от злоупотреблений, объяснимость и контроль.

1️⃣1️⃣ Выполнение цифрового договора ООН:
Справедливое цифровое будущее — без цифрового неравенства.

1️⃣2️⃣ Образование и потенциал:
Учимся и учим: от лабораторий до курсов для всех. Особое внимание — женщинам и детям.

1️⃣3️⃣ Управление для всех:
ИИ — это не только дело корпораций. Все голоса должны быть услышаны: учёные, госслужбы, бизнес, общество.

В целом же что план Китая, что план США, оба про глобальную экспансию нынешних "ИИ сверхдержав".
Можно обратить внимание что все стратегии упоминают открытый код

#ai #china #data
🔥9👍2
В продолжение про Китай и про данные в Китае

📊 Национальный доклад о данных Китая (2024)
Кратко — в цифрах и фактах:

📦 Производство данных
▪️ Общий объём: 41.06 ZB (+25%)
▪️ На душу населения: 31.31 TB

🗄 Хранение
▪️ Всего: 2.09 ZB (+20.81%)
▪️ Использование хранилищ: 61%
▪️ Структурированные данные: +36% (доля — 18.7%)

⚙️ Вычислительные мощности
▪️ Общая: 280 EFLOPS
▪️ Из них ИИ-мощности: 90 EFLOPS (32%)
▪️ У госкомпаний — рост в 3 раза

🏛 Публичные данные
▪️ Платформы открытых данных: +7.5%
▪️ Объем открытых данных: +7.1%
▪️ Вызовы к госданным: 5400+ млрд
▪️ 60% регионов запустили авторизованное управление

🏢 Бизнес и ИИ
▪️ 66% лидеров рынка покупают данные
▪️ Активные данные: 62% от всего хранения
▪️ ИИ-сервисы: +238
▪️ Компании с ИИ: +36%
▪️ Большие модели: +57%
▪️ Качественные датасеты: +27%

🌍 Где больше всего данных?
▪️ Топ-6 провинций: 57.45% от всех данных
▪️ Лидеры по ИИ: Пекин, Шанхай, Чжэцзян
▪️ Топ-отрасли: промышленность, финансы, логистика

🔮 Прогноз на 2025
▪️ Производство данных превысит 50 ZB
▪️ Растёт доля синтетических и ИИ-данных
▪️ Формируется рынок доверенных пространств данных
▪️ Данные = полноценный актив, как нефть

Первоисточник NATIONAL DATA RESOURCE SURVEY REPORT (2024), опубликован в апреле 2025 г.

#opendata #data #china #ai #regulation
👍102