Ivan Begtin
9.33K subscribers
2.32K photos
4 videos
109 files
5.01K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.

Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf

#opendata #data #dataengineering #readings #ai #dataquality #geodata
1👍8
Команда DBT выложила их State of Analytics Engineering Report 2025 [1] с некоторым числом полезных инсайтов по результатам опроса их пользователей. Тут главное не забывать что analytics engineer не то чтобы зафиксированная профессия, скорее некое предположение что они есть. Но инсайты полезны во многих смыслах того как работают современные дата аналитики и какие продукты создаются.

Ссылки:
[1] https://www.getdbt.com/resources/reports/state-of-analytics-engineering-2025

#analytics #readings #data
2
A framework for Al-ready data [1] свежий доклад от Open Data Institute о том как публиковать наборы данных для машинного обучения. Характерно что ссылаются на стандарт Croissant и Hugging Face и не ссылаются на Frictionless Data.

Всё выглядит разумно с примерами из публикации открытых данных и открытой научной инфраструктуры.

Ссылки:
[1] https://theodi.org/insights/reports/a-framework-for-ai-ready-data/

#opendsata #readings #standards
👍41
Anthropic запустили программу AI for Science [1] обещая выдавать существенное количество кредитов для запросов к их AI моделям. Акцент в их программе на проекты в областях биологии и наук о жизни, обещают выдавать кредитов до 20 тысяч USD, так что это вполне себе серьёзные гранты для небольших целевых проектов. Ограничения по странам не указаны, но указание научного учреждения и ещё многих других данных в заявке обязательно.

И на близкую тему Charting the AI for Good Landscape – A New Look [2] о инициативах в области ИИ затрагивающих НКО и инициативы по улучшению жизни, так называемые AI for Good. Применение AI в науках о жизни - это почти всегда AI for Good, так что всё это очень взаимосвязано.

Ссылки:
[1] https://www.anthropic.com/news/ai-for-science-program
[2] https://data.org/news/charting-the-ai-for-good-landscape-a-new-look/

#openaccess #openscience #ai #grants #readings
👍32
В продолжение короткого анализа плана мероприятий по реформе статистики в РФ напомню мои многочисленные тексты про статистику в России и не только:
- Российская статистика: немашиночитаемая институциональная фрагментация - о том российская статистика рассеяна по сотням сайтов
- Статистика как дата продукт - о том как рассматривать статистику как дата продукты
- Дашборд Германии (Dashboard Deutchland) - о том как публикуются статистические индикаторы статслужбой ФРГ
- Обзор сайта Office for National Statistics в Великобритании - о том как раскрывают данные статслужбы Великобритании
- Обзор геопространственной статистики Мексики - от их Национального института статистики
- Признаки хорошей статистической системы - о том как можно публиковать статданные удобным образом
- О статслужбах Канады и Хорватии - и о том как официальные сайты статслужб становятся поисковиком
- О DBNomics - французском проекте по агрегации статистики со всего мира.
- Публикация данных IMF - о том как публикуются данные международного валютного фонда

И многое другое по тегу #statistics тут в телеграм канале.

Учитывая что с самого начала я заводил этот телеграм канал как базу заметок, уже чувствую необходимость превратить его в базу знаний с автоматической синхронизацией того что пишу здесь, в том что разворачивалось бы как Markdown тексты с движком вроде Docusaurus или аналогичными Wiki подобными open source продуктами. Или с автоматической синхронизацией с Obsidian или Notion.

#statistics #readings
2👍112🔥2
Полезные свежие научные статьи про работу с данными:
- Large Language Models for Data Discovery and Integration: Challenges and Opportunities - обзор подходов по обнаружению и интеграции данных с помощью LLM
- Unveiling Challenges for LLMs in Enterprise Data Engineering - оценка областей применения LLM в корпоративной дата инженерии
- Magneto: Combining Small and Large Language Models for Schema Matching - про одно из решений сопоставления схем через использование LLM и SLM
- Interactive Data Harmonization with LLM Agents - интерактивная гармонизация данных с помощью LLM агентов
- Towards Efficient Data Wrangling with LLMs using Code Generation - про автоматизацию обработки данных с помощью кодогенерирующих LLM

#readings #data
👍8
Про MCP ещё полезное чтение

A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан довольно плохо. О том же пишет другой автор в заметке MCP: Untrusted Servers and Confused Clients, Plus a Sneaky Exploit [2].

Думаю что дальше будет больше критики, но популярности MCP это пока никак не отменяет

Ссылки:
[1] https://raz.sh/blog/2025-05-02_a_critical_look_at_mcp
[2] https://embracethered.com/blog/posts/2025/model-context-protocol-security-risks-and-exploits/

#ai #llm #readings
👍61💯1
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.

Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.

Лицензия MIT.

Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M

#opensource #ai #books #readings
6❤‍🔥1
К новостям о том что в РФ опять обсуждают блокировку Википедии и пытаются продвигать РуВики, как идеологически верную альтернативу, мне вспомнился апрельский лонгрид Саймона Кемпа Digital 2025: exploring trends in Wikipedia traffic [1] с весьма подробным разбором о том как снижается трафик и пользовательская база Википедии и что происходит это не вчера и не сегодня, а уже много лет.

Для тех кому лень читать текст целиком, вот основные тезисы:
1. Трафик на сайты Википедии неуклонно снижается и за 3 года с марта 2022 года по март 2025 года он снизился на 23 процента.

2. Основная причина снижения - это политика Google по выдаче результатов прямо в поиске. Потому что прямой трафик на Википедию довольно стабилен, а вот поисковый трафик, преимущественно из Google, существенно снизился.

3. Применение облачных ИИ Агентов (ChatGPT, Claude, Perplexity) идёт в том же тренде что и поисковый трафик, но отдаёт ещё меньше трафика чем поисковые системы. В среднем, происходит снижение на треть переходов на внешние источники.

От себя я добавлю что инициативы Фонда Викимедия перейти от модели существования как дата дистрибьютора, торгуя датасетами и доступом к "высококачественному API" - это всё попытки преодолеть этот кризис. В котором кроме Википедии находятся и значительное число сайтов ориентированных на создание контента и вынужденные менять бизнес модели, например, переходя на пэйволы и ограничивая доступ к контенту.

Поэтому главный мой посыл в том что Фонд Викимедия в целом и Википедия уже много лет как находятся в кризисе, достаточно медленно ползущем чтобы всё не рухнуло, но достаточно явным чтобы за них беспокоиться.

Кто выигрывает от блокировки Википедии? Думаете РуВики? Нет. Даже если они станут не про-государственным, а полностью госпроектом на 100% бюджетном финансировании (если ещё не), то даже в этом случае РуВики станет популярным только если начнётся принуждение поисковых систем ставить ссылки на него, а не на Википедию. Но Гугл на это никогда не пойдет, а Яндекс будет сопротивляться до последнего. Да и как можно было понять ранее, поисковики всё меньше трафика отдают контентным проектам, стараясь держать пользователей в своей экосистеме. Потому что это им выгоднее и ничего более.

В итоге от запрета Википедии в РФ выиграют по списку:
1. Поисковые системы Google и Яндекс (думаю что Google существенно больше)
2. Облачные AI агенты (ChatGPT, Perplexity, Claude и др.)
3. Продавцы коммерческих VPN сервисов

Я не знаю чьими лоббистами являются ратующие за запрет Википедии, но выгодоприобретатели понятны и очевидны.

Ссылки:
[1] https://datareportal.com/reports/digital-2025-exploring-trends-in-wikipedia-traffic

#wikipedia #thoughts #ai #readings
👍9😱4😢21
Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony

Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.

Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.

#readings #writings #privacy
👍11💯3🤣3🤔21😢1🌚1