Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
November 14, 2024
November 19, 2024
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику

Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims

#data #ai #privacy #statistics #readings
November 24, 2024
November 26, 2024
November 26, 2024
В Буэнос-Айресе в Аргентине судьи начали применять ИИ для подготовки судебных решений [1]. Специальная система PROMETEA обучена на на более чем 300 тысячах правилах и документах и за 20 секунд принимает решения с 90% точностью. При этом ни одно решение не принимается автоматически, каждое является черновиком который вычитывается юристом и только после его одобрения становится финальным решением.

Особенность в том что система применяется не для всех, а для многочисленные налоговых и административных разбирательств, которые, в основном, довольно стандартизируемы или предсказуемы. ИИ система является помощником судей, а не их заменителем.

И это поднимает вопрос о том к чему может привести и, с высокой вероятностью, приведет при внедрении ИИ в судебный процесс. Это массовые сокращения вспомогательного персонала в судах и изменение самого принципа работы судов. Хорошо это или плохо? Пока говорить рано.

А подробнее про систему PROMETEA можно прочитать в официальном отчете [2].

Ссылки:
[1] https://restofworld.org/2024/buenos-aires-courts-adopt-chatgpt-draft-rulings/
[2] https://mpfciudad.gob.ar//storage/archivos/9c8074a610f82c7ff0b47bbb1a2abee9.pdf

#ai #courts #argentina #privacy
November 30, 2024
Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings
December 7, 2024
December 8, 2024
December 10, 2024
Пишут что Гарвард опубликовал датасет из более чем 1 миллиона книг которые не закрыты копирайтом и можно их свободно использовать при обучении ИИ [1].

Правда ссылки на сам датасет мне нигде не удалось найти, и даже первоисточник новости на сайте Гарварда тоже, но тем не менее.

1 миллион книг при работе с которыми нет юридических рисков - это очень много, втрое больше чем набор данных Books3 [2] к которому были как раз юридические претензии.

К вопросу о больших языковых моделей, они создаются на текстах, тексты надо откуда-то брать.

Если Ваше правительство не создаёт большие открытые наборы данных с текстами на национальном языке, значит за него это сделает кто-то ещё.

В этом смысле судьба языков малочисленных народов всё более будет под вопросом. Без большого пласта письменной истории они совсем выпадут из обихода.

Ссылки:
[1] https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
[2] https://www.wired.com/story/battle-over-books3/

#languages #datasets #ai
December 12, 2024