Ivan Begtin
9.34K subscribers
2.31K photos
4 videos
109 files
5.01K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]

1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.


#opendata #thoughts
👍21❤‍🔥11🔥1
Интересная свежая статья в Journal of Democracy под названием Delivering Democracy. Why Results matter? [1], на русском языке она прозвучала была с двояким смыслом "Доставляя демократию. Почему результаты имеют значение?". Доставляя как: гуманитарными или военными самолётами? Но здесь речь о классическом понимании provide (предоставлять). Среди авторов статьи Френсис Фукуяма что ещё одна причина её почитать.

Если коротко, то основная идея в том что Демократия не может быть основана только на идеалах. Граждане хотят результатов: работы, безопасности, услуг. Мысль не то чтобы новая, но предельно коротко и точно изложенная именно в этой статье и то что ситуации когда в демократических странах идут долгие экономические кризисы то возникают и кризисы восприятия демократии и наоборот и есть бесспорные экономические успехи в авторитарных странах.

Я, также, ранее не встречал термина performance legitimacy, он есть в предыдущей статье Бена Кросса, Performance Legitimacy for Realists [2] одного из соавторов. Это термин применяемый к восточно-азиатским странам и его можно описать так

Легитимность на основе эффективности (или performance legitimacy) — это концепция, согласно которой власть обосновывает своё право на управление через успешное выполнение задач, направленных на улучшение жизни граждан, а не через традиционные или демократические источники легитимности. Этот подход основывается на достижении положительных материальных результатов, таких как экономический рост, снижение уровня бедности и повышение качества жизни населения.

И, кстати, он применим не только к восточно-азиатским странам, многие авторитарные страны в мире идут тем же путём. И это не худшая форма авторитаризма, конечно,.

Ключевое в статье - это акцент на том как перезапустить демократии чтобы они тоже могли доставлять не хуже авторитарных режимов и, честно говоря, ответов там мало. Я увидел один базовый тезис - лучше управляйте экономикой и его расширение эффективнее развивайте инфраструктуру.

Всё это, конечно, к технологической инфраструктуре и цифровым сервисам имеет прямое отношение. У демократических государств гораздо больше барьеров в их реализации. Авторитаризм имеющие большие экономические ресурсы может быть весьма эффективен. Как демократиям научиться доставлять в этой области - вот в чём вопрос.

Ссылки:
[1] https://muse.jhu.edu/pub/1/article/954557
[2] https://muse.jhu.edu/pub/5/article/918473

#opengov #data tech #thoughts #democracy #digitalservices
👍76🔥4
Я об этом редко упоминаю, но у меня есть хобби по написанию наивных научно фантастических рассказов и стихов, когда есть немного свободного времени и подходящие темы.

И вот в последнее время я думаю о том какие есть подходящие темы в контексте человечества и ИИ, так чтобы в контексте современного прогресса и не сильно повторяться с НФ произведениями прошлых лет.

Вот моя коллекция потенциальных тем для сюжетов.

1. Сила одного
Развитие ИИ и интеграции ИИ агентов в повседневную жизнь даёт новые возможности одиночкам осуществлять террор. Террористы не объединяются в ячейки, не общаются между собой, к ним невозможно внедрится или "расколоть" потому что они становятся технически подкованными одиночками с помощью дронов, ИИ агентов и тд. сеящие много хаоса.

2. Безэтичные ИИ.
Параллельно к этическим ИИ появляется чёрный рынок отключения этики у ИИ моделей и продажа моделей изначально с отключённой этикой. Все спецслужбы пользуются только такими ИИ, как и многие преступники. У таких ИИ агентов нет ограничений на советы, рекомендации, действия и тд.

3. Корпорация "Сделано людьми"
Почти всё творчество в мире или создаётся ИИ, или с помощью ИИ или в среде подверженной культурному влиянию ИИ. Появляется корпорация "Сделано людьми" сертифицирующая продукцию как гарантированно произведённой человеком. Такая сертификация это сложный и болезненный процесс, требующий от желающих её пройти большой самоотдачи.

#thoughts #future #thinking #ai
👍2075
Некоторые мысли вслух по поводу технологических трендов последнего времени:

1. Возвращение профессионализации в ИТ.

Как следствие массового применения LLM для разработки и кризиса "рынка джуниоров" в ИТ. LLM ещё не скоро научатся отладке кода и в этом смысле не смогут заменить senior и middle разработчиков, а вот про массовое исчезновение вакансий и увольнения младших разработчиков - это всё уже с нами. Плохо ли это или хорошо? Это плохо для тех кто пошёл в ИТ не имея реального интереса к профессиональной ИТ разработке, хорошо для тех для кого программная инженерия - это основная специальность и очень хорошо для отраслевых специалистов готовых осваивать nocode и lowcode инструменты.

Перспектива: прямо сейчас

2. Регистрация и аттестация ИИ агентов и LLM.

В случае с ИИ повторяется история с развитием Интернета, когда технологии менялись значительно быстрее чем регуляторы могли/способны реагировать. Сейчас есть ситуация с высокой степенью фрагментации и демократизации доступа к ИИ агентам, даже при наличии очень крупных провайдеров сервисов, у них множество альтернатив и есть возможность использовать их на собственном оборудовании. Но это не значит что пр-ва по всему миру не алчут ограничить и регулировать их применение. Сейчас их останавливает только непрерывный поток технологических изменений. Как только этот поток хоть чуть-чуть сбавит напор, неизбежен приход регуляторов и введение аттестации, реестров допустимых LLM/ИИ агентов и тд. Всё это будет происходить под знамёнами: защиты перс. данных, защиты прав потребителей, цензуры (защиты от недопустимого контента), защиты детей, защиты пациентов, национальной безопасности и тд.

Перспектива: 1-3 года

3. Резкая смена ландшафта поисковых систем
Наиболее вероятный кандидат Perplexity как новый игрок, но может и Bing вынырнуть из небытия, теоретически и OpenAI и Anthropic могут реализовать полноценную замену поиску Google. Ключевое тут в контроле экосистем и изменении интересов операторов этих экосистем. А экосистем, по сути, сейчас три: Apple, Google и Microsoft. Понятно что Google не будет заменять свой поисковик на Android'е на что-либо ещё, но Apple вполне может заменить поиск под давлением регулятора и не только и пока Perplexity похоже на наиболее вероятного кандидата. Но, опять же, и Microsoft может перезапустить Bing на фоне этих событий.

Перспектива: 1 год

4. Поглощение ИИ-агентами корпоративных BI систем

Применение больших облачных ИИ агентов внутри компаний ограничено много чем, коммерческой тайной, персональными данными и тд., но "внутри" компаний могут разворачиваться собственные LLM системы которые будут чем-то похожи на корпоративные BI / ETL продукты, они тоже будут состыкованы со множеством внутренних источников данных. Сейчас разработчики корпоративных BI будут пытаться поставлять продукты с подключением к LLM/встроенным LLM. В перспективе всё будет наоборот. Будут продукты в виде корпоративных LLM с функциями BI.

Перспектива: 1-2 года

5. Сжимание рынка написания текстов / документации
Рынок документирования ИТ продукта если ещё не схлопнулся, то резко сжимается уже сейчас, а люди занимавшиеся тех писательством теперь могут оказаться без работы или с другой работой. В любом случае - это то что не просто поддаётся автоматизации, а просто напрашивающееся на неё. Всё больше стартапов и сервисов которые создадут Вам качественную документацию по Вашему коду, по спецификации API, по бессвязанным мыслям и многому другому.

Перспектива: прямо сейчас

#ai #thinking #reading #thoughts
👍24
К новостям о том что в РФ опять обсуждают блокировку Википедии и пытаются продвигать РуВики, как идеологически верную альтернативу, мне вспомнился апрельский лонгрид Саймона Кемпа Digital 2025: exploring trends in Wikipedia traffic [1] с весьма подробным разбором о том как снижается трафик и пользовательская база Википедии и что происходит это не вчера и не сегодня, а уже много лет.

Для тех кому лень читать текст целиком, вот основные тезисы:
1. Трафик на сайты Википедии неуклонно снижается и за 3 года с марта 2022 года по март 2025 года он снизился на 23 процента.

2. Основная причина снижения - это политика Google по выдаче результатов прямо в поиске. Потому что прямой трафик на Википедию довольно стабилен, а вот поисковый трафик, преимущественно из Google, существенно снизился.

3. Применение облачных ИИ Агентов (ChatGPT, Claude, Perplexity) идёт в том же тренде что и поисковый трафик, но отдаёт ещё меньше трафика чем поисковые системы. В среднем, происходит снижение на треть переходов на внешние источники.

От себя я добавлю что инициативы Фонда Викимедия перейти от модели существования как дата дистрибьютора, торгуя датасетами и доступом к "высококачественному API" - это всё попытки преодолеть этот кризис. В котором кроме Википедии находятся и значительное число сайтов ориентированных на создание контента и вынужденные менять бизнес модели, например, переходя на пэйволы и ограничивая доступ к контенту.

Поэтому главный мой посыл в том что Фонд Викимедия в целом и Википедия уже много лет как находятся в кризисе, достаточно медленно ползущем чтобы всё не рухнуло, но достаточно явным чтобы за них беспокоиться.

Кто выигрывает от блокировки Википедии? Думаете РуВики? Нет. Даже если они станут не про-государственным, а полностью госпроектом на 100% бюджетном финансировании (если ещё не), то даже в этом случае РуВики станет популярным только если начнётся принуждение поисковых систем ставить ссылки на него, а не на Википедию. Но Гугл на это никогда не пойдет, а Яндекс будет сопротивляться до последнего. Да и как можно было понять ранее, поисковики всё меньше трафика отдают контентным проектам, стараясь держать пользователей в своей экосистеме. Потому что это им выгоднее и ничего более.

В итоге от запрета Википедии в РФ выиграют по списку:
1. Поисковые системы Google и Яндекс (думаю что Google существенно больше)
2. Облачные AI агенты (ChatGPT, Perplexity, Claude и др.)
3. Продавцы коммерческих VPN сервисов

Я не знаю чьими лоббистами являются ратующие за запрет Википедии, но выгодоприобретатели понятны и очевидны.

Ссылки:
[1] https://datareportal.com/reports/digital-2025-exploring-trends-in-wikipedia-traffic

#wikipedia #thoughts #ai #readings
👍9😱4😢21
Я недавно рассказывал что в качестве хобби занимаюсь написанием коротких наивных фантастических рассказов в стиле утопий и антиутопий. Причём поскольку прозаический опыт у меня ограниченный, я пытаюсь писать их по науке: видение -> синопсис - > пара тестовых глав -> основной текст. Это хорошая разминка для ума для которой я постоянно собираю контекст и наша антиутопическая реальность, конечно, даёт много идей.

Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.

У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).

Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.

А какие варианты будущего как контекста видите вы?

#thoughts #writings
6👍32🔥1
Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.

А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов

Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.

Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.

#opendata #statistics #thoughts
🔥54👍1
Глядя на продолжающийся поток стартапов применяющий ИИ к разным областям работы с данными, наблюдаю явный перекос в сторону ликвидации профессии корпоративных дата аналитиков как класса и замена их "умными дашбордами" и "ИИ агентами".

Ссылки приводить не буду, дабы не рекламировать кого-то без необходимости, но тенденция явная и заметная, а также хорошо понимания потенциальными клиентами, руководством компаний и иными лицами принимающими решения.

Из того что я вижу так то что ИИ реально может исключить аналитиков из цепочки создания аналитических продуктов и оперативной аналитики, но, чем больше это будет происходить тем острее была и остаётся проблема качества данных.

Качество данных и вся "чёрная работа" связанная с их подготовкой, очисткой, валидацией и тд. очень плохо автоматизируется и вот тут-то стартапов возникает куда меньше. Во первых потому что это внутренняя кухня работы с данными и не на поверхности, а во вторых поскольку у технических руководителей почти всегда значительно меньшие бюджеты.

И, конечно же, в третьих, потенциальные решения и продукты не так очевидны. Я лично вообще пока не вижу каких-то быстрореализуемых "идей на поверхности" как автоматизировать создание хороших наборов и баз данных.

Поэтому мои предсказания что работа аналитиков со временем будет распадаться на:
1. Аналитиков по качеству и подготовке данных
2. Программистов и проектировщиков аналитических AI агентов и дашбордов
3. Предметных специалистов которые ещё и могут немного в аналитику.

А вот у дата инженеров всё проще, пока мало что меняется, только объёмы данных растут.

#thoughts #data #dataengineering
👌11🤔95😢3
В рубрике как это устроено у них, согласно реестру Dateno в Великобритании не менее 174 каталогов данных создано университетами и другими исследовательскими центрами для публикации исследовательских данных. Большинство из них используют для этого сервис Figshare и такие продукты как Elsvier Pure и ePrints. В большинстве случаев публикация данных сочетается с раскрытием других результатов научной деятельности: статьями, изображениями, приложениями к статьям, книгами и так далее.

Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.

Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.

Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.

Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.

Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.

По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.

#thoughts #dateno #datasets
3👌3
Подробная статья о состоянии поиска Google с точки зрения долгосрочных инвестиций [1]. Всё, казалось бы, очевидно что ИИ имеет очень сильный потенциал трансформировать Google Search и то проблема в изначальной рекламной модели Google как основе монетизации. Про это говорят много и всё активнее, на фоне разговоров что потенциально некоторые вендоры мобильных устройств могут перейти на другие поисковые системы вроде того же Perplexity. Но тут автор излагает всё довольно подробно и не даёт прогноза что у Google поисковый бизнес поломается, но говорит что сильно поменяется.

В том числе сравнивая ИИ поиск с кнопкой "I'm feeling lucky" когда пользователь получал результат сразу, без просмотра рекламных ссылок и то что Google терял около $100 миллионов в год в 2010 году из-за этой кнопки.

Почитать полезно чтобы задуматься о будущей трансформации Google и потенциальных изменениях бизнес модели поиска.

Можно с этой же точки зрения посмотреть на Яндекс, но у Яндекса, по сравнению с Google есть то потенциальное преимущество что постепенно из поискового индекса Google российские сайты выпадают и происходит это по разным причинам, но, в основном, из-за ограничений доступа из не-российских подсетей. Это ограничение бывает мягким в виде запретов в robots.txt, более жестким через ограничения на CDN и очень жёсткими через блокировки всех подсетей не относящихся к российской юрисдикции. В случае Google замерить это сложно, но в случае того же Интернет-архива я это наблюдаю уже несколько лет.

Что, впрочем, поможет лишь отчасти если ряд мобильных вендоров (Samsung, Huawei) отдадут приоритет AI поиску в своих устройствах.

Ссылки:
[1] https://www.speedwellmemos.com/p/google-shut-the-door-on-competition?

#thoughts #search #google #ai
51
Некоторые мысли вслух относительно организации своей и не только своей работы. Я лично довольно давно увлекался разными инструментами и подходами к самоорганизации. Какие-то из них самоочевидны, а какие-то - это хорошо обновлённое старое, а не что-то новое.

Один из таких подходов - это рабочий журнал.

Если какая-либо задача не является на 100% очевидной и требует каких-либо проверок гипотез, проверки кода или инструментов, то очень хорошая практика в том чтобы вести журнал. Я его называю рабочим или аналитическим журналом, в зависимости от типа задачи.

Он напоминает список задач и экспериментов которые пишут сами себе некоторые продвинутые LLM расписывая логику рассуждений и это делает эти LLM, не всегда, но часто, эффективнее работы аналитиков или разработчиков джуниоров.

В ведении рабочего журнала нет ничего нового, это, по сути, адаптированный к ИТ и аналитическим задачам журнал экспериментов. Итогом ведения журнала почти всегда является, либо список конкретных задач, либо решение поставленной задачи по мере его достижения.

Лично я не всегда, но всё чаще веду такой журнал при какой-либо аналитической работе, по анализу источников данных, по подготовке документов и тд. Даже когда какие-то художественные тексты пишу, тоже стараюсь вести подобные структурированные заметки именно в форме журнала.

Своими техническими журналами я поделиться, увы, не могу, они очень специализированы для того что я делаю. Может быть когда-нибудь смогу поделиться таким журналом по подготовке какого-либо аналитического документа.

Но для тех кто сталкивается с регулярным вопросом "А чем ты там занимался?" - это важный и содержательный ответ. Подход достаточно универсальный для задач занимающих время более 1 часа.

Кстати, на ту же тему, уже не раз сталкивался с рассуждениями о том как выбирать сотрудников программистов/аналитиков/дата-инженеров и тд. Стандартный подход - это брать людей с опытом работы в FAANG и большим опытом в индустрии и работает он так себе. А вот один из важных критериев - это способность документировать свою работу.
Документирование - это одно из важных отличий senior специалистов от начинающих.

А какие рабочие практики и лайфхаки Вы используете?

#thoughts #it #lifehacks
🔥23💯7👍431
Некоторые мысли вслух:
1. Интересно когда наступит момент когда проекты или сайты компаний будут динамически создаваться ИИ? Буквально, по 2-3 страницам текста от начала и до конца. Полноценного AGI для этого не нужно, нужно лишь доступ ИИ к хостинг провайдеру через API и побольше времени чем одиночный запрос. Я так понимаю что технологическая готовность к этому есть и ждать осталось недолго. Рынок веб разработки это если не разрушит, то сильно разворошит. А может уже началось, а я ещё не отследил такое.

2. Рано или поздно кто-то натравит LLM'ки на глубокий анализ текстов госконтрактов, законов и тд. Уже напрашивается, правда требует хорошего понимания предметной области, но поиск "красных флажков" может выйти на новый уровень. Но не в России в ближайшие, а может быть и в не ближайшие годы тоже.

#thoughts
👍105🔥21
Многие ждут когда в США появится официальный сайт AI.gov пока он редиректит на сайт Белого Дома, но он много где уже проанонсирован и там ожидаются наиболее полные материалы по госполитике в отношении ИИ в США.

Я вот, тем временем, наблюдаю как регуляторы думают про применение ИИ в целом и в госсекторе, вопрос к тому как нормативка будет развиваться очень много поскольку регулирование ИИ будет касаться и цензурирования, и цены ошибки, и применения в критических отраслях, и передача данных между юрисдикциями и ещё много чего.

Но некоторые изменения мне представляются уже очень очевидными:
1. Практически неизбежно, вопрос лишь когда, будет аттестация и аккредитация ИИ. Позитивное регулирование может исходить из создания "реестров доверенных моделей и сервисов", негативное регулирование в блокировках и запрете использования определённых моделей и сервисов или запрете вообще всех кроме ограниченного числа.

2. Применительно к ИИ в госсекторе неизбежна централизация и G2G внутригосударственные облачные сервисы. Рано или поздно возникнут запреты на использование облачных частных продуктов и будут разворачиваться ИИ модели и сервисы на уровне регионов или отраслевых министерств или на уровне центрального правительства как G2G услуги. Причин несколько, но главная - ограничения на передачу персональных данных и гарантия что используемые данные не будут использоваться для обогащения большой облачной модели. Я знаю страны и регионы некоторых стран где такое уже практикуют.

3. Реорганизация экзаменов, постепенно во всем мире. Их проведение в местах с гарантированным отсутствием интернета и электричества. Почему? Только сдавать мобильные устройства недостаточно, будут пользоваться умными очками или иными скрытыми устройствами. Договорится со всеми крупнейшими облачными сервисами ИИ о том чтобы они не работали на время экзаменов тоже будет сложно, блокировка на страновом уровне тоже будет иметь ограниченный эффект. Только полное отсутствие интернета и изъятие устройств достаточно мощных чтобы в них работать SLM (малые языковые модели).

4. Реорганизация и кризис медицинских услуг особенно в странах где медицина стоит очень дорого. Стремительное применение ИИ для диагностики (уже происходит) и отдельное регулирование этой сферы (тоже уже происходит). Специалисты в этой области могут рассказать больше, но в целом применение ИИ в медицине - это та область которой игроки созданию ИИ оправдывают их создание и инвестиции более чем во всём остальном.

5. Страновые соглашения крупных игроков в области ИИ с национальными правительствами малых стран. У многих небольших развивающихся стран и стран с малыми доходами не будет достаточного числа ресурсов чтобы развернуть свои ИИ модели для внутригосударственных нужд, особенно с учётом того что их языки могут иметь очень немного носителей и очень мало текстов. В какой-то момент крупные игроки начнут заключать страновые соглашения по предоставлению своих продуктов с доработкой под эти языки (кстати ИИ от Яндекса пока понимает армянский язык лучше чем у всех международных игроков, просто для иллюстрации).

#ai #regulation #thoughts
👍11722
На днях я решил проинвентаризировать свои презентации за 5 лет и обнаружил что у меня их какое-то чрезмерное количество и недостаточно организованное. Подумываю о том чтобы хотя бы по части из них проводить открытые вебинары (уж не знаю стоит ли делать платные вебинары, хотя иногда и выступаю на коммерческой основе).

И вот я, наконец-то, чувствую что восстановился после COVID'а, прошло много лет, но реально два года после 2020 ощущение было ослабленности сознания, потом получше, но все публичные выступления я резко сократил. Теперь ощущения сильно лучше, как минимум я перестал опасаться выступать на большую аудиторию и, помимо работы над Dateno, время от времени рассказываю о чём-то новом и старом.

Что думаете, на какие темы стоило бы провести вебинар/вебинары?

Вот список

Государство, данные и ИИ

- Применение ИИ для госсектора
- Управление основанное на данных
- Инвентаризация данных. Объекты, подходы, инструменты
- Ключевые наборы данных и их поиск и инвентаризация
- Реестры государственных систем, государственных ресурсов и НСИ
- Открытый государственный код
- Искусственный интеллект в правоохранительной системе. Миф или реальность?
- Этика работы с данными и ИИ

Дата аналитика и инженерия
- Application of neural networks for tasks of automatic identification of semantic data types
- Альтернативные данные (о показателях за пределами официальной статистики)
- Мастер классы: ищем данные, чистим и структурируем данные
- Контроль качества данных

Открытые данные
- Открытые данные в мире
- Открытые данные как основа госполитики
- Поиск данных (data discovery) для дата проектов
- Городские и гиперлокальные данные в мире
- Sharing Data for Disaster Response and Recovery Programs

Открытые API
- Открытые API. Основы
- Открытые API. Платформы и сообщества

Работа с данными для исследователей
- Практика использования DuckDB для работы с большими исследовательскими данными
- Дата инженерия в цифровой гуманитаристике
- Сервисы инфраструктуры данных для исследователей

Цифровая и веб архивация
- Практика и особенности экстренной архивации веб-ресурсов
- Введение в цифровую архивацию
- Веб-архивация
- Архивация специализированных ресурсов
- Интернет архив с точки зрения цифрового архивиста
- Национальный цифровой архив. Цифровая архивация медиа
- Цифровая архивация. Подходы и практика

Журналистика и общественный контроль
- Скрытые данные / Какие данные спрятаны в госсайтах?
- Дата-журналистика в контексте доступности источников данных
- Приватность мобильных приложений
- Слежка через государственные мобильные приложения
- О необходимости контроля и аудита ADM- систем
- Дата расследования
- Нормативная открытость
- Открытость информационных систем нормотворчества
- Простой и понятный русский язык

#thoughts #presentations
👍3395🔥1
В продолжение про NAO и другие инструменты вайб кодинга такие как Cursor, Copilot и тд. Их становится всё больше, хайпа вокруг них тоже немало. Что с этим делать и как к этому относиться?

1. AI инструменты для программистов явление обоюдоострое, чрезвычайно полезная там где они оттестированы и вредны там где нет. Из личного опыта, Copilot прекрасно обогащает CSV файлы по промпту. Например, грузишь CSV файл с перечнем названий стран на итальянском и просишь создать и заполнить колонку с их кодом из справочника ISO3166-1. А вот, например, запрос к Claude 3.5 (не самая мощная модель, да) на то чтобы получить рекомендации по оптимизации кода, в 2-х из 5-ти рекомендаций он выдал лютые глюки с несуществующими функциями.
2. Тем не менее в руках senior и middle разработчиков это сильное подспорье, способное значительно облегчить работу в очень многих задачах. Причём чем опытнее разработчик тем эффективнее будет инструмент. Правда не все разработчики старой школы готовы ИИ агентами пользоваться.
3. И наоборот, я бы поостерёгся брать на работу джуниоров-вайбкодеров потому что "важное не ударить, а знать где ударить". Последствия могут быть плохопредсказуемыми и лично я придерживаюсь мнения что не набив шишек на реальной работе вайбкодить нельзя категорически.
4. При этом применение LLM для работы с данными значительно сложнее. Почему? Потому что открытого кода и кусочков кода в сети безграничное количество, многие не будут опасаться отправлять свой код в облачные LLM, если только это не код каких-то уникальных алгоритмов, а это уже редкость. А вот данные могут содержать персональные данные, коммерческую тайну и ещё много чего. Использовать для анализа корп данных облачные LLM будет плохой практикой.
5. AI инструменты для разработчиков пытаются сделать повседневными. Что это значит? Максимальное упрощение пользовательского пути до ИИ агента. Примеры Cursor, NAO и ряда других AI IDE это про это. Такие инструменты создают ситуацию когда ты можешь отправить свой код или данные в любой момент в LLM, как говорится, одно неосторожное движение и... Для создателей инструментов это то о чём многие мечтали, наконец-то можно делать IDE зависящее от облачных сервисов и разработчики будут соглашаться авторизовываться и работать в облаке. IDE по подписке в общем. Для разработчиков будет развилка, открытые бесплатные IDE вроде VSCodium или продвинутые зависящие от облачных ИИ агентов.

#thoughts #ai
511👍1💯1
Тренды и мысли по поводу данных и ИИ. Собрал в кучу размышления последних недель:
1. Почти все LLM умеют в анализ текстовых и легко преобразуемых в тексты данных и документов и совсем почти не умеют в бинарное, например, разобрать какой-нибудь geopackage или 3D модель или файлы parquet. Интересно появятся ли сервисы умеющие такое или надо делать своё уже?
2. MCP протокол внедряется повсеместно включая сервисы которые предлагают быстрое создание MCP на базе API. При том что MCP выглядит кривым-косым и неправильным архитектурно. Нужны и другие интерфейсы к API и к данным. Причём для данных MCP кажется особенно кривым инструментом. Но тренд явный и нарастающий
3. Корп каталоги данных по прежнему актуальны для задач комплаенса и для организации работы инженеров и data scientist'ов когда есть условно от 5 дата команд и более, но в целом это уже сложившийся и постепенно отмирающий, не развивающийся рынок.
4. Нет сервисов дата документации, не считая Castor'а который купили Coalesce. Сервисы документирования API есть, создания документации к интерфейсам есть, а дата документации автоматизированной нет.
5. Ведущие ИИ агенты хорошо анализируют Excel файлы, и PDF файлы, файлы MS Word, но не дают потокового API для этих задач.
6. Как интегрировать веб-архивацию и LLMки сейчас? Сделать универсальный MCP интерфейс к WARC файлам? Рынка здесь нет, польза может быть.
7. DuckDB массово используется как ядро для огромного числа продуктов, коммерческих, открытых, некоммерческих и тд. Хочешь сделать инструмент для манипуляции данными? DuckDB самый очевидный ответ, альтернативы Polars или Clickhouse

#thoughts #data #dataengineering
75👍4
К вопросу о полноте/неполноте ответов ИИ помощников да и поисковых систем сложно не вспомнить про "серый веб".

Можно вспомнить "белый веб" - это материалы доступные для индексации онлайн и "тёмный веб" (dark web) - это то целенаправленно сокрытые материалы и данные, доступные только через Tor или иные пиринговые сети.

В свою очередь "серый веб" - это то что находится в сети, но по множеству, в основном технических причин, недоступно для индексации. Тут и пэйволы, и контент доступный только через POST запросы и/или Ajax, и сайты блокирующие все боты капчей и геоблокировками, и то что публикуется в неиндексируемых форматах.

Это тот случай когда обычно немашиночитаемые PDF файлы, вполне себе превращаются поисковиками и ИИ краулерами в пригодные для обработки документы, а вот если эти PDF файлы положить внутрь ZIP архивов они сразу же выпадают из поискового индекса. А уж если положить их во что-то ещё менее популярное, в 7z, RAR или что-то ещё более экзотическое, то контент автоматически не попадает в поисковый индекс.

В копилку вредных советов, для тех кто не хочет помогать ИИ помощникам можно добавить следующий

Публикуй заархивированные
документы. 🤷‍♀️

Это гораздо более действенно чем публиковать сканы документов, как это делают в некоторых государственных ресурсах в некоторых развивающихся (и не очень то развивающихся) странах.

Я вижу это особенно наглядно когда задаю облачным LLM вопросы о бюджетах некоторых стран, регионов и городов. Видно как они собирают инфу на основе публикаций в СМИ или на страницах сайтов госорганов хотя эти же данные, гораздо более верные и полные лежат в определённых разделах, определённых сайтов, но в виде ZIP архивов с файлами Excel, PDF или HTML. Или же когда данные доступны в виде интерактивных навигаторов скачать из которых можно только вручную, экспортом и через POST запросы которые обычные и AI краулеры не сделают или сделают только в режиме сфокусированного сбора.

То есть если кто-то соберет данные краулером целенаправленно, сделает их удобными для обработки и положит куда-то откуда их потом в ИИ импортируют, то данные для ИИ агента будут доступны. Но это будет неоперативно и требует сфокусированных целенаправленных усилий.

Явление пока что не массовое, но как один из способов борьбы с ИИ краулерами весьма вероятный.

P.S. Делюсь вредным советом потому что он сложнее в реализации чем просто блокировать всё и вся.

#thoughts #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍64
Читаю хвалебные отзывы о Perplexity Comet, новом браузере со встроенным ИИ и о грядущем браузере от OpenAI и, честно говоря, это хорошая новость с тем что в рынке поиска и браузеров, наконец-то, появилась конкуренция. Что ещё важнее и интереснее в том почему выбирают нео-поисковики на базе ИИ и браузеры альтернативные Google Chrome - это отсутствие рекламы.

Фактически облачные ИИ агенты вне рынка AdTech, при поиске через OpenAI или Perplexity ты платишь за этот поиск явно (деньгами), а не неявно (рекламой).

Учитывая то как медленно но верно деградировал классический поиск, от минимальной рекламы, до выдачи отравленной SEO до невозможности, то мне нравится этот новый мир, даже при всех недостатках, глюках и искажениях ИИ агентов.

Не то чтобы он будет светлее, но хотя бы в нём будет больше выбора.

#thoughts #ai #search
👍30🔥3
По опыту использования множества LLM'ок для работы с данными могу сказать что есть важный компонент работы который сейчас в них отсутствует - это использование прокси/VPN для доступа к некоторым ресурсам. По умолчанию LLM в режиме поиска обращаются к ресурсам с адресов относящихся к крупным облачным провайдерам вроде AWS/Azure/GCP. В результате при попытке анализировать материалы которые имеют региональную блокировку они не срабатывают. Я это наблюдаю на многих ресурсах относящихся к России, Китаю, Вьетнаму и ряду других стран. Попытки анализировать веб-сайты, например, анализа ПО на которых они созданы или поиска недокументированных API, срабатывают не всегда.

Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.

Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.

#thoughts #dateno #ai
💯111👍1
На фоне очередных и ожидаемых ограничений в РФ на работу WhatsApp, внедрения Нацмессенжера, штрафов за VPN и постоянно обсуждаемых каких-то новых реестров мне много что есть сказать. Много-много есть что сказать, но но я поберегу слова для художественных текстов, а не публицистики. Да и из событийного, не устаю повторять, что про данные мне куда интереснее, чем про всё остальное. За исключением тем для будущих антиутопических фантастических рассказа

Поэтому в качестве оффтопа и в качестве ментального упражнения, давайте представим будущее Россия 2050. Достаточно близкое чтобы многие дожили, недостаточно близкое чтобы говорить со 100% уверенностью

Чтобы можно предсказать в виде государственных информационных систем, новых реестров, новых запретов и ограничений?

Мои предсказания:
- реестр недружественных культурных образов (всяческие там герои Марвел, Гарри Поттера и др. ). Автоматическое цензурирование и недопуск книг к публикации, фильмов к прокату и тд. Развитие рынка автоадаптации произведений под локальный рынок РФ.
- тотальное регулирование ИИ. Требования к локализации, требования к полной прослеживаемости обучения языковых моделей, обязательная аккредитация и тд.
- госцентрализация ИИ. Централизованные ИИ помощники для школьников, студентов, госслужащих через Госуслуги
- запуски программ "госсводничества" включая реестры женщин желающих детей, на фоне серьёзного демографического кризиса

Но я всё время сбиваюсь на то что могу представить и то что может быть и не через 25 лет, а через 1-2 года.

А что, всё таки, можно предсказать к 2050 году ? Интерес не праздный, ищу опору для творческого вдохновения очередного рассказа😉

#offtopic #ai #thoughts
😁1110😢521