Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
По итогам просмотра многих тех материалов ГосТех'а что были в открытом доступе я, пожалуй, могу сформулировать ряд конкретных проблем связанных не только с ним самим, но скорее с тем кто ставит/должен ставить задачи той команде которая им занимается:

- отсутствие стратегии. Это первая и фундаментальная проблема, заключается она в том что по многим государственным информационным системам гораздо меньшего масштаба есть как минимум концепции и стратегии, а в данном случае нет ни одного фундаментального документа к которым можно отнести стратегию, концепцию, глобальную архитектуру и так далее.

- непонимание разницы между корпорацией и государством. Ключевое отличие между корпорацией и государством в том что у государства и органов власти в частности нет клиентов, только пользователи, партнеры и стейкхолдеры. Государственные услуги - это не, то за что "клиент платит", а то что является государственной функцией и, соответственно, обязательством и невыполнение обязательств приводит к юридическим, а в демократических странах, и политическим последствиям.

- "непонимание" принципов разделения власти. Если вчитаться в Конституцию РФ то там четко расписано разделение полномочий между федеральными, региональными и муниципальными властями. При этом в России последние лет 15 как минимум, а может и дольше уже идёт ползучая технологическая унитаризация, когда федеральные власти создают информационные системы с которыми обязаны работать региональные и муниципальные власти. Всё что сейчас рассказывается в Гостех и сама идея Гостеха активно продолжается в этом направлении.

- усиление цифрового патернализма. Это вопрос уже не глупости или незнания, это вопрос идеологии. Гостех продолжается в форме услуг для граждан где в восприятии его авторов граждане - это такие ранимые субъекты государственной опеки о которых надо заботиться, холить и лелеять, по крайней мере в публичной риторике. В этом смысле Гостех мало отличается от Госуслуг, основная идея выморачивании услуг гражданам только к услугам по жизненным ситуациям, а каналы обратной связи только к жалобам. Эта модель не предполагает существования активных граждан или НКО или, даже, бизнеса взаимодействующего с органами власти в части их работы. Граждане только получают то что лица принимающие решения считают для них важным.

- отказ от усиления граждан. Вот это такой важный, а кто-то скажет что политический момент, идущий в сочетании с усилением цифрового патернализма. Усиление гражданина - это снижение информационного неравенства между ним и более сильным контрагентом. Например, для усиления гражданина как потребителя ЦБ РФ требует от банков и других финансовых организаций раскрывать довольно много информации о себе. Помогает это в финансовой грамотности? Да, помогает. А вот при госинформатизации нет требований к органам власти раскрывать сведения о том как информационные системы работают, какие данные там содержатся и многое другое. Гостех в этом смысле ничем не отличается. Несмотря на декларируемое развитие "цифрового правительства", из международного термина взяты лишь госуслуги, а большая прозрачность, открытые данные, открытые данные по умолчанию и т.д. просто игнорируются.

- отсутствие актикуляции бизнесу. Это продолжение отсутствие стратегии внедрения Гостеха. Вместо четко сформулированных тезисов о роли Гостеха в государственном ИТ, есть какие-то довольно маловнятные утверждения и выступления о его важности и ни одного четкого плана его внедрения. Я напомню что большая часть государственных информационных систем делается примерно 20-30 крупнейшими системными интеграторами и они все очень разные. Их перевод на другую платформу - это долго, дорого, сложно и малореалистично. А самое главное - даже не декларируется.


В качестве резюме, я ещё раз подчеркну что хвалить ГосТех в его текущей форме очень сложно. Можно игнорировать, можно критиковать, вопрос лишь в том кого ругать. Авторов этой затеи или тех кто должен был бы выступать их заказчиками?


#government #govtech #technology #data #transparency
Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.

Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.

А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]

Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3

#technology #blockchain
Интересное чтение про данные, технологии и не только։
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.

Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/

#ai #technology #data #regulation #readings
Полезное чтение про данные, технологии и не только։
- Working with large CSV files in Python from Scratch [1] о том как работать с большими CSV файлами и используя Python. Я иного сталкивался и сталкиваюсь с большими CSV файлами, но в этой заметке были и новые техники. Стоит почитать тем кто с работает с CSV файлами регулярно

- Tips For Hiring Junior Data Engineers [2] советы нанимающим дата инженеров начального уровня. Советы все по делу, но, конечно надо учитывать и рыночную специфику тоже.

- Google BigQuery Data Lineage [3] гугл добавляют в BigQuery вкладу про прослеживаемости данных. Большое дело, облегчит жизнь многим и многие коммерческие инструменты обесценит.

- Functional Data Engineering - A Blueprint [4] полезный архитектурный текст от автора Data Engineering Weekly. Хорошая цитата оттуда Data engineering has missed the boat on the “devops movement” and rarely benefits from the sanity and peace of mind it provides to modern engineers. They didn’t miss the boat because they didn’t show up; they missed the boat because the ticket was too expensive for their cargo. Которая. в свою очередь, из The Downfall of the Data Engineer [5]

- Stack Overflow 2022 devlopers survey [6] результаты опроса 70 тысяч разработчиков от Stack Overflow. Интересного много, всё просто даже не перечислишь. Выделил я бы малое число разработчиков использующих Clickhouse и стабильно высокое использование MongoDB. И это если только говорить про СУБД, а там ещё много чего. Но платят более всего тем кто владеет DynamoDB, языком программирования Clojure и веб фреймворком Phoenix

Ссылки։
[1] https://coraspe-ramses.medium.com/working-with-large-csv-files-in-python-from-scratch-134587aed5f7
[2] https://seattledataguy.substack.com/p/tips-for-hiring-junior-data-engineers
[3] https://cloud.google.com/bigquery/docs/data-catalog#data_lineage
[4] https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
[5] https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
[6] https://survey.stackoverflow.co/2022/

#data #readings #technology
Полезное чтение про данные, технологи и не только. Сегодня выпуск посвящённый ИИ։

- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.

- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.

- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.

- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил

- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше

- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.

- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.

Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/

#data #ai #technology #readings
Полезное чтение про данные, технологии и не только։
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.

- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.

- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.

- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.

- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.

- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.

Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://t.iss.one/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/

#data #datatools #readings #technology
Чуть подробнее про Critical Technology Tracker [1] проект австралийского мозгового центра ASPI по отслеживанию ведущих научных центров и исследователей по наиболее значимым (критичным) технологиям.

Сделано в виде красивой интерактивной визуализации, весьма наглядно и можно увидеть рейтинги отдельных исследовательских центров и то как перетекают студенты вузов между странами и далее, кто из них остаётся получать научные степени и работать в индустрии.

На картинках примеры визуализации по России и в области анализа данных, но, сразу скажу, рейтинги России тут невысоки. В большинстве направлений лидируют Китай и США с большим отрывом и ещё где-то присутствуют Индия, страны ЕС, Великобритания и Южная Корея. А по умным материалам ещё и Иран(!) [2]

Методология этого проекта в анализе публикаций исследователей и их цитирования. Кто-то может измерять вклад стран по числу патентов, но важнее понимать что почти все такие сравнения стран показывают лидерство Китая.

Ссылки:
[1] https://techtracker.aspi.org.au/
[2] https://techtracker.aspi.org.au/tech/smart-materials/?c1=ir

#china #technology #australia #data #ratings
Интересное чтение про данные, технологии и не только:
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?

- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.

- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.

- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.

- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.

Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/

#opendata #technology #readings #data #games #open
Команда российского Гостех'а в своём телеграм канале пишет поёт себе хвалу [1] о том что Россия признана одним из лидеров гостехизации в рейтиге GTMI (GovTech Maturity Index), но как бы помягче сказать. Библейскими словами - это лукавство.

Действительно, 11 апреля вышло обновление индекса GovTech Maturity Index, 2022 Update — Europe and Central Asia Regional Brief [2].

Так вот обратите внимание что:
1. Кроме России в лидерах там ещё и: Азербайджан, Украина, Сербия, Албания, Хорватия, Молдавия и др.
2. GMTI - это не оценка проектов под названием "ГосТех", а совокупность технологий и решений. Например, гособлака, платформа для госзаказа, электронный бюджет и тд. Если вы почитаете документ внимательно то обнаружите что ни одна из упомянутых там систем к российской системе гостех не относятся.
3. Важно помнить про смысловые отличия терминов. В мире и у Всемирного Банка Гостех - это технологические инновации в госсекторе. Такие же как Edutech, Fintech, Legaltech. В России Гостехом обозвали некий продукт на базе платформы V от Сбербанка.
4. Про все страны в этом документе есть дополнения, про Россию даже не стали упоминать, она есть в рейтингах, но в текстовом описании начисто отсутствует.

Даже не знаю что добавить. Подитожу, да, в российском госсекторе есть технологические проекты позволяющими ему быть на уровне Молдавии и Азербайджана, и да, никакого отношения к этим проектам российский Гостех не имеет и иметь не может.

Ссылки:
[1] https://t.iss.one/gosteh/488
[2] https://openknowledge.worldbank.org/items/f6ec889a-13aa-4eda-9b5f-42ac35f262fe

#government #govtech #worldbank #technology
Я ранее давал ссылку на текст Стивена Вольфрама про то как устроен ChatGPT [1], а вот и близкий по смыслу текст Understanding Large Language Models [2] от Себастиана Рашка, автора многочисленных книг по машинному обучению. Собственно и этот текст ориентирован в основном на тех кто машинное обучение изучал и понимает хотя бы основу.

‘Godfather of AI’ quits Google with regrets and fears about his life’s work [3] новость о том что что "один из отцов ИИ" Geoffrey Hinton покинул Google. Скорее всего практического влияния на продукты компании его уход не имеет, но репутационно это минус для Google, поскольку он немного не мало, но Тюринговский лауреат (Нобель для комьютерных наук) и уходит со словами о бесконтрольном развитии AI в Google.

Неинвазивный метод превращения мыслей в текст с помощью ИИ Scientists develop A.I. system focused on turning peoples’ thoughts into text [4]. Пока только в лаборатории и требует сложных устройств, не портативно, но уже интересно. Как минимум для записи снов, как максимум для психологической диагностики. Мне на ум сразу приходит полиграф нового типа, одновременно записывающий не только сердечный ритм, но и мысли в ответ на задаваемые вопросы.

Ссылки:
[1] https://t.iss.one/begtin/4612
[2] https://magazine.sebastianraschka.com/p/understanding-large-language-models
[3] https://www.theverge.com/2023/5/1/23706311/hinton-godfather-of-ai-threats-fears-warnings
[4] https://www.cnbc.com/2023/05/01/scientists-develop-ai-system-focused-on-turning-thoughts-into-text.html

#ai #readings #technology