Ivan Begtin
8K subscribers
1.89K photos
3 videos
101 files
4.6K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В полку сервисов/продуктов на базе ИИ по автоматизации написания кода прибыло, в Arstechnica статья и Replit Ghostwriter [1], прямой конкурент Github Copilot и умеющий программировать и объяснять на 16 языках. Они предоставляют несколько тарифных планов, начиная с бесплатного и до $7 в месяц [2] для работы в online IDE.

С одной стороны такие сервисы это явный и безусловный прогресс, не всё можно автоматизировать, но очень многое. А вместе с NoCode платформами есть шанс на то что часть разработки перейдет на такие IDE и платформы автоматизация программирования.

А с другой стороны, конечно, это сильный драйвер в сторону зависимости от облачных платформ, даже ещё больше чем сейчас. Сейчас, по моему личному мнению, настольные IDE очень хороши и мигрировать в облака большого резона нет, кроме тех областей где иначе нельзя. А в продуктах вроде Copilot и Ghostwriter закладывается модель cloud-first и цикл разработки компании получает ещё одну зависимость.

Тем не менее тема очень горячая, у меня нет сомнений что инвестиции в неё и гибриды с NoSQL будут существенно расти в ближайшие годы.

Ссылки:
[1] https://arstechnica.com/information-technology/2022/10/replits-ghostwriter-ai-can-explain-programs-to-you-or-help-write-them/
[2] https://replit.com/pricing

#ai #programming
Меня время от времени спрашивают что я думаю про те или иные российские технологические государственные инициативы, вроде того же ГосТеха. И я давно хочу написать про самый главный важнейший приоритетнейший и тд. критерий при рассмотрении всех таких систем и, кстати, деятельности любых госорганов, организаций и всего остального.

Критерий очень простой - насколько стране и скольким людям станет плохо если это исчезнет, безвозвратно и невосстановимо. Самое простое и понятное - представьте что упадёт метеорит (менее красивый, но более реалистичный аналог - представьте что сменится правительство и новое всех разгонит).

Например, давайте предположим на ФКУ Гостех упадёт метеорит и упадёт он так точно что накроет сразу здание, команду, сервера и все что касается проекта. То есть Гостех перестанет существовать как сущность в какой-либо форме. Насколько серьёзно пострадает работа госорганов? Сколь многих людей это затронет?

Я подскажу, затронет немногих, критическая инфраструктура не пострадает, граждане не останутся без госуслуг, госорганы не потеряют возможности коммуникации, ключевые бизнес процессы и функции государства не пострадают.

Для сравнения если аналогичный метеорит упадёт на ФГИС Электронный бюджет, АИС Налог-3 или портал Госуслуг, то стране будет плохо, число пострадавших граждан, бизнесов и тд. будет исчисляться десятками миллионов.

Аналогичный подход применим и к любым организациям и госструктурам. Если, например, случится зомби-апокалипсис, или упадёт метеорит, или ликвидируют одним днём, или ещё что-то не менее смешное и апокалиптичное случится с Россотрудничеством, Росмолодежью, или вот уже случилось с Ростуризмом, и ещё со многими госорганами, то никто и не заметит. А если затронет "корневые" органы власти вроде Минфина и др. то заметят сразу и все.

Поэтому, в отношении Гостеха всё, на самом деле, очень просто. Пока он не стал критичной инфраструктурой он может просто не пережить электоральный цикл и смену Пр-ва. А если не станет в ближайший год-два, то точно не переживёт.

#thoughts #government #it
Forwarded from Roskomsvoboda
История Рунета нашими глазами

За 10 лет в цифровом мире произошло много всего. Сейчас мы собрали наиболее важные события, связанные с блокировками в Рунете и другими нарушениями цифровых прав: от «чёрного списка» сайтов, через слежку, блокировку Telegram и Tor, а также давление на СМИ, до военной цензуры.

Россия прошла регрессивный путь в области свободы Рунета. Но хорошее тоже было. Хорошее – это мы с вами. То, что мы делали, чтобы отстоять свои цифровые права и свободы. К сожалению, они не даются без борьбы. Но мы верим, что технологии развиваются быстрее, чем цензура.

Мы остаёмся на страже цифровых прав и желаем всем вам быть в безопасности, а мы вместе с вашей помощью продолжим отстаивать наши с вами цифровые права всеми своими силами и возможностями!

История Рунета нашими глазами
➡️ https://x.roskomsvoboda.org/

Другие релизы сегодняшнего дня: материал издания «Новая газета. Европа» о десятилетии блокировок в России, большое обновление Censor Tracker, а также обновление визуализации нашего реестра запрещённых сайтов
➡️ https://roskomsvoboda.org/post/desyat-let-jubiley-rks/
В июне 2022 г. я писал несколько предсказаний [1], в том числе то что VPN станет госуслугой. За 3 месяца этого не произошло, но вот свежая новость

Минцифры проводит работу по изучению потребностей и особенностей использования технологий и сервисов VPN (Virtual Private Network) на территории Российской Федерации. [2]

Зачем сотрудники Минцифры это делают можно предполагать разное, но сценарий с блокировкой всех основных VPN протоколов и регистрация пользователей VPN через Госуслуги я бы не исключал. В рамках текущего цензурного госрегулирования это вполне очевидный шаг, плохой, но очевидный.

Что будет в итоге? Правильно, расцветут VPN'ы через все "нестандартные" протоколы.

Ссылки:
[1] https://t.iss.one/begtin/3971
[2] https://t.iss.one/Telecomreview/9682

#vpn #security #privacy #government #russia
В рубрике больших открытых наборов данных HTTP Archive [1], большая открытая база по веб-технологиям собираемая из данных миллионов веб сайтов и составляющая почти 44ТБ данных и 8.4М сайтов на 2022 год.

Команда проекта состоит из волонтеров которые ежегодно актуализируют эту базу данных и подготавливают веб-альманах с рассказом о том как технологии меняются и развиваются. Альманах за 2022 год [2] был выпущен в сентябре 2022 г. и обновлен в октябре и включает много интересного, например, раздел про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и тд. [3]. Интересный факт - структурированных данных всё больше, самые популярные форматы RDF и Open Graph.
Правда важно отметить что RDF - это RDFa и применяется, в основном, для отметки изображений с типом foaf:image. А вот использование microformats2 [4] совершенно минимальное.

Там очень много что есть изучить по производительности, разметке, приватности, безопасности и иным сведениям по датасету.

В качестве примера, любопытные языковые и страновые факты:
- русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским)
- самые популярные "фабрики шрифтов" (font foundries) - это Google и Font Awesome
- кириллические шрифты вторые по распространённости после латинского письма
- 1С-Битрикс входит в топ-10 CMS, правда, с наихудшими, по сравнению с остальными, оценками доступности контента для людей с ограниченными возможностями

Важно то что все эти данные общедоступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство [5].

Поэтому практически ничто не мешает использовать эти данные в собственных исследованиях.

Ссылки:
[1] https://httparchive.org/
[2] https://almanac.httparchive.org/en/2022/
[3] https://almanac.httparchive.org/en/2022/structured-data
[4] https://microformats.org/wiki/microformats2
[5] https://github.com/HTTPArchive/httparchive.org/blob/main/docs/gettingstarted_bigquery.md

#opendata #datasets #web
Из открытого доступа исчезло содержание сайта ИА REGNUM (regnum.ru), вначале была заглушка с текстом о конфликте редакции с собственником, далее нейтральная, но в любом случае ситуация такова что всё содержание исчезло одномоментно.

Мы ранее не архивировали сайт Regnum'а исходя из того что СМИ редко исчезают одним днём, такое происходило ранее только с сайтом znak.com, закрывшемся в марте 2022 года, поэтому архивной копии сайта Regnum у нас нет.

Если содержание сайта Regnum не вернётся в ближайшие дни, то наша команда постарается восстановить его содержимое из кэша поисковых систем и внести к нам в архив.

Но даже в этом случае, если у кого-либо есть копия содержания сайта, или если кто-то делал его копию - просим ей поделиться и мы добавим её в Ruarxive.org и сделаем общедоступной.

#webarchives #digitalpreservation #mediaarchive
О том как развивается открытие данных в мире. Во Франции государственная ИТ команда Etalab разметила обновлённый интерфейс просмотра данных национального портала открытых данных data.gov.fr [1].

Интерфейс чем-то напоминает коммерческие продукты такие как Socrata и OpenDataSoft, а чем-то движок публикации данных datasette с открытым кодом.

Сам подход заключается в том чтобы уже опубликованные данные приводить в более удобный вид. Путь интересный, но не единственный.

Ссылки:
[1] https://explore.data.gouv.fr

#opendata #france #eu
В рубрике полезного чтения про данные, технологии и не только:
- Coding for economists [1] руководство по программированию для экономистов, автор пишет книгу которая уже частично доступна. В книге о том как обрабатывать экономические данные, статистику, много примеров в Jupyter Notebook, эконометрии и визуализации данных. Напоминает похожие книги по программированию для историков и многих гуманитарных профессий.
- Dashboard Design Patterns [2] шаблоны проектирования дашбордов собранные группой специалистов по визуализации. Полезно, но оторвано от шаблонов потребления значений в дашбордах, это ощущается и по команде тех кто делает ресурс, почти все они из академического сообщества.
- Where are the Datasets? A case study on the German Academic Web Archive. [3] автор научной статьи попытался поискать наборы данных на сайтах академических учреждений Германии используя веб архив GAW (German Academic Web) с архивом сайтов основных научных институтов Германии. Автор пишет что мало что удалось найти и многое ещё можно сделать.


Ссылки:
[1] https://aeturrell.github.io/coding-for-economists/intro.html
[2] https://dashboarddesignpatterns.github.io/
[3] https://amor.cms.hu-berlin.de/~jaeschkr/pdf/younes2022where.pdf
[4] https://german-academic-web.de/

#opendata #data #dataviz #opensource
Про открытый код, роль государства и что не так с этим сейчас в России и не только

Я много лет занимался проектом Open Source Government [1] оценки того как много и как именно открытого кода публикуют органы власти по всему миру. Собственно ещё в прошлом году были планы сделать его не pet-проектом, а полноценным, с веб-сайтом, рейтингом и тд., но он основывался на данных о коде публикуемом органами власти и гражданскими хакерами на Github [2]. Перспективы публикации там российского госкода теперь минимальны. Так что если его делать то только без России.

И вот об этом я хочу в очередной раз сказать, блеск и нищета открытости кода в России в отсутствии не только внятной госполитики его поддержки, но и применения открытого кода в целом.

Ключевое тут в том как открытый государственный код становился госполитикой в мире и как он продолжает развиваться. Поскольку это жанр текста в телеграм, я не буду тут приводить много ссылок на законы и публикации, только тезисами:
1. Политика открытого кода в фактическом регулировании начиналась в областях создания общественного блага на деньги налогоплательщиков. А то есть - это научные работы, исследования и иные продукты создаваемые за счёт государственных грантов. Большая часть открытого кода и, кстати, открытых данных в США созданы государственными научными учреждениями. Аналогично во многих других странах.
2. Открытый код публикуемый органами власти - это то же самое что открытый код крупный корпораций и компаний. Сильным трендом это стало за последние 15 лет и, причины этого в:
а) Появлении больших платформ открытой разработки таких как Github, Gitlab и др.
б) Появлении большого числа гражданских хакеров (civic hackers), людей заинтересованных в улучшении сервисов государства и готовых помогать в этом
в) Стремлении экономить средства налогоплательщиков
г) Необходимости интеграции в существующие экосистемы открытых проектов, когда чтобы улучшить их под себя необходимо и самому публиковать открытый код.
3. В России отсутствуют и отсутствовали требования РНФ, РГНФ, РНЦИ и других каналов госфинансирования науки по обязательному раскрытию кода. Научные организации если и публикуют открытый код, то это единичные случаи, часто не подкреплённые даже локальными нормативными документами.
4. В России у государственных органов опыта ведения открытой разработки нет. Подчеркну, не раскрытия кода, а именно ведения открытой разработки. Публикация кода - это процесс связанный с прозрачностью гос-ва. Оно необходимо для технического аудита и важно, но открытая разработка - это публичность команды разработки, готовность этой команды вести технологический евангелизм, взаимодействовать с другими и вовлекать других разработчиков в улучшение продуктов.
5. В мире таких людей много, но не фантастически много, чаще всего к разработке кода на государство привлекались/нанимались люди, либо из сообществ гражданских хакеров, либо с хорошим личным опытом в работе над открытым кодом. Многие известные мне команды и отдельные разработчики имели опыт с работой над открытым кодом государственных научных учреждений.
6. Отдельная и важная категория гражданских хакеров, кто-то из них прагматично уходил работать на государство, потом возвращался или оставался, а кто-то продолжают развивать продукты на открытом коде не вступая с госорганами в трудовые отношения, получая гранты от частных или госфондов на развитие открытого кода.
7. В России большая часть таких гражданских хакеров господдержки не получало, а в течение последнего десятилетия ещё и были под нарастающим прессингом с признанием инагентами ряда НКО где они были.
8. Поэтому, в качестве тезиса, в России за эти годы государство не накопило ни компетенций, ни внятной госполитики, ни кадрового потенциала для создания репутации в открытости кода.
9. Одна из наиболее внятных и разумных инициатив - конкурсы Код-ЦТ и Код-ИИ организуемые Фондом содействия инноваций - это реальные попытки хоть что-то изменить и попытаться опереться на те ИТ компании и ИТ команды которые готовы и умеют развивать продукты с открытым кодом. ФСИ даёт гранты даже большие чем германский Prototype Fund, но это капля в море по сравнением с субсидиями академическим институтам и университетам на научную деятельность результат которой не виден, не известен и закрыт.
10. Аналогично с инициативами связанными с Национальным репозиторием кода, Гостехом и ещё много чем. Для понимания, в основе Гостех в Сингапуре или в Эстонии открытый код. Все лучшие примеры цифровизации госухи в мире на которые сотрудники РосГосТеха могут ссылаться тоже будут открытыми, а вот их платформа даже намеков на открытость не имеет
11. В случае с национальным репозиторием кода, то что он заменит ФАП не означает что код там будет открыт. Скорее он будет открыт для технического аудита, но даже не факт что разработка будет вестись в нём, а не использоваться только для публикации кода в момент сдачи контрактной отчетности. Это уже прогресс, но медленный.
12. Но, я повторюсь, что всё начинается с открытости результатов научных исследований. Почему он не публикуется? Спросите Минобрнауки, но там даже отвечать некому;)

Тут надо бы добавить что всё это было справедливо в мирные времена, а сейчас многие из тех кто понимает что и как можно было бы исправить и изменить, не будут работать с российскими госорганами ни на каких условиях, даже если госполитика цифровизации была бы иной.

Ссылки:
[1] https://data.world/ibegtin/open-source-government-project
[2] https://government.github.com/

#government #opensource #it #opendata #openaccess #research
В рубрике интересных инструментов с открытым кодом для работы с данными и не только, сегодняшняя подборка:
- Surrealdb [1] распределённая СУБД с поддержкой SQL и NoSQL, написана на Rust, позиционируется как СУБД для веба реального времени. По факту, конечно, реального времени там нет. Много разных интересных возможностей и собственный язык запросов SurrealQL [2]
- Mastodon [3] альтернатива Твиттеру с открытым кодом. О нём многие давно знают, поэтому просто напоминание для тех кому Твиттер может стать дискомфортным после прихода туда Элона Маска
- Stash [4] очень важный и нужный и актуальный инструмент по организации порно на собственном компьютере/сервере.
- Hosts [5] файл hosts из 152+ тысяч записей тщательно собранных и используемых, например, для фильтрации контента. По сути это агрегатор из десятков источников используемых для защиты компьютеров пользователей.
- Awesome forensic tools list [6] мой собственный репозиторий с коллекцией инструментов для цифрового дознания. Чаще оно называется OSINT и используется для сбора данных из доступных источников.

Ссылки:
[1] https://github.com/surrealdb/surrealdb
[2] https://surrealdb.com/features#surrealql
[3] https://github.com/mastodon/mastodon
[4] https://github.com/stashapp/stash
[5] https://github.com/StevenBlack/hosts
[6] https://github.com/ivbeg/awesome-forensicstools

#opendata #opensource #datatools
Интересные стартапы про данные и их свежие раунды финансирования:
- Galileo [1] MLOps платформа для интеграции машинного обучения на Python с подключением отладки и мониторинга. Подняли раунд А на $18M.
- Dataloop [2] стартап по разметке данных с фокусом на качество данных. Получили $33M в рамках раунда B
- Alation [3] стартап за одноимённым продуктом каталогов данных. Подняли $123M в рамках раунда E. У них много продуктов, непонятно на какой именно пойдут инвестиции.

Ссылки:
[1] https://techcrunch.com/2022/11/01/mlops-platform-galileo-lands-18m-to-launch-a-free-service/
[2] https://dataloop.ai/blog/dataloop-raises-33-million-to-help-companies-build-data-engines-for-ai/
[3] https://www.alation.com/press-releases/alation-raises-series-e-funding/

#data #startups
Тем временем в Финляндии организуют конкурс на создание приложений по преодолению энергетического кризиса [1], ключевое условие - использование открытых источников данных или частных данных и реализация проекта на принципах честной экономики данных (fair data economy) о которой их мозговой центр Sitra публиковал свод правил [2]. Идей для конкурса там много, например, рекомендации потребителям по времени использования электричества за меньшую цену или анализ энергопотребления домохозяйств или бизнеса и рекомендации по корректировке.

В целом публикация открытых данных и конкурсы и хакатоны и иные соревнования для этого и нужны, для решения актуальных задач.

Для участия не обязательно быть из Финляндии, но заявки из России врядли примут. Возможные суммы финансирования: от 5 до 15 тысяч евро на первом этапе и от 20 до 65 тысяч евро на втором.

Ссылки:
[1] https://www.sitra.fi/en/projects/call-for-solutions-using-data-to-curb-energy-use/
[2] https://www.sitra.fi/en/publications/rulebook-for-a-fair-data-economy/

#opendata #contests #energy #finland
В рубрике полезных инструментов по работе с данными, инструменты по документированию баз данных.
- schemaspy [1] довольно древний популярный инструмент по генерации документации к базам данных. На входе настройки подключения, на выходе папка с HTML файлами. Сам движок написан на Java, поддерживает только SQL базы данных, но не все.
- dbdocs.io [2] онлайн сервис/продукт по генерации документации к базам данных․ Кусочек в открытом
коде, но сам сервис онлайн. Self hosted версии пока нет․ Эта же команда разработчики стандарта DBML [3] по описанию баз данных
- tbls [4] движок по генерации документации написанный на Go. В том числе поддерживает NoSQL и генерацию документации в разных форматах и с очень гибкими настройками.
- SchemaCrawler [5] открытый код на Java и поддержка любой СУБД через JDBC, очень много возможностей и опций.

А также есть много узкоспециализированных инструментов и коммерческих продуктов.

В средних и крупных компаниях сейчас такими инструментами пользуются редко поскольку мигрируют на каталоги данных и системы управления метаданными, поскольку важнее становится не только то где данные хранятся, а все объекты дата-инженерии, взаимосвязи, data lineage (нет нормального перевода этого термина) и так далее.

Тем не менее инструменты документирования данных имеют своё применение. Лично я предполагаю их будущее в направлении загрузки данных в каталоги данных.

Ссылки:
[1] https://github.com/schemaspy/schemaspy
[2] https://dbdocs.io
[3] https://www.dbml.org
[4] https://github.com/k1LoW/tbls
[5] https://github.com/schemacrawler/SchemaCrawler

#data #datatools #opensource #datadocumentation #datacatalogs
Вышел доклад/исследование State of Frontend [1] по технологиям фронтэнд разработки основанный на опросе 3703 разработчиков и с комментариями нескольких экспертов. Хотя я лично и далёк от темы фронтэнда, но тут большой любопытный текст с интересными результатами.

Вот подборка фактов:
- большинство прошедших опрос работают дистанционно: 59.7%, ещё 35.3% в гибридном формате
- в безусловных лидерах фреймворки Angular (51%) и React (25%), наиболее перспективные Svelte и Next.js
- самые популярные дизайн системы Material UI, Tailwind UI и Bootstrap
- Typescript используют 84% разработчиков и большинство (43%) считают что он заменит Javascript однажды
- большинство используют сервера AWS (Amazon) или свои собственные
- подавляющее большинство используют Visual Studio Code: 74.4%

И там ещё много всего, что-то кажется очевидным, что-то совсем нет. Например, про VS Code или про Typescript.

Ссылки:
[1] https://tsh.io/state-of-frontend/

#reports #research #frontend #javascript #development
Полезное чтение про данные и не только:
- No, you don’t need MLOps [1] текст о том что MLOps это маркетинговый термин на который не надо покупаться и есть много инструментов настолько упростивших создание моделей для data science что покупаться на MLOps не нужно.
- Raster4ML [2] программная библиотека для Python по извлечению данных для машинного обучения из спутниковых снимков. По сути превращает растр в данные
- Command-line data analytics made easy [3] заметка про spysql, утилиту командной строки на Python позволяющей делать SQL подобные запросы к файлам CSV или JSON.
- Process Large Dataset with DataTable, Replacement for Pandas Library? [4] потенциальная альтернатива Pandas, библиотека datatables. Довольно давняя, но и Pandas интегрировано много с чем что сильно его ускоряет.

Ссылки:
[1] https://lakshmanok.medium.com/no-you-dont-need-mlops-5e1ce9fdaa4b
[2] https://raster4ml.readthedocs.io/index.html
[3] https://danielcmoura.com/blog/2022/spyql-cell-towers/
[4] https://towardsdev.com/process-large-dataset-with-datatable-replacement-for-pandas-library-31414cbba549

#readings #data #datatools #opensource
Похоже, ПЕРВАЯ УГОЛОВКА за использование VPN в личных целях!

Подписчик, Андрей Лаптев, прислал прекрасное. Томский районный суд приговорил гражданина К. к 3-м годам ограничения свободы за использование VPN-программы, квалифицировав данное деяние по ст.273 УК РФ (вредоносные программы). Осужденный признал, что с помощью VPN были нейтрализованы средства защиты компьютерной информации, выразившиеся в невозможности однозначной идентификации пользователя и его сетевой активности в сети «Интернет».

Оборот «регулярно осуществлял запуск вредоносной компьютерной программы со своего персонального компьютера, тем самым используя ее» поверг меня в легкий ступор, но такова уж наша судебная лексика.

Обратите внимание. Речь идет об ограничении свободы, а не о лишении. То есть в места не столь отдаленные 👮 виновник не пойдет, но три года - это три года! Железный занавес 🤬 все ближе…

ЗЫ. По ссылка пока только резолютивная часть - приговор в силу еще не вступил.
Please open Telegram to view this post
VIEW IN TELEGRAM
Подробности по делу за использование VPN, на самом деле там оказался не VPN, а мессенжер Vipole

что ничуть не лучше, поскольку формулировки дела таковы:
...осуществил поиск вредоносной компьютерной программы «Vipole», выражающейся в невозможности однозначной идентификации пользователя сети «Интернет» и его сетевой активности...
и
...осознавая, что использование данной программы приведет к нейтрализации средств защиты компьютерной информации провайдеров, регулярно осуществлял запуск вредоносной компьютерной программы «Vipole» со своего персонального компьютера, тем самым используя ее...

Под эти формулировки попадают, и VPN, и мессенжеры вроде Signal и ещё много что.

#privacy #security #vpn #messengers