Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
По поводу несмышлённой инициативы депутатов по запрету дистанционной работы для многих уехавших из РФ мне есть что сказать. У многих отъезд был и остаётся связан с ощущением, как бы помягче grande désastre (большой катастрофы), связанной, как с мобилизацией, так и с общим ухудшением окружающей действительности, так и с возможностью заниматься профессиональной деятельностью. Рассчитывать на то что ИТшники начнут возвращаться из-за запрета на дистанционную работу - это, даже не наивно, это [уже не]редкое недомыслие.

При введение запрета будет примерно так։
- крупный ИТ бизнес создаст дочерние предприятия в странах куда уехали их специалисты и переведёт их туда;
- расцветёт появление аутстаффинговых компаний с которыми будет контрактоваться средний бизнес. Раньше аутстафф западных компаний был в России, а теперь будет аутстафф российских в условном Узбекистане
- малый бизнес начнёт переоформлять программистов в ведомостях на "дистанционных исполнителей экзотических танцев" и иные интересные профессии не подпадающие под действие закона.

#russia #legislation #idiotseverythere
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].

Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.

Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных

Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity

#opendata #policy #reports #europe
Полезное чтение про данные, технологии и не только։
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.

Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser

#opensource #ai #machinelearning #dbt #dataengineering #etl
Почти всё что сейчас обсуждается про ИИ сводится или не обходится без упоминания ChatGPT. Но интереснее упоминание GPT-4, вот, например, удалённый теперь уже твит [1] с мыслями Сэма Альтмана, главы OpenAI.

Ключевые мысли։
1. Microsoft "по уши" в OpenAI. Bing получит ИИ поиск в следующем году.
2. GPT-4 выйдет во втором квартале 2023 г.
3. Google в большом волнении и планируют также ASAP внедрять ИИ для поиска. Вопрос как при этом они не порушат их же бизнес модель.
4. Ключевое сейчас не в прокачке конфигруации и языковых моделях, а тупо в безграничности экзафлопсов для потраченных на обучение моделей.
5. Большая рыночная тема в применении языковых моделей к конкретным областям, вроде программирования.

И, туда же, вдогонку статья в Forbes [2]
о 10 предсказаниях о ИИ на 2023 год.

Ссылки։
[1] https://twitter.com/rmlpt110/status/1605261913306308616
[2] https://archive.ph/IkRxT

#data #ai #future #2023 #chatgpt #gpt4
Из свежих интересных инструментов для работы с API Cadl [1] язык от Microsoft для описания облачных API и автогенерации кода для сервера и клиента. Существует в виде компилятора командной строки, расширений для VS Code и Visual Studio, написан полностью на nodejs, поддерживает спецификации OpenAPI, но ими не ограничивается.

Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.


Ссылки։
[1] https://microsoft.github.io/cadl/

#opensource #microsoft
Global Biodata Coalition опубликовали список Global Core Biodata Resources [1]. Это перечень баз данных с биоданными особо значимыми для долгосрочного развития науки.

Эти базы данных должны соответствовать следующим критериям։
- предоставлять бесплатный и открытый доступ к данным
- используются активно по числу и распределённости их пользователей
- зрелые и всесторонние
- рассматриваются как авторитетные в своей области
- обладают высоким научным качеством
- и демонстрируют высокий профессиональный стандарт в предоставлении сервиса.

Открытость и свобода доступа определяются через совместимость с лицензиями OpenDefinition [2].

Очень хорошо сформулированные критерии, актуальные для любой области, не только для биологии, медицины и биоинформатики.

Всё вместе это данные огромного объёма, используемые исследователями по всему миру.

Ссылки։
[1] https://globalbiodata.org/scientific-activities/global-core-biodata-resources/
[2] https://opendefinition.org/licenses/

#opendata #datasets #biosciences
Я ранее писал про библиотеку кода Iterable data для Python предназначенную для потоковой обработки файлов с данными [1] и наконец-то нашёл время обновить её в Github'е [2] и залить в Python packages [3]. Теперь установить код можно командой "pip install iterabledata".

Про то зачем это нужно я писал ранее. Основная задача в том унифицировать обработку файлов данных так чтобы не было заметной разницы работаешь ли ты с файлом JSON, CSV, NDJSON, BSON, Parquet или другим. Сейчас поддерживаются 11 форматов файлов и 5 кодеков (алгоритмов) сжатия. Это даёт возможность не только упростить и унифицировать обработку файлов, но и достаточно просто делать преобразования между файлами в разных форматах. Всё это рождается из реальных задач с которыми приходится сталкиваться когда работаешь с файлами в "дикой среде", а то есть не можешь управлять тем в каком первичном виде они существуют.

По сути это код выделенный из утилиты undatum и доработанный для универсальной поддержки разных форматов. Он альтернативен к использованию pandas и датафреймов, потому что датафреймы не поддерживают JSON/NDJSON, а уплощение данных (flattening) допустимо и удобно далеко не всегда.

Что добавилось։
1. Универсальная функция open_iterable("название файла") которая на вход может получать файл в формате csv, json, ndjson, bson, parquet и тд и возвращать итератор
2. Класс Pipeline и функция Pipeline для очень простой перегонки данных из одного файла в другой с промежуточной обработкой.
3. Обновлены многие типы форматов, добавлен кодек lz4.
4. Практически все основные функции покрыты тестами
5. Добавлено множество вспомогательных функций для работы с разными типами данных, они будут уже в документации

Ссылки։
[1] https://t.iss.one/begtin/4476
[2] https://github.com/apicrafter/pyiterable
[3] https://pypi.org/project/iterabledata/

#opensource #dataengineering #data #datatools
Полезное чтение про данные, технологии и не только։
- Working with large CSV files in Python from Scratch [1] о том как работать с большими CSV файлами и используя Python. Я иного сталкивался и сталкиваюсь с большими CSV файлами, но в этой заметке были и новые техники. Стоит почитать тем кто с работает с CSV файлами регулярно

- Tips For Hiring Junior Data Engineers [2] советы нанимающим дата инженеров начального уровня. Советы все по делу, но, конечно надо учитывать и рыночную специфику тоже.

- Google BigQuery Data Lineage [3] гугл добавляют в BigQuery вкладу про прослеживаемости данных. Большое дело, облегчит жизнь многим и многие коммерческие инструменты обесценит.

- Functional Data Engineering - A Blueprint [4] полезный архитектурный текст от автора Data Engineering Weekly. Хорошая цитата оттуда Data engineering has missed the boat on the “devops movement” and rarely benefits from the sanity and peace of mind it provides to modern engineers. They didn’t miss the boat because they didn’t show up; they missed the boat because the ticket was too expensive for their cargo. Которая. в свою очередь, из The Downfall of the Data Engineer [5]

- Stack Overflow 2022 devlopers survey [6] результаты опроса 70 тысяч разработчиков от Stack Overflow. Интересного много, всё просто даже не перечислишь. Выделил я бы малое число разработчиков использующих Clickhouse и стабильно высокое использование MongoDB. И это если только говорить про СУБД, а там ещё много чего. Но платят более всего тем кто владеет DynamoDB, языком программирования Clojure и веб фреймворком Phoenix

Ссылки։
[1] https://coraspe-ramses.medium.com/working-with-large-csv-files-in-python-from-scratch-134587aed5f7
[2] https://seattledataguy.substack.com/p/tips-for-hiring-junior-data-engineers
[3] https://cloud.google.com/bigquery/docs/data-catalog#data_lineage
[4] https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
[5] https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
[6] https://survey.stackoverflow.co/2022/

#data #readings #technology
Почему нужно архивировать данные․ Каспийский трубопроводный консорциум ранее публиковал статистику по отгрузке нефтепродуктов на своём сайте. Теперь этот раздел недоступен [1], последняя публикация в интернет-архиве есть за март 2022 года. Похоже данные исчезли в март-апреле причём включая все исторические данные.

Другой пример, аналитика цен на недвижимость от сервиса Domofond. Данные перестали обновляться с апреля 2022 года [3]. Архивные данные остались, но новых данных нет. Почему данные перестали обновляться неизвестно.

Федеральное Казначейство с февраля не публикует ежемесячные отчеты об исполнении федерального бюджета [4]. Об этом уже многие писали данных далее становится постепенно всё меньше.

Не все эти данные являются открытыми в определении свободных лицензий, но это, безусловно, те общедоступные данные которые характеризуют состояние экономики.

Причём если писать о том что закрыли ещё можно, то лично я уже опасаюсь писать о тех данных которые ещё не закрыты. Потому что любые данные дающие реальную картину состояния экономики или общества могут исчезнуть.

Ссылки։
[1] https://www.cpc.ru/RU/operations/Pages/loading.aspx
[2] https://web.archive.org/web/20220314112004/https://www.cpc.ru/RU/operations/Pages/loading.aspx
[3] https://www.domofond.ru/tseny-na-nedvizhimost
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1020/

#opendata #data #russia
Полезное чтение про данные, технологи и не только. Сегодня выпуск посвящённый ИИ։

- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.

- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.

- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.

- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил

- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше

- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.

- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.

Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/

#data #ai #technology #readings
В рубрике интересных наборов данных большая коллекция коллекций геопространственных наборов данных geospatial-data-catalogs [1] включает наборы данных из։
- AWS Open Data
- AWS Open Geospatial Data
- AWS Open Geospatial Data with STAC endpoint
- STAC Index Catalogs
- Earth Engine Catalog
- Planetary Computer Catalog

В общей сложности это более 2000 наборов данных довольно большого объёма, многие из них - это спутниковые снимки, а также все метаданные извлечённые из первоисточников.

Обратите внимание, ни один из этих каталогов не является государственным. Earth Engine Catalog - это Google, Planetary Computer Catalog - это Microsoft, каталоги на AWS - это Amazon, а STAC Index - это общественный каталог вокруг спецификации STAC [2].

А также не могу не напомнить о слегка олдскульном, но любопытном каталоге общедоступных инсталляций ArcGIS [3].

Геоданных становится всё больше, думаю что рано или поздно большая часть госпорталов открытых данных будут поддерживать спецификацию STAC, а открытые каталоги big tech корпораций будут агрегировать их оттуда.

Ссылки։
[1] https://github.com/giswqs/geospatial-data-catalogs
[2] https://stacspec.org/en
[3] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf

#opendata #geodata #geospatial #datacatalogs
По поводу Единой биометрической базы данных в России мне много что есть сказать, про разного рода политические аспекты многие журналисты написали, пишут или напишут.

Я же скажу про технические и регуляторные։
1. Важно понимать что прежде чем сама идея единой биометрической базы возникла многие российские компании много инвестировали в биометрию, сбор данных их клиентов и тд. Их причины были рыночными, где-то для защиты от мошенников, где-то для коммерческой слежки (читаем Surveillance capitalism).
2. Для всех этих компаний создаваемая база - это проблема, достаточно серьёзная. Они все теперь зажаты в очень жёсткие рамки, где государство во всём ограничивает компании прикрываясь интересами граждан и никак не ограничивает спецслужбы и, потенциально, другие органы власти.
3. Почему государство прикрывается интересами граждан? Потому что реальная забота об интересах граждан - это усиление граждан в судах и возможность получения значительной компенсации при нарушении прав. А регулирование через штрафы и запреты усиливает не граждан, а те органы власти которые это регулирование будут осуществлять.
4. Это важный аспект перестройки коммуникации с рынками работающими с пользовательскими данными. Стратегия росийского Пр-ва сейчас в том чтобы перевести частный бизнес в подчинённое состояние. Это модель существования "мы вам не мешаем, пока вы делаете то что вам скажут". Это касается не только ЕБС, но тут живой и близкий пример.
5. Это, кстати, касается и всего GR последних лет. Большая часть GR активностей компаний была построена на ситуациях срочной реакции на законопроекты в стиле "сейчас мы вам всем открутим яйца прикрываясь какой-нибудь хренью!" и компании пытались отбиваться чтобы "яйца открутили только чуть-чуть" или "не совсем оторвали". За этим образом скрывается существование исключительно в модели защитного GR.
6. Конечно, единственные выгодоприобретатели это спецслужбы, МВД и потенциальные другие органы власти которые могут получить доступ к этой базе. Ограничения на доступ к ней ровно на столько насколько спецслужбы и МВД бояться что они могут следить друг за другом. Насколько они друг другу не доверяют, насколько они в конфликте, настолько наложены ограничения,но не более
7. Это важно, потому что права гражданина никто сейчас не защищает. Потому что права в законе начинаются и заканчиваются на том что "гражданин имеет право не сдавать биометрию" и то что бизнес не имеет право "принуждать" к его сдаче. Ну, способы принуждения бывают разные. Самый простой - это вписывание в условия договора мелким шрифтом. Да, ты можешь отказаться, если прочитаешь, если обратишь внимание, наверное этот пункт могут вычеркнуть.
8. А если твои данные уже будут в ЕБС то что-как? Права заканчиваются ? А что с ошибками ? А что с разбором инцидентов ? Типа это не для закона ? Нет, это несёрьёзно. Но, повторюсь, права гражданина сейчас никто не защищает.
9. Добавлю что с точки зрения информационной безопасности создание единой базы данных - это, скорее, проблема чем возможность. Единая база - это единая точка сбоя, единый источник утечки и масштабные неуправляемые последствия в случае если это произойдёт.

На этом фоне нельзя не отметить что начинают затыкать рот тем кто выступает против слежки и активно об этом говорит. Например, признание инагентами ребят из Роскомсвободы, не говоря уже о десятках журналистов, многие из которых писали про усиление слежки в России.

Тенденция плохая, не говоря уже о том что лично меня много лет уже поражает насколько российские законотворцы не думают о собственном будущем. Внедрение массовой слежки даёт возможность следить не только за всеми, но и за ними. Это примерно как принять закон о том чтобы создать комнату с компроматом на себя и вручить ключи правоохранителям.

#russia #regulation #privacy #security
В рубрике как это работает у них визуализация стоимости аренды квадратного метра жилья во Франции. Автору в комментариях пишут что надо бы добавить градацию от 20 до 30 евро для Парижа, но в целом и так очень наглядно. А главное что визуализация на открытых государственных данных Министерства экологического перехода страны (Ministère de la Transition écologiqueю). Данные сверхгранулированные, гораздо более детальные чем муниципальное деление. Подробнее в файлах и в методологии.

Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/

#opendata #france #datasets
В рубрике как это работает у них, французский портал code.gouv.fr [1] посвящённый использованию открытого кода. Содержит данные о 15 114 репозиториях кода созданных органами власти и госучреждениями Франции. Например, не все знают что язык программирования OCaml создан и поддерживается французским Institute for Research in Computer Science and Automation (INRIA). Или вот язык программирования Catala [2] для описания юридических текстов.

Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.

Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.

Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.

Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala

#opensource #france