Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.

Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]

Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.

В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.

Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data

#opendata #data #cartography #microsoft #amazon #meta #tomtom
Simon Wilson собрал данные по притоку пользователей на платформу Mastodon и выложил данные и визуализацию [1]. Всего на платформу(-ы) Mastodon с 20 ноября 2022 года пришло около 1.8 миллиона человек. Много это или мало ? По сравнению с твиттером пока что мало, в Твиттере более 486 миллионов пользователей было на август 2022 г.

Важно помнить что Mastodon - это не один сайт, а более 16 тысяч связанных платформ для социального контента. К примеру, я пользуюсь mastodon.world, многие используют mastodon.social, как самый популярный, а есть много профессиональных сообществ, например, сообщество по цифровой архивации digipress.club и многие другие.


Ссылки։
[1] https://observablehq.com/@simonw/mastodon-users-and-statuses-over-time

#opendata #twitter #mastodon #social
Для тех кто задавался вопросом почему Google переносит карты с домена на "https://maps [dot] google [dot] com" на "https://google [dot] com/maps" есть объяснение этого события [1].

Нюанс в том что домен google.com теперь целиком будет получать доступ к вашему местонахождению, а не только сервис карт.

Идеи супераппов, кстати, построены на том же принципе. Запросить у вас как можно больше разрешений в рамках одного приложения.


Ссылки։
[1] https://twitter.com/Rudcher/status/1598596534656024576

#privacy #google #data
В рубрике "как это устроено у них" исследование DHS Open for Business [1] о том как организовано финансирование государственной слежки в городах США, взаимосвязь Department of Homeland Security, крупных корпоративных подрядчиков, муниципалитетов и лоббистов из отраслевых ассоциаций. Подготовлен The Public Accountability Initiative (PAI), командой которая ведёт проект LittleSis [2] в виде базы лоббистов, олигархов и госчиновников (Facebook of powerful people).

Доклад о том как DHS раздаёт деньги муниципалитетам в рамках программы Urban Area Security Initiative (UASI) и о том какие системы наблюдения за гражданами внедряются. А там полный список всякого разного среди подрядчиков։ Microsoft, SiteShoot, LexisNexis, Palantir, Motorola Solutions и ещё многие другие. А системы включают такие продукты как объединённые базы данных, системы автоматического распознавания номерных знаков, системы сбора биометрии, системы автоматического формирования профилей, системы анализа социальных сетей и многое другое.

Доклад, в виду специфики интересов авторов, посвящён рекомендациям того что такие технологии надо прекращать финансировать. На удивление я не увидел в рекомендациях того чтобы ставить их под гражданский контроль. Всем кто интересуется направлениями регулирования в этой отрасли и темами predictive policing (предсказательной/прогностической полиции) это будет интересно.

Ссылки։
[1] https://public-accountability.org/report/dhs-open-for-business/
[2] https://www.littlesis.org/

#privacy #security #government #usa #spending
Результаты опроса о реакции на утечки персональных данных. Если по каким-то пунктам есть разные мнения, то по двум։ аудит информационных систем и публичное расследование, всё достаточно очевидно. Компаниям пострадавшим от утечек персональных данных будет полезно взять это на заметку.

#privacy #security #polls
По поводу несмышлённой инициативы депутатов по запрету дистанционной работы для многих уехавших из РФ мне есть что сказать. У многих отъезд был и остаётся связан с ощущением, как бы помягче grande désastre (большой катастрофы), связанной, как с мобилизацией, так и с общим ухудшением окружающей действительности, так и с возможностью заниматься профессиональной деятельностью. Рассчитывать на то что ИТшники начнут возвращаться из-за запрета на дистанционную работу - это, даже не наивно, это [уже не]редкое недомыслие.

При введение запрета будет примерно так։
- крупный ИТ бизнес создаст дочерние предприятия в странах куда уехали их специалисты и переведёт их туда;
- расцветёт появление аутстаффинговых компаний с которыми будет контрактоваться средний бизнес. Раньше аутстафф западных компаний был в России, а теперь будет аутстафф российских в условном Узбекистане
- малый бизнес начнёт переоформлять программистов в ведомостях на "дистанционных исполнителей экзотических танцев" и иные интересные профессии не подпадающие под действие закона.

#russia #legislation #idiotseverythere
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].

Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.

Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных

Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity

#opendata #policy #reports #europe
Полезное чтение про данные, технологии и не только։
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.

Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser

#opensource #ai #machinelearning #dbt #dataengineering #etl
Почти всё что сейчас обсуждается про ИИ сводится или не обходится без упоминания ChatGPT. Но интереснее упоминание GPT-4, вот, например, удалённый теперь уже твит [1] с мыслями Сэма Альтмана, главы OpenAI.

Ключевые мысли։
1. Microsoft "по уши" в OpenAI. Bing получит ИИ поиск в следующем году.
2. GPT-4 выйдет во втором квартале 2023 г.
3. Google в большом волнении и планируют также ASAP внедрять ИИ для поиска. Вопрос как при этом они не порушат их же бизнес модель.
4. Ключевое сейчас не в прокачке конфигруации и языковых моделях, а тупо в безграничности экзафлопсов для потраченных на обучение моделей.
5. Большая рыночная тема в применении языковых моделей к конкретным областям, вроде программирования.

И, туда же, вдогонку статья в Forbes [2]
о 10 предсказаниях о ИИ на 2023 год.

Ссылки։
[1] https://twitter.com/rmlpt110/status/1605261913306308616
[2] https://archive.ph/IkRxT

#data #ai #future #2023 #chatgpt #gpt4
Из свежих интересных инструментов для работы с API Cadl [1] язык от Microsoft для описания облачных API и автогенерации кода для сервера и клиента. Существует в виде компилятора командной строки, расширений для VS Code и Visual Studio, написан полностью на nodejs, поддерживает спецификации OpenAPI, но ими не ограничивается.

Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.


Ссылки։
[1] https://microsoft.github.io/cadl/

#opensource #microsoft
Global Biodata Coalition опубликовали список Global Core Biodata Resources [1]. Это перечень баз данных с биоданными особо значимыми для долгосрочного развития науки.

Эти базы данных должны соответствовать следующим критериям։
- предоставлять бесплатный и открытый доступ к данным
- используются активно по числу и распределённости их пользователей
- зрелые и всесторонние
- рассматриваются как авторитетные в своей области
- обладают высоким научным качеством
- и демонстрируют высокий профессиональный стандарт в предоставлении сервиса.

Открытость и свобода доступа определяются через совместимость с лицензиями OpenDefinition [2].

Очень хорошо сформулированные критерии, актуальные для любой области, не только для биологии, медицины и биоинформатики.

Всё вместе это данные огромного объёма, используемые исследователями по всему миру.

Ссылки։
[1] https://globalbiodata.org/scientific-activities/global-core-biodata-resources/
[2] https://opendefinition.org/licenses/

#opendata #datasets #biosciences
Я ранее писал про библиотеку кода Iterable data для Python предназначенную для потоковой обработки файлов с данными [1] и наконец-то нашёл время обновить её в Github'е [2] и залить в Python packages [3]. Теперь установить код можно командой "pip install iterabledata".

Про то зачем это нужно я писал ранее. Основная задача в том унифицировать обработку файлов данных так чтобы не было заметной разницы работаешь ли ты с файлом JSON, CSV, NDJSON, BSON, Parquet или другим. Сейчас поддерживаются 11 форматов файлов и 5 кодеков (алгоритмов) сжатия. Это даёт возможность не только упростить и унифицировать обработку файлов, но и достаточно просто делать преобразования между файлами в разных форматах. Всё это рождается из реальных задач с которыми приходится сталкиваться когда работаешь с файлами в "дикой среде", а то есть не можешь управлять тем в каком первичном виде они существуют.

По сути это код выделенный из утилиты undatum и доработанный для универсальной поддержки разных форматов. Он альтернативен к использованию pandas и датафреймов, потому что датафреймы не поддерживают JSON/NDJSON, а уплощение данных (flattening) допустимо и удобно далеко не всегда.

Что добавилось։
1. Универсальная функция open_iterable("название файла") которая на вход может получать файл в формате csv, json, ndjson, bson, parquet и тд и возвращать итератор
2. Класс Pipeline и функция Pipeline для очень простой перегонки данных из одного файла в другой с промежуточной обработкой.
3. Обновлены многие типы форматов, добавлен кодек lz4.
4. Практически все основные функции покрыты тестами
5. Добавлено множество вспомогательных функций для работы с разными типами данных, они будут уже в документации

Ссылки։
[1] https://t.iss.one/begtin/4476
[2] https://github.com/apicrafter/pyiterable
[3] https://pypi.org/project/iterabledata/

#opensource #dataengineering #data #datatools
Полезное чтение про данные, технологии и не только։
- Working with large CSV files in Python from Scratch [1] о том как работать с большими CSV файлами и используя Python. Я иного сталкивался и сталкиваюсь с большими CSV файлами, но в этой заметке были и новые техники. Стоит почитать тем кто с работает с CSV файлами регулярно

- Tips For Hiring Junior Data Engineers [2] советы нанимающим дата инженеров начального уровня. Советы все по делу, но, конечно надо учитывать и рыночную специфику тоже.

- Google BigQuery Data Lineage [3] гугл добавляют в BigQuery вкладу про прослеживаемости данных. Большое дело, облегчит жизнь многим и многие коммерческие инструменты обесценит.

- Functional Data Engineering - A Blueprint [4] полезный архитектурный текст от автора Data Engineering Weekly. Хорошая цитата оттуда Data engineering has missed the boat on the “devops movement” and rarely benefits from the sanity and peace of mind it provides to modern engineers. They didn’t miss the boat because they didn’t show up; they missed the boat because the ticket was too expensive for their cargo. Которая. в свою очередь, из The Downfall of the Data Engineer [5]

- Stack Overflow 2022 devlopers survey [6] результаты опроса 70 тысяч разработчиков от Stack Overflow. Интересного много, всё просто даже не перечислишь. Выделил я бы малое число разработчиков использующих Clickhouse и стабильно высокое использование MongoDB. И это если только говорить про СУБД, а там ещё много чего. Но платят более всего тем кто владеет DynamoDB, языком программирования Clojure и веб фреймворком Phoenix

Ссылки։
[1] https://coraspe-ramses.medium.com/working-with-large-csv-files-in-python-from-scratch-134587aed5f7
[2] https://seattledataguy.substack.com/p/tips-for-hiring-junior-data-engineers
[3] https://cloud.google.com/bigquery/docs/data-catalog#data_lineage
[4] https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
[5] https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
[6] https://survey.stackoverflow.co/2022/

#data #readings #technology
Почему нужно архивировать данные․ Каспийский трубопроводный консорциум ранее публиковал статистику по отгрузке нефтепродуктов на своём сайте. Теперь этот раздел недоступен [1], последняя публикация в интернет-архиве есть за март 2022 года. Похоже данные исчезли в март-апреле причём включая все исторические данные.

Другой пример, аналитика цен на недвижимость от сервиса Domofond. Данные перестали обновляться с апреля 2022 года [3]. Архивные данные остались, но новых данных нет. Почему данные перестали обновляться неизвестно.

Федеральное Казначейство с февраля не публикует ежемесячные отчеты об исполнении федерального бюджета [4]. Об этом уже многие писали данных далее становится постепенно всё меньше.

Не все эти данные являются открытыми в определении свободных лицензий, но это, безусловно, те общедоступные данные которые характеризуют состояние экономики.

Причём если писать о том что закрыли ещё можно, то лично я уже опасаюсь писать о тех данных которые ещё не закрыты. Потому что любые данные дающие реальную картину состояния экономики или общества могут исчезнуть.

Ссылки։
[1] https://www.cpc.ru/RU/operations/Pages/loading.aspx
[2] https://web.archive.org/web/20220314112004/https://www.cpc.ru/RU/operations/Pages/loading.aspx
[3] https://www.domofond.ru/tseny-na-nedvizhimost
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1020/

#opendata #data #russia
Полезное чтение про данные, технологи и не только. Сегодня выпуск посвящённый ИИ։

- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.

- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.

- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.

- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил

- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше

- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.

- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.

Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/

#data #ai #technology #readings
В рубрике интересных наборов данных большая коллекция коллекций геопространственных наборов данных geospatial-data-catalogs [1] включает наборы данных из։
- AWS Open Data
- AWS Open Geospatial Data
- AWS Open Geospatial Data with STAC endpoint
- STAC Index Catalogs
- Earth Engine Catalog
- Planetary Computer Catalog

В общей сложности это более 2000 наборов данных довольно большого объёма, многие из них - это спутниковые снимки, а также все метаданные извлечённые из первоисточников.

Обратите внимание, ни один из этих каталогов не является государственным. Earth Engine Catalog - это Google, Planetary Computer Catalog - это Microsoft, каталоги на AWS - это Amazon, а STAC Index - это общественный каталог вокруг спецификации STAC [2].

А также не могу не напомнить о слегка олдскульном, но любопытном каталоге общедоступных инсталляций ArcGIS [3].

Геоданных становится всё больше, думаю что рано или поздно большая часть госпорталов открытых данных будут поддерживать спецификацию STAC, а открытые каталоги big tech корпораций будут агрегировать их оттуда.

Ссылки։
[1] https://github.com/giswqs/geospatial-data-catalogs
[2] https://stacspec.org/en
[3] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf

#opendata #geodata #geospatial #datacatalogs