Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Для тех кто мог пропустить, с 20 июля, вот уже совсем скоро Google окончательно заменит раздел с разрешениями приложения в Google Apps на блок Data safety.

В Arstechnica статья о важных отличиях [1].

Раздел "разрешения приложению" был гарантированно актуальным поскольку разрешения описывались автоматически по итогам сканирования приложений, а Data safety - это декларация разработчика приложения по итогам заполнения одноименной формы. Это называется honor system (система на доверии).

Иначе говоря Google заменяют блок описания приложения от "мы проверили роботом, они следят вот так" на "разработчик мамой поклялся что будет вот так честно делать всё".

Впрочем в Google свои планы ещё не анонсировали, возможно раздел с разрешениями приложения всё же вернут под давлением общественности и регуляторов.

А я напомню что приложения для Android'а можно проверять независимыми инструментами такими как Exodus Privacy и др., я регулярно делал их обзоры [2].

Ссылки:
[1] https://arstechnica.com/gadgets/2022/07/google-plays-new-privacy-section-actually-hides-app-permissions/
[2] https://t.iss.one/begtin/3106

#google #android #privacy
Google решили пристыдить Apple создав специальный сайт Get the message [1] для кампании по внедрению протокола/стандарта RCS [2] для передачи текстовых сообщений.

RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.

Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.


Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/

#standards #google #apple #messaging #rcs #privacy
В рубрике интересных открытых проектов на данных Data Commons [1] проект по агрегированию открытых данных о географии, индикаторах и многих понятиях с формированием единой онтологии и визуального представления данных.

Данные внутри Data Commons предоставляются для запросов через Google BigQuery, точку подключения SPARQL и REST API. На апрель 2022 г. всего интегрировано в базу данных 2.9 миллионов мест, 3 миллиарда записей временных рядов, 100 000 переменных и 1.4 триллиона триплов (единичных значений).

Проект создан давно и активно развивается, например, недавно к нему добавили инструмент выгрузки данных [2].

Лично по мне так проект интересный, чем-то сравнимый с WikiData и, кстати, с WikiData интегрированный, а чем-то похожий на проекты по визуализации статистики вроде DataUSA и USAFacts.

Из особенностей, у авторов явно временно достигнут предел масштабирования поскольку они охватили довольно хорошо данные по США, но по другим странам, особенно малым, требуется значительно больше усилий, знания языков и тд. Кроме того многие понятия там закодированы так словно их нет за пределами США. Например, ссылка на почтовый индекс [3] не имеет странового префикса и такого много.

Проект поддерживается компанией Google, его код и код отдельных компонентов доступен как открытый код [4].

Ссылки:
[1] https://datacommons.org
[2] https://docs.datacommons.org/2022/09/14/download-tool.html
[3] https://datacommons.org/place/zip/60651
[4] https://github.com/datacommonsorg

#opendata #google #datasets
Похоже Google делают ключевую ставку на поглощённый ими продукт Looker и переименовывают Google Data Studio в Looker Studio [1] и планируют развивать этот бренд и направление․

Это стратегия на явное усиление их продуктов по работе с данными, в первую очередь, продукты для BI.

Looker был куплен Google ещё 2.5 года назад [2] и уже сейчас вокруг него выстроена экосистема интегрированных продуктов и большого числа расширений где 20 источников данных предоставляются внутри Looker Studio, а 660 являются партнерскими источниками и коннекторами.

У всего этого, конечно, сильнейшая сторона в доступе к маркетинговым данным. Всё то что является частью "капитализма слежки".

В этом смысле Looker идеально соответствует бизнес модели Google о том что данные входят-данные не выходят.

Поэтому то что на Looker делается ставка, лично меня совершенно не удивляет.

Ссылки:
[1] https://www.youtube.com/watch?v=Bc_hcLVyFJI
[2] https://techcrunch.com/2020/02/13/google-closes-2-6b-looker-acquisition/

#datatools #clouds #google
Для тех кто задавался вопросом почему Google переносит карты с домена на "https://maps [dot] google [dot] com" на "https://google [dot] com/maps" есть объяснение этого события [1].

Нюанс в том что домен google.com теперь целиком будет получать доступ к вашему местонахождению, а не только сервис карт.

Идеи супераппов, кстати, построены на том же принципе. Запросить у вас как можно больше разрешений в рамках одного приложения.


Ссылки։
[1] https://twitter.com/Rudcher/status/1598596534656024576

#privacy #google #data
Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости.

Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.

Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.

Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.

При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.

Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.

Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html

#privacy #security #iot #google
К вопросу о том как искать данные, ключевой проект в этой области - это Google Dataset search [1] который до сих пор имеет статус исследовательского и "не вышел из инкубатора". Он всем хорош, например, использует разметку Dataset из Schema.org для идентификации наборов данных на сайтах и позволяет получать нужные данные быстро если владелец их разметил. Но у него есть системная проблема, она заключается в том что для наборов данных не работает ранжирование теми же методами что для других поисковых индексов, они редко ссылаются друг на друга. Так как определить данные по значимости при поиске? По ключевым словам? Поиск быстро "замусоривается"․ Что и произошло с ним в данном случае. Например, когда ищешь стат показатели по множеству запросов вылезают ссылки на коммерческий проект CEIC. Вроде такого [2], выдаётся первым на запрос "European statistics". Разметка на странице там есть, а вот содержания нет. Нет там и лицензий CC-BY, ни многого другого. Это типичная SEO страница для тех кто торгует данными. Это если мы ищем любые данные, не только бесплатные. А если сделаем фильтр на бесплатные и поищем "Russian statistics" то первым вылезет ссылка на набор данных Linkedin users in Russian Federation [3] сервиса NapoleonCat где нет никаких данных, только график картинкой.

Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?

Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/

#datadiscovery #datasets #opendata #searchengines #google
Google выложили в открытый доступ локальную версию СУБД AlloyDB [1] которую в прошлом году сделали доступной как сервис в своём облаке. Теперь можно скачать бесплатную версию для разработчиков и экспериментировать на своём локальном компьютере. Из заявленных фич AlloyDB - это совместимость с PostgreSQL с более чем 2-х кратным ускорением и колоночные таблицы для ускорения ряда типов запросов. Звучит достаточно интересно чтобы попробовать, насколько интересно чтобы делать на это ставку лично я пока сомневаюсь, потому что бесплатная девелоперская версия означает что в продакшн всё равно надо разворачивать на инфраструктуре Google, а это лишь очередная модель облачного vendor lock-in, лично я не люблю такие ограничения, даже при очень интересных технологиях. К тому же исходный код AlloyDB закрыт, контрибьюта в исходный код PostgreSQL также не планируется.

Не могу не напомнить что совместимых с Postgres баз данных множество и многие - это весьма активные стартапы. У Hasura есть перечень таких СУБД с которыми они работают [2], например, Neon, о которых я писал в июле 2022 г. [3], но у Neon переписанный бэкэнд с открытым кодом [4] как и у ряда других Postgres совместимых СУБД.

А вот реализация колоночных таблиц очень напоминает про Clickhouse, StarRocks и др. подобным продуктам и, быть может, в этой фиче Гугл позиционируют AlloyDB как их альтернативу. Но, опять же, выбирая между близкими по производительности продуктами с открытой лицензией и открытым кодом и без оной, с vendor lock-in и без него, выбор очевиден.

Мне лично особенно не нравится облачный vendor lock-in, потому что одно дело если ты можешь купить корпоративную лицензию, но у тебя потом есть время на миграцию, и другое дело когда ты зависишь от создателя продукта не только разрешением на его использование, но и инфраструктурно.

Поэтому возвращаясь к альтернативам, напомню про Citus [5] которые также реализовали колоночное хранилище для Postgres и с открытым кодом, именно его использует Microsoft в Azure Cosmos DB [6].


Ссылки:
[1] https://cloud.google.com/blog/products/databases/run-alloydb-anywhere
[2] https://hasura.io/docs/latest/databases/postgres/index/
[3] https://t.iss.one/begtin/4113
[4] https://github.com/neondatabase/neon
[5] https://www.citusdata.com/
[6] https://learn.microsoft.com/en-us/azure/cosmos-db/postgresql/concepts-columnar

#opensource #dbms #google
На чём Google обучает свой чат-бот, журналисты Washington Post заглянули внутрь Google C4 [1] набора данных для обучения языковой модели. Более всего там базы патентов из patents.google.com которая собрана из открытых баз патентов США и других стран, там же база публичных отчётов компаний sec.gov и ещё многие другие открытые государственные данные, в основном из США. Другой немаловажный источник - Википедия.

Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят?

А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты.

Ссылки:
[1] https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/

#opendata #ai #datasets #google
В рубрике больших наборов данных Open Buildings [1] от Google. Набор данных идентификации зданий в странах Глобального Юга: Африка, Латинская Америка и Юго-Восточная Азия. Набор данных относительно велик, 178GB. Работать с ним можно в облаке Google или скачать себе локально его целиком или отдельные сегменты разделённые по геометрии S2 [2]. Кроме того каждому зданию присваиваются Plus codes [3], уникальные идентификаторы используемые в Google Maps.

Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.

А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].

Было бы интересно увидеть сравнения этих наборов данных.

Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints

#opendata #google #microsoft #earth #datasets #data
Ещё один интересный каталог с глобальными данными Awesome GEE Community catalog [1] создаваемый сообществом пользователей Google Earth Engine, я писал о нём год назад [2] и с тех пор каталог обрёл новый сайт и много больше данных.

Теперь он включает более 322 терабайт данных, около 1 миллиарда объектов и чуть менее 1 миллиона изображений.

Особенность этого каталога в том что это, по сути, коллекция страниц где могут быть или не быть ссылки на выгрузку данных, но всегда есть код для подключения выбранного слоя/данных к Google Earth Engine.

Ссылки:
[1] https://gee-community-catalog.org
[2] https://t.iss.one/begtin/4287

#datacatalogs #opendata #datasets #geodata #google
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
Google с октября 2024 года не будут более доверять сертификатам от CA Entrust [1] для Google Chrome, а это, на минуточку, более 4 миллионов доменов, по статистике Censys [2]. А значит что уже сейчас пользоваться Entrust для получения сертификатов будет нецелесообразно. Хорошо пока что старые не отключены. Причины очень подробно изложены, в кратком изложении - это систематическое нарушение правил сообщества, несоблюдение стандартов, нежелание внедрять актуальные технологии и тд.

Понятно что кроме Google есть и другие браузеры, но все они в одном консорциуме/сообществе и почти наверняка та же участь постигнет Entrust и в других продуктах.

Что характерно, да, это скорее всего разумное решение. Но это же Kill Switch бигтехов, регулирование вынесенное за пределами регуляторов затрагивающее существенный бизнес и существенную цифровую инфраструктуру.

Ссылки:
[1] https://groups.google.com/a/ccadb.org/g/public/c/29CRLOPM6OM
[2] https://search.censys.io/search?resource=certificates&q=%28Entrust%29+and+parsed.issuer.organization%3D%60Entrust%2C+Inc.%60

#ca #regulation #network #google
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.

Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.

Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.

P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].

Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

#digitalpreservation #webarchive #google #crowdsourcing #urlshortener