Ivan Begtin
8.01K subscribers
1.9K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Рыночная стоимость компаний Big Tech в США на конец 2020 года превысила $7.5 триллиона долларов, это в полтора раза больше чем на конец 2019 года когда их рыночная стоимость была чуть более $4.9 триллионов.

Крупнейшие Big Tech компании - это:
- Facebook
- Alphabet
- Amazon
- Microsoft
- Apple

А также доходы компаний выросли на 24%, более чем на $1.1 триллион долларов.

Об этом статья в Wall Street Journal [1] (требуется подписка)

Что всё это значит? Усиление регулирования, рост налообложения, усиление лоббирования и GR со стороны компаний big tech.

Сложно до конца представить мир в котором мы будем жить лет через 10 если этот тренд не изменится.

Ссылки:
[1] https://www.wsj.com/articles/how-big-tech-got-even-bigger-11612587632

#tech #bigtech
Свежее расследование в The Markup о том как Amazon манипулирует выдачей в своём магазине и подсовывает свои товары в результаты поиска и просмотра так чтобы их чаще покупали. При этом продукты Amazon оказываются в топе выдачи даже если у их конкурентов выше оценки потребителей, их больше покупают и так далее. У The Markup получаются очень интересные лонгриды, с интерактивом, и с результатами соцопросов и обработки данных. А в этой статье они ещё и выложили весь код и все данные которые собрали проверяя теорию что Amazon продвигает свои бренды в первую очередь. Этот код и данные - это почти 300 ГБ в распакованном виде и около 11 ГБ в сжатом виде. Очень много данных, собранных на февраль 2021.

Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.

#opendata #datasets #datajournalism #ddj #bigtech
Технологические гиганты могут получить обязательство делиться данными с исследователями [1] . Новость, в каком-то смысле, прорывная и этот сценарий вполне реалистичен. В США рассматривают Platform Accountability and Transparency Act [2]. В этом акте много разного неприятного "счастья" для технологический компаний. Например, защита тех кто сообщает о грубых нарушениях платформами требований о защите прав потребителей/пользователей, разработка NIST (Национальный институт стандартов и технологий США) "добровольного стандарта" по обмену данными с исследователями и ещё много чего.

Ссылки:
[1] https://thehill.com/policy/technology/585069-senators-unveil-bipartisan-unveil-bill-requiring-social-media-giants-to
[2] https://www.congress.gov/bill/117th-congress/senate-bill/797/text

#bigtech #regulation
В рубрике интересных каталогов открытых данных большое открытие, Oracle Open Data [1], каталог огромных наборов данных доступный на базе облака компании Oracle.

Их особенность - это данные большого объёма, минимальные в десятках гигабайт, максимальные в сотнях терабайт. Акцент на данных о земле, данных расшифровки генома и так далее. Всё это под открытыми лицензиями и в удобном доступе на их инфраструктуре. По идеологии очень напоминает открытые датасеты на платформах Azure и Amazon AWS, а также данные которые доступны в Google Cloud. Но лидер по масштабам пока именно Amazon. И почти все делают акцент на наиболее востребованных научных данных.

Почему крупные BigTech корпорации создают такие каталоги? Потому что для их сервисов облачной инфраструктуры - это мощная "замануха" позволяющая убить сразу нескольких зайцев:
- социальный эффект от доступности для всех интересных наборов данных
- возможность с самого начала подсаживать на свою инфраструктуру студентов и исследователей
- маркетинг на общественно благих целях

Конечно без попыток vendor lock-in не обходится, но это, в целом, хорошие инициативы и за ними интересно наблюдать.

Кстати, если кто-то из российских облачных провайдеров задумается о том чтобы создать похожий каталог из очень больших датасетов связанных с Россией и нужных российской аудиторией - обращайтесь, мы как раз собрали масштабный каталог в DataCrafter'е (data.apicrafter.ru) и это ещё не все данные, а только те что успели обработать;)

Ссылки:
[1] https://opendata.oraclecloud.com

#opendata #datacatalogs #bigtech #oracle #data #datasets
Появились первые отчёты о прозрачности [1] корпораций подписавших Европейский Кодекс практик против дезинформации (The Code of Practice on Disinformation) [2].

А это такие компании как Microsoft, Google, Meta, Adobe, Twitter, TikTok и ещё многие другие.

Отчеты, разные по качеству. Короткий отчет от Twitter, к примеру, и подобные отчеты от Google и Microsoft.

Конечно, добровольность кодекса и этих отчетов не означает что отчетам можно безусловно доверять, но хотя бы они показывают какие компании отнеслись серьёзно к этому упражнению, а для каких даже это оказалось сложно.

Кстати, на примере этого кодекса можно не могу не вернуться к вопросу об отечественном кодексе ИИ и его функциональной бесполезности. Если к кодексу ничего не стоит присоединиться и его выполнение никак не мониторится, то и цена ему невелика. В этом смысле европейский кодекс нагляднее, к нему присоединяются только те кто хотя бы готов на регулярной основе добровольно раскрывать информацию о конкретных действиях.

Ссылки:
[1] https://disinfocode.eu/reports-archive/?years=2023
[2] https://disinfocode.eu/introduction-to-the-code/

#privacy #ethics #disinformation #europe #bigtech
В рубрике интересных проектов на данных, о данных, публикующих данные Open Terms Archive [1] архив условий использования в виде коллекций условий использования, API, наборов данных и метаданных.

Включает такие коллекции как:
- Generative AI
- Platform Governance Archive
- P2B Compliance
- France Élections
- Dating
- France
- Contrib

Все коллекции хранятся на Github'е с автоматическим отслеживанием изменений и хранением всех версий в Git.

Проект отмеченный на многих международных площадках и даже зарегистрированный как Digital Public Good

Ссылки:
[1] https://opentermsarchive.org
[2] https://github.com/OpenTermsArchive

#datasets #opendata #opensource #terms #privacy #bigtech
Подборка полезного чтения про данные, технологии и не только:
- How we built a new powerful JSON data type for ClickHouse [1] статья от Павла Круглого про реализацию нового типа JSON в ClickHouse. Много подробностей и можно предполагать что новые фичи и этот тип стоит опробовать. По моему опыту ещё совсем недавно ClickHouse резко проигрывал DuckDB в разборе/импорте любого типа JSON документов. В общем надо тестировать, если всё так хорошо как написано, это может быть альтернативой MongoDB
- GERDA - German Elections Database [2] научный онлайн проект с базой по выборам в Германии с 1953 года. Доступно в виде наборов данных и пакета для языка R.
- Why techies leave Big Tech [3] почему технари покидают бигтехи? Да много почему, где-то увольнения, где-то стагнация и тупики в карьере. Автор пишет про основные причины и о том почему не надо так в бигтехи стремиться. Лично я для себя вообще не представляю что могло бы подтолкнуть там работать (ну если только бигтех не придёт с большим кошельком инвестиций в наш стартап Dateno, но это совсем другая тема)

Ссылки:
[1] https://clickhouse.com/blog/a-new-powerful-json-data-type-for-clickhouse
[2] https://www.german-elections.com/
[3] https://newsletter.pragmaticengineer.com/p/leaving-big-tech

#readings #data #datasets #opendata #careers #bigtech