Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Находка года - это инструмент по обману рекламодателей Track This от команды Firefox (Mozilla) https://trackthis.link/

В нем можно выбрать один из 4-х профилей:
- Hyperbeast - фанат уличной одежды, эксклюзивных вещей и последней музыки. В поисках самого модного мерча
- Filthy Rich - рекламодатели теперь считают что Ваша жизнь теперь как в фильме про Джеймса Бонда, за исключением меньшей дозы алкоголя и больше кредитного максимума.
- Doomsday Prepper - рекламодатели теперь считают что Вы проводите Ваше время в поисках запасов, бункеров и за печатью теорий заговоров для того чтобы вешать их на стены спальной с красным ковром
- Influencer - реколамодатели будут считать что Вы одержимы уходом за кожей, астрологией и конечно тем как завлечь больше лайков в свой видеоблог

В каждом случае открывается до 100 табов, так что будьте готовы потом закрывать их все или браузер целиком.

Кстати идея настолько хороша что можно было бы придумать ещё несколько похожих профилей. Например, каких?

#privacy #tracking #humor #tricks
Если ты знаешь один трюк, рассказывать его нельзя. Если ты знаешь сто трюков, то можно рассказать хоть про три (с)

Недокументированные API - это те API веб сайтов которые существуют и дают доступ к данным/сервисами, но по какой-либо причине явно не документированы владельцем сайта. Это то о чём я раньше читал лекции и недавно упоминал их в контексте презентации Paul Bradshow для дата-журналистов [1]. Журналисты расследователи и дата журналисты используют их достаточно часто. Я лично регулярно сталкиваюсь с этим в задачах архивации сайтов, создания датасетов "из ничего" и в Dateno при индексировании каталогов данных.

Есть несколько трюков в их поиске которые, как оказывается, широкой публике малоизвестны:
1. Многие сайты разрабатываются так что возвращают разный контент на передаваемые заголовки "Accept". Достаточно делать запросы с заголовком "Accept: application/json" чтобы обнаружить что веб страница может быть и JSON документом. Например, сайты на базе движка Blacklight используемого в архивном деле и для ведения цифровых коллекций материалов.
2. У стандартизированных CMS множество стандартизированных интерфейсов о которых владельцы сайтов могут ничего не подозревать. Не совсем "недокументированное API", скорее плохо документированное API по умолчанию. Оно есть пока владелец сайта явным образом не найдёт где его отключить или не предпримет специальных мер по его сокрытию. Явный пример, /wp-json/ у Wordpress, а также множество других примеров в менее известных CMS. На многих порталах открытых данных каталог данных доступен по ссылке /data.json даже если на сайте ссылки на него нет.
3. Разработчики API тоже люди и думают шаблонами и даже на проде оставляют доступ к API через стандартизированные интерфейсы во внутренних ссылках или поддоменах вроде префиксов документов вроде api и api-dev и в виде внутренних ссылок /api, /api-dev, /rest и ещё с десяток других.

Когда надо найти API конкретного сайта то трюков гораздо больше. Главное чтобы такое API реально существовало😉

Ссылки:
[1] https://t.iss.one/begtin/5662

#opendata #data #tricks #readings