Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Длинные зимние праздники - это хорошая возможность не только отдохнуть, но и отдохнуть за работой. Я так мало программировал руками в последние годы, что решил за пару дней, одновременно, восстановить старый проект и сделать что-то полезное.

Возникла очень простая идея переноса подписки на RSS новости из привычного онлайн ридера, в телеграм. При этом выделив каждую категорию новостей в отдельный канал.

Поиск таких готовых ботов и сервисов ни к чему не привел, кроме того у источников информации с которыми я работаю есть маленький-большой нюанс. Очень часто они не поддерживают экспорт в RSS ленты. Экспорт новостей в RSS это такая "странная" возможность что регулярно разработчики и заказчики их работы по созданию госсайтов и не только забывают их добавить.

Именно по этой причине много лет назад я и сделал алгоритм "Скъюр" который умел и умеет обрабатывать новости с любой страницы и превращать их в RSS.

Итого, я сделал несколько новых каналов в телеграм:
* Инфокультура - https://t.iss.one/infoculture - новости проектов Инфокультуры. С нашего сайта, Госзатрат и Открытой полиции. А в будущем и других проектов
* Open Data Digest - https://t.iss.one/opendatadigest - канал не-русскоязычных новостей по открытым данным
* Open Government Digest - https://t.iss.one/opengovdigest - канал не-русскоязычных новости по открытости государства
* Правительственный вестник - https://t.iss.one/govdigest - канал для трансляции официальных новостей с сайта Правительства, Президента, ряда ФОИВов и окологосударственных мозговых центров

Изначально не было планов делать их публичными, но по здравому разумению ничего секретного в них нет. А делать репосты из каналов гораздо удобнее чем вначале получать их через читалку RSS.

Особенность этих каналов в том что работа с ними происходит через универсальный бот. Он авторизует пользователя по нику в Telegram, принимает команды на добавление лент подписки к каналам и регулярно постит в выбранные каналы собранные новости.

Ему не обязательно передавать RSS ленту, можно скормить ссылку на сайт и тогда он там вначале попробует RSS ленту найти и если не найдет то будет искать текст новостей на самой странице.

После бета тестирования бот будет открыт полностью для всех, с ограничением лишь по числу каналов и подписок.
В целом он уже готов, в нем не включено только автосбор новостей. Вернее он пока отключен.

Если кто-то хочет уже сейчас его опробовать и помочь с обратной связью - пишите мне сообщением в Telegram на https://t.iss.one/ibegtin или в чат https://t.iss.one/begtinchat

#news #feeds
Ранее я писал про бот который создает поток сообщений из RSS и новостей на сайтах и транслирует их в каналах. Бот наконец-то проверен в полубоевых условиях и готов для публичного тестирования.

Бот доступен тут @FeedRetranslatorBot справка по нему получается командой "/help".

Как с ним работать:
1. Если у Вас нет канала, то создаете его через клиента Telegrama. Он должен быть публичен. Например, мой канал имеет имя "begtin" и ссылку "https://t.iss.one/begtin". Вам понадобится его имя.
2. Добавляете бота @FeedRetranslatorBot администратором в канал. Из прав ему нужны только права на публикацию постов.
3. Заходите в настройки бота и добавляете подключаете канал. Это команда "/channel [название канала]". Пример: /channel begtin
4. Далее добавляете подписки. Добавить можно через команду: "/add"
Добавление выглядит вот так: "/add begtin https://medium.com/feed/@ibegtin"
если Вы не знаете есть ли RSS лента на странице, то можно предварительно это проверить командой "/test https://medium.com/feed/@ibegtin"
5. Далее каждые полчаса робот собирает новости и раскидывает их по каналам.

Важные особенности:
- сейчас стоит ограничение на 3 канала и по 5 подписок на канал на одного пользователя. Если понадобится больше, пишите.
- боту _не обязательно_ чтобы на странице была RSS лента. Он умеет собирать новости с любой страницы где есть ссылки с датами. Пример, у ФРИИ нет RSS ленты на сайте, но со страницы https://www.iidf.ru/media/articles/ бот соберет информацию. Поддерживает 8 языков и примерно 300 видов написания дат. Не поддерживает восточные языки, иероглифы и тд. Даже не проверялся.
- сейчас бот может иногда выдавать отладочную информацию при взаимодействии, это нужно для его проверки. Но в сами каналы он ничего такого не пишет, туда идут только новости.

Это мой личный проект-хобби, я на нем поддерживаю свои навыки программирования, чтобы совсем уж не отойти от технической работы. При этом я сам его активно использую, перенеся в него все подписки из RSS ридера.

Все пожелания можно направлять мне в @begtinchat или напрямую в @ibegtin

#news #rss #feeds #bots
Я, наконец-то, доделал то о чём думал лет 10 - выложил в открытый код алгоритм по извлечению новостей из веб-страниц. Он упакован в библиотеку newsworker [1] для Python и её также можно установить через PyPi "pip install newsworker" и увидеть там в общем числе пакетов [2]

В репозитории на Github'е много примеров того как библиотека используется, кроме того у неё есть дополнительные методы позволяющие находить RSS ленты на сайтах. Документация только на английском, но там довольно всё очевидно.

Библиотека применима для всех сайтов из которых надо извлекать новости, но которые не отдают RSS. Писать парсер под каждый очень трудоёмко, поэтому ещё 2008 году я сделал этот инструмент для подписки на новости которые надо было отслеживать.

Эта библиотека лежит в основе моего бота в Telegram'е @FeedRetranslatorBot [3] который создаёт поток новостей из RSS лент и веб-страниц в выбранный телеграм канал.

С помощью этой библиотеки бот собирает новости с таких сайтов как:
- Московский финансовый форум https://www.mff.minfin.ru/news/
- ГАС Управление https://gasu.gov.ru/news
- Издательство Московской патриархии https://www.rop.ru/novosti
- GovInsider https://govinsider.asia/
- ЦСР https://www.csr.ru/
- Пресс-центр Счетной Палаты https://audit.gov.ru/press_center/
- Портал аудиторской деятельности https://rar.gov.ru/news/allnews

и многие другие. Я могу сказать что на 2018 год до сих пор не более чем у половины сайтов есть RSS/ATOM ленты. Некоторые платформы вроде Яндекс.Дзен не делают экспорт в RSS осознанно, стараясь удержать пользователей.

Сейчас нет коммерческого или некоммерческого проекта кроме этого бота где я мог бы этот алгоритм применять. Кроме того в моём понимании он несколько устарел и я его воспринимаю как маленький кусочек по автоматическому преобразованию сайтов в базы данных/API. Задача которой я, увы, уже совершенно не могу себя посвятить. Работа данными у меня уже много лет более актуальна, чем работа над новостной агрегацией.

Ссылки:
[1] https://github.com/ivbeg/newsworker
[2] https://pypi.org/project/newsworker/
[3] https://t.iss.one/@FeedRetranslatorBot

#news #opensource #scrapers
Для всех кто помнит про бот для телеграма по ретрансляции новостей в каналы [1], у меня, к сожалению, с новой работой остаётся очень мало времени на его поддержку, поэтому я его код полностью публикую на github'е [2].

Пишите там в issues если найдёте ошибки или смело их исправляйте. Клонируйте бот и используйте в личных задачах как Вам удобно.

Напомню что этот бот умеет выгружать новости из RSS каналов и веб-сайтов где есть страницы с новостями и отправлять их в телеграм каналы. Очень удобно для тех кому надо транслировать новости из своего сайта в телеграм канал автоматом или если кому-то надо настроить мониторинг новостей по теме.

С помощью этого бота работает канал Инфокультуры @infoculture и Правительственный дайджест @govdigest и новостной канал о Московском патриархате @mospatriarhia о котором мало кто знает.

Ссылки:
[1] https://begtin.tech/feedbot/
[2] https://github.com/datacoon/feedrebot

#news #opensource
Множество полезных ссылок на английском про данные вместо одной новости.

Дайджест по данным:
- гайд по тому как извлечь данные из PDF отчёта мексиканского правительства, обработать, проанализировать и визуализировать с помощью инструментария на Python. [1]
- Амазон начал подкручивать алгоритмы поиска для большей видимости его собственных продуктов [2] (вот и доверяй после этого большим платформам, ага)
- Lectures in Quantitative Economicswith Python [3] свежая книга более в 1100 страниц о том как использовать Python в экономических расчётах. Студентам экономистам на заметку
- Умные телевизоры передают чувствительную информацию Netflix и Facebook [4]. Имеются в виду умные телевизоры в США в первую очередь, но смысл не меняется (статья Financial Times за пэйволлом).
- The Global Expansion of AI Surveillance [5] исследование от Carnegie Endowment for International Peace о том как глобальные системы слежки с искусственным интеллектом стремительно распространяются. Немного про Россию и много про Китай. В России упомянуты ключевые компании: Analytical Business Solutions, Cisco, Huawei, NtechLab, Speech Technology Center [6]. Даже не знаю порадоваться или опечалиться. А вот Huawei повсюду

Ссылки:
[1] https://github.com/PhantomInsights/mexican-government-report
[2] https://www.wsj.com/articles/amazon-changed-search-algorithm-in-ways-that-boost-its-own-products-11568645345
[3] https://lectures.quantecon.org/_downloads/pdf/py/Quantitative%20Economics%20with%20Python.pdf
[4] https://www.ft.com/content/23ab2f68-d957-11e9-8f9b-77216ebe1f17
[5] https://carnegieendowment.org/2019/09/17/global-expansion-of-ai-surveillance-pub-79847
[6] https://carnegieendowment.org/files/AI_Global_Surveillance_Index1.pdf

#digest #data #news
Новости проекта на начало недели

Начата архивация издания Бумага (paperpaper.ru) в связи с его блокировкой в России и возможной приостановкой деятельности в будущем, поскольку как минимум домен издания находится в зоне .ru и может быть разделегирован.

Идёт перенос медиа-архива записей на Эхе Москвы в облачное хранилище и дополнительных мест для его хранения. Это порядка 465GB файлов mp3 около 20тысяч записей передач. К сожалению сохранить удалось не всё.

Идет работа над обновлением сайта проекта и созданием интерфейса над последними созданными архивами. Вначале хотя бы в самом базовом виде, так чтобы можно было посмотреть архивные материалы по коллекциям и скачать файлы архивов.
Ранее собранные архивы можно посмотреть в таблице "Планы архивации" на Airtable.


Если Вы знаете сайты и иные цифровые ресурсы которые могут исчезнуть в ближайшее время, напишите в чате @ruarxhivechat или заполните форму.
Напомню что ключевые критерии сохранения сайта/цифрового ресурса в нашем архиве:
1) Цифровой ресурс представляет общественную ценность даже для небольшой группы людей
2) Цифровой ресурс имеет существенные риски исчезновения в ближайшее время, от дней до месяцев.

#ruarxive #news #archives
Новости проекта на 17 марта 2022 года

- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.

Архивация сайтов заблокированных ресурсов

Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.

Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.

Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.

Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.


#digitalpreservation #archives #news
Новости проекта на 5 апреля 2022 г.

- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow

#news #digitalpreservation #webarchives
Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны

Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022

#reading #news #data #ai