Ivan Begtin
9.13K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Длинные зимние праздники - это хорошая возможность не только отдохнуть, но и отдохнуть за работой. Я так мало программировал руками в последние годы, что решил за пару дней, одновременно, восстановить старый проект и сделать что-то полезное.

Возникла очень простая идея переноса подписки на RSS новости из привычного онлайн ридера, в телеграм. При этом выделив каждую категорию новостей в отдельный канал.

Поиск таких готовых ботов и сервисов ни к чему не привел, кроме того у источников информации с которыми я работаю есть маленький-большой нюанс. Очень часто они не поддерживают экспорт в RSS ленты. Экспорт новостей в RSS это такая "странная" возможность что регулярно разработчики и заказчики их работы по созданию госсайтов и не только забывают их добавить.

Именно по этой причине много лет назад я и сделал алгоритм "Скъюр" который умел и умеет обрабатывать новости с любой страницы и превращать их в RSS.

Итого, я сделал несколько новых каналов в телеграм:
* Инфокультура - https://t.iss.one/infoculture - новости проектов Инфокультуры. С нашего сайта, Госзатрат и Открытой полиции. А в будущем и других проектов
* Open Data Digest - https://t.iss.one/opendatadigest - канал не-русскоязычных новостей по открытым данным
* Open Government Digest - https://t.iss.one/opengovdigest - канал не-русскоязычных новости по открытости государства
* Правительственный вестник - https://t.iss.one/govdigest - канал для трансляции официальных новостей с сайта Правительства, Президента, ряда ФОИВов и окологосударственных мозговых центров

Изначально не было планов делать их публичными, но по здравому разумению ничего секретного в них нет. А делать репосты из каналов гораздо удобнее чем вначале получать их через читалку RSS.

Особенность этих каналов в том что работа с ними происходит через универсальный бот. Он авторизует пользователя по нику в Telegram, принимает команды на добавление лент подписки к каналам и регулярно постит в выбранные каналы собранные новости.

Ему не обязательно передавать RSS ленту, можно скормить ссылку на сайт и тогда он там вначале попробует RSS ленту найти и если не найдет то будет искать текст новостей на самой странице.

После бета тестирования бот будет открыт полностью для всех, с ограничением лишь по числу каналов и подписок.
В целом он уже готов, в нем не включено только автосбор новостей. Вернее он пока отключен.

Если кто-то хочет уже сейчас его опробовать и помочь с обратной связью - пишите мне сообщением в Telegram на https://t.iss.one/ibegtin или в чат https://t.iss.one/begtinchat

#news #feeds
January 4, 2018
January 9, 2018
July 21, 2018
Для всех кто помнит про бот для телеграма по ретрансляции новостей в каналы [1], у меня, к сожалению, с новой работой остаётся очень мало времени на его поддержку, поэтому я его код полностью публикую на github'е [2].

Пишите там в issues если найдёте ошибки или смело их исправляйте. Клонируйте бот и используйте в личных задачах как Вам удобно.

Напомню что этот бот умеет выгружать новости из RSS каналов и веб-сайтов где есть страницы с новостями и отправлять их в телеграм каналы. Очень удобно для тех кому надо транслировать новости из своего сайта в телеграм канал автоматом или если кому-то надо настроить мониторинг новостей по теме.

С помощью этого бота работает канал Инфокультуры @infoculture и Правительственный дайджест @govdigest и новостной канал о Московском патриархате @mospatriarhia о котором мало кто знает.

Ссылки:
[1] https://begtin.tech/feedbot/
[2] https://github.com/datacoon/feedrebot

#news #opensource
June 4, 2019
Множество полезных ссылок на английском про данные вместо одной новости.

Дайджест по данным:
- гайд по тому как извлечь данные из PDF отчёта мексиканского правительства, обработать, проанализировать и визуализировать с помощью инструментария на Python. [1]
- Амазон начал подкручивать алгоритмы поиска для большей видимости его собственных продуктов [2] (вот и доверяй после этого большим платформам, ага)
- Lectures in Quantitative Economicswith Python [3] свежая книга более в 1100 страниц о том как использовать Python в экономических расчётах. Студентам экономистам на заметку
- Умные телевизоры передают чувствительную информацию Netflix и Facebook [4]. Имеются в виду умные телевизоры в США в первую очередь, но смысл не меняется (статья Financial Times за пэйволлом).
- The Global Expansion of AI Surveillance [5] исследование от Carnegie Endowment for International Peace о том как глобальные системы слежки с искусственным интеллектом стремительно распространяются. Немного про Россию и много про Китай. В России упомянуты ключевые компании: Analytical Business Solutions, Cisco, Huawei, NtechLab, Speech Technology Center [6]. Даже не знаю порадоваться или опечалиться. А вот Huawei повсюду

Ссылки:
[1] https://github.com/PhantomInsights/mexican-government-report
[2] https://www.wsj.com/articles/amazon-changed-search-algorithm-in-ways-that-boost-its-own-products-11568645345
[3] https://lectures.quantecon.org/_downloads/pdf/py/Quantitative%20Economics%20with%20Python.pdf
[4] https://www.ft.com/content/23ab2f68-d957-11e9-8f9b-77216ebe1f17
[5] https://carnegieendowment.org/2019/09/17/global-expansion-of-ai-surveillance-pub-79847
[6] https://carnegieendowment.org/files/AI_Global_Surveillance_Index1.pdf

#digest #data #news
September 23, 2019
Новости проекта на начало недели

Начата архивация издания Бумага (paperpaper.ru) в связи с его блокировкой в России и возможной приостановкой деятельности в будущем, поскольку как минимум домен издания находится в зоне .ru и может быть разделегирован.

Идёт перенос медиа-архива записей на Эхе Москвы в облачное хранилище и дополнительных мест для его хранения. Это порядка 465GB файлов mp3 около 20тысяч записей передач. К сожалению сохранить удалось не всё.

Идет работа над обновлением сайта проекта и созданием интерфейса над последними созданными архивами. Вначале хотя бы в самом базовом виде, так чтобы можно было посмотреть архивные материалы по коллекциям и скачать файлы архивов.
Ранее собранные архивы можно посмотреть в таблице "Планы архивации" на Airtable.


Если Вы знаете сайты и иные цифровые ресурсы которые могут исчезнуть в ближайшее время, напишите в чате @ruarxhivechat или заполните форму.
Напомню что ключевые критерии сохранения сайта/цифрового ресурса в нашем архиве:
1) Цифровой ресурс представляет общественную ценность даже для небольшой группы людей
2) Цифровой ресурс имеет существенные риски исчезновения в ближайшее время, от дней до месяцев.

#ruarxive #news #archives
March 14, 2022
Новости проекта на 17 марта 2022 года

- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.

Архивация сайтов заблокированных ресурсов

Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.

Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.

Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.

Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.


#digitalpreservation #archives #news
March 17, 2022
Новости проекта на 5 апреля 2022 г.

- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow

#news #digitalpreservation #webarchives
April 5, 2022
Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны

Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022

#reading #news #data #ai
June 9, 2022