Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
July 5, 2020
Давний вопрос - как вести личные заметки.
Есть простые способы такие как "классические" - это папки и файлы, сложенные локально или в каком-нибудь облачном сервисе вроде Dropbox или Google Drive. Чуть более сложные - это множество текстов в Google Docs.

Есть чуть более продвинутые с помощью OneNote или Evernote. У Evernote за долгое время появилось большое число поклонников, тех кто ведёт в них заметки чуть не всю свою зрелую жизнь, но проприетарность, свой формат хранения и ещё многие особенности, не сделали его стандартом де факто.

Так что использовать сейчас? Самыми популярными и, на мой личный взгляд, удобными инструментами являются инструменты с использованием Markdown нотации:
• Notion (https://notion.so) - практический идеальный конструктор для создания пространств ведения заметок. Позволяет очень многое в управлении контентом, таблицами, подготовкой текстов и ведения заметок. Реально хороший инструмент и относительно недорогой. Главный недостаток в том что его шаблоны довольно ограничены, а всё остальное надо делать самостоятельно что требует хорошей самоорганизации и чёткости в структурировании себя. Лично я веду в Notion базы рецептов и ингредиентов. Минимальная стоимость в $4 в месяц.

• Roam (https://roamresearch.com) - гораздо менее насыщенная функциями (но куда больше смыслом) платформа для ведения личных журналов и заметок с акцентом на студентов и исследователей. Главные достоинства - это воспроизведение процесса мышления человека и автоматическая простановка обратных ссылок в заметках, а также организация всего процесса по организации собственного исследования или же того как делать заметки при обучении. Roam существенно дороже и выходит в $15 в месяц или за $500 можно получить пожизненный доступ. Многие считают что это того стоит, а о том как использовать Roam есть хорошая серия видеопрезентаций от Shu Omi. Там, в том числе, есть хорошо изложенное видео о том как использовать Zettelkasten метод в управлении знаниями и обучении через Roam.

• Obsidian (https://obsidian.md/) - это ещё один инструмент, на сей раз только в виде настольного приложения с синхронизацией с сервером по выбору пользователя и поддерживающее визуализацию взаимосвязанных заметок. Его оффлайновость с опциональным использованием сервера - это большое достоинство. Он бесплатен для тех кто хочет использовать в личных целях локально и $4 стоит подписка на синхронизацию через сервер.

• HackMD (https://hackmd.io) - персональная или командная вики основанная на Markdown. Хорошо годится для заметок в целом и куда хуже для структурированного ведения заметок если только нет большой привычки к Wiki. Стоит $5 в месяц за пользователя, есть возможность использовать бесплатно или развернуть свою копию из open source.

• WriteApp (https://writeapp.co) - это скорее минималистичный редактор чем полноценная система управления заметками. Стоит $25 для одноразовой покупки и $5 за ежегодное обновление. Лично я его часто использую как локальный Markdown редактор и потом из него уже переношу онлайн.


Наверняка этот список неполон, лично я использую пока Notion и WriteApp, присматриваюсь к Roam, но понимаю что чтобы его использование себя окупало надо вести исследовательские проекты или тщательно документировать долгосрочные размышления

#notes #software
July 5, 2020
February 11, 2021
Explorium, стартап по подготовке данных (data preparation) получил очередной раунд венчурного финансирования в 75 миллионов USD [1] что теперь составляет 127 миллионов USD вложенных инвесторами в этот продукт. Продукт у них интересный [2], в виде создания платформы для очистки, обработки и, что важно, обогащения данных для чего они используют множество открытых и коммерческих источников дополняя данные загруженные на их платформу сведениями о компаниях, статистике в геопривязке, информацию о людях и не только. У них весьма большая External Data Library [3].

Задачи которые они решают повсеместны, большинство решает их используя собственный код, а тут комплексное и, скорее всего, дорогое решение. В России, конечно,не применимое в силу импортозамещения и ограничений в обработке данных за пределами российской юрисдикции.

Интереснее то что таких инструментов всё больше и значительные инвестиции идут в облачные продукты.

Ссылки:
[1] https://venturebeat.com/2021/05/18/data-prep-platform-explorium-raises-75m/
[2] https://www.explorium.ai/
[3] https://www.explorium.ai/platform-data-engine/

#tools #software #startups
May 20, 2021
Неплохой обзор развёртывания ArangoDB [1], альтернативы MongoDB. Альтернативы, в целом, неплохой, но не то чтобы "вау, надо быстро всё заменять".

Как и MongoDB в ArangoDB есть поддержка JSON и загрузка JSON и JSON lines файлов, как и MongoDB в ArangoDB свой формат бинарной сериализации, VelocityPack (в MongoDB - это BSON). Но есть и куча нюансов, для меня лично одним из важнейших был то что в ArangoDB отсутствует тип данных "дата и время", вместо этого дата хранится как в JSON, в виде строки, а в языке запросов предусмотрены функции работы с ней. Лично по мне - это сомнительный подход, обойти это можно, но надо прикладывать лишние усилия. Хорошо бы упростить миграцию с MongoDB на ArangoDB.

С другой стороны, ArangoDB куда больше постепенно внедряется в data science и modern data stack. Там есть ArangoML [2], metadata store и многое другое. Плюс у них лицензия кода Apache 2.0, а не SSPL как у MongoDB.

Так что публикации про ArangoDB читать интересно и полезно, экспериментировать с ним стоит.

Ссылки:
[1] https://ericfossas.medium.com/the-best-nosql-database-for-kubernetes-fd920003e1ad
[2] https://www.arangodb.com/machine-learning/

#datatools #opensource #software #reading
April 8, 2022
February 1, 2023
February 8, 2023
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software
May 30, 2024
Полезное чтение про данные технологии и не только:
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.

Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234

#readings #software #ai
June 24, 2024
July 25, 2024
Довольно давно хочу написать гневный пост о том куда катятся современные цифровые продукты и разработка софта в целом, в целом катятся они далеко от пользователя/клиента/потребителя. Причём чем более массовое ПО, тем хуже. Начиная от "распухания" дистрибутивов где совершенно непонятно зачем нужно ставить несколько гигабайт для данного приложения, продолжая непомерным потреблением CPU и оперативной памяти и утечками памяти и постоянной загрузкой CPU у приложений которым просто незачем это делать.

Но важнее всего это всё больший сдвиг почти всех продуктов к подписочной и облачной модели. Всё больше продуктов которые нельзя купить единожды. При том что устроены они так что в постоянном их использовании нет необходимости.

Впрочем всё это потянет на рассуждения не в одном, во многих лонгридах.

А пока же для размышления, ONCE [1] новая-старая бизнес модель которую пропагандируют 37Signals и называют её Post SaaS. Анонсируют подход к распространению их продуктов за фиксированную цену, без подписки, скрытых платежей и тд.

Дословно их принципы звучат так:
- Платите один раз, владейте навсегда.
- Мы пишем код, вы его видите.
- Мы предоставляем вам программное обеспечение, вы размещаете его у себя.
- Просто и понятно, а не корпоративно и раздуто.
- За одну фиксированную цену. Один раз.

Сейчас по такой модели они продают чат Campfile за $299 [2] однократного платежа и раздают бесплатно Writebook [3], ПО для написания онлайн книг.

Что я могу сказать. Если это станет трендом, то многие SaaS стартапы поломаются или переквалифицируются, но точно потеряют сверхдоходы.

Для квалифицированного пользователя, конечно, подходы вроде ONCE или такие как Local-first, гораздо лучше.

Ссылки:
[1] https://once.com/
[2] https://once.com/campfire
[3] https://once.com/writebook

#thoughts #business #software
August 3, 2024
Полезное чтение про данные, технологии и не только:
- The Modern CLI Renaissance [1] о том как инструменты командной строки переживают ренессанс будучи переписанными, в основном, на Rust. Тоже наблюдаю эту картину и что тут скажешь, хорошо что это происходит.
- Nvidia and Oracle team up for Zettascale cluster: Available with up to 131,072 Blackwell GPUs [2] полным ходом гонка ИИ кластеров. Oracle и NVIDIA запускают в начале 2025 г. кластер на 2.4 зетафлопса, сравнивать сложно, это просто много
- Android apps are blocking sideloading and forcing Google Play versions instead [3] Google начали внедрять в андроид функцию установки приложения через Google Play если ты пытаешься поставить его из другого источника. То есть если ты из внешнего магазина загружаешь приложение которое есть в Google Play то тебя обязывают ставить то что в Google Play.
- Google will now link to The Internet Archive to add more context to Search results [4] Google теперь даёт ссылки в результатах поиска на Интернет Архив вместо их собственного кэша, на который они ранее ссылки удалили. Надеюсь они при этом дали денег Интернет Архиву, потому что как бы их не за ддосили.

Ссылки:
[1] https://gabevenberg.com/posts/cli-renaissance/
[2] https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-and-oracle-team-up-for-zettascale-cluster-available-with-up-to-131072-blackwell-gpus
[3] https://arstechnica.com/gadgets/2024/09/android-now-allows-apps-to-block-sideloading-and-push-a-google-play-version/
[4] https://9to5google.com/2024/09/11/google-search-internet-archive-wayback-machine/

#software #data #google #android #readings
September 13, 2024