Ivan Begtin
9.34K subscribers
2.31K photos
4 videos
109 files
5.01K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Давний вопрос - как вести личные заметки.
Есть простые способы такие как "классические" - это папки и файлы, сложенные локально или в каком-нибудь облачном сервисе вроде Dropbox или Google Drive. Чуть более сложные - это множество текстов в Google Docs.

Есть чуть более продвинутые с помощью OneNote или Evernote. У Evernote за долгое время появилось большое число поклонников, тех кто ведёт в них заметки чуть не всю свою зрелую жизнь, но проприетарность, свой формат хранения и ещё многие особенности, не сделали его стандартом де факто.

Так что использовать сейчас? Самыми популярными и, на мой личный взгляд, удобными инструментами являются инструменты с использованием Markdown нотации:
• Notion (https://notion.so) - практический идеальный конструктор для создания пространств ведения заметок. Позволяет очень многое в управлении контентом, таблицами, подготовкой текстов и ведения заметок. Реально хороший инструмент и относительно недорогой. Главный недостаток в том что его шаблоны довольно ограничены, а всё остальное надо делать самостоятельно что требует хорошей самоорганизации и чёткости в структурировании себя. Лично я веду в Notion базы рецептов и ингредиентов. Минимальная стоимость в $4 в месяц.

• Roam (https://roamresearch.com) - гораздо менее насыщенная функциями (но куда больше смыслом) платформа для ведения личных журналов и заметок с акцентом на студентов и исследователей. Главные достоинства - это воспроизведение процесса мышления человека и автоматическая простановка обратных ссылок в заметках, а также организация всего процесса по организации собственного исследования или же того как делать заметки при обучении. Roam существенно дороже и выходит в $15 в месяц или за $500 можно получить пожизненный доступ. Многие считают что это того стоит, а о том как использовать Roam есть хорошая серия видеопрезентаций от Shu Omi. Там, в том числе, есть хорошо изложенное видео о том как использовать Zettelkasten метод в управлении знаниями и обучении через Roam.

• Obsidian (https://obsidian.md/) - это ещё один инструмент, на сей раз только в виде настольного приложения с синхронизацией с сервером по выбору пользователя и поддерживающее визуализацию взаимосвязанных заметок. Его оффлайновость с опциональным использованием сервера - это большое достоинство. Он бесплатен для тех кто хочет использовать в личных целях локально и $4 стоит подписка на синхронизацию через сервер.

• HackMD (https://hackmd.io) - персональная или командная вики основанная на Markdown. Хорошо годится для заметок в целом и куда хуже для структурированного ведения заметок если только нет большой привычки к Wiki. Стоит $5 в месяц за пользователя, есть возможность использовать бесплатно или развернуть свою копию из open source.

• WriteApp (https://writeapp.co) - это скорее минималистичный редактор чем полноценная система управления заметками. Стоит $25 для одноразовой покупки и $5 за ежегодное обновление. Лично я его часто использую как локальный Markdown редактор и потом из него уже переношу онлайн.


Наверняка этот список неполон, лично я использую пока Notion и WriteApp, присматриваюсь к Roam, но понимаю что чтобы его использование себя окупало надо вести исследовательские проекты или тщательно документировать долгосрочные размышления

#notes #software
В рубрике интересных стартапов Mem.ai [1], система для личной и персональной самоорганизации. Главное отличие от других подобных продуктов - это декларируемое подключение ИИ Mem X [2] через автоматическое понимание написанного текста и подсветку ресурсов, тем и участников. Хорошо для автоматического написания контекста, структуризации заметок о встречах, задач для команды и тд.

Существуют с 2019 года, подняли инвестиций на $5.6M [3].

Один из тех продуктов которому, мне лично, не хватает опенсорс альтернатив. Потому что хранить личные заметки в облаке не то чтобы совсем плохо, но чревато тем что потом можно всё потерять.

Ссылки:
[1] https://get.iss.onem.ai
[2] https://get.iss.onem.ai/mem-x
[3] https://www.crunchbase.com/organization/mem-labs/company_financials

#ai #startups #notes
👍3👎2
Разное, дата инженерное:
1. При работе с JSON lines (NDJSON) по прежнему MongoDB поглощает любой скормленный файл, DuckDB лучше умеет считывать схемы и Clickhouse включая Clickhouse-local оказался самым "капризным". Для ситуаций данных с большим числом NoSQL данных и множеством схем clickhouse применим ограниченно и надо делать специальный инструментарий/надстройку чтобы иvмпортировать уже по предраспознанным схемам, что сильно замедлит импорт на больших файлах. По прежнему очень не хватает высокопроизводительного инструмента для работы с NoSQL.
2. DuckDB примечателен в плане й удобства разработчика, доступных примеров и документации, расширяемости и тд. DuckDB - это очень крутой инструмент. Причём можно смотреть на него как на вещь в себе и подспорье для аналитика, а можно как один из компонентов создаваемого дата-продукта.
3. Ценность Parquet'а начинаешь понимать когда взаимодействуешь с командами публикующими плохо документированные CSV файлы с кучей ошибок из-за того что они в CSV файлы упихивают иерархические структуры из первоисточника. Такие файлы или очень неудобно или совсем нормально не импортируются стандартными средствами. Parquet должен быть форматом для данных по умолчанию, остальное производится из него быстро.
4. Clickhouse или DuckDB были бы хорошими инструментами для замены движка внутри OpenRefine. Но, похоже, этого не дождаться. Разве что, сделать всё же, инструмент для headless data refine, я такой когда-то смастерил для MongoDB, но скорость там оставляет желать лучшего. Скорее это был прототип для оценки возможности реализации.
5. Классические ETL/ELT инструменты для геоданных не то чтобы совсем непригодны, но не заточены ни разу. Создавать / адаптировать существующие ETL движки под них? Или использовать что-то целенаправленно созданное в этой области? Пока не очень впечатляет всё что я видел.

#notes #dataengineering #data #datatools
👍10
Полезное чтение про данные, технологии и не только:
- DuckLake standard 0.2 обновлённая спецификация озера данных на базе DuckDB, любопытно, всё жду обзоров сравнения нескольких технологий построения подобных озер. Они больше для корпоративной аналитики чем для работы со статическими данными, но тем не менее.
- What CoPilot Won’t Teach You About Python (Part 1) полезные трюки для тех кто программирует на Python и хочет знать новые лайфхаки. Заголовок, конечно, так себе ибо LLM многое из этого умеют
- Finding a job as a product engineer про культуру работы продуктовых инженеров и компании которые продвигают и реализуют такой подход. Если кратко то это совмещение ролей product owner'а и developer'а. Идея мне нравится, вот только найти таких людей непросто
- Notate.so ИИ помощник для рассуждений над любым текстом в сети, работает как расширение для браузера и интегрирован с Obsidian. Идея любопытная, в идеале бы local first версию интегрированную с локальной версией Obisidian

#python #readings #daata #datalake #products #notes
7🤔1