Ivan Begtin
8.1K subscribers
2.02K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
January 30
AI и политика

Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.

Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.

Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967

#ai #opensource #deepseek #llm
January 31
January 31
February 1
February 2
February 2
Полезные ссылки про данные, технологии и не только:
- DocumentDB: Open-Source Announcement [1] похоже Microsoft выложили в открытый код [2] новый NoSQL продукт, прямой конкурент MongoDB. Внутри там FerretDB и PostgreSQL, бенчмарки пока не наблюдаются, что странно. Может быть в ClickBench/JSONBench они появятся через какое-то время. Пока главное достоинство лицензия MIT.
- ai_query function [3] в Databricks есть функция ai_query которую можно использовать прямо в SQL запросе и которая позволяет обрабатывать данные с помощью одной из LLM специальным запросом. Осталось подождать когда такая функция или аналог появятся во всех современных RDBMS
- Human-Computer Input via a Wrist-Based sEMG Wearable [4] исследование Meta про уличную магию про использование жестов для управления устройствами. Помимо того что это может поменять многое в обыденной жизни тут ещё и много открытых наборов данных Я думал такие устройства будут делать в виде тонких перчаток, а оказывается что можно в виде браслета.
- pg_mooncake. Postgres extension for 1000x faster analytics [5] расширение для колоночных таблиц для PostgreSQL для ускорения аналитики. Внутри, ожидаемо, DuckDB

Ссылки:
[1] https://opensource.microsoft.com/blog/2025/01/23/documentdb-open-source-announcement/
[2] https://github.com/microsoft/documentdb
[3] https://docs.databricks.com/en/sql/language-manual/functions/ai_query.html#examples
[4] https://www.meta.com/blog/surface-emg-wrist-white-paper-reality-labs/
[5] https://github.com/Mooncake-Labs/pg_mooncake

#opensource #rdbms #postgresql #duckdb #datatools
February 3
February 4
В последнее время всё чаще слышу про prompt engineering как отдельную профессию. Кто-то даже говорит что ей несколько лет. Даже вакансии такие регулярно появляются, не знаю как в России, а в мире точно есть.

У меня вопрос - а это реально отдельная профессия или чисто хайп? В моей картине мира работа с промптами ИИ - это дополнение других профессий и самостоятельной дисциплиной и профессией не является.

Предлагаю обсудить в чате. Следующим постом будет опрос на ту же тему

#thoughts
February 4
February 5
Вышла новая версия Duckdb 1.2.0 [1] что важно - это существенная оптимизация скорости чтения данных. Пишут что обновили парсер для CSV [2] ускорив его до 15% и общие ускорение на 13% по тестам TPC-H SF100.

Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.

Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.

Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260

#opensource #duckdb #datatools #rdbms
February 6
February 6
February 6
February 6
https://dhsprogram.com/

https://dhsprogram.com/data/available-datasets.cfm

https://www.idhsdata.org/idhs/

https://www.statcompiler.com/en/

https://dhsprogram.com/Countries/index.cfm?show=map#activeType=_all&printStyle=false&mLon=12.8&mLat=11.7&mLev=2&title=Where%20We%20Work&desc=

https://dhsprogram.com/search/

https://dhsprogram.com/Research/Featured-Studies.cfm

Самая лучшая в мире база данных демографических обследований по развивающимся странам может кануть в небытие уже завтра или на днях.
Если это случится, то "спасибо" Трампу, будь он неладен.
Выражение "СЛОН в посудной лавке" играет новыми красками, преимущественно чёрными.
Скачивайте всё, что можно.
Эти данные используются в т. ч. ООН для демографического прогнозирования.
По многим странам других данных нет, или они низкого качества.
February 7
February 7
February 8