Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Отличная лекция A Short Summary of the Last Decades of Data Management [1] от Hannes Mühleisen. Она была на GOTO 2024, а я её увидел только сегодня, большая досада, конечно.

Hannes сооснователь DuckDB и большой специалист в проектировании СУБД рассказывает про последние десятилетия эволюции баз данных.

У него, конечно, своё видение вселенной, но он из тех людей к чьему мнению можно прислушаться.

Выводы у него получаются такие:
- таблицы вечны (чтобы там не придумывали с новыми СУБД, всё всё равно сводится к таблицам)
- NoSQL были плохой идеей. В частности, MongoDB и тут очень хочется с ним поспорить, но, не то чтобы в его словах нет резона. Хотя MongoDB до сих пор очень популярная СУБД.
- Реляционные системы съедают почти всё. В общем то мир по прежнему существует как совокупность систем отношений между объектами, почти всё сводится к ним.
- Большие данные мертвы. Это уже новый/старый тезис, его повторяют часто. И часто он сводится к тому что "большие данные это то что ты не можешь обработать на десктопе". Но сейчас есть инструменты позволяющие обрабатывать на десктопах десятки терабайт с терпимой скоростью.
- DuckDB. Ну тут не без саморекламы у него конечно, но DuckDB реально крутой продукт. Я лично рекомендую всем кто только начинает работать с данными начинать с него.

Повторюсь что лекция замечательная, студентам изучающим базы данных будет очень полезна. Для остальных скорее как расширение кругозора и понимания того как устроен мир эволюции СУБД.

Ссылки:
[1] https://www.youtube.com/watch?v=-wCzn9gKoUk

#data #lectures #databases #rdbms
В ближайшие дни я в Москве и довольно неожиданно, а на самом деле давно были планы, читаю лекцию про работу с большими исследовательскими датасетами и об использовании DuckDB и Parquet в этих целях. Будет и в части теории и рассказа про современный инструменты и в части демонстрации на живых данных. Для тех исследователей кто хотя бы немного владеет Python, R и/ли SQL всё будет довольно понятно.

А вот и сам анонс;)

Приглашаем поучаствовать в семинаре на тему особенностей работы с современными форматами больших данных.

Поговорим о ключевых преимуществах формата Parquet для оптимизации хранения и обработки данных, а также о возможностях аналитической СУБД DuckDB.

Семинар может быть интересен тем, кто занимается обработкой и анализом больших данных, а также тем, кто ищет эффективные и производительные решения для работы с массивами данных в современных аналитических экосистемах.

Дата проведения: 21 января 2025 г. (вторник), с 16:30 до 18:00
Формат: гибридный
Место проведения: Институт востоковедения РАН (г. Москва, ул. Рождественка, 12), аудитория 222

Регистрация: https://ivran.ru/registraciya-na-seminar

#opendata #opensource #lectures #teaching