Ivan Begtin
8.03K subscribers
1.94K photos
3 videos
102 files
4.65K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Отличная лекция A Short Summary of the Last Decades of Data Management [1] от Hannes Mühleisen. Она была на GOTO 2024, а я её увидел только сегодня, большая досада, конечно.

Hannes сооснователь DuckDB и большой специалист в проектировании СУБД рассказывает про последние десятилетия эволюции баз данных.

У него, конечно, своё видение вселенной, но он из тех людей к чьему мнению можно прислушаться.

Выводы у него получаются такие:
- таблицы вечны (чтобы там не придумывали с новыми СУБД, всё всё равно сводится к таблицам)
- NoSQL были плохой идеей. В частности, MongoDB и тут очень хочется с ним поспорить, но, не то чтобы в его словах нет резона. Хотя MongoDB до сих пор очень популярная СУБД.
- Реляционные системы съедают почти всё. В общем то мир по прежнему существует как совокупность систем отношений между объектами, почти всё сводится к ним.
- Большие данные мертвы. Это уже новый/старый тезис, его повторяют часто. И часто он сводится к тому что "большие данные это то что ты не можешь обработать на десктопе". Но сейчас есть инструменты позволяющие обрабатывать на десктопах десятки терабайт с терпимой скоростью.
- DuckDB. Ну тут не без саморекламы у него конечно, но DuckDB реально крутой продукт. Я лично рекомендую всем кто только начинает работать с данными начинать с него.

Повторюсь что лекция замечательная, студентам изучающим базы данных будет очень полезна. Для остальных скорее как расширение кругозора и понимания того как устроен мир эволюции СУБД.

Ссылки:
[1] https://www.youtube.com/watch?v=-wCzn9gKoUk

#data #lectures #databases #rdbms
В ближайшие дни я в Москве и довольно неожиданно, а на самом деле давно были планы, читаю лекцию про работу с большими исследовательскими датасетами и об использовании DuckDB и Parquet в этих целях. Будет и в части теории и рассказа про современный инструменты и в части демонстрации на живых данных. Для тех исследователей кто хотя бы немного владеет Python, R и/ли SQL всё будет довольно понятно.

А вот и сам анонс;)

Приглашаем поучаствовать в семинаре на тему особенностей работы с современными форматами больших данных.

Поговорим о ключевых преимуществах формата Parquet для оптимизации хранения и обработки данных, а также о возможностях аналитической СУБД DuckDB.

Семинар может быть интересен тем, кто занимается обработкой и анализом больших данных, а также тем, кто ищет эффективные и производительные решения для работы с массивами данных в современных аналитических экосистемах.

Дата проведения: 21 января 2025 г. (вторник), с 16:30 до 18:00
Формат: гибридный
Место проведения: Институт востоковедения РАН (г. Москва, ул. Рождественка, 12), аудитория 222

Регистрация: https://ivran.ru/registraciya-na-seminar

#opendata #opensource #lectures #teaching
Я напомню что завтра с 16:30 до 18:00 веду семинар по Лучшим практикам использования DuckDB и Parquet для исследовательских данным в Институте Востоковедения РАН. Зарегистрироваться можно по ссылке https://ivran.ru/registraciya-na-seminar видео будет через какое-то время доступно.

Этот семинар будет с ориентацией на исследователей, но, по большей части, про технологии с живой демонстрацией на реальных данных. Для тех кто умеет SQL и командную строку хотя бы немного.

А буквально на следующий день, послезавтра, в 14:00 по Москве будет семинар в рамках проекта Дата среда https://dhri.timepad.ru/event/3195088/ где я буду рассказывать про пересечение дата инженерии и цифровой гуманитаристики. Здесь я про SQL и командную строку говорить не буду, но буду немало рассказывать про то где в цифровых гуманитарных проектах есть применение дата инженерии (и где нет).

В общем если хотите технологического погружения, то это завтра, а если понимания предметных областей то послезавтра. Неожиданно так получилось что эти два мероприятия оказались близко, но это и неплохо.

А к завтрашнему мероприятию, заодно, устрою небольшой опрос, следующим постом, о том на каких исследовательских данных делать демонстрацию.

#lectures #teaching #opendata