Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике глобальных проектов предоставляющих открытые данные Global Fishing Watch [1] проект по мониторингу рыбной ловли, судов ловящих рыбу, связанных с рыбной ловлей событий и так далее.

Данные предоставляются в виде API [2] с предварительной регистрацией и лицензией CC-BY NC, только для некоммерческого использования.

Данные по российским судам и судам в российских водах там тоже есть.

Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/

#opendata
July 25, 2022
July 26, 2022
July 26, 2022
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Официально: 10 лет открытости в России

10 лет назад, 26 июля 2012 года, была создана Правительственная комиссия по координации деятельности Открытого правительства - постоянно действующий орган по координации взаимодействия между госорганами, организациями и гражданами.

Конечно, фактически открытость в России появилась еще раньше - десятилетие портала Электронного бюджета мы отмечали ровно год назад, первые федеральные порталы госзакупок появились еще раньше, а информационная открытость госорганов была закреплена еще в 2009 году.

Много всего было сделано (и не сделано) за эти годы: участие в конференциях в 10 странах от Индии и Острова Мэн до Аргентины и Уругвая, создание в Инфокультуре проекта «Госзатраты» с аудиторией в 10 млн уникальных посетителей, создание (после упразднения Открытого Правительства) проекта СП РФ «Госрасходы» на вкусном домене (с аудиторий уже в 500 тыс. человек), в телеграмме сформировалось сообщество по открытым данным (уже почти в 3 тыс. человек) и многое другое. Написала об этом подробнее в https://telegra.ph/Oficialno-10-let-otkrytosti-v-Rossii-07-26.

Конечно, понятие «открытости» нужно пересматривать, а документы перерабатывать и обновлять. Надеюсь, через 10 лет мы будем подводить итоги официального 20-летия открытости.

Спасибо коллегам из госорганов, исследовательских и некоммерческих организаций, неравнодушным коллегам-гражданам и всем знакомым с понятием «открытые данные» за совместную десятилетнюю (на самом деле дольше) работу над развитием открытости! Отдельное спасибо СП РФ, Минфину России и Казначейству России за раскрытие данных и работу в этом направлении, и, конечно, нашей команде.
July 26, 2022
July 26, 2022
Полезное чтение про данные и не только:
- Open loop of ML [1] разбор подходов к машинному обучению в трех частях и с акцентом на последствия ошибок.
- Действительно ли выигрывают дата-компании? [2] очередной текст от Ben Stancil. Вопрос совсем не праздный и правильно подан и касается не только данных.
- большой гайд по спортивной аналитике [3] структурированные таблицы с кучей ссылок на тексты, инструменты, курсы, научные статьи, данные и тд. Автор очень заморочился систематизацией всего что есть по этой теме
- Practical Deep Learning for Coders 2022 [4] обновлённый курс от Fast.ai, полезный для начального погружения в тему глубинного обучения.
- большой каталог ссылок и материалов по приватности в Awesome Privacy list [5], много ссылок на продукты о которых я лично не знал и, в целом, хорошо структурировано

Ссылки:
[1] https://towardsdatascience.com/the-open-loop-of-ml-part-3-f0ba4c6d225e
[2] https://benn.substack.com/p/do-data-driven-companies-win
[3] https://docs.google.com/spreadsheets/d/16Xvhl7fCKEs1JTr-VXPZDmctO2gq4TcmuNmAhoHQQs0/edit#gid=627465558
[4] https://www.fast.ai/2022/07/21/dl-coders-22/
[5] https://github.com/Lissy93/awesome-privacy

#readings #data
July 27, 2022
July 27, 2022
В рубрике полезное чтение про данные:
- о разнице между data wrangling, data cleaning и data transformation [1] от создателей Osmos, стартапа по трансформации данных. Относиться надо, конечно, как к статье с акцентом на плюсы их платформы которая ещё и пока до сих пор в ограниченном доступе, но мысли у создателей ровно те же что и у меня о том что тема преобразований данных недостаточно ИИзирована и мало продуктов для компаний среднего уровня. Эту задачу они и решают, а насколько хорошо - это надо проверять на живых проектах.
- о рисках с облачными ценами на инфраструктуру данных [2], автор явным образом продает свой продукт Conveyor по управлению облачной инфраструктурой клауд провайдеров. В России это, сейчас, менее актуально, а в мировых проектах весьма нужно - контроль за стоимостью издержек на обработку данных. Решения могут быть разные, но проблема одна - зависимость от одного провайдера.
- обзор текущего состояния Modern Data Stack [3] на весну 2022 года. Ожидаемо "центром массы" в MDS называют dbt, я бы сказал что сейчас это инструмент номер один для задач по обработке данных внутри SQL СУБД.
- короткая записка [4] о интеграции данных реального времени в портал data.europa.eu. Европейская бюрократия работает медленно, но системно и записка полезна с точки зрения посмотреть как последовательно думает команда этого проекта над тем как обеспечивать доступ к данным обновляемым непрерывно. Готовых решений у них нет, рассматривают несколько принятых стандартов используемых в интернете вещей.
- довольно давнее, но актуальное руководство по плохим данным [5] Bad data guide, с примерами того как и какие ошибки в данных возникают, как их избегать. Вернее ошибки там не только в данных, но и в последствиях их неверной обработки и возможности интерпретации. Есть переводы на разные языки, но никто не сделал пока ещё перевода на русский (!)

Ссылки:
[1] https://www.moderndatastack.xyz/journal/whats-the-difference-between-data-wrangling-vs-data-cleansing-vs-data-transfor-u0lb
[2] https://blog.dataminded.com/why-rising-cloud-costs-are-the-silent-killers-of-data-platforms-52a98b371f28
[3] https://www.moderndatastack.xyz/journal/the-modern-data-stack-ecosystem-spring-2022-edition-5qer
[4] https://data.europa.eu/sites/default/files/report/data_europa_eu_Real_time_data_2022_Approaches_to_integrating_real_time_data_sources_in_data_europa_eu.pdf
[5] https://github.com/Quartz/bad-data-guide

#opendata #data #readings
July 28, 2022
В качестве регулярного напоминания, в прошлом году мы от Инфокультуры опубликовали исследование Приватность государственных мобильных приложений в России [1].

В исследовании были примеры того как разработчики госприложений размещают их в Google Play вместе с трекерами крупных bigtech корпораций и сливают зарубежным разведкам помогают корпорациям лучше следить за гражданами.

Когда мы делали это исследование то специально сделали акцент на государстве потому что государственные органы - это неестественная монополия и у вас нет альтернативного приложения госуслуг или других, придётся использовать то что предоставляется. Так почему то что предоставляется должно не только само следить за нами, но и передавать личные данные третьим коммерческим сторонам ?

Это исследование не финальное, через какое-то время я напишу о новом которое мы уже готовим.

Ссылки:
[1] https://privacygosmobapps.infoculture.ru

#privacy #mobileapps #government
July 28, 2022
July 28, 2022
Илья Шуманов, собрал список общедоступных официальных данных закрытых в этом году [1]. В этом списке не только открытые данные, но и отчеты органов власти и иные сведения которые характеризуют экономическое состояние страны прямо или косвенно.

Я добавлю что закрытие данных началось не в этом году, с 2014 года этот процесс начался, просто не был так масштабен. Закрывались данные контрактов госкорпораций по 223-ФЗ, был закрыт реестр субсидий, прятались сведения об учредителях НКО и ещё много что.

И, скорее всего, этот список неполон, многие данные закрываются так что это известно только специалистам в этих отраслях, многие экономические данные удаляются по чуть-чуть.

Поэтому если вы знаете какие-то важные данные которые были закрыты в этом году или прошлом, напишите в комментариях.

Ссылки:
[1] https://t.iss.one/CorruptionTV/2764

#opendata #government #opengov
July 28, 2022
Системы управления базами данных о которых, либо уже не помнят, либо ещё не знают, те что совсем не на слуху:
- BaseX [1] СУБД для XML документов с поддержкой языка запросов XQuery 3.1. Используется в ряде унаследованных систем которые строились вокруг XML
- eXist-db [2] также XML база данных с поддержкой XQuery как языка запросов. Возможно более популярная чем BaseX, но, в целом, также в основном в унаследованных системах.
- Metakit [3] популярная когда-то в корпоративных приложениях внедряемая база данных. Имела свой упрощённый язык запросов, очень была похожа на прообраз документальных баз данных, хотя и тогда там были только плоские таблицы. Перестало развиваться примерно 15 лет назад.
- Datomic [4] достаточно давняя проприетарная, более 10 лет, СУБД с поддержкой запросов с помощью языка Datalog. Теперь существует только в виде облачного и дорого on-prem продукта. Тут ещё можно вспомнить что автор продукта Rich Hickey, создатель языка Clojure
- TerminusDb [5] относительно новая графовая СУБД с поддержкой RDF и использующая внутри WOQL (web object query language) язык запросов основанный на Datalog. Лично я так и не понял есть у этой СУБД какие-либо реальные ключевые фичи из-за которых хотелось бы хотя бы протестировать, но ничего такого не нашёл. Хотя клиенты у них есть, в академической среде кое-где её используют.р
- ArcadeDB [6] сравнительно новая NoSQL база данных созданная автором OrientDB после его увольнения из SAP. Изначально Native Graph Database, но также реализуют MongoDB совместимый интерфейс и, в целом, 5 языков запросов: MongoDB, Cyther, GraphQL, Gremlin, SQL. Хороший кандидат на замену MongoDB если пройдет тесты на производительность

Ссылки:
[1] https://basex.org
[2] https://www.exist-db.org
[3] https://www.equi4.com/metakit/
[4] https://www.datomic.com/
[5] https://terminusdb.com/products/terminusdb/
[6] https://arcadedb.com/

#datatools #dbms #data
July 29, 2022
Полезное чтение про данные и технологии:
- перестаньте использовать CSV [1] статья с напоминанием что для data science следует использовать Parquet.
- об организации полнотекстового поиска на базе Clickhouse [2]
внутри Tinybird. Много технических подробностей
- очень подробно про новую версию Prefect 2.0 [3] для тех кто ищет себе ETL/ELT продукт
- ожесточенная конкуренция в США за госконтракты на облачные сервисы для государства [4], драка нешуточная между текущим контрактором Amazon и Microsoft которые пытаются вместе с Google и Oracle продать идею мультиоблачности. Сейчас ЦРУ и Пентагон используют только облака Amazon
- 7 советов для успешности проектов по машинному обучению [5] в промышленном применении. Самый первый совет самый важный не недооценивайте время на документирование!
- обзор NoSQL баз данных для начинающих [6], уже погруженным в природу NoSQL будет неинтересно, а когда надо объяснять с нуля студентам или начинающим, то полезно
- стартап Neon, облачный Postgres, получил $30M инвестиций [7]. Как я понимаю, большая часть команды из России, разработчики Postgres'а уехавшие и создавшие стартап на Кипре. На самом деле они делают альтернативу облачному AWS Aurora Postgres.

Ссылки:
[1] https://towardsdatascience.com/a-parquet-file-is-all-you-need-962df86886bb
[2] https://www.tinybird.co/blog-posts/text-search-at-scale-with-clickhouse
[3] https://www.prefect.io/guide/blog/the-global-coordination-plane/
[4] https://www.wsj.com/articles/microsoft-asks-google-oracle-to-help-crimp-amazons-u-s-government-cloud-leadership-11658926801
[5] https://medium.com/jellysmacklabs/7-tips-for-a-successful-machine-learning-project-in-production-4c5e7f10903c
[6] https://blog.leanxcale.com/distributed-database-concepts/nosql-jungle/
[7] https://neon.tech/blog/funding-a1/

#data #datatools #startups #readings
July 30, 2022
Критический разбор понятия Lakehouse [1] когда-то представленный в научной статье сотрудниками Databricks [2]․ Lakehouse декларируется как замена озер данных и хранилищ данных со специализацией на машинном обучении и data science. Одна из ключевых особенностей в хранении данных в форматах ORC и Parquet․ Но, в целом, автор критикует статью с акцентом на отсутствие вызовов которые решались бы предлагаемым подходом что всё это больше похоже на маркетинг, а не на новый подход.

Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.

На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].

У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.

Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience

#moderndatastack #data
August 1, 2022
В России когда ищешь где почитать про технологии сразу вспоминаешь про Хабр, в каком-то смысле, естественный монополист в технических публикациях, но у Хабра есть постепенный сдвиг в общетехнологические, а не технические темы.

Честно скажу в последние годы я читаю Хабр скорее реже чем чаще чем зарубежные блоги.

А вот из зарубежных платформ выбор есть, хотя и не так уж велик:
* Medium [1] - очень много технологических блогов и публикаций, про данные особенно в Towards data science [2]. Но, спектр тем там куда шире чем технологии, пишут обо всём. Из достоинств: хорошая персонализация и то что не все публикации маркетинговый буллшит.
* Dev.to [3] скорее платформа для начинающих разработчиков для публикации простых гайдов и рецептов. Это как обратная сторона Stackoverflow, но не вопросы, а ответы. Для начинающих полезно, а найти там глубокий текст сложно.
* Hashnode [4] что-то среднее между dev.to и medium по глубине текстов, много лонгридом, но большая часть публикаций про программирование фронтэнда. Совсем мало публикаций про данные.

В итоге самый интересный контент происходит из научных и крупных ненаучных конференций и личных блогов. А вот в части текстов про бизнес на данных и рынок данных большая часть самых интересных авторов на Substack [5]․ При том что Substack - это не про сообщество, а про вещание миру через рассылку и блог (первична рассылка). Там можно почитать Benn Stancil [6] которого я тут регулярно цитирую, там блог/рассылка dbt [7] и ещё много других блогов в категории Technology, всячески их рекомендую.

Я и сам веду там рассылку на русском языке [8], а на английском веду блог на Medium [9].

А где Вы находите интересное чтение? Какие ещё есть хорошие платформы, блоги для регулярного профессионального чтения?

Ссылки:
[1] https://medium.com
[2] https://towardsdatascience.com
[3] https://dev.to
[4] https://hashnode.com/
[5] https://substack.com/
[6] https://benn.substack.com/
[7] https://roundup.getdbt.com/
[8] https://begtin.substack.com/
[9] https://medium.com/@ibegtin

#readings #data #blogging
August 1, 2022
August 1, 2022
August 1, 2022
August 1, 2022
August 1, 2022
it_anomalies_20220801.zip
53.6 KB
August 1, 2022