Ivan Begtin – Telegram

Ivan Begtin

7.99K subscribers

1.77K photos

3 videos

101 files

4.49K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

7.99K subscribers

Forwarded from Национальный цифровой архив

Как сохранить журналистику данных

Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:

1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.

Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism

Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972

#datajournalism #digitalpreservation #digitalarchive

DataJournalism.com

How to save data journalism: A guide to… | DataJournalism.com

How can journalists preserve their interactive data journalism pieces? Professor Bahareh Heravi analyses the problem and provides solutions for ensuring…

1.6K viewsIvan Begtin, 10:49

В рубрике глобальных проектов предоставляющих открытые данные Global Fishing Watch [1] проект по мониторингу рыбной ловли, судов ловящих рыбу, связанных с рыбной ловлей событий и так далее.

Данные предоставляются в виде API [2] с предварительной регистрацией и лицензией CC-BY NC, только для некоммерческого использования.

Данные по российским судам и судам в российских водах там тоже есть.

Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/

#opendata

Global Fishing Watch

Sustainable ocean through increased transparency: we create map visualizations, data and analysis to enable scientific research and transform ocean management

2.0K viewsIvan Begtin, 15:45

Сегодня с утра Счетная палата РФ выпустила 4-й доклад об открытости государства в России [1]. Несмотря на то что Коммерсант пишет что доклад готовился с Инфокультурой [2], это не так, к этому докладу Инфокультура отношения не имеет и сделан он целиком и полностью внутри Счетной палаты.

Прежде чем продолжить я должен упомянуть что я имел непосредственное отношение к первым 3-м докладам и ушёл от работы над проектами Счетной палаты год назад, в июне 2021 года. Уже тогда моё существенное несогласие с докладом было в том что использованная нами изначально методика стала оказалась неустойчивой к манипуляциям со стороны оцениваемых ФОИВов, а в итоге, моей позицией было полностью от неё отказаться. Но этот доклад стал продуктом Счетной палаты, соответственно рассматривать его необходимо и возможно только в контексте общей политической ситуации.

При этом, несмотря на все наши споры, я, по прежнему, отношусь с большим уважением к коллегам в Счетной палате которые продолжают делать, то многое в части открытости что не делают другие органы власти.

Относительно содержания доклада:
1. Необходимо понимать что любая внутригосударственная критика сейчас жестко ограничена вводными от Аппарата Пр-ва и Администрации Пр-та, какой бы ни была реальная ситуация в открытости гос-ва, этот доклад, как и любые подобные документы выпускаемые органами власти не могли не проходить их жесткую цензуру. Поэтому никакой серьёзной критики там нет и не может быть в принципе, как явления.
2. Сравнивать органы власти можно всем критериям кроме открытости данных потому что открытость данных напрямую зависит от владения ФОИВом государственными и ведомственными информационными системами, а здесь разброс огромен. От Минздрава у которого во владении огромное число датасетов, ГИСов, баз данных и т.д., до фельдъегерской службы которая ничем кроме сайта не владеет. Мне это стало окончательно понятно ещё в 2021 году,
3. Важное системное изменение в том что в начале этого года вышел Global Data Barometer [3], перезапуск глобальной оценки Open Data Barometer, по измерению открытости данных в мире по странам. Эта оценка - оценка деятельности власти (правительства) в целом. Были ли какие-то действия российского Пр-ва по итогам представления результатов этой оценки? Нет, никаких действий и даже оценки возможности действий не последовало.
4. Ключевой момент в оценке и разнице между открытыми и общедоступными данными. Открытые данные в мире определяются через принципы в которые входят открытости и машиночитаемость [4], но в Global Data Barometer измеряется ещё и факт наличия данных и их переход в открытость. Многие важнейшие данные в России формально открытыми не считаются, но общедоступны. Они учитывались в оценках Global Data Barometer, но никак не учитывались в этом и в предыдущих докладах СП РФ.
5. Говорить сейчас даже о "стабильности открытости" в части открытых данных крайне сложно. Если бы оценки были не по устаревшей методике, а, например, опросом ожиданий основных потребителей данных, то результаты опроса были бы про негативные ожидания и, в целом, сильный пессимизм у сообщества, ключевых потребителей и пользователей открытых данных.

В качестве итога, лично я смотрю на этот доклад в текущей форме как глубоко цензурированный политический продукт не для пользователей и потребителей открытых данных, а скорее очередная констатация что "у нас не всё так плохо". Его аудитория, скорее, представители ФОИВов чем мы с Вами. Я не вижу в этом докладе практической пользы и последующих практических действий, если только не интерпретировать его как "да, всё стабильно, стабильно закрывается".

Есть ли возможность сделать объективную оценку? У неё сейчас нет заказчика. Российские власти сейчас ждут любых оценок подчеркивающих что "ничего не случилось", а зарубежные фонды, интересанты кто мог бы это профинансировать ждут оценок что "всё плохо".

1.8K viewsIvan Begtin, 07:37

В любом случае я хочу закончить тем же с чего начал, ребята молодцы что делают хоть что-то. Делают как могут. А от себя добавлю что Счетная палата могла бы сделать немало для собственной открытости просто опубликовав таблицу планов проверок и их результатов. В таком, знаете формате: запланировано, проведено, опубликовано (ссылка). А не просто план, без публичного перечня результатов. Открытость, она, всегда, не в том чтобы публиковать что ты можешь, а в том чтобы публиковать то что "вызывает боль".

Ссылки:
[1] https://ach.gov.ru/news/otkrytost-2022
[2] https://www.kommersant.ru/doc/5480518
[3] https://globaldatabarometer.org/country/russian-federation/
[4] https://opendatacharter.net/principles/

#opendata #ratings

1.9K viewsIvan Begtin, 07:37

Что думаете о 4-м докладе об Открытости государства от Счетной палаты?

Anonymous Poll

Хорошо, надо больше таких докладов

Плохо, неправильный и надуманный доклад

Бессмысленно, какая теперь в России открытость

Вредно, лишний сигнал что закрыть недозакрытого

Недоверительно, Счетная палата сама недостаточно открыта

Недостаточно, не всё охвачено, нужно больше и лучше

Делают не те и не так

Мнения не имею, хочу посмотреть ответы

193 voters1.8K viewsIvan Begtin, 15:33

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Официально: 10 лет открытости в России

10 лет назад, 26 июля 2012 года, была создана Правительственная комиссия по координации деятельности Открытого правительства - постоянно действующий орган по координации взаимодействия между госорганами, организациями и гражданами.

Конечно, фактически открытость в России появилась еще раньше - десятилетие портала Электронного бюджета мы отмечали ровно год назад, первые федеральные порталы госзакупок появились еще раньше, а информационная открытость госорганов была закреплена еще в 2009 году.

Много всего было сделано (и не сделано) за эти годы: участие в конференциях в 10 странах от Индии и Острова Мэн до Аргентины и Уругвая, создание в Инфокультуре проекта «Госзатраты» с аудиторией в 10 млн уникальных посетителей, создание (после упразднения Открытого Правительства) проекта СП РФ «Госрасходы» на вкусном домене (с аудиторий уже в 500 тыс. человек), в телеграмме сформировалось сообщество по открытым данным (уже почти в 3 тыс. человек) и многое другое. Написала об этом подробнее в https://telegra.ph/Oficialno-10-let-otkrytosti-v-Rossii-07-26.

Конечно, понятие «открытости» нужно пересматривать, а документы перерабатывать и обновлять. Надеюсь, через 10 лет мы будем подводить итоги официального 20-летия открытости.

Спасибо коллегам из госорганов, исследовательских и некоммерческих организаций, неравнодушным коллегам-гражданам и всем знакомым с понятием «открытые данные» за совместную десятилетнюю (на самом деле дольше) работу над развитием открытости! Отдельное спасибо СП РФ, Минфину России и Казначейству России за раскрытие данных и работу в этом направлении, и, конечно, нашей команде.

Официально: 10 лет открытости в России

10 лет назад, 26 июля 2012 года, был подписан Указ о создании Правительственной комиссии по координации деятельности Открытого правительства - «постоянно действующего органа по координации взаимодействия исполнительной власти с представителями гражданского…

1.6K viewsIvan Begtin, 16:27

В рубрике интересных наборов данных база музейных коллекций собираемая проектом Dolthub [1]. Для тех кто не знает, Dolthub - это онлайн проект в виде специальным образом масштабируемой базы SQL с возможностями Git, а то есть с управлением версиями и операциями над данными похожими на операции с исходным кодом.

Dolthub на регулярной основе запускают кампании по краудсорсингу баз данных по определенным темам. Например, цены на госпитальные услуги в США или реестр юрлиц, опять же в США. Больше на специальной странице Bounties [2] у них на сайте.

Причём здесь открытые данные? Собираемые данные доступны под лицензией Creative Commons Zero, но за их сбор команда проекта выплачивает призы. Сами данные доступны не только через их интерфейс, но и через git'оподобные команды такие как 'dolt clone dolthub/museum-collections' как раз для вот этой базы музейных коллекций.

Dolthub не является сверхпопулярным продуктом, о нём, на самом деле, не так много кто знает. Они одновременно находятся в рынке облачных баз данных и в рынке каталогов данных. Непонятно выживут ли они с такой бизнес моделью, но безусловно очень хорошо что они инвестируют в доступность данных и открытые данные.

Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/museum-collections/doc/main
[2] https://www.dolthub.com/bounties

#opendata #datasets #datacatalogs #dbms

1.8K viewsIvan Begtin, 18:59

Полезное чтение про данные и не только:
- Open loop of ML [1] разбор подходов к машинному обучению в трех частях и с акцентом на последствия ошибок.
- Действительно ли выигрывают дата-компании? [2] очередной текст от Ben Stancil. Вопрос совсем не праздный и правильно подан и касается не только данных.
- большой гайд по спортивной аналитике [3] структурированные таблицы с кучей ссылок на тексты, инструменты, курсы, научные статьи, данные и тд. Автор очень заморочился систематизацией всего что есть по этой теме
- Practical Deep Learning for Coders 2022 [4] обновлённый курс от Fast.ai, полезный для начального погружения в тему глубинного обучения.
- большой каталог ссылок и материалов по приватности в Awesome Privacy list [5], много ссылок на продукты о которых я лично не знал и, в целом, хорошо структурировано

Ссылки:
[1] https://towardsdatascience.com/the-open-loop-of-ml-part-3-f0ba4c6d225e
[2] https://benn.substack.com/p/do-data-driven-companies-win
[3] https://docs.google.com/spreadsheets/d/16Xvhl7fCKEs1JTr-VXPZDmctO2gq4TcmuNmAhoHQQs0/edit#gid=627465558
[4] https://www.fast.ai/2022/07/21/dl-coders-22/
[5] https://github.com/Lissy93/awesome-privacy

#readings #data

The Open Loop of ML — Part 3

Closing the loop

1.9K viewsIvan Begtin, 05:28

Честно говоря хочется больше писать про технологии, что я, обычно, и делаю, но иногда не могу не отвлечься на темы связанные с нашим государством и цифровизацией.

Вот, например, Минстрой РФ выпустил "Индекс IQ городов" [1] где, ожидаемо, Москва на первом месте. Казалось, какой хороший индекс, составляли его по 47 показателям и целых 10 направлений: городское управление, умное ЖКХ, инновации для городской среды, умный городской транспорт, интеллектуальные системы общественной и экологической безопасности, туризм и сервис, интеллектуальные системы социальных услуг, экономическое состояние и инвестклимат, а также инфраструктура сетей связи․

Вот только когда посмотришь на его внутренности [2], то сразу выясняется что:
1. Методология не опубликована, неизвестно что там и как это менялось.
2. Перечня показателей нет (должно быть в методологии).
3. В целом сравнение двух городов в статусе субъектов федерации (Москва и Санкт-Петербург) и всех остальных, являющихся муниципальными образованиями, выглядит даже не надуманно, а скажем так, претенциозно.

Я было поискал первоисточник, но на ведомственном проекте Минстроя "Умный город", та же новость [3] с тем же документом.

Поэтому властям Москвы нечем гордится что они на первом месте в этом индексе, потому что индекс этот мусорный.

У любого нормального рейтинга/оценки, разумеется, должны быть доступны методология, таблицы с оценками, показатели, описаны перечень изменений, должен быть ответственный за методологию, тот кто отвечает за его составление и коллектив авторов.

Меня лично, в принципе, крайне печалит продукция многих органов власти в последние годы. Это просто какая-то интеллектуальная хрень не оправданная ничем.

Далее постараюсь побольше писать про технологии, а не про вот это вот всё.

Ссылки:
[1] https://www.minstroyrf.gov.ru/press/minstroy-rossii-opublikoval-indeks-iq-gorodov/
[2] https://www.minstroyrf.gov.ru/upload/iblock/672/REZULTATY-OTSENKI-KHODA-I-EFFEKTIVNOSTI.pdf
[3] https://russiasmartcity.ru/news/publications/51

#government #ratings #bullshit

7.9K viewsIvan Begtin, 13:22

В рубрике полезное чтение про данные:
- о разнице между data wrangling, data cleaning и data transformation [1] от создателей Osmos, стартапа по трансформации данных. Относиться надо, конечно, как к статье с акцентом на плюсы их платформы которая ещё и пока до сих пор в ограниченном доступе, но мысли у создателей ровно те же что и у меня о том что тема преобразований данных недостаточно ИИзирована и мало продуктов для компаний среднего уровня. Эту задачу они и решают, а насколько хорошо - это надо проверять на живых проектах.
- о рисках с облачными ценами на инфраструктуру данных [2], автор явным образом продает свой продукт Conveyor по управлению облачной инфраструктурой клауд провайдеров. В России это, сейчас, менее актуально, а в мировых проектах весьма нужно - контроль за стоимостью издержек на обработку данных. Решения могут быть разные, но проблема одна - зависимость от одного провайдера.
- обзор текущего состояния Modern Data Stack [3] на весну 2022 года. Ожидаемо "центром массы" в MDS называют dbt, я бы сказал что сейчас это инструмент номер один для задач по обработке данных внутри SQL СУБД.
- короткая записка [4] о интеграции данных реального времени в портал data.europa.eu. Европейская бюрократия работает медленно, но системно и записка полезна с точки зрения посмотреть как последовательно думает команда этого проекта над тем как обеспечивать доступ к данным обновляемым непрерывно. Готовых решений у них нет, рассматривают несколько принятых стандартов используемых в интернете вещей.
- довольно давнее, но актуальное руководство по плохим данным [5] Bad data guide, с примерами того как и какие ошибки в данных возникают, как их избегать. Вернее ошибки там не только в данных, но и в последствиях их неверной обработки и возможности интерпретации. Есть переводы на разные языки, но никто не сделал пока ещё перевода на русский (!)

Ссылки:
[1] https://www.moderndatastack.xyz/journal/whats-the-difference-between-data-wrangling-vs-data-cleansing-vs-data-transfor-u0lb
[2] https://blog.dataminded.com/why-rising-cloud-costs-are-the-silent-killers-of-data-platforms-52a98b371f28
[3] https://www.moderndatastack.xyz/journal/the-modern-data-stack-ecosystem-spring-2022-edition-5qer
[4] https://data.europa.eu/sites/default/files/report/data_europa_eu_Real_time_data_2022_Approaches_to_integrating_real_time_data_sources_in_data_europa_eu.pdf
[5] https://github.com/Quartz/bad-data-guide

#opendata #data #readings

www.moderndatastack.xyz

What's the Difference Between Data Wrangling vs Da... | Modern Data Stack

Hundreds of resources to help you level up your modern data stack and learn from the best

1.8K viewsIvan Begtin, edited 04:57

В качестве регулярного напоминания, в прошлом году мы от Инфокультуры опубликовали исследование Приватность государственных мобильных приложений в России [1].

В исследовании были примеры того как разработчики госприложений размещают их в Google Play вместе с трекерами крупных bigtech корпораций и ~~сливают зарубежным разведкам~~ помогают корпорациям лучше следить за гражданами.

Когда мы делали это исследование то специально сделали акцент на государстве потому что государственные органы - это неестественная монополия и у вас нет альтернативного приложения госуслуг или других, придётся использовать то что предоставляется. Так почему то что предоставляется должно не только само следить за нами, но и передавать личные данные третьим коммерческим сторонам ?

Это исследование не финальное, через какое-то время я напишу о новом которое мы уже готовим.

Ссылки:
[1] https://privacygosmobapps.infoculture.ru

#privacy #mobileapps #government

Инфокультура

Новости Информационной культуры. https://infoculture.ru

2.1K viewsIvan Begtin, 15:10

В последнее время я вижу всё больше попыток создания языков запросов в противовес SQL, как альтернатива или как расширение языка. И тут я не могу не вспомнить что такая большая попытка предпринималась ещё давно - это SPARQL (the standard query language and protocol for Linked Open Data on the web or for RDF triplestores) [1].

Стандартизированный W3C ещё в 2008 году вместе с другими стандартами Semantic Web и LOD он выглядел как замена если не SQL, то как некий универсальный протокол для доступа к данным который можно было реализовать с помощью SQL или каким-угодно ещё образом на бекэнде.

Казалось бы ещё тогда - был стандарт, было несколько продуктов его поддерживающих, были даже институциональные попытки его внедрить и применять. Вспомнить тот же Virtuoso [2] продукт от OpenLink.

Но, не только с коммерческим, но и с практическим внедрением у SPARQL оказались большие проблемы. SPARQL и форматы для связанных данных получили развитие в научной среде, особенно в науках и исследовательских базах данных со строгой онтологической структурой. Эта технология хорошо стала частью Wikidata построенного на базе Semantic MediaWiki, но массовой адаптации и изучения новой технологии не произошло.

Я видел лишь несколько, относительно, успешных внедрений связанных данных, RDF и SPARQL в госпроектах и ни одного в современных, особенно высоконагруженных, коммерческих приложениях.

При том что, конечно, очень хочется чтобы мир был поструктурированнее, но практические задачи далеки от этих стандартов. А развитие открытых данных в сторону 5 звезд которые когда-то пропагандировал Тим Бернерс-Ли оказалось недостижимой и малореалистичной мечтой.

А что думаете вы, может ли SPARQL получить новую жизнь, переродиться или ждать нового стандарта/пул технологий для сложных данных?

Ссылки:
[1] https://www.w3.org/TR/rdf-sparql-query/
[2] https://virtuoso.openlinksw.com/

#opendata #sparql #linkeddata #semanticweb

2.2K viewsIvan Begtin, 17:18

Илья Шуманов, собрал список общедоступных официальных данных закрытых в этом году [1]. В этом списке не только открытые данные, но и отчеты органов власти и иные сведения которые характеризуют экономическое состояние страны прямо или косвенно.

Я добавлю что закрытие данных началось не в этом году, с 2014 года этот процесс начался, просто не был так масштабен. Закрывались данные контрактов госкорпораций по 223-ФЗ, был закрыт реестр субсидий, прятались сведения об учредителях НКО и ещё много что.

И, скорее всего, этот список неполон, многие данные закрываются так что это известно только специалистам в этих отраслях, многие экономические данные удаляются по чуть-чуть.

Поэтому если вы знаете какие-то важные данные которые были закрыты в этом году или прошлом, напишите в комментариях.

Ссылки:
[1] https://t.iss.one/CorruptionTV/2764

#opendata #government #opengov

Официальные данные, которые исчезли из публичного доступа после 24 февраля:

1. Данные о собственниках финансовых учреждений (банков, стразовых компаний и тд).
2. Данные о внешней торговле.
3. Данные об экспорте.
4. Данные об импорте.
5. Ежемесячные данные…

1.9K viewsIvan Begtin, 18:25

Системы управления базами данных о которых, либо уже не помнят, либо ещё не знают, те что совсем не на слуху:
- BaseX [1] СУБД для XML документов с поддержкой языка запросов XQuery 3.1. Используется в ряде унаследованных систем которые строились вокруг XML
- eXist-db [2] также XML база данных с поддержкой XQuery как языка запросов. Возможно более популярная чем BaseX, но, в целом, также в основном в унаследованных системах.
- Metakit [3] популярная когда-то в корпоративных приложениях внедряемая база данных. Имела свой упрощённый язык запросов, очень была похожа на прообраз документальных баз данных, хотя и тогда там были только плоские таблицы. Перестало развиваться примерно 15 лет назад.
- Datomic [4] достаточно давняя проприетарная, более 10 лет, СУБД с поддержкой запросов с помощью языка Datalog. Теперь существует только в виде облачного и дорого on-prem продукта. Тут ещё можно вспомнить что автор продукта Rich Hickey, создатель языка Clojure
- TerminusDb [5] относительно новая графовая СУБД с поддержкой RDF и использующая внутри WOQL (web object query language) язык запросов основанный на Datalog. Лично я так и не понял есть у этой СУБД какие-либо реальные ключевые фичи из-за которых хотелось бы хотя бы протестировать, но ничего такого не нашёл. Хотя клиенты у них есть, в академической среде кое-где её используют.р
- ArcadeDB [6] сравнительно новая NoSQL база данных созданная автором OrientDB после его увольнения из SAP. Изначально Native Graph Database, но также реализуют MongoDB совместимый интерфейс и, в целом, 5 языков запросов: MongoDB, Cyther, GraphQL, Gremlin, SQL. Хороший кандидат на замену MongoDB если пройдет тесты на производительность

Ссылки:
[1] https://basex.org
[2] https://www.exist-db.org
[3] https://www.equi4.com/metakit/
[4] https://www.datomic.com/
[5] https://terminusdb.com/products/terminusdb/
[6] https://arcadedb.com/

#datatools #dbms #data

The XML Framework: Lightweight and High-Performance Data Processing

BaseX: The XML Framework. Lightweight and High-Performance Data Processing

2.2K viewsIvan Begtin, 04:58

Полезное чтение про данные и технологии:
- перестаньте использовать CSV [1] статья с напоминанием что для data science следует использовать Parquet.
- об организации полнотекстового поиска на базе Clickhouse [2]
внутри Tinybird. Много технических подробностей
- очень подробно про новую версию Prefect 2.0 [3] для тех кто ищет себе ETL/ELT продукт
- ожесточенная конкуренция в США за госконтракты на облачные сервисы для государства [4], драка нешуточная между текущим контрактором Amazon и Microsoft которые пытаются вместе с Google и Oracle продать идею мультиоблачности. Сейчас ЦРУ и Пентагон используют только облака Amazon
- 7 советов для успешности проектов по машинному обучению [5] в промышленном применении. Самый первый совет самый важный не недооценивайте время на документирование!
- обзор NoSQL баз данных для начинающих [6], уже погруженным в природу NoSQL будет неинтересно, а когда надо объяснять с нуля студентам или начинающим, то полезно
- стартап Neon, облачный Postgres, получил $30M инвестиций [7]. Как я понимаю, большая часть команды из России, разработчики Postgres'а уехавшие и создавшие стартап на Кипре. На самом деле они делают альтернативу облачному AWS Aurora Postgres.

Ссылки:
[1] https://towardsdatascience.com/a-parquet-file-is-all-you-need-962df86886bb
[2] https://www.tinybird.co/blog-posts/text-search-at-scale-with-clickhouse
[3] https://www.prefect.io/guide/blog/the-global-coordination-plane/
[4] https://www.wsj.com/articles/microsoft-asks-google-oracle-to-help-crimp-amazons-u-s-government-cloud-leadership-11658926801
[5] https://medium.com/jellysmacklabs/7-tips-for-a-successful-machine-learning-project-in-production-4c5e7f10903c
[6] https://blog.leanxcale.com/distributed-database-concepts/nosql-jungle/
[7] https://neon.tech/blog/funding-a1/

#data #datatools #startups #readings

A Parquet File Is All You Need

Stop using CSV and move to Parquet

2.1K viewsIvan Begtin, 18:11

Критический разбор понятия Lakehouse [1] когда-то представленный в научной статье сотрудниками Databricks [2]․ Lakehouse декларируется как замена озер данных и хранилищ данных со специализацией на машинном обучении и data science. Одна из ключевых особенностей в хранении данных в форматах ORC и Parquet․ Но, в целом, автор критикует статью с акцентом на отсутствие вызовов которые решались бы предлагаемым подходом что всё это больше похоже на маркетинг, а не на новый подход.

Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.

На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].

У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.

Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience

#moderndatastack #data

Distributed Systems Architecture

I have just read the “Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics” paper and decided to write a short blog post going through some of the key moments of the paper’s motivation. Let’s start. A decade ago…

1.7K viewsIvan Begtin, 05:50

В России когда ищешь где почитать про технологии сразу вспоминаешь про Хабр, в каком-то смысле, естественный монополист в технических публикациях, но у Хабра есть постепенный сдвиг в общетехнологические, а не технические темы.

Честно скажу в последние годы я читаю Хабр скорее реже чем чаще чем зарубежные блоги.

А вот из зарубежных платформ выбор есть, хотя и не так уж велик:
* Medium [1] - очень много технологических блогов и публикаций, про данные особенно в Towards data science [2]. Но, спектр тем там куда шире чем технологии, пишут обо всём. Из достоинств: хорошая персонализация и то что не все публикации маркетинговый буллшит.
* Dev.to [3] скорее платформа для начинающих разработчиков для публикации простых гайдов и рецептов. Это как обратная сторона Stackoverflow, но не вопросы, а ответы. Для начинающих полезно, а найти там глубокий текст сложно.
* Hashnode [4] что-то среднее между dev.to и medium по глубине текстов, много лонгридом, но большая часть публикаций про программирование фронтэнда. Совсем мало публикаций про данные.

В итоге самый интересный контент происходит из научных и крупных ненаучных конференций и личных блогов. А вот в части текстов про бизнес на данных и рынок данных большая часть самых интересных авторов на Substack [5]․ При том что Substack - это не про сообщество, а про вещание миру через рассылку и блог (первична рассылка). Там можно почитать Benn Stancil [6] которого я тут регулярно цитирую, там блог/рассылка dbt [7] и ещё много других блогов в категории Technology, всячески их рекомендую.

Я и сам веду там рассылку на русском языке [8], а на английском веду блог на Medium [9].

А где Вы находите интересное чтение? Какие ещё есть хорошие платформы, блоги для регулярного профессионального чтения?

Ссылки:
[1] https://medium.com
[2] https://towardsdatascience.com
[3] https://dev.to
[4] https://hashnode.com/
[5] https://substack.com/
[6] https://benn.substack.com/
[7] https://roundup.getdbt.com/
[8] https://begtin.substack.com/
[9] https://medium.com/@ibegtin

#readings #data #blogging

Medium: Read and write stories.

On Medium, anyone can share insightful perspectives, useful knowledge, and life wisdom with the world.

1.7K viewsIvan Begtin, 07:36

Приятно что моя критика приводит к результатам, однако, обновленный реестр тоже надо будет проверить;)

Пока нет ощущения системности в этом решении.

#digital #itmarket

1.5K viewsIvan Begtin, 11:57

Forwarded from Минцифры России

📑 Актуализирован реестр аккредитованных ИТ-компаний

В результате из реестра исключено более 400 компаний. Это те организации, для которых деятельность в сфере информационных технологий не является основной.

Среди исключенных из реестра компаний:

▫️ более 150 бюджетных учреждений
▫️ 32 банка
▫️ 12 страховых компаний
▫️ и ряд других компаний, не относящихся к ИТ

Минцифры регулярно анализирует информацию о компаниях из реестра на ее соответствие необходимым требованиям. Например, в сентябре прошлого года из реестра было исключено около 1,6 тыс. организаций.

В этот раз Минцифры использовало сведения о деятельности компаний из открытых источников (включая официальный сайт организации), как дополнительную информацию для принятия решения о включении в реестр.

Раньше компаниям было необходимо только иметь профильный ОКВЭД.

Можно ли аккредитоваться сейчас?

В соответствии с законом о поправках в Налоговый кодекс с 1 августа 2022 года приостановлена подача заявлений до принятия нового порядка аккредитации. Сейчас Минцифры совместно с профильными ассоциациями и регионами ведет работу над совершенствованием критериев и процедуры аккредитации ИТ-компаний.

@mintsifry

1.6K viewsIvan Begtin, 11:57

По поводу вот этой "очистки реестра аккредитованных ИТ компаний" [1] не могу не добавить что список очищенных очень похож на тот что я передавал сотрудникам Минцифры РФ где-то месяц назад. И хорошо что хоть по нему они прошлись и проверили компании на соответствие их деятельности ИТ рынку, но это не значит что проверены все компании и проверка проведена полная.

Удивительно что в реестре аккредитованных нет до сих пор сайтов этих компаний и независимая проверка соответствия их деятельности ИТ рынку весьма затруднена, вернее трудоёмка.

Если бы я был человеком обидчивым и злопамятным, я бы расстроился что мои материалы сотрудники Минцифры теперь нигде не упоминают, но и ладно. В следующий раз просто никакие материалы не передам;)

А вот что важно - это то что реестр не ведётся как учётная система. Реестр должен быть не в виде Excel файла со списком, а в нём должна отражаться вся история изменений по компании, как это делается в нормальных реестрах.

В целом удивительно что Минцифра за эти годы так и не выпустила типового продукта ведения реестров, это кажется такой очевидной задачей, воспроизводимой во многих органах власти десятки раз.

Ссылки:
[1] https://t.iss.one/mintsifry/1343

#data #itmarket #digital

1.8K viewsIvan Begtin, edited 12:28