Полезное чтение про данные, для разнообразия свежие статьи про открытость данных
- Ethics of Open Data за авторством N. Weber, Brandon T. Locke [1] о этике открытости данных, в каких случаях открытость может наносить вред (подсказка - нарушение приватности) и как это решается. Полезное, хотя и очень неполный перечень кейсов рассмотрен.
- How open is open? A study of two Irish open government data websites [2] обзор двух ирландских сайтов с открытыми данными за авторством 3-х исследователей из Саудовской Аравии (!) опубликованное в журнале Вопросы государственного и муниципального управления НИУ ВШЭ. Очень необычная комбинация. Статья скорее любопытная, чем интересная.
- The role of open data in transforming the society to Society 5.0: a resource or a tool for SDG-compliant Smart Living? [3] о том как с помощью открытых данных достигать общества 5.0 и SDG. Фактически это про доступность данных о качестве жизни
- Open Data: A Stepchild in e-Estonia’s Data Management Strategy? [4] по факту критика Эстонской госполитики по открытию данных под видом предложений по её улучшению.
- A Review of Open Research Data Policies and Practices in China [5] обзор политики открытости научных данных в Китае, много примеров, ссылок на порталы и публикации. Если кратко - то открытость исследований активно в Китае развивается, проектов много и они весьма велики. Например, Science DB [6] - это более 5 миллионов открытых наборов данных.
Ссылки:
[1] https://arxiv.org/pdf/2205.10402.pdf
[2] https://vgmu.hse.ru/en/2022--5/606167949.html
[3] https://arxiv.org/pdf/2206.11784.pdf
[4] https://www.sciendo.com/article/10.2478/bjes-2022-0006
[5] https://pdfs.semanticscholar.org/935c/1f6d25b282e53474b1ac55579a135a6ea95f.pdf
[6] https://www.scidb.cn/en
#opendata #data #readings
- Ethics of Open Data за авторством N. Weber, Brandon T. Locke [1] о этике открытости данных, в каких случаях открытость может наносить вред (подсказка - нарушение приватности) и как это решается. Полезное, хотя и очень неполный перечень кейсов рассмотрен.
- How open is open? A study of two Irish open government data websites [2] обзор двух ирландских сайтов с открытыми данными за авторством 3-х исследователей из Саудовской Аравии (!) опубликованное в журнале Вопросы государственного и муниципального управления НИУ ВШЭ. Очень необычная комбинация. Статья скорее любопытная, чем интересная.
- The role of open data in transforming the society to Society 5.0: a resource or a tool for SDG-compliant Smart Living? [3] о том как с помощью открытых данных достигать общества 5.0 и SDG. Фактически это про доступность данных о качестве жизни
- Open Data: A Stepchild in e-Estonia’s Data Management Strategy? [4] по факту критика Эстонской госполитики по открытию данных под видом предложений по её улучшению.
- A Review of Open Research Data Policies and Practices in China [5] обзор политики открытости научных данных в Китае, много примеров, ссылок на порталы и публикации. Если кратко - то открытость исследований активно в Китае развивается, проектов много и они весьма велики. Например, Science DB [6] - это более 5 миллионов открытых наборов данных.
Ссылки:
[1] https://arxiv.org/pdf/2205.10402.pdf
[2] https://vgmu.hse.ru/en/2022--5/606167949.html
[3] https://arxiv.org/pdf/2206.11784.pdf
[4] https://www.sciendo.com/article/10.2478/bjes-2022-0006
[5] https://pdfs.semanticscholar.org/935c/1f6d25b282e53474b1ac55579a135a6ea95f.pdf
[6] https://www.scidb.cn/en
#opendata #data #readings
Sciendo
Open Data: A Stepchild in e-Estonia’s Data Management Strategy?
Abstract
The availability of open data has increased dramatically, partly in reaction to several types of government agencies publishing their raw data. Access to and use of open data is not only essential for the development of public policy and delivery…
The availability of open data has increased dramatically, partly in reaction to several types of government agencies publishing their raw data. Access to and use of open data is not only essential for the development of public policy and delivery…
State of data engineering 2022 [1] обзор инженерии данных в 2022 г. от LakeFS. На мой взгляд составители так сильно поленились, в отличие от других отчетов в стиле state of они просто написали текст с описанием текущих продуктов. При этом, не сравнили с прошлым годом, не использовали опрос пользователей/клиентов, не обосновали почему сделали акцент на этих, а не на других технологиях.
Картинка симпатичная, текст по полезности далек от совершенства. Особенно если сравнить с другими технологическими масштабными исследованиями от Postman и Jetbrains.
Тем не менее что-то полезное и здесь можно найти.
Ссылки:
[1] https://lakefs.io/the-state-of-data-engineering-2022/
#dataengineering
Картинка симпатичная, текст по полезности далек от совершенства. Особенно если сравнить с другими технологическими масштабными исследованиями от Postman и Jetbrains.
Тем не менее что-то полезное и здесь можно найти.
Ссылки:
[1] https://lakefs.io/the-state-of-data-engineering-2022/
#dataengineering
Большой тренд который нельзя уже давно игнорировать - это миграция новаций в базах данных в облако. В лучшем случае, при этом, есть опенсорсная версия того же продукта который можно развернуть локально, в худшем случае инновации делаются сразу в облаке и только в облаке.
Например, DataStax, стартап с продуктом Astra DB на базе Apache Cassandra [1]. Для тех кто не помнит, Apache Cassandra - это такая NoSQL база данных с хорошей масштабируемостью. Не такая удобная, ИМХО, из коробки как MongoDB, но гораздо лучше масштабируется горизонтально.
Особенность Apache Cassandra в языке CQL, очень похожем на SQL. Он, с одной стороны, довольно привычен, но с другой не так удобен для работы со схематичными объектами. И вот DataStax в Astra DB [2] добавили почти MongoDB совместимое Document API. Это возможность работы с режиме CRUD.
В общем удобная и полезная возможность. Но, существующая только в облачном виде. Даже Enterprise версия тоже облачная. Этого, в последнее время всё больше, появление cloud-only продуктов. С одной стороны они дают возможность крайне высокой скорости развертывания и управляемости инфраструктуры, а с другой, зависимость от облачных сервисов становится огромной. Впрочем это не только про этот продукт, а про многочисленные другие также.
Ссылки:
[1] https://www.datastax.com/products/datastax-astra
[2] https://docs.datastax.com/en/astra/docs/develop/dev-with-doc.html
#data #startups
Например, DataStax, стартап с продуктом Astra DB на базе Apache Cassandra [1]. Для тех кто не помнит, Apache Cassandra - это такая NoSQL база данных с хорошей масштабируемостью. Не такая удобная, ИМХО, из коробки как MongoDB, но гораздо лучше масштабируется горизонтально.
Особенность Apache Cassandra в языке CQL, очень похожем на SQL. Он, с одной стороны, довольно привычен, но с другой не так удобен для работы со схематичными объектами. И вот DataStax в Astra DB [2] добавили почти MongoDB совместимое Document API. Это возможность работы с режиме CRUD.
В общем удобная и полезная возможность. Но, существующая только в облачном виде. Даже Enterprise версия тоже облачная. Этого, в последнее время всё больше, появление cloud-only продуктов. С одной стороны они дают возможность крайне высокой скорости развертывания и управляемости инфраструктуры, а с другой, зависимость от облачных сервисов становится огромной. Впрочем это не только про этот продукт, а про многочисленные другие также.
Ссылки:
[1] https://www.datastax.com/products/datastax-astra
[2] https://docs.datastax.com/en/astra/docs/develop/dev-with-doc.html
#data #startups
DataStax
Astra DB for Generative AI App Creation & Development | DataStax
Reduce app development time and start scaling without limits. Use Astra DB to create real-time GenAI apps. Start using Astra DB for vector search today!
Я люблю коллекционировать разные термины и сочетания касающиеся данных, благо комбинации выдумывают самые разнообразные, у меня даже словарик есть примерно на 200 терминов включая такие экзотические как data pollution, data liquidity и data laborers. Давно не встречал новых терминов и вот пополнение.
data stations - станции данных. Термин придуманный в DANS, голландским исследовательским центром работающим над инфраструктурой раскрытия научных данных.
Термин - это по сути аналог dataverse (data universe), тематическая коллекция и правила сбора данных используемое в одноименном продукте сделанном командой Гарварда.
Возвращаясь к DANS, например, такая станция данных по археологии [1] у них сейчас оформлена одной из первых.
В моём понимании - это, скорее грантоориентированное дробление, так чтобы по отдельности брать гранты на развитие каждой станции по отдельности.
Ссылки:
[1] https://dans.knaw.nl/en/data-stations/archaeology/
#opendata #openresearchdata #openaccess #data
data stations - станции данных. Термин придуманный в DANS, голландским исследовательским центром работающим над инфраструктурой раскрытия научных данных.
Термин - это по сути аналог dataverse (data universe), тематическая коллекция и правила сбора данных используемое в одноименном продукте сделанном командой Гарварда.
Возвращаясь к DANS, например, такая станция данных по археологии [1] у них сейчас оформлена одной из первых.
В моём понимании - это, скорее грантоориентированное дробление, так чтобы по отдельности брать гранты на развитие каждой станции по отдельности.
Ссылки:
[1] https://dans.knaw.nl/en/data-stations/archaeology/
#opendata #openresearchdata #openaccess #data
Хроники закрытия данных в России
Минэнерго РФ полностью убрало раздел "Статистика" у себя на сайте [1]․ Если ещё 13 февраля там были цифры по добыче и поставки энергоносителей с 2013 года, то теперь данные отсутствуют в принципе с сообщением Раздел на реконструкции. Ведутся технические работы.
Какие-то остатки наборов данных есть в разделе Открытые данные [2], но там только наборы в пару строк и с затиранием статистики прошлых лет. Например, набор данных Добыча газа (2021) [3]
Ссылки:
[1] https://minenergo.gov.ru/activity/statistic
[2] https://minenergo.gov.ru/opendata
[3] https://minenergo.gov.ru/opendata/7705847529-dobychagaza21
#opendata #russia
Минэнерго РФ полностью убрало раздел "Статистика" у себя на сайте [1]․ Если ещё 13 февраля там были цифры по добыче и поставки энергоносителей с 2013 года, то теперь данные отсутствуют в принципе с сообщением Раздел на реконструкции. Ведутся технические работы.
Какие-то остатки наборов данных есть в разделе Открытые данные [2], но там только наборы в пару строк и с затиранием статистики прошлых лет. Например, набор данных Добыча газа (2021) [3]
Ссылки:
[1] https://minenergo.gov.ru/activity/statistic
[2] https://minenergo.gov.ru/opendata
[3] https://minenergo.gov.ru/opendata/7705847529-dobychagaza21
#opendata #russia
Бесплатный, но требующий авторизации, интерактивный генератор SQL запросов Rasgo SQL Generator [1]. Часть их продукта No-Code Data Prep & Visualization.
Не они первые строят интерактивные интерфейсы для запросов к СУБД, такое достаточно давно востребовано, но требует одновременно хорошего понимания устройства данных и понимания построения подобных инструментов в графическом дизайне. Можно сказать что автоматизация идёт по пути всё большей стратификации когда дата аналитики юниоры не будут знать даже SQL и программирования в принципе, только разного рода no-code инструменты.
Ссылки:
[1] https://www.rasgoml.com/post/sql-generator
#datatools #startups
Не они первые строят интерактивные интерфейсы для запросов к СУБД, такое достаточно давно востребовано, но требует одновременно хорошего понимания устройства данных и понимания построения подобных инструментов в графическом дизайне. Можно сказать что автоматизация идёт по пути всё большей стратификации когда дата аналитики юниоры не будут знать даже SQL и программирования в принципе, только разного рода no-code инструменты.
Ссылки:
[1] https://www.rasgoml.com/post/sql-generator
#datatools #startups
Rasgoml
Blog Rasgo - SQL Generator
PRQL - ещё один кандидат на замену SQL [1] позиционируется как PRQL is a modern language for transforming data, читается как "приквел". Основная идея в том чтобы сделать язык более дружелюбным для тех кто на нём пишет и не потерять возможностей SQL, ну и ещё много чего, вроде расширяемости новыми функциями.
Референсная реализация есть на Rust [2] и гораздо менее популярная на Python [3]
Автор известен тем что создал когда-то библиотеку Xarray [4] для Python, весьма известную теми кто работает с большими массивами вычисляемых данных.
Про PRQL он написал книгу [5] и как-то в целом системно подходит к разработке, так что есть хорошие шансы что результат будет и долгосрочный.
Ссылки:
[1] https://prql-lang.org/
[2] https://github.com/prql/prql
[3] https://github.com/prql/PyPrql
[4] https://xarray.dev/
[5] https://prql-lang.org/book/
#opensource #sql #datatools
Референсная реализация есть на Rust [2] и гораздо менее популярная на Python [3]
Автор известен тем что создал когда-то библиотеку Xarray [4] для Python, весьма известную теми кто работает с большими массивами вычисляемых данных.
Про PRQL он написал книгу [5] и как-то в целом системно подходит к разработке, так что есть хорошие шансы что результат будет и долгосрочный.
Ссылки:
[1] https://prql-lang.org/
[2] https://github.com/prql/prql
[3] https://github.com/prql/PyPrql
[4] https://xarray.dev/
[5] https://prql-lang.org/book/
#opensource #sql #datatools
Один из вопросов на которые пока лично у меня нет ответа - это какие некоммерческие проекты ещё возможно создавать в России. Почти все проекты Инфокультуры в последние годы были вокруг данных. Это и Госзатраты и Открытые НКО и многие другие проекты [1]. Они всё ещё доступны, но неизвестно когда, скорее скоро, до них доберутся российские цензоры и выбор будет, или их закрывать, или перестать делать их внутри России.
Проект который развивать можно и нужно безо всех сомнений, хотя и также с рисками - это Национальный цифровой архив, из его телеграм канала я регулярно делаю репосты.
Что ещё полезного и реально актуального можно делать в России? Особенно с учётом полного отсутствия финансирования на технологичные некоммерческие проекты. Я вижу явную тему опрозрачивания рынка ИТ, и даже понимаю что можно делать в этом направлении, не понимаю правда где на это взять финансирование, но что-то можно и без него.
Вижу явную тему мониторинга [падения] качества жизни вот только все реальные данные по этой теме могут сейчас оказаться зацензурированы, уже цензурируются по факту.
Любое опрозрачивание объективного состояния экономики будет предметом манипуляции и давления со всех сторон, в общем, тоже мимо.
Открытые данные - это то что находится внутри любой подобной инициативы, по умолчанию.
Давайте обсудим какие технологические общественные проекты актуальны в России. И напишите, если Вы какие-то проекты на данных делаете или планируете делать.
Ссылки:
[1] https://infoculture.ru/projects
#opendata #opengov #projects
Проект который развивать можно и нужно безо всех сомнений, хотя и также с рисками - это Национальный цифровой архив, из его телеграм канала я регулярно делаю репосты.
Что ещё полезного и реально актуального можно делать в России? Особенно с учётом полного отсутствия финансирования на технологичные некоммерческие проекты. Я вижу явную тему опрозрачивания рынка ИТ, и даже понимаю что можно делать в этом направлении, не понимаю правда где на это взять финансирование, но что-то можно и без него.
Вижу явную тему мониторинга [падения] качества жизни вот только все реальные данные по этой теме могут сейчас оказаться зацензурированы, уже цензурируются по факту.
Любое опрозрачивание объективного состояния экономики будет предметом манипуляции и давления со всех сторон, в общем, тоже мимо.
Открытые данные - это то что находится внутри любой подобной инициативы, по умолчанию.
Давайте обсудим какие технологические общественные проекты актуальны в России. И напишите, если Вы какие-то проекты на данных делаете или планируете делать.
Ссылки:
[1] https://infoculture.ru/projects
#opendata #opengov #projects
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
Очень частый вопрос о том какая возникает экономическая эффективность от открытия данных государством. Частый, чаще всего, от непонимания как раскрытия ключевых данных влияет на общество. Особенность ответа в том что отдельный маленький набор данных может ни на что не влиять, но целенаправленная политика раскрытия по определенной теме может влиять очень сильно. Пример, качество жизни. По отдельности наборы данных о состоянии воздуха, воды, качестве образования, уровне преступности и тд., важны, но вместе из них можно собрать цельный продукт.
Другой пример из совершенно иной области. Открытые данные - это бесплатное топливо для многочисленных сервисов по работе с данными таких как SplitGraph, data.world, bit.io, DoltHub, Amazon AWS, Azure Open Datasets, Google Big Query.
Основная идея в том что пользователи не готовы платить за открытые данные, но готовы платить за инфраструктуру работы с ними и обработки, особенно когда открытые данные находятся в том же контуре куда они могут загрузить свои - это основная модель работы с открытыми данными в BigQuery, Azure, AWS. Данные являются мультипликатором удобства сервиса. Когда ты используешь инфраструктуру облачного провайдера для того чтобы работать с собственными данными, а открытые данные для тебя лежат тут же, рядом, пригодные для быстрого подключения.
Такое использование открытых данных далеко не единственное, но поддающееся измерению, в отличии от попыток измерить их косвенный экономический эффект от исследований или аналитических сервисов, которые, чаще основаны не на общедоступной информации.
#opendata
Другой пример из совершенно иной области. Открытые данные - это бесплатное топливо для многочисленных сервисов по работе с данными таких как SplitGraph, data.world, bit.io, DoltHub, Amazon AWS, Azure Open Datasets, Google Big Query.
Основная идея в том что пользователи не готовы платить за открытые данные, но готовы платить за инфраструктуру работы с ними и обработки, особенно когда открытые данные находятся в том же контуре куда они могут загрузить свои - это основная модель работы с открытыми данными в BigQuery, Azure, AWS. Данные являются мультипликатором удобства сервиса. Когда ты используешь инфраструктуру облачного провайдера для того чтобы работать с собственными данными, а открытые данные для тебя лежат тут же, рядом, пригодные для быстрого подключения.
Такое использование открытых данных далеко не единственное, но поддающееся измерению, в отличии от попыток измерить их косвенный экономический эффект от исследований или аналитических сервисов, которые, чаще основаны не на общедоступной информации.
#opendata
Splitgraph
Deploy data at the edge | Splitgraph
Splitgraph is building the Unified Data Stack, an integrated and modern solution for working with data without worrying about its infrastructure.
В рубрике продуктов на данных с открытым кодом OpenBB [1] аналог торгового терминала Bloomberg с открытым кодом. Ранее он был известен как Gamestonk Terminal. О нем много где писали, например, на Reddit'е большой тред [2].
Как и у всех продуктов для инвесторов он интегрирован с десятками источников данных, частью полностью открытых, частью доступных по подписке, за деньги. Я предполагаю что бизнес модель команды сделавшей этот терминал как раз в том чтобы зная как устроен код оперативно добавлять новые источники данных и сервисы которые уже взимают деньги с пользователей.
Важная и интересная особенность - это терминал командной строки, с кучей команд, достаточно большим числом возможностей и тд. Эдакий полноценный shell (программная оболочка) для работы.
Главная особенность в гибкости и в возможности загрузки и анализа практически любых наборов данных с временными рядами.
Ссылки:
[1] https://openbb.co
[2] https://www.reddit.com/r/Python/comments/m515yk/gamestonk_terminal_the_equivalent_to_an/
#opensource #opendata #data
Как и у всех продуктов для инвесторов он интегрирован с десятками источников данных, частью полностью открытых, частью доступных по подписке, за деньги. Я предполагаю что бизнес модель команды сделавшей этот терминал как раз в том чтобы зная как устроен код оперативно добавлять новые источники данных и сервисы которые уже взимают деньги с пользователей.
Важная и интересная особенность - это терминал командной строки, с кучей команд, достаточно большим числом возможностей и тд. Эдакий полноценный shell (программная оболочка) для работы.
Главная особенность в гибкости и в возможности загрузки и анализа практически любых наборов данных с временными рядами.
Ссылки:
[1] https://openbb.co
[2] https://www.reddit.com/r/Python/comments/m515yk/gamestonk_terminal_the_equivalent_to_an/
#opensource #opendata #data
openbb.co
Homepage | OpenBB
OpenBB is building an AI-powered research and analytics workspace. Our mission is to make research effective, powerful and accessible to everyone.
Forwarded from Национальный цифровой архив
Инструменты для работы и исследования веб-архивов
metawarc — инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.
CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.
SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.
Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.
metawarc — инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.
CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.
SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.
Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.
GitHub
GitHub - datacoon/metawarc: metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive)
metawarc: a command-line tool for metadata extraction from files from WARC (Web ARChive) - datacoon/metawarc
Forwarded from Национальный цифровой архив
Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․
Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.
Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.
Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1
#digitalpreservation #opensource #ruarxive
Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.
Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.
Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1
#digitalpreservation #opensource #ruarxive
GitHub
Issues · ruarxive/rudatarchive
Russian open data portals and websites archival campaign - Issues · ruarxive/rudatarchive
Большой экспертный доклад группы экспертов Евростата [1] с основной идеей изменения подхода к официальной статистики через управление данными и построению статистических показателей, в том числе, за счёт данных частных компаний. Что характерно, в докладе участвовала большая группа экспертов почти со всех стран ЕС и почти все они из частного сектора компаний работающих с данными.
В целом ничего радикально нового, но чётко систематизировано и про то как будет происходить эволюция официальной статистики. Включая участие граждан в её формировании.
Важнейший аспект документа - в отражении того что статистика формируется не только под заказ органов власти, а для бизнеса и граждан.
Ссылки:
[1] https://ec.europa.eu/eurostat/documents/7870049/14803739/KS-FT-22-004-EN-N.pdf/052b4357-bf8e-9ce4-c063-7e806c045dac
#opendata #statistics #europe #eurostat
В целом ничего радикально нового, но чётко систематизировано и про то как будет происходить эволюция официальной статистики. Включая участие граждан в её формировании.
Важнейший аспект документа - в отражении того что статистика формируется не только под заказ органов власти, а для бизнеса и граждан.
Ссылки:
[1] https://ec.europa.eu/eurostat/documents/7870049/14803739/KS-FT-22-004-EN-N.pdf/052b4357-bf8e-9ce4-c063-7e806c045dac
#opendata #statistics #europe #eurostat
Хороший текст “Semantic-free” is the future of Business Intelligence [1] о семантически-свободных BI продуктах и то что headless BI - это тоже семантически-свободный BI. Расшифровывается это как то что все BI инструменты должны соблюдать общие стандарты в результате применения которых можно использовать комбинации BI инструментов. Звучит здорово, но вообще безвендорный мир или мир с ослаблением вендоров сложен без административного или мощного рыночного давления.
Текст же весьма полезный для понимания некоторых проблем с BI которые после прочтения текста кажутся очевидными.
Ссылки:
[1] https://towardsdatascience.com/semantic-free-is-the-future-of-business-intelligence-27aae1d11563
#bi #datastandards
Текст же весьма полезный для понимания некоторых проблем с BI которые после прочтения текста кажутся очевидными.
Ссылки:
[1] https://towardsdatascience.com/semantic-free-is-the-future-of-business-intelligence-27aae1d11563
#bi #datastandards
Medium
“Semantic-free” is the future of Business Intelligence
How dbt, metrics, headless, and the universal semantic layer enable “semantic-free” Business Intelligence
Интересный тренд, инвестиции в стартапы по анализу и обработки защищённых и зашифрованных данных. Opaque [1] получли $22M в серии A на платформу для конфиденциальных вычислений.
Из корп сайта будет неовчевиден потенциал команды, а они, в то же время, создатели опенсорс платформы MC2 [2] для безопасной аналитики.
Ссылки:
[1] https://opaque.co
[2] https://github.com/mc2-project/mc2
#data #startups #security
Из корп сайта будет неовчевиден потенциал команды, а они, в то же время, создатели опенсорс платформы MC2 [2] для безопасной аналитики.
Ссылки:
[1] https://opaque.co
[2] https://github.com/mc2-project/mc2
#data #startups #security
В качестве небольшого, но регулярного отвлечения от основных тем моего канала.
Можно сказать что в последние месяцы и, на самом деле, уже несколько лет мои интересы сильно сместились в сторону технологий, продуктов на данных и создание стартапов в этой области.
Но, конечно, я помню чем я занимался многие годы - а это были темы государственного управления через данные, анализ госзакупок, публичные и непубличные расследования на данных и не только.
Что я хочу сказать так то что система госзаказа и субсидирования у нас в стране (в России) выстроена таким образом что арестовать можно практически любого участника, даже если он жуть как добросовестный. Это не баг, а фича выстроенной модели госуправления, именно процедурный контроль и токсичность государственных денег уже много лет - основа любых рисков в работе с государством. Автоматизированный и ручной анализ госконтрактов, субсидий и много чего другого даёт возможность проводить хоть массовые аресты. Было бы желание, а его, не странно ли, нет.
К примеру, арест ректора РАНХиГС Владимира Мау, по делу на 21 млн. рублей где присутствуют ещё Сергей Зуев и Марина Ракова. На секундочку бюджет РАНХиГС годовой около 21 млрд рублей. В 1000 раз больше, бюджеты которыми распоряжалась Ракова, тоже куда больше 21 млн. руб. Это вообще небольшие деньги, но, так почему же вокруг этого сыр бор?
Те кто знает как распределение госсредств в России устроено знают что за любыми крупными финансовыми потоками стоят крупные интересанты. Строительные компании, системные интеграторы, иные поставщики, а за ними их реальные бенефициары на привлечение к ответственности которых у следователей неткоманды разрешения. Многих арестовывают за незначительные контракты не потому что нельзя найти что-то другое, а потому что в этом случае есть гарантия что чьи-то интересы затронуты не будут.
И то что совершенно несправедливо под арестом держат Сергея Зуева, Марину Ракову, многих других и, теперь, ещё и под домашним арестом держат Владимира Мау, не говорит о их виновности. Говорит лишь о неадекватности предпринимаемых мер предписанным преступлениям. Впрочем, об этом уже много писали СМИ, которые теперь признали инагентами.
Всё это важно для понимания текущей институциональной среды. Это то что не могут исправить меры правительства,разбрасывание денег с вертолёта и тд., в том числе в ИТ отрасли.
Потому что, я напомню, с государственными деньгами есть проблема. За их использование можно привлечь ответственным любого кто являлся их получателем. Когда закончится период экстремальной перестройки экономикии сменится правительство, первое что будут делать правоохранители - это смотреть кого можно взять в разработку.
Можно сказать что в последние месяцы и, на самом деле, уже несколько лет мои интересы сильно сместились в сторону технологий, продуктов на данных и создание стартапов в этой области.
Но, конечно, я помню чем я занимался многие годы - а это были темы государственного управления через данные, анализ госзакупок, публичные и непубличные расследования на данных и не только.
Что я хочу сказать так то что система госзаказа и субсидирования у нас в стране (в России) выстроена таким образом что арестовать можно практически любого участника, даже если он жуть как добросовестный. Это не баг, а фича выстроенной модели госуправления, именно процедурный контроль и токсичность государственных денег уже много лет - основа любых рисков в работе с государством. Автоматизированный и ручной анализ госконтрактов, субсидий и много чего другого даёт возможность проводить хоть массовые аресты. Было бы желание, а его, не странно ли, нет.
К примеру, арест ректора РАНХиГС Владимира Мау, по делу на 21 млн. рублей где присутствуют ещё Сергей Зуев и Марина Ракова. На секундочку бюджет РАНХиГС годовой около 21 млрд рублей. В 1000 раз больше, бюджеты которыми распоряжалась Ракова, тоже куда больше 21 млн. руб. Это вообще небольшие деньги, но, так почему же вокруг этого сыр бор?
Те кто знает как распределение госсредств в России устроено знают что за любыми крупными финансовыми потоками стоят крупные интересанты. Строительные компании, системные интеграторы, иные поставщики, а за ними их реальные бенефициары на привлечение к ответственности которых у следователей нет
И то что совершенно несправедливо под арестом держат Сергея Зуева, Марину Ракову, многих других и, теперь, ещё и под домашним арестом держат Владимира Мау, не говорит о их виновности. Говорит лишь о неадекватности предпринимаемых мер предписанным преступлениям. Впрочем, об этом уже много писали СМИ, которые теперь признали инагентами.
Всё это важно для понимания текущей институциональной среды. Это то что не могут исправить меры правительства,
Потому что, я напомню, с государственными деньгами есть проблема. За их использование можно привлечь ответственным любого кто являлся их получателем. Когда закончится период экстремальной перестройки экономики
Вокруг ИИ помощника по написанию кода Github Copilot разгораются нешуточные баталии [1], НКО Software Freedom Conservancy призывают всех разработчиков покинуть Github [2].
Причём корень проблемы в том что открытый код не делает ограничений на его использование автоматизированными системами, а ко всему ещё и при разработке Copilot не учли все нюансы повторного использования кода и смешения лицензий в итоге. Эту проблему частично пытается решить Amazon с похожим продуктом CodeWhisperer [3], может быть комбинация факторов конкурирующего продукта и волнений разработчиков повлияет на Copilot и продукт будет серьёзно обновлён.
А я на фоне Copilot и тому подобных продуктов не могу не выразить личное мнение что возможна ситуация когда написание простого кода не потребует полноценного интеллекта и следующие шаги в индустрии будут уже не в создании умных помощников, а в полноценных алгоритмах со разработчиках. Уже есть эксперименты продуктов умеющих делать продукты в no-code и low-code системах из текстового или голосового описания.
Вопрос, когда появятся умные оптимизаторы кода способные переписывать его существенные части и находить существенные ошибки и исправлять их?
А самое главное как будут меняться профессиональные и общественные отношения в связи с этими изменениями. Например, появятся ли лицензии кода запрещающие любое его использование ИИ и автоматизированными системами? Но и этого может оказаться недостаточно.
Ссылки:
[1] https://techcrunch.com/2022/07/01/open-source-developers-urged-to-ditch-github-following-copilot-launch/
[2] https://sfconservancy.org/blog/2022/jun/30/give-up-github-launch/
[3] https://techcrunch.com/2022/06/23/amazon-launches-codewhisperer-its-ai-pair-programming-tool/
#opensource
Причём корень проблемы в том что открытый код не делает ограничений на его использование автоматизированными системами, а ко всему ещё и при разработке Copilot не учли все нюансы повторного использования кода и смешения лицензий в итоге. Эту проблему частично пытается решить Amazon с похожим продуктом CodeWhisperer [3], может быть комбинация факторов конкурирующего продукта и волнений разработчиков повлияет на Copilot и продукт будет серьёзно обновлён.
А я на фоне Copilot и тому подобных продуктов не могу не выразить личное мнение что возможна ситуация когда написание простого кода не потребует полноценного интеллекта и следующие шаги в индустрии будут уже не в создании умных помощников, а в полноценных алгоритмах со разработчиках. Уже есть эксперименты продуктов умеющих делать продукты в no-code и low-code системах из текстового или голосового описания.
Вопрос, когда появятся умные оптимизаторы кода способные переписывать его существенные части и находить существенные ошибки и исправлять их?
А самое главное как будут меняться профессиональные и общественные отношения в связи с этими изменениями. Например, появятся ли лицензии кода запрещающие любое его использование ИИ и автоматизированными системами? Но и этого может оказаться недостаточно.
Ссылки:
[1] https://techcrunch.com/2022/07/01/open-source-developers-urged-to-ditch-github-following-copilot-launch/
[2] https://sfconservancy.org/blog/2022/jun/30/give-up-github-launch/
[3] https://techcrunch.com/2022/06/23/amazon-launches-codewhisperer-its-ai-pair-programming-tool/
#opensource
TechCrunch
Open source developers urged to ditch GitHub following Copilot launch
While the Software Freedom Conservancy's beef with GitHub predates Copilot by some margin, it seems that GitHub's latest launch is the final straw.