Продолжаю читать книгу Nadia Engball Working in Public: The Making and Maintenance of Open Source Software [1] и среди многих интересных вопросов которые которые она упоминает:
- зависимость миллионов проектов, от нескольких которыми управляет всего несколько десятков человек. Пример npm - c 3 500 000 зависимыми проектами и командой разработки из 35 человек.
- то что открытый код - это экономика внимания (attention economy), но это не про внимание клиента (customer attention), а внимания авторов проекта (maintainers attention).
- важный фактор усталости open source разработчиков не от открытости, а от необходимости участия в обсуждениях (participatory), поэтому часто важно делать общедоступным контент, но ограничивать коммуникации комфортным кругом обсуждения.
И, чуть ли не самое главная тема, любого открытого проекта - это tragedy of public good. Когда если что-то бесплатно, то оно немедленно сверхиспользуется.
Я знаю немало проектов по открытости которые на открывают код или данные или другие наработки зная что кто-то будет, либо сверхиспользовать их результаты, либо изначально обладает низкой этикой и большими ресурсами, финансовыми или административными, и открытые наработки использует исключительно в свою пользу, без пользы сообществу.
Много такого наблюдаю вокруг. Помню что Ричард Столлман ещё несколько лет назад говорил и писал об использовании инструментов GNU в облачных сервисах, при этом без раскрытия кода этих сервисов (явный кивок в сторону Google и др.). Или когда Wikipedia используется всеми дата-корпорациями в своих контентных, исследовательских и иных проектах, но финансируют её очень немногие и финансирования всегда недостаточно.
Таких кейсов очень много и они, часто, имеют отраслевую/предметную специфику. Когда понятно что в какой-то области любые проекты по открытости будут быстро "каннибализированы", то и оказывается что там есть коммерческие проекты и дефицит открытых.
С открытыми данными отдельная история в том что они не укладываются бизнес модели и модели существования сообществ открытого кода. Если открытый код - это сборка инструментов, то открытые данные - это топливо.
Это можно сравнить как если Вы выпиливаете деревянные игрушки, то:
- открытый код - это инструкции как делать бесплатно инструменты не покупая их в магазине
- открытые данные - это бесплатные пиломатериалы.
Хотя это и не совсем корректно, поскольку данные не являются исчерпаемым ресурсом, тем не менее отличие от исходного кода существенно с точки зрения существования сообществ, устойчивых бизнес моделей и тд.
Беда многих сообществ открытого кода по всему миру была в том что без институционализации выжили немногие. Часть активистов были поглощены цифровыми командами государства (digital teams, data teams) такими как 18F, AlphaGov, TeamDigitale по разным странам (не стоит их путать с отечественными "командами цифровой трансформации", ничего общего между ними нет). Другая часть активистов ушли в коммерческий или долгосрочные международные проекты изменяющиеся в сторону проектов на данных.
И модель устойчивости существования открытых данных как сообщества сообществ до сих пор не найдена.
Эта рефлексия по поводу открытости есть у всех. Внутри нашей команды мы тоже часто думаем над тем что можно и нельзя открывать, что можно делать общественным проектом, а что нельзя делать потому что одним из ключевых вопросов возникает вопрос: "Вот мы опубликуем вот этот код/данные, но ты же понимаешь что ими просто воспользуются вот эти ... или вот эти ... и нам даже спасибо не скажут". В нашем отечестве это важный вопрос, отражающийся на качестве любой профессиональной работы. Отсев профанации на институциональном уровне не происходит или происходит так что лучше бы не происходил.
Как бы то ни было, опыт сообществ открытого кода важен для понимания что происходит в других сообществах открытости.
Ссылки:
[1] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33
#OpenData #opensource #books
- зависимость миллионов проектов, от нескольких которыми управляет всего несколько десятков человек. Пример npm - c 3 500 000 зависимыми проектами и командой разработки из 35 человек.
- то что открытый код - это экономика внимания (attention economy), но это не про внимание клиента (customer attention), а внимания авторов проекта (maintainers attention).
- важный фактор усталости open source разработчиков не от открытости, а от необходимости участия в обсуждениях (participatory), поэтому часто важно делать общедоступным контент, но ограничивать коммуникации комфортным кругом обсуждения.
И, чуть ли не самое главная тема, любого открытого проекта - это tragedy of public good. Когда если что-то бесплатно, то оно немедленно сверхиспользуется.
Я знаю немало проектов по открытости которые на открывают код или данные или другие наработки зная что кто-то будет, либо сверхиспользовать их результаты, либо изначально обладает низкой этикой и большими ресурсами, финансовыми или административными, и открытые наработки использует исключительно в свою пользу, без пользы сообществу.
Много такого наблюдаю вокруг. Помню что Ричард Столлман ещё несколько лет назад говорил и писал об использовании инструментов GNU в облачных сервисах, при этом без раскрытия кода этих сервисов (явный кивок в сторону Google и др.). Или когда Wikipedia используется всеми дата-корпорациями в своих контентных, исследовательских и иных проектах, но финансируют её очень немногие и финансирования всегда недостаточно.
Таких кейсов очень много и они, часто, имеют отраслевую/предметную специфику. Когда понятно что в какой-то области любые проекты по открытости будут быстро "каннибализированы", то и оказывается что там есть коммерческие проекты и дефицит открытых.
С открытыми данными отдельная история в том что они не укладываются бизнес модели и модели существования сообществ открытого кода. Если открытый код - это сборка инструментов, то открытые данные - это топливо.
Это можно сравнить как если Вы выпиливаете деревянные игрушки, то:
- открытый код - это инструкции как делать бесплатно инструменты не покупая их в магазине
- открытые данные - это бесплатные пиломатериалы.
Хотя это и не совсем корректно, поскольку данные не являются исчерпаемым ресурсом, тем не менее отличие от исходного кода существенно с точки зрения существования сообществ, устойчивых бизнес моделей и тд.
Беда многих сообществ открытого кода по всему миру была в том что без институционализации выжили немногие. Часть активистов были поглощены цифровыми командами государства (digital teams, data teams) такими как 18F, AlphaGov, TeamDigitale по разным странам (не стоит их путать с отечественными "командами цифровой трансформации", ничего общего между ними нет). Другая часть активистов ушли в коммерческий или долгосрочные международные проекты изменяющиеся в сторону проектов на данных.
И модель устойчивости существования открытых данных как сообщества сообществ до сих пор не найдена.
Эта рефлексия по поводу открытости есть у всех. Внутри нашей команды мы тоже часто думаем над тем что можно и нельзя открывать, что можно делать общественным проектом, а что нельзя делать потому что одним из ключевых вопросов возникает вопрос: "Вот мы опубликуем вот этот код/данные, но ты же понимаешь что ими просто воспользуются вот эти ... или вот эти ... и нам даже спасибо не скажут". В нашем отечестве это важный вопрос, отражающийся на качестве любой профессиональной работы. Отсев профанации на институциональном уровне не происходит или происходит так что лучше бы не происходил.
Как бы то ни было, опыт сообществ открытого кода важен для понимания что происходит в других сообществах открытости.
Ссылки:
[1] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33
#OpenData #opensource #books
Что читать, на кого подписаться в телеграм, я порекомендую несколько каналов и сообществ, не стесняйтесь присылать дополнения если есть что-то важное.
Данные и технологии
- @data_csv - блог о журналистике данных
- @data_events - о мероприятиях про данные онлайн
- @data_publication - дата-сторителлинг и журналистика данных
- @infoculture - официальный канал АНО Инфокультура, о данных, приватности, проектах на открытых данных
- @roskomsvoboda - Роскомсвобода, регулярные публикации о приватности
- @urbandata - канал о данных в городском отражении
- @zatelecom - Михаил Климарев с регулярными новостями и мнением о телекоме
- @Persdata - канал с новостями персональные данные
Государство
- @begtin - мой канал где я пишу про технологии, данные, цифровизацию и наборы данных
- @auditgov - официальный телеграм канал Счетной палаты
- @CynExp - канал "Координация профанации", нелицеприятно о цифровой трансформации
- @drussia - канал издания Цифровая Россия
- @ahminfin - канал Ольги Пархимович об открытых государственных финансовых данных
Бизнес
- @businesssecrets - канал Секрет Фирмы, среди публикаций много о том что касается цифрового бизнеса
- @CNewsDaily - канал CNews, трансляция новостей с их сайта
- @tadviser - канал издания TAdvizer, чаще про ИТ бизнес около гос-ва
Чаты и дискуссии
- @opendatarussia - чат по открытым данным в России
- @gislab - чат про открытые геоданные
- @begtinchat - чат к этому каналу, обсуждение открытых данных, госполитики и тд.
Зарубежное
- @bloomberg - канал Bloomberg на английском языке
За рамками привычных тем
- @fond_khamovniki - канал Фонда Хамовники со ссылками на публикации и анонсами о том как устроена Россия на самом деле
#lists
Данные и технологии
- @data_csv - блог о журналистике данных
- @data_events - о мероприятиях про данные онлайн
- @data_publication - дата-сторителлинг и журналистика данных
- @infoculture - официальный канал АНО Инфокультура, о данных, приватности, проектах на открытых данных
- @roskomsvoboda - Роскомсвобода, регулярные публикации о приватности
- @urbandata - канал о данных в городском отражении
- @zatelecom - Михаил Климарев с регулярными новостями и мнением о телекоме
- @Persdata - канал с новостями персональные данные
Государство
- @begtin - мой канал где я пишу про технологии, данные, цифровизацию и наборы данных
- @auditgov - официальный телеграм канал Счетной палаты
- @CynExp - канал "Координация профанации", нелицеприятно о цифровой трансформации
- @drussia - канал издания Цифровая Россия
- @ahminfin - канал Ольги Пархимович об открытых государственных финансовых данных
Бизнес
- @businesssecrets - канал Секрет Фирмы, среди публикаций много о том что касается цифрового бизнеса
- @CNewsDaily - канал CNews, трансляция новостей с их сайта
- @tadviser - канал издания TAdvizer, чаще про ИТ бизнес около гос-ва
Чаты и дискуссии
- @opendatarussia - чат по открытым данным в России
- @gislab - чат про открытые геоданные
- @begtinchat - чат к этому каналу, обсуждение открытых данных, госполитики и тд.
Зарубежное
- @bloomberg - канал Bloomberg на английском языке
За рамками привычных тем
- @fond_khamovniki - канал Фонда Хамовники со ссылками на публикации и анонсами о том как устроена Россия на самом деле
#lists
Честно говоря только в виде исключения, надеюсь, которое больше повторяться не будет, я дам ссылку на интервью Игоря Ашманова от 14 января в газете Завтра [1] из которого можно сделать много разных выводов, главный из которых, лоббирование "чебурнета" (вспоминаем 147-ю серию Масяни [2], замкнутой на себя росссийской сети).
Многое можно сказать про прозвучавшие там тезисы. Я сформулирую три ключевых:
1. Мир движется не по спирали и "ретрофутуристика" российского ИТ через рефлексию несбывшегося в СССР вызывает только улыбку. Не только Россия, весь мир существует в с очень сильной степенью связности которая только нарастает.
2. Утверждать что зарубежные решения в России внедрялись только через взятки, это, мягко говоря, лукавство. Во первых потому как, если говорить на чистоту, то весь интеграторский бизнес в России коррупционен, это, как бы, "условие входа на рынок". А во вторых технологическая зрелость, поддержка и ещё много чего в российских продуктах много лет оставляли желать лучшего.
3. Красивые картины великого российского будущего без зарубежных сервисов разбивается в то что на это нужна политическая воля такого масштаба которого у нас в стране нет, не было и не ожидается. Если даже полиция сопровождающая кортеж президента координируется через WhatsApp, то о чём мы говорим?
Мне ещё много что есть сказать по этому поводу, но я сдержусь, напомню лишь что Игорь Ашманов был доверенным лицом Президента РФ на выборах 2018 года и входит в совет по правам человека сейчас. Несмотря на то что он не является лицом принимающим решения в нашем государстве, недооценивать его разрушительные усилия не стоит.
Если кто-то хочет обсудить подробнее, приглашаю в чат @begtinchat
Ссылки:
[1] https://zavtra.ru/blogs/tcifrovaya_bitva_nachalas_
[2] https://www.youtube.com/watch?v=F4HvmHdtpiw
#it #russia #freakmonitor
Многое можно сказать про прозвучавшие там тезисы. Я сформулирую три ключевых:
1. Мир движется не по спирали и "ретрофутуристика" российского ИТ через рефлексию несбывшегося в СССР вызывает только улыбку. Не только Россия, весь мир существует в с очень сильной степенью связности которая только нарастает.
2. Утверждать что зарубежные решения в России внедрялись только через взятки, это, мягко говоря, лукавство. Во первых потому как, если говорить на чистоту, то весь интеграторский бизнес в России коррупционен, это, как бы, "условие входа на рынок". А во вторых технологическая зрелость, поддержка и ещё много чего в российских продуктах много лет оставляли желать лучшего.
3. Красивые картины великого российского будущего без зарубежных сервисов разбивается в то что на это нужна политическая воля такого масштаба которого у нас в стране нет, не было и не ожидается. Если даже полиция сопровождающая кортеж президента координируется через WhatsApp, то о чём мы говорим?
Мне ещё много что есть сказать по этому поводу, но я сдержусь, напомню лишь что Игорь Ашманов был доверенным лицом Президента РФ на выборах 2018 года и входит в совет по правам человека сейчас. Несмотря на то что он не является лицом принимающим решения в нашем государстве, недооценивать его разрушительные усилия не стоит.
Если кто-то хочет обсудить подробнее, приглашаю в чат @begtinchat
Ссылки:
[1] https://zavtra.ru/blogs/tcifrovaya_bitva_nachalas_
[2] https://www.youtube.com/watch?v=F4HvmHdtpiw
#it #russia #freakmonitor
zavtra.ru
Андрей Фефелов: «Цифровая битва началась…»
говорит специалист в области информационных технологий Игорь Ашманов
Где искать данные исследователям?
- Mendeley Data - поисковик агрегатор по 26.9 миллионам наборов данных для исследователей от Elsevier, также отдают весь реестр по спецификации OAI-PMH
- DataCite Search - поиск по наборам данных публикуемых с DOI DataCite, около 8 миллионов наборов данных
- Dimensions Datasets - база Dimensions.ai, более 8 миллионов наборов данных проиндексированных CrossRef и упоминаемых в научных публикациях
- Google Dataset Search - поиск по наборам данных Google, использует поиск по объектам размеченным на страницах как Schema.org Dataset, много мусорных результатов из-за SEO оптимизаторов
- Re3Data - каталог научных репозиториев для данных по всему миру
- OpenAIRE - европейская система поиска по результатам научных исследований, включая исследовательские данные
- Dataverse - более 67 инсталляций ПО Dataverse используемых как научные репозитории для данных ведущими университетами по всему миру
Главный залог существования поиска по научным данным - это доступность данных академических центров в форматах пригодных для повторного использования и документирование метаданных, в первую очередь, в формате OAI-PHM
#opendata #researchdata
- Mendeley Data - поисковик агрегатор по 26.9 миллионам наборов данных для исследователей от Elsevier, также отдают весь реестр по спецификации OAI-PMH
- DataCite Search - поиск по наборам данных публикуемых с DOI DataCite, около 8 миллионов наборов данных
- Dimensions Datasets - база Dimensions.ai, более 8 миллионов наборов данных проиндексированных CrossRef и упоминаемых в научных публикациях
- Google Dataset Search - поиск по наборам данных Google, использует поиск по объектам размеченным на страницах как Schema.org Dataset, много мусорных результатов из-за SEO оптимизаторов
- Re3Data - каталог научных репозиториев для данных по всему миру
- OpenAIRE - европейская система поиска по результатам научных исследований, включая исследовательские данные
- Dataverse - более 67 инсталляций ПО Dataverse используемых как научные репозитории для данных ведущими университетами по всему миру
Главный залог существования поиска по научным данным - это доступность данных академических центров в форматах пригодных для повторного использования и документирование метаданных, в первую очередь, в формате OAI-PHM
#opendata #researchdata
Интересные наборы данных по всему миру:
- Не только в России проходят киберучения, есть жанр игр кибернетической безопасности. Например, кибернетические игры CyberCzech проходят в Чехии [1].
По их итогам появляются публикации включающие данные о сетевом трафике и логах [2]. В мире, не в России, довольно часто подобные данные публикуются вместе с научными статьями по итогам учений.
- Коллекция геоданных о 3-й французской республике (1870–1940) [3], 16 наборов данных с объектами и границами территорий.
- Данные системы World Factbook [4] были преобразованы энтузиастом в JSON формат удобный для быстрого использования [5].
- База переворотов Coup D'état Project (CDP) [6], в Университете Иллинойса, включает набор данных о более чем 900 переворотах [7]
Ссылки:
[1] https://csirt.muni.cz/projects/cyber-czech
[2] https://www.sciencedirect.com/science/article/pii/S2352340920306788
[3] https://dataverse.harvard.edu/dataverse/TRF-GIS
[4] https://www.cia.gov/library/publications/the-world-factbook/
[5] https://github.com/factbook/factbook.json
[6] https://clinecenter.illinois.edu/project/research-themes/democracy-and-development/coup-detat-project-cdp
[7] https://databank.illinois.edu/datasets/IDB-0433268
#datasets
- Не только в России проходят киберучения, есть жанр игр кибернетической безопасности. Например, кибернетические игры CyberCzech проходят в Чехии [1].
По их итогам появляются публикации включающие данные о сетевом трафике и логах [2]. В мире, не в России, довольно часто подобные данные публикуются вместе с научными статьями по итогам учений.
- Коллекция геоданных о 3-й французской республике (1870–1940) [3], 16 наборов данных с объектами и границами территорий.
- Данные системы World Factbook [4] были преобразованы энтузиастом в JSON формат удобный для быстрого использования [5].
- База переворотов Coup D'état Project (CDP) [6], в Университете Иллинойса, включает набор данных о более чем 900 переворотах [7]
Ссылки:
[1] https://csirt.muni.cz/projects/cyber-czech
[2] https://www.sciencedirect.com/science/article/pii/S2352340920306788
[3] https://dataverse.harvard.edu/dataverse/TRF-GIS
[4] https://www.cia.gov/library/publications/the-world-factbook/
[5] https://github.com/factbook/factbook.json
[6] https://clinecenter.illinois.edu/project/research-themes/democracy-and-development/coup-detat-project-cdp
[7] https://databank.illinois.edu/datasets/IDB-0433268
#datasets
Согласие без власти ведет к неравенству.
Не все знают, поэтому важно напомнить что Убунту - это не только дистрибутив Linux, но и африканская философская концепция [1]
Человек с убунту открыт и доступен для других, принимает других людей, не видит для себя опасности в том, что другие талантливы и добры, поскольку он твёрдо уверен в себе, понимая, что является частью большего целого, и, наоборот, человек с убунту угнетён, когда других оскорбляют или унижают, пытают или угнетают.
В публикации From Rationality to Relationality "Ubuntu as an Ethical & Human Rights Framework for Artificial Intelligence Governance" [2] автор Sabelo Mhlambi предлагает применить философию Убунту к регулированию искусственного интеллекта и автоматизированных алгоритмов.
Это текст для чтения, перечитывания и размышления, я всячески рекомендую его тем кто задумывается о природе этического регулирования ИИ.
Читая этот и другие тексты о этике ИИ я могу лишь в очередной раз посетовать дефициту этой темы в содержательном дискурсе по этой проблеме в России.
А один из тезисов статьи я бы вынес в отдельную большую тему для обсуждения: Согласие без власти ведет к неравенству.
Ссылки:
[1] https://ru.wikipedia.org/wiki/Убунту_(идеология)
[2] https://carrcenter.hks.harvard.edu/files/cchr/files/ccdp_2020-009_sabelo_b.pdf
#ai #regulation #discussion #papers #ubuntu
Не все знают, поэтому важно напомнить что Убунту - это не только дистрибутив Linux, но и африканская философская концепция [1]
Человек с убунту открыт и доступен для других, принимает других людей, не видит для себя опасности в том, что другие талантливы и добры, поскольку он твёрдо уверен в себе, понимая, что является частью большего целого, и, наоборот, человек с убунту угнетён, когда других оскорбляют или унижают, пытают или угнетают.
В публикации From Rationality to Relationality "Ubuntu as an Ethical & Human Rights Framework for Artificial Intelligence Governance" [2] автор Sabelo Mhlambi предлагает применить философию Убунту к регулированию искусственного интеллекта и автоматизированных алгоритмов.
Это текст для чтения, перечитывания и размышления, я всячески рекомендую его тем кто задумывается о природе этического регулирования ИИ.
Читая этот и другие тексты о этике ИИ я могу лишь в очередной раз посетовать дефициту этой темы в содержательном дискурсе по этой проблеме в России.
А один из тезисов статьи я бы вынес в отдельную большую тему для обсуждения: Согласие без власти ведет к неравенству.
Ссылки:
[1] https://ru.wikipedia.org/wiki/Убунту_(идеология)
[2] https://carrcenter.hks.harvard.edu/files/cchr/files/ccdp_2020-009_sabelo_b.pdf
#ai #regulation #discussion #papers #ubuntu
Wikipedia
Убунту (идеология)
идеология
Малоизвестный, но существующий, проект OpenDRI по открытости данных в области изменения климата и природных катастроф [1]. С довольно сильным фокусом в сторону открытости городов и их планирования [2], включая проект Open Cities Africa [3] по сбору городских данных африканских крупнейших игроков.
А кроме того у OpenDRI есть индекс открытости данных [4] где ничего нет о России, но есть многое о других странах. Видно что этот индекс всё ещё в активной разработке и незавершён, хотя ему и несколько лет, но помнить о нём немаловажно, тем более что российское МЧС сложно назвать открытым ведомством да и данные по изменению климата официальные органы власти в России не то чтобы не публикуют, но системно этого не делают.
Я отмечу что многие международные проекты шаг за шагом преобразуют свои индексы и создают новые индексы сравнений стран по открытости данных и этому можно только порадоваться.
Ссылки:
[1] https://opendri.org/
[2] https://opendri.org/resource/planning-an-open-cities-mapping-project/
[3] https://opencitiesproject.org/
[4] https://index.opendri.org
#opendata #hazards #opendri
А кроме того у OpenDRI есть индекс открытости данных [4] где ничего нет о России, но есть многое о других странах. Видно что этот индекс всё ещё в активной разработке и незавершён, хотя ему и несколько лет, но помнить о нём немаловажно, тем более что российское МЧС сложно назвать открытым ведомством да и данные по изменению климата официальные органы власти в России не то чтобы не публикуют, но системно этого не делают.
Я отмечу что многие международные проекты шаг за шагом преобразуют свои индексы и создают новые индексы сравнений стран по открытости данных и этому можно только порадоваться.
Ссылки:
[1] https://opendri.org/
[2] https://opendri.org/resource/planning-an-open-cities-mapping-project/
[3] https://opencitiesproject.org/
[4] https://index.opendri.org
#opendata #hazards #opendri
OpenDRI
Open Data for Resilience Initiative
Блеск и нищета бирж торговли данными, за всё время существования множества стартапов в этой нише, большая часть не выживает. Например, в Европейском каталоге DataLandscape перечислено 14 компаний [1]. Часть из них официально закрылись, часть отключили сайты и продукты и ещё часть, на самом деле, не про биржу данных. Относительно живым выглядит только Davex [2]. Они хотя и предлагают продукт на глобальном рынке данных, но куда больше веры в том что бизнес модель у них через создание и поддержку отраслевых проектов, вроде портала торговли данными в Японии JDEX [3]
За последние пару лет я много думал о возможности существования такой бизнес модели, в принципе, и пришёл к выводу что у неё может быть всего два выхода:
1. Инфраструктурная
Когда владелец биржи данных предоставляет услугу создания озер данных или хранилищ данных для корпораций и далее, как опцию, даёт возможность своими данными торговать на его же инфраструктуре. Вне зависимости от коммерческой успешности участников торгов владелец инфраструктуры выигрывает за счёт того участники используют его технические ресурсы и платят за них.
2. Отраслевая
Когда есть, или биржа, или сильная отраслевая ассоциация или влиятельный регулятор которые запускают биржу данных от своего имени. Регуляторы пока смотрят на это с большой осторожностью, отраслевые ассоциации часто не могут договориться у себя внутри, а пример бирж, это игра на уже сложившемся рынке торговли данными в финансовой сфере, там есть много глобальных и национальных игроков. Но есть и примеры, например, Nasdaq, купивший Quandl [4], и JDEX [5] запущенный Davex с крупным японским холдингом Kanematsu.
Есть ли другие успешные примеры? По моему опыту они только на рынке альтернативных данных для финансовых рынков, тот же Quandl и другие сервисы. Специфика данных как продукта в том что их владельцы (data holders) готовы продавать их через кого-то только в случае уверенности доступа к большой аудитории, в остальных случаях возникает слишком много рисков во взаимодействии с платформой.
И, конечно, самые востребованные и постоянно торгуемые данные о потребительском поведении находятся в "серой зоне". Ими торгуют все, сервисы слежки, аналитические сервисы, производители мобильных приложений и тд., но мало кто публично.
Ссылки:
[1] https://datalandscape.eu/companies?f%5B0%5D=field_action_area%3A7
[2] https://www.dawex.com
[3] https://www.dawex.com/en/news/japan-data-exchange-data-community/
[4] https://www.quandl.com
[5] https://www.jdex.jp
#data #datamarket #dataexchanges
За последние пару лет я много думал о возможности существования такой бизнес модели, в принципе, и пришёл к выводу что у неё может быть всего два выхода:
1. Инфраструктурная
Когда владелец биржи данных предоставляет услугу создания озер данных или хранилищ данных для корпораций и далее, как опцию, даёт возможность своими данными торговать на его же инфраструктуре. Вне зависимости от коммерческой успешности участников торгов владелец инфраструктуры выигрывает за счёт того участники используют его технические ресурсы и платят за них.
2. Отраслевая
Когда есть, или биржа, или сильная отраслевая ассоциация или влиятельный регулятор которые запускают биржу данных от своего имени. Регуляторы пока смотрят на это с большой осторожностью, отраслевые ассоциации часто не могут договориться у себя внутри, а пример бирж, это игра на уже сложившемся рынке торговли данными в финансовой сфере, там есть много глобальных и национальных игроков. Но есть и примеры, например, Nasdaq, купивший Quandl [4], и JDEX [5] запущенный Davex с крупным японским холдингом Kanematsu.
Есть ли другие успешные примеры? По моему опыту они только на рынке альтернативных данных для финансовых рынков, тот же Quandl и другие сервисы. Специфика данных как продукта в том что их владельцы (data holders) готовы продавать их через кого-то только в случае уверенности доступа к большой аудитории, в остальных случаях возникает слишком много рисков во взаимодействии с платформой.
И, конечно, самые востребованные и постоянно торгуемые данные о потребительском поведении находятся в "серой зоне". Ими торгуют все, сервисы слежки, аналитические сервисы, производители мобильных приложений и тд., но мало кто публично.
Ссылки:
[1] https://datalandscape.eu/companies?f%5B0%5D=field_action_area%3A7
[2] https://www.dawex.com
[3] https://www.dawex.com/en/news/japan-data-exchange-data-community/
[4] https://www.quandl.com
[5] https://www.jdex.jp
#data #datamarket #dataexchanges
Dawex
Data Exchange technology for data sourcing, acquisition & sharing
Orchestrate your data exchanges with Dawex: discover Data Marketplace and Data Exchange technologies awarded World Economic Forum Tech Pioneer 2020.
На фоне исхода из Facebook'а, WhatsApp и других систем быстрой связи, важно помнить что одним из ключевых изменений в коммуникациях за последние лет 10 было в то что системы обмена сообщения слились с социальными сетями и медиа платформами. Это сочетание оказалось эффективным для бизнес моделей, даже если эти бизнес модели только про инвестиционные деньги, но для пользователя это превратилось в те самые цифровые монополии.
Здесь важно напомнить что у Telegram'а эта же особенность присутствует в полной мере и исход значительной части медиапроизводителей и медиапотребителей в телеграм - это ни в коем случае не подтверждение защищённости личной переписки.
Для защищённой переписки есть специализированные инструменты:
- Signal - один из наиболее популярных защищённых мессенжеров
- Keybase - специализированная соцсеть для шифро-панков, просто для всех кто озабочен собственной безопасностью и приватностью. Команду Keybase в мае 2020 года купил Zoom. Если хотите безопасно мне написать то мой аккаунт в Keybase ibegtin
- Cyph - единственный близкий к Keybase продукт по функционалу. Активно развивается после покупки Keybase со стороны Zoom
Большая подборка защищённых мессенжеров есть на PrivacyTools
#privacy #tools
Здесь важно напомнить что у Telegram'а эта же особенность присутствует в полной мере и исход значительной части медиапроизводителей и медиапотребителей в телеграм - это ни в коем случае не подтверждение защищённости личной переписки.
Для защищённой переписки есть специализированные инструменты:
- Signal - один из наиболее популярных защищённых мессенжеров
- Keybase - специализированная соцсеть для шифро-панков, просто для всех кто озабочен собственной безопасностью и приватностью. Команду Keybase в мае 2020 года купил Zoom. Если хотите безопасно мне написать то мой аккаунт в Keybase ibegtin
- Cyph - единственный близкий к Keybase продукт по функционалу. Активно развивается после покупки Keybase со стороны Zoom
Большая подборка защищённых мессенжеров есть на PrivacyTools
#privacy #tools
Signal Messenger
Signal Messenger: Speak Freely
Say "hello" to a different messaging experience. An unexpected focus on privacy, combined with all of the features you expect.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Госпрограммы стали доступнее: новый раздел портала «Госрасходы» поможет разобраться в финансировании.
На сайте проекта «Госрасходы» Счетной палаты РФ заработал новый раздел, посвященный финансированию действующих Государственных программ РФ (https://spending.gov.ru/gp/). В разделе представлены данные о 46 действующих на сегодняшний день программах, которые сгруппированы в пять направлений в соответствии с принятой классификацией. Раздел предоставляет агрегированные данные за 2016-2020 годы из трех основных источников: паспорта госпрограмм, данные соглашений о субсидиях, данные государственных закупок.
Пользователи портала-агрегатора «Госрасходы» получили доступ к сведениям о крупнейших контрактах и субсидиях в разрезе госпрограмм. В карточке каждой из них можно сравнить данные о плановом и фактическом бюджете (на основе данных Казначейства России) с суммой контрактов и субсидий за рассматриваемый период. Доступны агрегированные и детализированные сведения по соответствующим подпрограммам, главным распорядителям бюджетных средств (ГРБС), расходующим средства в рамках госпрограммы, и о получателях этих средств.
К примеру, в рамках госпрограммы «Развитие образования» основная доля расходов (57%) ожидаемо приходится на Минобрнауки и Минпросвещения. Лидеры в списке получателей средств: МГУ им. М.В. Ломоносова (38,5 млрд за 2016-2020 годы) и НИУ ВШЭ (30 млрд за тот же период).
В разделе «Аналитика» портала «Госрасходы» дополнены индикаторы, рассчитанные на основе данных о контрактах, заключаемых на федеральном уровне в рамках госпрограмм (https://spending.gov.ru/analytics/indicators/):
- Доля субъектов МСП среди исполнителей контрактов по госпрограммам;
- Распределение контрактов по суммам контрактов по госпрограммам;
- Объем и доля средств, уходящих 1% крупнейших поставщиков по госпрограммам;
- Конкурентность закупок по госпрограммам;
- Доля единственных поставщиков по госпрограммам;
- Доля социально ориентированными некоммерческими организациями (СОНКО) среди исполнителей контрактов по госпрограммам.
Индикаторы рассчитаны по годам, начиная с 2016-го. Для каждого из них приводится методика расчета, а данные для самостоятельного анализа можно скачать в формате CSV.
На сайте проекта «Госрасходы» Счетной палаты РФ заработал новый раздел, посвященный финансированию действующих Государственных программ РФ (https://spending.gov.ru/gp/). В разделе представлены данные о 46 действующих на сегодняшний день программах, которые сгруппированы в пять направлений в соответствии с принятой классификацией. Раздел предоставляет агрегированные данные за 2016-2020 годы из трех основных источников: паспорта госпрограмм, данные соглашений о субсидиях, данные государственных закупок.
Пользователи портала-агрегатора «Госрасходы» получили доступ к сведениям о крупнейших контрактах и субсидиях в разрезе госпрограмм. В карточке каждой из них можно сравнить данные о плановом и фактическом бюджете (на основе данных Казначейства России) с суммой контрактов и субсидий за рассматриваемый период. Доступны агрегированные и детализированные сведения по соответствующим подпрограммам, главным распорядителям бюджетных средств (ГРБС), расходующим средства в рамках госпрограммы, и о получателях этих средств.
К примеру, в рамках госпрограммы «Развитие образования» основная доля расходов (57%) ожидаемо приходится на Минобрнауки и Минпросвещения. Лидеры в списке получателей средств: МГУ им. М.В. Ломоносова (38,5 млрд за 2016-2020 годы) и НИУ ВШЭ (30 млрд за тот же период).
В разделе «Аналитика» портала «Госрасходы» дополнены индикаторы, рассчитанные на основе данных о контрактах, заключаемых на федеральном уровне в рамках госпрограмм (https://spending.gov.ru/analytics/indicators/):
- Доля субъектов МСП среди исполнителей контрактов по госпрограммам;
- Распределение контрактов по суммам контрактов по госпрограммам;
- Объем и доля средств, уходящих 1% крупнейших поставщиков по госпрограммам;
- Конкурентность закупок по госпрограммам;
- Доля единственных поставщиков по госпрограммам;
- Доля социально ориентированными некоммерческими организациями (СОНКО) среди исполнителей контрактов по госпрограммам.
Индикаторы рассчитаны по годам, начиная с 2016-го. Для каждого из них приводится методика расчета, а данные для самостоятельного анализа можно скачать в формате CSV.
А вот и анонс нового раздела "Госпрограммы" на портале Госрасходы [1], проекта Счетная палата Российской Федерации
Он сделан по аналогии с предыдущим разделом "Национальные проекты" и его цель в том чтобы сделать декомпозицию госпрограммы по контрактам, субсидиям, участникам и получателям.
Декомпозиция эта непростая в виду того что современный бюджет - это почти полностью госпрограммы контрактов там миллионы, но полезная с точки зрения того чтобы понимать то как распределяются средства.
Пытливый читатель быстро обнаружит госпрограммы и подпрограммы в которых есть чуть ли не 100% государственной монополии и большая часть средств уходила от одной до 10 организаций.
Ссылки:
[1] https://ach.gov.ru/news/novyy-razdel-na-portale-gosraskhody-gosprogrammy-stali-bolee-ponyatnymi
[2] https://spending.gov.ru/gp/
#spending #opendata #opengov #achgovru
Он сделан по аналогии с предыдущим разделом "Национальные проекты" и его цель в том чтобы сделать декомпозицию госпрограммы по контрактам, субсидиям, участникам и получателям.
Декомпозиция эта непростая в виду того что современный бюджет - это почти полностью госпрограммы контрактов там миллионы, но полезная с точки зрения того чтобы понимать то как распределяются средства.
Пытливый читатель быстро обнаружит госпрограммы и подпрограммы в которых есть чуть ли не 100% государственной монополии и большая часть средств уходила от одной до 10 организаций.
Ссылки:
[1] https://ach.gov.ru/news/novyy-razdel-na-portale-gosraskhody-gosprogrammy-stali-bolee-ponyatnymi
[2] https://spending.gov.ru/gp/
#spending #opendata #opengov #achgovru
Может ли искусственный интеллект обманывать государство? Люди управляющие им или автоматизированными алгоритмами определённо могут. Статья AI-Powered Text From This Program Could Fool the Government [1] в Wired о том как студент-медик Гарварда автоматически нагенерировал комментарии к госпрограмме Medicaid так что люди-волонтеры не смогли отличить их от человеческих комментариев и этот случай не первый из применяемых в автоматических кампаниях поддержку или против какой-либо государственной инициативы, их несколько приводится в этой статье.
Каковы последствия ? Ускоренное введение единых механизмов авторизации, вроде ЕСИА в России или RealMe в Австралии.
Ссылки:
[1] https://www.wired.com/story/ai-powered-text-program-could-fool-government/
#privacy
Каковы последствия ? Ускоренное введение единых механизмов авторизации, вроде ЕСИА в России или RealMe в Австралии.
Ссылки:
[1] https://www.wired.com/story/ai-powered-text-program-could-fool-government/
#privacy
Wired
AI-Powered Text From This Program Could Fool the Government
A Harvard student submitted auto-generated comments to Medicaid; volunteers couldn’t distinguish them from those penned by humans.
В свободное время я пишу синопсисы к фантастическим рассказам и сами рассказы и собираю идеи для воплощения.
Три политико-философских тезиса которые можно было бы воплотить в фантастических рассказах о высоко-вероятностном
ближайшем будущем.
1. Цифровое отделение органов управления
Изменение общественного отношения к иститутам государственного управления локализованных в виде физических объектов, таких как "Белый дом", "Кремль", "Капитолий", "Бундестаг". Оцифровка деятельности органов власти приводит к полностью распределённой форме работы и невозможности воспрепятствовать их работе путем физического захвата/разрушения/повреждения инфраструктуры. Уже обыграно во многих других произведениям, но можно добавить красок.
2. Цифровые метрополии и контроль за данными
Контроль за данными жителей, корпораций, бизнеса и др. со стороны метрополий как гарантия не-сепаратизма территорий. Сценарий: конфликт с распадом или разделения или отделением территории от крупного государства приводит к тому что все данные остаются в метрополии что полностью парализует какую-либо экономическую активность за пределами натурального обмена. Захват территории теперь - это, в первую очередь, замена информационных систем одной метрополии на другие.
3. "Серые" люди с публичным интерфейсом в виде ИИ
Люди отказывающиеся от публичной жизни в социальных сетях и так далее, выполняющие только функции авторизации по биометрии и иных способов подтверждение что это человек, а вместо них искусственный интеллект общается, комментирует, формирует цифровой след, живёт политической жизнью и голосует.
Можно попробовать адаптировать повесть "Нос" Гоголя под современные реалии, можно придумать другой сценарий.
Три политико-философских тезиса которые можно было бы воплотить в фантастических рассказах о высоко-вероятностном
ближайшем будущем.
1. Цифровое отделение органов управления
Изменение общественного отношения к иститутам государственного управления локализованных в виде физических объектов, таких как "Белый дом", "Кремль", "Капитолий", "Бундестаг". Оцифровка деятельности органов власти приводит к полностью распределённой форме работы и невозможности воспрепятствовать их работе путем физического захвата/разрушения/повреждения инфраструктуры. Уже обыграно во многих других произведениям, но можно добавить красок.
2. Цифровые метрополии и контроль за данными
Контроль за данными жителей, корпораций, бизнеса и др. со стороны метрополий как гарантия не-сепаратизма территорий. Сценарий: конфликт с распадом или разделения или отделением территории от крупного государства приводит к тому что все данные остаются в метрополии что полностью парализует какую-либо экономическую активность за пределами натурального обмена. Захват территории теперь - это, в первую очередь, замена информационных систем одной метрополии на другие.
3. "Серые" люди с публичным интерфейсом в виде ИИ
Люди отказывающиеся от публичной жизни в социальных сетях и так далее, выполняющие только функции авторизации по биометрии и иных способов подтверждение что это человек, а вместо них искусственный интеллект общается, комментирует, формирует цифровой след, живёт политической жизнью и голосует.
Можно попробовать адаптировать повесть "Нос" Гоголя под современные реалии, можно придумать другой сценарий.
Для тех кто интересуется, дополнительно могу порекомендовать телеграм-канал о доказательной политике @evidence_guide, например, где рассказывается про весьма интересную публикацию Machine Coding of Policy Texts with the Institutional Grammar и многое другое.
Forwarded from Путеводитель по док.политике
"Грамматика институтов" - это подход к анализу институтов через фокус на синтаксических структурных элементах, которые составляют и формируют институты, воплощенные в языковой форме. К таким институтам относятся государственные политики, стратегии, законы и нормы.
Подход был предложен Сью Кроуфорд и Элионор Остром еще в 1995 году. Вместе с тем, распространению “грамматики институтов” препятствуют значительные затраты времени и ресурсов, связанные с его применением. Преодолению этой проблемы может помочь применение машинного обучения для классификации синтаксических элементов "грамматики институтов".
Об этом статья "Machine Coding of Policy Texts with the Institutional Grammar", принятая к публикации в журнале «Public administration».
Обзор по ссылке.
Подход был предложен Сью Кроуфорд и Элионор Остром еще в 1995 году. Вместе с тем, распространению “грамматики институтов” препятствуют значительные затраты времени и ресурсов, связанные с его применением. Преодолению этой проблемы может помочь применение машинного обучения для классификации синтаксических элементов "грамматики институтов".
Об этом статья "Machine Coding of Policy Texts with the Institutional Grammar", принятая к публикации в журнале «Public administration».
Обзор по ссылке.
Telegraph
Машинное кодирование политических текстов с помощью грамматики институтов
Rice, Douglas, et al. "Machine Coding of Policy Texts with the Institutional Grammar." Public Administration. December 2020 Дуглас Райс - профессор UMass Amherst со специализацией на публичном праве Саба Сидики - доцент Школы гражданства и общественных дел…
Регулярная подборка ссылок по работе с данными, открытости и приватности
На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1]
Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных.
Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python
Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев.
GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования.
Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT.
GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7]
Ссылки:
[1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
[2] https://github.com/ml-tooling/best-of-ml-python
[3] https://github.com/signalapp
[4] https://github.com/signalapp/Signal-Server
[5] https://github.com/mxrch/GHunt
[6] https://github.com/ivbeg/awesome-forensicstools
[7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/
#data #dataengineering #datascience #privacy #opendata
На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1]
Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных.
Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python
Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев.
GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования.
Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT.
GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7]
Ссылки:
[1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
[2] https://github.com/ml-tooling/best-of-ml-python
[3] https://github.com/signalapp
[4] https://github.com/signalapp/Signal-Server
[5] https://github.com/mxrch/GHunt
[6] https://github.com/ivbeg/awesome-forensicstools
[7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/
#data #dataengineering #datascience #privacy #opendata
Mihaileric
We Don't Need Data Scientists, We Need Data Engineers
After analyzing 1000+ Y-Combinator Companies, I discover there's a huge market need for more engineering-focused data practitioner roles.