Сегодня у меня день мероприятий и второе мероприятие на котором я выступал - это всероссийская конференция «Информация и коммуникация в цифровую эпоху: явные и неявные воздействия» [1]
С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.
Ссылки:
[1] https://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97
#privacy #covid19
С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.
Ссылки:
[1] https://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97
#privacy #covid19
Помните в мае 2019 года я публиковал доклад об утечках персональных данных из государственных информационных систем? [1] Хотите знать что изменилось за эти годы? А ничего не изменилось.
1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.
В качестве примера сайт https://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.
Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.
Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.
В качестве примера сайт https://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.
Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.
Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
Но вернуться к этой теме всё равно придется несмотря на её "подвешенное состояние", с её регулятором Роскомнадзором, взаимодействовать бессмысленно, по моему опыту, у Минцифры тема не на повестке, у Счетной палаты у неё нет полномочий, а говорить об этом с людьми в Прокуратуре - это сразу жесткий вариант и неизвестно работающий ли.
Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.
#privacy #leaks
Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.
#privacy #leaks
Если Вы ещё не читали, то очень рекомендую почитать свежий документ Third wave of Open Data [1] от Open Data Policy Lab [2] о том как развивается тема открытых данных.
Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.
В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?
Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org
#opendata #reports
Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.
В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?
Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org
#opendata #reports
Минприроды вывело из эксплуатации/закрыло/случайно уничтожило/(свой вариант?) сайты в заповедников в домене zapoved.ru [1], они ещё есть в кеше Гугла, но в остальном они закрыты. Архивные копии Минприроды не делало, анонсов о закрытии тоже.
Ссылки:
[1] https://zapoved.ru
[2] https://www.google.com/search?q=site:zapoved.ru+-oldsite
#archives #digitalpreservation
Ссылки:
[1] https://zapoved.ru
[2] https://www.google.com/search?q=site:zapoved.ru+-oldsite
#archives #digitalpreservation
Google
site:zapoved.ru -oldsite - Google Search
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
2 новости об открытых данных Минфина России:
1. Реестр субсидий сегодня снова стал доступным на портале Электронного бюджета (реестр был отключен примерно на две недели). Мы уже восстановили разделы о субсидиях и в «Госзатратах», и в «Госрасходах».
2. Исторические бюджеты больше недоступны на сайте Минфина России. Пока неизвестно, как давно и техническая это ошибка или политическое решение. Через месяц узнаем (https://minfin.gov.ru/ru/historylib/)
1. Реестр субсидий сегодня снова стал доступным на портале Электронного бюджета (реестр был отключен примерно на две недели). Мы уже восстановили разделы о субсидиях и в «Госзатратах», и в «Госрасходах».
2. Исторические бюджеты больше недоступны на сайте Минфина России. Пока неизвестно, как давно и техническая это ошибка или политическое решение. Через месяц узнаем (https://minfin.gov.ru/ru/historylib/)
Очередная рассылка, на сей раз о третьей волне открытых данных и разнообразии терминологии данных. [1]
Ссылки:
[1] https://begtin.substack.com/p/6-
#opendata #data
Ссылки:
[1] https://begtin.substack.com/p/6-
#opendata #data
Ivan’s Begtin Newsletter on digital, open and preserved government
#6. Третья волна открытых данных, и терминология данных
И ручейки в тени лесной Чуть вьются сонною волной. / А.С. Пушкин
Для тех кто работает с открытыми данными (и просто с данными) напоминание про инструменты полезные для сбора и извлечения данных из самых разнообразных источников
- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines
Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].
А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.
Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.
Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.
Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.
Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.
Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping
#scraping #data #extraction
- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines
Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].
А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.
Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.
Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.
Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.
Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.
Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping
#scraping #data #extraction
tabula.technology
Tabula: Extract Tables from PDFs
Tabula is a free tool for extracting data from PDF files into CSV and Excel files.
Forrester провели анализ по 39 критериям 10 крупнейших продуктов каталогов для машинного обучения и опубликовали отчет [1].
Лидеры: Alation, Collibra, Alex Solutions и IBM
Сильные исполнители: data.world, Informatica, Io-Tahoe и Hitachi Vantara
Претенденты: Infogix и erwin
У них же в отчете можно обратить внимание на такой критерий оценки как data activation (активация данных). Термин больше похож на маркетинговый жаргон, с несколькими разными определениями тут [2], тут [3] и тут [4] и ближе всего он к тому чтобы собираемые данные собирались в реальном времени и на их основе можно было бы принимать быстрые решения в отношении клиентов, в основном, решения в области маркетинга.
Впрочем тут важный акцент именно на том что это каталоги для машинного обучения, потому что решений для каталогов данных, в принципе, довольно много. Особенность машинного обучения в интеграции с ML продуктами, в том насколько подключение к каталогу данных просто именно для data scientist'ов и так далее.
Я ранее писал про каталоги данных [5] и их классификации на каталоги открытых данных, корпоративные каталоги данных и на каталоги данных исследователей. Классификацию это можно расширять на каталоги для машинного обучения, которые по сути своей подвид корпоративных каталогов данных. С той важной разницей что их уже не совсем корректно называть именно каталогами данных, потому что реестр метаданных формирующий каталог - это не более чем одна из функций такого продукта, а по сути он является скорее подвидом платформ управления данными. Не случайно что многие из каталогов выше включают в себя атрибуты платформы управления аудиторными данными, data management platform (DMP).
Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES157467/report
[2] https://www.dynamicyield.com/glossary/data-activation/
[3] https://www.oracle.com/cx/marketing/data-activation/
[4] https://blueshift.com/blog/what-is-data-activation/
[5] https://t.iss.one/begtin/2175
#dmp #data #opendata #datacatalogs
Лидеры: Alation, Collibra, Alex Solutions и IBM
Сильные исполнители: data.world, Informatica, Io-Tahoe и Hitachi Vantara
Претенденты: Infogix и erwin
У них же в отчете можно обратить внимание на такой критерий оценки как data activation (активация данных). Термин больше похож на маркетинговый жаргон, с несколькими разными определениями тут [2], тут [3] и тут [4] и ближе всего он к тому чтобы собираемые данные собирались в реальном времени и на их основе можно было бы принимать быстрые решения в отношении клиентов, в основном, решения в области маркетинга.
Впрочем тут важный акцент именно на том что это каталоги для машинного обучения, потому что решений для каталогов данных, в принципе, довольно много. Особенность машинного обучения в интеграции с ML продуктами, в том насколько подключение к каталогу данных просто именно для data scientist'ов и так далее.
Я ранее писал про каталоги данных [5] и их классификации на каталоги открытых данных, корпоративные каталоги данных и на каталоги данных исследователей. Классификацию это можно расширять на каталоги для машинного обучения, которые по сути своей подвид корпоративных каталогов данных. С той важной разницей что их уже не совсем корректно называть именно каталогами данных, потому что реестр метаданных формирующий каталог - это не более чем одна из функций такого продукта, а по сути он является скорее подвидом платформ управления данными. Не случайно что многие из каталогов выше включают в себя атрибуты платформы управления аудиторными данными, data management platform (DMP).
Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES157467/report
[2] https://www.dynamicyield.com/glossary/data-activation/
[3] https://www.oracle.com/cx/marketing/data-activation/
[4] https://blueshift.com/blog/what-is-data-activation/
[5] https://t.iss.one/begtin/2175
#dmp #data #opendata #datacatalogs
Dynamic Yield
What is Data Activation? Definition by Dynamic Yield
Data activation refers to a brand’s ability to not only collect and store customer data, but also to be able to act upon this data in real-time.
Я бы сказал удивительно, но на самом деле не очень то что на сайте Открытого бюджета Москвы есть новость о том что проект бюджета на 2021-2023 годы внесен в Московскую городскую думу [1] а ссылки на сам текст внесенного проекта бюджета или данные отсутствуют.
В виде текста в формате DOCX он есть на сайте МГД [2], для тех кому очень лень извлекать таблицы из этого файла вручную рекомендую утилиту docx2csv [3] с её помощью можно извлечь все таблицы в CSV формате или в виде Excel файлов.
Ссылки:
[1] https://budget.mos.ru/news05112020
[2] https://duma.mos.ru/ru/0/regulation_projects/corebofs002080000nb3mf7d2btjvc48
[3] https://github.com/ivbeg/docx2csv
#opendata #moscow #budget
В виде текста в формате DOCX он есть на сайте МГД [2], для тех кому очень лень извлекать таблицы из этого файла вручную рекомендую утилиту docx2csv [3] с её помощью можно извлечь все таблицы в CSV формате или в виде Excel файлов.
Ссылки:
[1] https://budget.mos.ru/news05112020
[2] https://duma.mos.ru/ru/0/regulation_projects/corebofs002080000nb3mf7d2btjvc48
[3] https://github.com/ivbeg/docx2csv
#opendata #moscow #budget
budget.mos.ru
Новости / Проект бюджета города Москвы на 2021 год и плановый период 2022 и 2023 годов внесен в Московскую городскую Думу
Информационный портал «Открытый бюджет» открывает доступ к полной информации по планированию и реализации бюджетной политики города Москвы
Forwarded from Инфокультура
Счетная палата РФ запускает Конкурс исследовательских проектов в госуправлении — DataContest. Инфокультура — информационный партнер конкурса.
Приглашаем принять участие профессионалов в области аналитики данных, которые знают, как сделать систему госуправления эффективнее.
Для участия необходимо предложить решение одной из задач по аудиту в ключевых направлениях: закупки в энергетическом комплексе, господдержка предпринимательства и резервных фондов, промышленность и технологическое развитие, образование и инновации и др.
Конкурс исследовательских проектов по аналитике данных DataContest проходит cо 2 ноября по 11 декабря. Сбор заявок продлится до 27 ноября. Лучшие проекты будут использованы в работе Счетной палаты.
Изучить список задач DataContest и подать заявку на участие: https://data-contest.ru/
Приглашаем принять участие профессионалов в области аналитики данных, которые знают, как сделать систему госуправления эффективнее.
Для участия необходимо предложить решение одной из задач по аудиту в ключевых направлениях: закупки в энергетическом комплексе, господдержка предпринимательства и резервных фондов, промышленность и технологическое развитие, образование и инновации и др.
Конкурс исследовательских проектов по аналитике данных DataContest проходит cо 2 ноября по 11 декабря. Сбор заявок продлится до 27 ноября. Лучшие проекты будут использованы в работе Счетной палаты.
Изучить список задач DataContest и подать заявку на участие: https://data-contest.ru/
Как обрабатывать данные? Какие бесплатные и платные инструменты существуют? И, особенно, как работать с данными изначально не в самом лучшем качестве.
Наиболее правильный термин data wrangling, плохо переводится на русский, но по сути - это "преобразование данных" и в этой области есть много инструментов. Другой часто используемый термин - data preparation или data prep (подготовка данных) за которым скрывается обработка и трансформация данных для последующей загрузки (ETL) или постобработки после загрузки (ELT).
Инструментов существует огромное количество. Есть много что можно собрать из маленьких компонентов, в академической среде, чаще это инструменты завязанные на executive papers такие как Jupyter Notebook, в open source среде - это многочисленные инструменты преобразования данных через командную строку и в корпоративной среде - это, чаще, дорогие коммерческие продукты сочетающие в себе множество возможностей.
- OpenRefine [1] бесплатный инструмент, некогда вышедший из проекта Google Refine который опубликовали в Google после поглощения команды Metaweb (проект Freebase). Один из лучших бесплатных инструментов в этой области.
- Trifacta [2] де-факто лидеры рынка, изначально делали акцент на обработке данных, сейчас это комплексный продукт по подготовке данных, их преобразованию и построение дата труб (data pipelines). Одно из самых дорогих решений на рынке, от $419 в месяц за пользователя.
- Microsoft Excel один из мощнейших инструментов о возможностях применения которого в обработке данных знают не все. Но с расширениями вроде ReshapeXL [3] позволяет добиваться многого.
- Microsoft PowerBI [4] включает многочисленные возможности обработки данных для последующей визуализации
- Tableau Prep [5] позволяет делать пред-обработку данных для последующей визуализации в продуктах Tableau.
- Datameer X [6] подготовка данных специально для озёр Hadoop
- Easy Morph [7] ETL инструмент подготовки данных без программирования
- Meltano [8] инструмент обработки данных через Python и с открытым кодом с интеграцией с разными источниками
Также большой список инструментов в коллекциях:
- Awesome ETL [9] подборка Extract, Transform and Load инструментов
- Gartner Data Preparation tools [10] список от Gartner
Основной тренд сейчас - это то что подготовка данных уходит в облака, я ранее писал о переходе от подхода ETL к ELT и обработке данных уже в облачном хранилище. Таких продуктов всё больше и, похоже, будущее за ними.
Ссылки:
[1] https://openrefine.org/
[2] https://www.trifacta.com/
[3] https://reshapexl.com/
[4] https://powerbi.microsoft.com/en-us/
[5] https://www.tableau.com/products/prep
[6] https://www.datameer.com/datameer-x/
[7] https://easymorph.com/
[8] https://meltano.com
[9] https://github.com/pawl/awesome-etl
[10] https://www.gartner.com/reviews/market/data-preparation-tools
#dataprep #datawrangling #data
Наиболее правильный термин data wrangling, плохо переводится на русский, но по сути - это "преобразование данных" и в этой области есть много инструментов. Другой часто используемый термин - data preparation или data prep (подготовка данных) за которым скрывается обработка и трансформация данных для последующей загрузки (ETL) или постобработки после загрузки (ELT).
Инструментов существует огромное количество. Есть много что можно собрать из маленьких компонентов, в академической среде, чаще это инструменты завязанные на executive papers такие как Jupyter Notebook, в open source среде - это многочисленные инструменты преобразования данных через командную строку и в корпоративной среде - это, чаще, дорогие коммерческие продукты сочетающие в себе множество возможностей.
- OpenRefine [1] бесплатный инструмент, некогда вышедший из проекта Google Refine который опубликовали в Google после поглощения команды Metaweb (проект Freebase). Один из лучших бесплатных инструментов в этой области.
- Trifacta [2] де-факто лидеры рынка, изначально делали акцент на обработке данных, сейчас это комплексный продукт по подготовке данных, их преобразованию и построение дата труб (data pipelines). Одно из самых дорогих решений на рынке, от $419 в месяц за пользователя.
- Microsoft Excel один из мощнейших инструментов о возможностях применения которого в обработке данных знают не все. Но с расширениями вроде ReshapeXL [3] позволяет добиваться многого.
- Microsoft PowerBI [4] включает многочисленные возможности обработки данных для последующей визуализации
- Tableau Prep [5] позволяет делать пред-обработку данных для последующей визуализации в продуктах Tableau.
- Datameer X [6] подготовка данных специально для озёр Hadoop
- Easy Morph [7] ETL инструмент подготовки данных без программирования
- Meltano [8] инструмент обработки данных через Python и с открытым кодом с интеграцией с разными источниками
Также большой список инструментов в коллекциях:
- Awesome ETL [9] подборка Extract, Transform and Load инструментов
- Gartner Data Preparation tools [10] список от Gartner
Основной тренд сейчас - это то что подготовка данных уходит в облака, я ранее писал о переходе от подхода ETL к ELT и обработке данных уже в облачном хранилище. Таких продуктов всё больше и, похоже, будущее за ними.
Ссылки:
[1] https://openrefine.org/
[2] https://www.trifacta.com/
[3] https://reshapexl.com/
[4] https://powerbi.microsoft.com/en-us/
[5] https://www.tableau.com/products/prep
[6] https://www.datameer.com/datameer-x/
[7] https://easymorph.com/
[8] https://meltano.com
[9] https://github.com/pawl/awesome-etl
[10] https://www.gartner.com/reviews/market/data-preparation-tools
#dataprep #datawrangling #data
Alteryx
Trifacta is Now Alteryx Designer Cloud
Trifacta has joined Alteryx to help customers and partners bring even more value to their businesses, powered by breakthrough data analytic insights.
Весьма симпатичный и простой проект Open Infrastructure Map [1] основанный на данных по энергетической и телеком инфраструктуре в Open Street Map (OSM).
Даже с поправкой на неполноту данных, очень нагляден для осознания обитаемой зоны человечества.
Ссылки:
[1] https://openinframap.org
#opensource #osm #data
Даже с поправкой на неполноту данных, очень нагляден для осознания обитаемой зоны человечества.
Ссылки:
[1] https://openinframap.org
#opensource #osm #data
7-я еженедельная рассылка "#7. Рождённые в цифре (digital born). Цифровые архивы новейшей истории" [1].
Всю эту рассылку я решил посвятить незаслуженно забываемой в России теме сохранения новейшего культурного и исторического наследия. Тема цифровых архивов незаслуженно игнорируется, хотя, уже сейчас наступило время когда она как никогда актуальна.
Ссылки:
[1] https://begtin.substack.com/p/7-digital-born-
#opendata #digitalpreservation
Всю эту рассылку я решил посвятить незаслуженно забываемой в России теме сохранения новейшего культурного и исторического наследия. Тема цифровых архивов незаслуженно игнорируется, хотя, уже сейчас наступило время когда она как никогда актуальна.
Ссылки:
[1] https://begtin.substack.com/p/7-digital-born-
#opendata #digitalpreservation
Substack
#7. Рождённые в цифре (digital born). Цифровые архивы новейшей истории
Если предыдущие поколения оставили нам книги и иные артефакты письма и речи. То что останется после нас?
АНО Цифровая экономика открыли сайт CDO2Day [1].
Мне лично непонятно чему он посвящен и вообще о чём. Выходных данных нет, статуса СМИ нет, инсайтов нет, контент в целом мало отличается от моего канала тут. В общем, сделали конкурента моему каналу (шутка) или CNews (наверное тоже шутка).
Но производство контента - это дорогое удовольствие, либо тебя "прёт" от этого, например, я пишу в своём канале в телеграм и в фэйсбуке только по этой причине или ты нанимаешь журналистов писать статьи и рерайтеров перепечатывать новости. А если ты нанимаешь их то, надо и приличия соблюдать, и как СМИ зарегистрироваться и главного редактора определить и редакционную политику сформировать и выходные данные публиковать. В общем, не партизанить, а честно делать то что делаешь.
Пока попытка так себе. Для профессионального издания слишком поверхностно, для массового недостаточно глубоко и не скандально.
Я по прежнему недоумеваю. Если кто-то знает концепцию этого проекта, расскажите плз.
Ссылки:
[1] https://cdo2day.ru
#data #digital #media
Мне лично непонятно чему он посвящен и вообще о чём. Выходных данных нет, статуса СМИ нет, инсайтов нет, контент в целом мало отличается от моего канала тут. В общем, сделали конкурента моему каналу (шутка) или CNews (наверное тоже шутка).
Но производство контента - это дорогое удовольствие, либо тебя "прёт" от этого, например, я пишу в своём канале в телеграм и в фэйсбуке только по этой причине или ты нанимаешь журналистов писать статьи и рерайтеров перепечатывать новости. А если ты нанимаешь их то, надо и приличия соблюдать, и как СМИ зарегистрироваться и главного редактора определить и редакционную политику сформировать и выходные данные публиковать. В общем, не партизанить, а честно делать то что делаешь.
Пока попытка так себе. Для профессионального издания слишком поверхностно, для массового недостаточно глубоко и не скандально.
Я по прежнему недоумеваю. Если кто-то знает концепцию этого проекта, расскажите плз.
Ссылки:
[1] https://cdo2day.ru
#data #digital #media
cdo2day.ru
CDO2DAY — Первое медиа российского сообщества CDO
Для тех кто работает с данными постоянно, выбирает инструменты для экспериментов, создает методологии и исполняемые статьи (executive papers) подборка инструментов для автоматизации работы:
Проекты с открытым кодом:
- Jupyter Notebook и JupyterLab [1] - стандарт де-факто, используется в большинстве проектов
- Apache Zeppelin [2] - система записных книжек с поддержкой SQL и Scala, с открытым кодом
- BeakerX [3] - расширения для Jupyter Notebook с дополнительными возможностями, такими как интерактивными таблицами
- Polynote [4] - платформа для записных книжек на Scala от Netflix
- Elyra [5] - расширения для Jupyter Notebook для работа с AI
Внутри редакторов кода
- Pycharm [6] - поддерживает Jupyter Notebook прямо в среде разработки. Коммерческий
- Hydrogen [7] - поддержка Jupyter Notebook внутри редактора Atom. Открытый и бесплатный
Облачные коммерческие продукты:
- DeepNote [8] - коммерческий продукт совместимый с Jupyter
- franchise [9] - облачные записные книжки для работы с SQL
- Starboard [10] - записные книжки с поддержкой Markdown, Latex, Javascript и Python. Стартап
- Google Colab [11] - облачные записные книжки на базе Jupyter от Google
- Microsoft Azure Notebooks [12] - облачные записные книжки на базе Jupyter от Microsoft
- Wolfram Notebooks [13] - специализированные научные блокноты на базе языка Wolfram
Корпоративные продукты:
- DataIku [14] - комплексный продукт организации работы data scientist'ов
Список наверняка неполный и его ещё не раз можно пополнять.
Ссылки:
[1] https://jupyter.org
[2] https://zeppelin.apache.org/
[3] https://beakerx.com/
[4] https://polynote.org
[5] https://elyra.readthedocs.io/en/latest/
[6] https://www.jetbrains.com/help/pycharm/jupyter-notebook-support.html
[7] https://nteract.io/atom
[8] https://deepnote.com
[9] https://franchise.cloud/
[10] https://starboard.gg
[11] https://colab.research.google.com
[12] https://notebooks.azure.com/
[13] https://www.wolfram.com/notebooks/
[14] https://dataiku.com/
#datascience #tools
Проекты с открытым кодом:
- Jupyter Notebook и JupyterLab [1] - стандарт де-факто, используется в большинстве проектов
- Apache Zeppelin [2] - система записных книжек с поддержкой SQL и Scala, с открытым кодом
- BeakerX [3] - расширения для Jupyter Notebook с дополнительными возможностями, такими как интерактивными таблицами
- Polynote [4] - платформа для записных книжек на Scala от Netflix
- Elyra [5] - расширения для Jupyter Notebook для работа с AI
Внутри редакторов кода
- Pycharm [6] - поддерживает Jupyter Notebook прямо в среде разработки. Коммерческий
- Hydrogen [7] - поддержка Jupyter Notebook внутри редактора Atom. Открытый и бесплатный
Облачные коммерческие продукты:
- DeepNote [8] - коммерческий продукт совместимый с Jupyter
- franchise [9] - облачные записные книжки для работы с SQL
- Starboard [10] - записные книжки с поддержкой Markdown, Latex, Javascript и Python. Стартап
- Google Colab [11] - облачные записные книжки на базе Jupyter от Google
- Microsoft Azure Notebooks [12] - облачные записные книжки на базе Jupyter от Microsoft
- Wolfram Notebooks [13] - специализированные научные блокноты на базе языка Wolfram
Корпоративные продукты:
- DataIku [14] - комплексный продукт организации работы data scientist'ов
Список наверняка неполный и его ещё не раз можно пополнять.
Ссылки:
[1] https://jupyter.org
[2] https://zeppelin.apache.org/
[3] https://beakerx.com/
[4] https://polynote.org
[5] https://elyra.readthedocs.io/en/latest/
[6] https://www.jetbrains.com/help/pycharm/jupyter-notebook-support.html
[7] https://nteract.io/atom
[8] https://deepnote.com
[9] https://franchise.cloud/
[10] https://starboard.gg
[11] https://colab.research.google.com
[12] https://notebooks.azure.com/
[13] https://www.wolfram.com/notebooks/
[14] https://dataiku.com/
#datascience #tools
jupyter.org
Project Jupyter
The Jupyter Notebook is a web-based interactive computing platform. The notebook combines live code, equations, narrative text, visualizations, interactive dashboards and other media.
Много лет назад, когда я мониторил расходы государства больше времени чем сейчас занимаюсь работой с данными я много раз сталкивался с тем как государственные органы и государственные структуры тратили ресурсы на контентные проекты и на контентное наполнение официальных и не очень сайтов.
Если кратко, то в большинстве случаев эти расходы были большой ошибкой. Вообще госрасходы в создание контента это плохая стратегия, обычно свидетельствующая что, либо некуда девать деньги, либо одно из двух.
Вот несколько примеров.
- anticartel.ru - был создан ФАС России не позднее 2010 года, прекратил работу в 2018 году. Был просветительским сайтом по картелям и антикартельной политике. Контент только изнутри самого ФАС, содержание было довольно, скажу так, скучным. Уже 2 года как не действует. Контента от пользователей там не было, просто просветительский проект.
- takzdorovo.ru - проект Минздрава в России на который в разные годы министерство контрактовалось от 20 до 60 миллионов в год. Лично у меня до сих пор есть сомнения настолько ли он востребован гражданами и нельзя ли было потратить лучшим образом на пропаганду здорового образа жизни субсидиями СМИ. Здесь, казалось бы, контент от пользователей должен был быть, но он не взлетел.
- gosbook.ru - когда-то неплохая идея с блогами чиновников/окологосударственных экспертов и тд. Какое-то время он жил, но довольно быстро выродился в поток новостей, а поддержание движухи с контентом от пользователей не пошло.
- regionalochka.ru - соцсеть для чиновников, тоже вокруг контента от пользователей. Появилась чуть более 10 лет назад и несколько лет просуществовала после чего исчезла.
- digital.ac.gov.ru - портал нацпрограммы "Цифровая экономика" на сайте АЦ при правительстве. По началу пытались создавать контент, я им даже писал колонку. А сейчас это поток репостов (даже не рерайт) новостей с сайта правительства и АЦ
Я не буду упоминать сейчас десятки других _контентных_ госпроектов за эти годы, среди них более устойчивыми были те что создавались под крупными госмедиахолдингами вроде РИА и ТАСС, которые просто перенаправляли туда часть своего медиа-потока и менее устойчивыми были те в который стоимость единицы текста была значительно выше.
К чему я это всё веду. Если к примеру АНО ЦЭ создаёт контентный медиа проект на деньги своих учредителей (не государства), то это ещё можно классифицировать как специальный подвид корпоративных медиа.
А вот 58 тысяч терминов которые и 13.5 тысяч тегов в отраслевых словарях которые ОАО "Большая российская энциклопедия" должны внести в интерактивный энциклопедический портал к декабрю 2020 года на который они получили субсидию 13520P0S000 в 684 млн. рублей - это главная интрига уходящего года. Больше неё - только то сколько будет посетителей у этого портала.
#content #government
Если кратко, то в большинстве случаев эти расходы были большой ошибкой. Вообще госрасходы в создание контента это плохая стратегия, обычно свидетельствующая что, либо некуда девать деньги, либо одно из двух.
Вот несколько примеров.
- anticartel.ru - был создан ФАС России не позднее 2010 года, прекратил работу в 2018 году. Был просветительским сайтом по картелям и антикартельной политике. Контент только изнутри самого ФАС, содержание было довольно, скажу так, скучным. Уже 2 года как не действует. Контента от пользователей там не было, просто просветительский проект.
- takzdorovo.ru - проект Минздрава в России на который в разные годы министерство контрактовалось от 20 до 60 миллионов в год. Лично у меня до сих пор есть сомнения настолько ли он востребован гражданами и нельзя ли было потратить лучшим образом на пропаганду здорового образа жизни субсидиями СМИ. Здесь, казалось бы, контент от пользователей должен был быть, но он не взлетел.
- gosbook.ru - когда-то неплохая идея с блогами чиновников/окологосударственных экспертов и тд. Какое-то время он жил, но довольно быстро выродился в поток новостей, а поддержание движухи с контентом от пользователей не пошло.
- regionalochka.ru - соцсеть для чиновников, тоже вокруг контента от пользователей. Появилась чуть более 10 лет назад и несколько лет просуществовала после чего исчезла.
- digital.ac.gov.ru - портал нацпрограммы "Цифровая экономика" на сайте АЦ при правительстве. По началу пытались создавать контент, я им даже писал колонку. А сейчас это поток репостов (даже не рерайт) новостей с сайта правительства и АЦ
Я не буду упоминать сейчас десятки других _контентных_ госпроектов за эти годы, среди них более устойчивыми были те что создавались под крупными госмедиахолдингами вроде РИА и ТАСС, которые просто перенаправляли туда часть своего медиа-потока и менее устойчивыми были те в который стоимость единицы текста была значительно выше.
К чему я это всё веду. Если к примеру АНО ЦЭ создаёт контентный медиа проект на деньги своих учредителей (не государства), то это ещё можно классифицировать как специальный подвид корпоративных медиа.
А вот 58 тысяч терминов которые и 13.5 тысяч тегов в отраслевых словарях которые ОАО "Большая российская энциклопедия" должны внести в интерактивный энциклопедический портал к декабрю 2020 года на который они получили субсидию 13520P0S000 в 684 млн. рублей - это главная интрига уходящего года. Больше неё - только то сколько будет посетителей у этого портала.
#content #government
Подборка разного о государственных информационных ресурсах и базах данных о которых Вы можете не знать:
- ФМБА России публикует данные по санитарно-эпидемиологической обстановке на сайтах своих межрегиональных управлений с детализацией до муниципалитетов (городов и поселков). Пример: МРУ N 156 [1]. Один минус - данные все неструктурированные
- Минздрав России имеет свой сервис API на базе данных адресов ФИАС и это API общедоступно и документировано [2]
- у ФФОМС и Минздрава России есть порталы НСИ [3] [4] где можно скачать в машиночитаемом виде их справочники
- а общероссийские справочники можно скачать из системы справочников Санкт-Петербурга [5]
- у сайта Мэрии Москвы есть большое недокументированное API по большинству опубликованных там объектов. Например, по организациям на портале [6]
- ФМБА публикует регулярные сводки по забоеваемости COVID-19 на их территориях. По ссылке [7] можно менять последние цифры в названии файла "приложение к сайту 01.10.pdf" от 01.10 (1 октября) до 09.11 (9 ноября) все файлы имеют одинаковые префиксы. На самом сайте ссылок на архивные данные нет [8]. Это пока единственные данные с муниципальной детализации в статистике по COVID-19, но охватывают они только закрытые города РФ. Данные в pdf в табличной форме, легко переводятся в машиночитаемый вид.
- Информационный ресурс ФАИП [9] один из немногих ресурсов Минэкономразвития РФ где общедоступно публикуются результаты исполнения контрактов в рамках ФАИП. Вернее публиковались очень давно
- База данных «Стенограммы заседаний Государственной Думы» [10] включает стенограммы выступлений депутатов всех созывов. Может оказаться хорошей базой для обучения алгоритмов по самым разным текстовым задачам: измерения объёма лексики публичного человека, поиск негатива, позитива и ещё много чего. Данные неплохо размечены и относительно несложно превратить их в датасет.
Ссылки:
[1] https://mru156.fmba.gov.ru/deyatelnost/sanitarno-epidemiologicheskoe-sostoyanie/
[2] https://fias.egisz.rosminzdrav.ru/
[3] https://nsi.ffoms.ru
[4] https://nsi.rosminzdrav.ru/
[5] https://classif.gov.spb.ru/
[6] https://www.mos.ru/api/structure/v1/frontend/json/ru/institutions
[7] https://fmba.gov.ru/covid-19/informatsiya-o-novoy-koronavirusnoy-infektsii/%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BA%20%D1%81%D0%B0%D0%B8%CC%86%D1%82%D1%83%2001.10.pdf
[8] https://fmba.gov.ru/covid-19/informatsiya-o-novoy-koronavirusnoy-infektsii/#fmba_rossii_operativnaya_informatsiya
[9] https://infrfaip.economy.gov.ru/
[10] https://transcript.duma.gov.ru/
#opendata #government #resources
- ФМБА России публикует данные по санитарно-эпидемиологической обстановке на сайтах своих межрегиональных управлений с детализацией до муниципалитетов (городов и поселков). Пример: МРУ N 156 [1]. Один минус - данные все неструктурированные
- Минздрав России имеет свой сервис API на базе данных адресов ФИАС и это API общедоступно и документировано [2]
- у ФФОМС и Минздрава России есть порталы НСИ [3] [4] где можно скачать в машиночитаемом виде их справочники
- а общероссийские справочники можно скачать из системы справочников Санкт-Петербурга [5]
- у сайта Мэрии Москвы есть большое недокументированное API по большинству опубликованных там объектов. Например, по организациям на портале [6]
- ФМБА публикует регулярные сводки по забоеваемости COVID-19 на их территориях. По ссылке [7] можно менять последние цифры в названии файла "приложение к сайту 01.10.pdf" от 01.10 (1 октября) до 09.11 (9 ноября) все файлы имеют одинаковые префиксы. На самом сайте ссылок на архивные данные нет [8]. Это пока единственные данные с муниципальной детализации в статистике по COVID-19, но охватывают они только закрытые города РФ. Данные в pdf в табличной форме, легко переводятся в машиночитаемый вид.
- Информационный ресурс ФАИП [9] один из немногих ресурсов Минэкономразвития РФ где общедоступно публикуются результаты исполнения контрактов в рамках ФАИП. Вернее публиковались очень давно
- База данных «Стенограммы заседаний Государственной Думы» [10] включает стенограммы выступлений депутатов всех созывов. Может оказаться хорошей базой для обучения алгоритмов по самым разным текстовым задачам: измерения объёма лексики публичного человека, поиск негатива, позитива и ещё много чего. Данные неплохо размечены и относительно несложно превратить их в датасет.
Ссылки:
[1] https://mru156.fmba.gov.ru/deyatelnost/sanitarno-epidemiologicheskoe-sostoyanie/
[2] https://fias.egisz.rosminzdrav.ru/
[3] https://nsi.ffoms.ru
[4] https://nsi.rosminzdrav.ru/
[5] https://classif.gov.spb.ru/
[6] https://www.mos.ru/api/structure/v1/frontend/json/ru/institutions
[7] https://fmba.gov.ru/covid-19/informatsiya-o-novoy-koronavirusnoy-infektsii/%D0%BF%D1%80%D0%B8%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BA%20%D1%81%D0%B0%D0%B8%CC%86%D1%82%D1%83%2001.10.pdf
[8] https://fmba.gov.ru/covid-19/informatsiya-o-novoy-koronavirusnoy-infektsii/#fmba_rossii_operativnaya_informatsiya
[9] https://infrfaip.economy.gov.ru/
[10] https://transcript.duma.gov.ru/
#opendata #government #resources
Свежая подборка стратегических технологических трендов от Gartner [1]:
1. Internet of Behaviors
2. Total experience
3. Privacy-enhancing computation
4. Distributed cloud
5. Anywhere operations
6. Cybersecurity mesh
7. Intelligent composable business
8. AI engineering
9. Hyperautomation
Как ни странно, про данные там только 3-й тренд Privacy-enhancing computation, всё остальное связано с данными, но не данные в чистом виде.
Для тех кто мог подзабыть, для сравнения стратегические технологические тренды 2020 года [2]:
1. Hyperautomation
2. Multiexperience
3. Democratization
4. Human Augmentation
5. Transparency and Traceability
6. Empowered Edge
7. Distributed Cloud
8. Autonomous Things
9. Practical Blockchain
10. AI Security
Можно сказать что из стратегических трендов Gartner убран блокчейн и неизменными сохранились Hyperautomation и Distributed Cloud.
И, отдельно, у Gartner же топ 10 технологий в данных и аналитике за 2020 год [3]
1. Smarter, faster, more responsible AI
2. Decline of the dashboard
3. Decision intelligence
4. X analytics
5. Augmented data management
6. Cloud is a given
7. Data and analytics worlds collide
8. Data marketplaces and exchanges
9. Blockchain in data and analytics
10. Relationships form the foundation of data and analytics value
Каждый из этих трендов - это отдельная большая тема, иногда очень большая, и требующая особого внимания.
Ссылки:
[1] https://www.gartner.com/smarterwithgartner/gartner-top-strategic-technology-trends-for-2021/
[2] https://www.it2b.com.br/wp-content/uploads/2020/09/Gartner_Top-tech-trends-2020.pdf
[3] https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/
#gartner #tech #data #analytics #trends
1. Internet of Behaviors
2. Total experience
3. Privacy-enhancing computation
4. Distributed cloud
5. Anywhere operations
6. Cybersecurity mesh
7. Intelligent composable business
8. AI engineering
9. Hyperautomation
Как ни странно, про данные там только 3-й тренд Privacy-enhancing computation, всё остальное связано с данными, но не данные в чистом виде.
Для тех кто мог подзабыть, для сравнения стратегические технологические тренды 2020 года [2]:
1. Hyperautomation
2. Multiexperience
3. Democratization
4. Human Augmentation
5. Transparency and Traceability
6. Empowered Edge
7. Distributed Cloud
8. Autonomous Things
9. Practical Blockchain
10. AI Security
Можно сказать что из стратегических трендов Gartner убран блокчейн и неизменными сохранились Hyperautomation и Distributed Cloud.
И, отдельно, у Gartner же топ 10 технологий в данных и аналитике за 2020 год [3]
1. Smarter, faster, more responsible AI
2. Decline of the dashboard
3. Decision intelligence
4. X analytics
5. Augmented data management
6. Cloud is a given
7. Data and analytics worlds collide
8. Data marketplaces and exchanges
9. Blockchain in data and analytics
10. Relationships form the foundation of data and analytics value
Каждый из этих трендов - это отдельная большая тема, иногда очень большая, и требующая особого внимания.
Ссылки:
[1] https://www.gartner.com/smarterwithgartner/gartner-top-strategic-technology-trends-for-2021/
[2] https://www.it2b.com.br/wp-content/uploads/2020/09/Gartner_Top-tech-trends-2020.pdf
[3] https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/
#gartner #tech #data #analytics #trends
Gartner
Gartner Top Strategic Technology Trends for 2021
Gartner analyst @brian__burke reveals the top strategic technology trends for 2021. Read more. #GartnerSYM #AI #Cloud #Cybersecurity @Gartner_SYM