В блоге Open Data Charter, Darine Benkalha пишет про стандартизацию данных на порталах открытых данных [1]. То о чём я также регулярно пишу и уже приводил ссылки на имеющиеся стандарты, правда пока не раскрывал подробнее в чём проблемы с публикациями данных в России.
Автор упоминает опыт Южной Кореи с созданием единой пан-государственной системы метаданных и принятые стандарты публикации данных и гайды Правительства Каталонии по публикации данных и метаданных.
Полезно для всех кто работает со стандартами данных, как публикатор и как пользователь.
Ссылки:
[1] https://medium.com/opendatacharter/spotlight-a-plea-from-the-odcs-iwg-data-standardisation-matters-4d26329a18bb
#opendata #data #dataportals #datastandards
Автор упоминает опыт Южной Кореи с созданием единой пан-государственной системы метаданных и принятые стандарты публикации данных и гайды Правительства Каталонии по публикации данных и метаданных.
Полезно для всех кто работает со стандартами данных, как публикатор и как пользователь.
Ссылки:
[1] https://medium.com/opendatacharter/spotlight-a-plea-from-the-odcs-iwg-data-standardisation-matters-4d26329a18bb
#opendata #data #dataportals #datastandards
Medium
[Spotlight] A plea from the ODC’s IWG: Data standardisation matters
A re-cap of ODC’s Implementation Working Group meeting held last September 2021
Forwarded from Инфокультура
В каталог каталогов открытых данных DataCatalogs.ru добавлены новые источники данных:
- Базы данных компании LabelMe 17 наборов данных для исследователей машинного обучения и data science. Ссылка https://labelme.ru/datasets-catalog
- Телеграм канал RU Dataset телеграм канал с большим числом ссылок на открытые и иные общедоступные данные Ссылка https://t.iss.one/dataset_ru
- Портал данных о вечной мерзлоте и климате (permafrost.su) Ссылка https://permafrost.su
Вы можете предложить новый источник данных в каталог направив его через форму. Важно что в каталог каталогов принимаются ссылки не на отдельные наборы данных, а на источники в виде каталогов/репозиториев данных.
#opendata #datacatalogs #datasets #data
- Базы данных компании LabelMe 17 наборов данных для исследователей машинного обучения и data science. Ссылка https://labelme.ru/datasets-catalog
- Телеграм канал RU Dataset телеграм канал с большим числом ссылок на открытые и иные общедоступные данные Ссылка https://t.iss.one/dataset_ru
- Портал данных о вечной мерзлоте и климате (permafrost.su) Ссылка https://permafrost.su
Вы можете предложить новый источник данных в каталог направив его через форму. Важно что в каталог каталогов принимаются ссылки не на отдельные наборы данных, а на источники в виде каталогов/репозиториев данных.
#opendata #datacatalogs #datasets #data
Ivan Begtin via @vote
Регулярный опрос. Какой контент наиболее интересен Вам в канале, о чём писать больше?
anonymous poll
Приватность, OSINT, защита данных граждан, гос-ва и тому подобное – 43
👍👍👍👍👍👍👍 25%
Открытые данные, как они устроены и где их взять – 37
👍👍👍👍👍👍 21%
Госинформатизация, гостехнологии, государство в ИТ регулировании и госинформсистемах – 28
👍👍👍👍👍 16%
Технологии и инструменты работы с данными. Разные аспекты data engineering – 28
👍👍👍👍👍 16%
Государственные данные во всех их формах – 25
👍👍👍👍 14%
Международный опыт, доклады и исследования про данные, ИИ, цифровизацию и т.д. – 13
👍👍 7%
👥 174 people voted so far.
anonymous poll
Приватность, OSINT, защита данных граждан, гос-ва и тому подобное – 43
👍👍👍👍👍👍👍 25%
Открытые данные, как они устроены и где их взять – 37
👍👍👍👍👍👍 21%
Госинформатизация, гостехнологии, государство в ИТ регулировании и госинформсистемах – 28
👍👍👍👍👍 16%
Технологии и инструменты работы с данными. Разные аспекты data engineering – 28
👍👍👍👍👍 16%
Государственные данные во всех их формах – 25
👍👍👍👍 14%
Международный опыт, доклады и исследования про данные, ИИ, цифровизацию и т.д. – 13
👍👍 7%
👥 174 people voted so far.
В рубрике интересных инструментов работы с данными NocoDb [1], open source #nocode платформа по работе с данными в форме таблиц. Фактический аналог Airtable, только с открытым кодом [2]. Собственно открытость кода это и есть главное достоинство, потому что Airtable это уже довольно продвинутый продукт, SaaS аналог MS Access. Но у Airtable есть множество ограничений, например, в максимальный размер таблицы в 50 тысяч записей, в далеко не идеальном API и, самое главное, конечно в том что приходится держать свои данные в облачном сервисе. В то же время Airtable стремительно создали вокруг себя экосистему и сейчас с ними интегрированы и на них основаны многие продукты.
К примеру, каталог каталогов данных datacatalogs.ru Инфокультуры собран в Airtable, а интерфейс над ним построен с помощью стартапа Softr.
Так вот NocoDB может быть разумной альтернативой тем чьи данные точно не могут быть открытыми, а гибкость управления данными нужна.
Альтернативно существуют такие проекты как:
- Rowy [3] - давно не обновлялся, но вроде живой
- Baserow [4] - воспроизводит Airtable почти один в один и также существует в облаке [5]
А также частично функции аналогичные Airtable могут выполнять продукты класса Headless CMS такие как Strapi [6] где также можно настраивать концепты/объекты и предоставлять их через API. Но с ограничениями что headless CMS не про табличное редактирование данных, а только про гибкие интерфейсы их внесения.
Ссылки:
[1] https://nocodb.com
[2] https://github.com/nocodb/nocodb
[3] https://github.com/rowyio/rowy
[4] https://gitlab.com/bramw/baserow
[5] https://baserow.io
[6] https://strapi.io
#opensource #databases #data #airtable
К примеру, каталог каталогов данных datacatalogs.ru Инфокультуры собран в Airtable, а интерфейс над ним построен с помощью стартапа Softr.
Так вот NocoDB может быть разумной альтернативой тем чьи данные точно не могут быть открытыми, а гибкость управления данными нужна.
Альтернативно существуют такие проекты как:
- Rowy [3] - давно не обновлялся, но вроде живой
- Baserow [4] - воспроизводит Airtable почти один в один и также существует в облаке [5]
А также частично функции аналогичные Airtable могут выполнять продукты класса Headless CMS такие как Strapi [6] где также можно настраивать концепты/объекты и предоставлять их через API. Но с ограничениями что headless CMS не про табличное редактирование данных, а только про гибкие интерфейсы их внесения.
Ссылки:
[1] https://nocodb.com
[2] https://github.com/nocodb/nocodb
[3] https://github.com/rowyio/rowy
[4] https://gitlab.com/bramw/baserow
[5] https://baserow.io
[6] https://strapi.io
#opensource #databases #data #airtable
Nocodb
NocoDB Cloud
Instantly turn your Database into a No-Code Platform
Некий хакер на одном из хакерских форумов пишет что продают базу в 150 ГБ на 48 миллионов QR кодов вакцинированных россиян за $100k и за меньгие деньги по частям. В качестве подтверждения доступна часть базы в одном онлайн сайте с поиском по инициалам и дате рождения и выложен файл в 10 тысяч анонимизированных записей.
Ссылки в данном случае я сознательно не даю, знающие люди знают где искать.
Если это подтвердится, то это будет крупнейшая утечка персональных данных граждан из российских ФГИС и мощнейшая дискредитация вакцинации и Госуслуг(
Очень хочется надеяться что утечку быстро прикроют или что масштабы её сильно меньше. Но если это не так, боюсь что для Минцифры наступят тяжелые времена.
UPD. И, конечно, хочется дождаться какой-либо независимой проверки что там действительно все эти данные, а не сгенерированный фэйки.
#leaks #data #personaldata #privacy
Ссылки в данном случае я сознательно не даю, знающие люди знают где искать.
Если это подтвердится, то это будет крупнейшая утечка персональных данных граждан из российских ФГИС и мощнейшая дискредитация вакцинации и Госуслуг(
Очень хочется надеяться что утечку быстро прикроют или что масштабы её сильно меньше. Но если это не так, боюсь что для Минцифры наступят тяжелые времена.
UPD. И, конечно, хочется дождаться какой-либо независимой проверки что там действительно все эти данные, а не сгенерированный фэйки.
#leaks #data #personaldata #privacy
На всякий случай напомню что в 2019 году я публиковал исследование по "легальным утечкам" из государственных информационных систем [1], вот тут можно скачать его в PDF целиком [2]. И с той поры несколько раз собирался его обновить/повторить, но в итоге отложил на неопределенный срок потому что очень сложно делать такое исследование публично и не навредить тем чьи данные утекают, а непублично его можно делать только по чьему-то заказу, а в России, повторюсь, нет активного интересанта регулятора способного такую работу заказать.
По факту персональные данные публикуются _официально_ повсеместно. В реестрах образовательных учреждений субъектов федерации, если ты ИП. В реестрах граждан имеющих право на обеспечение жильем, в реестрах экспертов, на электронных торговых площадках, протоколах результатов торгов госимуществом, доверенностей приложенных к договорам и офертам поставщиков, документах экспертизы реконструкции объектов культурного наследия, протоколах собрания ТСЖ, аудиторские заключения нко с паспортными данными учредителей и такого ещё много.
Писать об этом давая ссылки нельзя, владельцы баз данных и публикаторы материалов инертны и не исправляют месяцами и годами.
Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
[2] https://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1
#privacy #leaks #personaldata
По факту персональные данные публикуются _официально_ повсеместно. В реестрах образовательных учреждений субъектов федерации, если ты ИП. В реестрах граждан имеющих право на обеспечение жильем, в реестрах экспертов, на электронных торговых площадках, протоколах результатов торгов госимуществом, доверенностей приложенных к договорам и офертам поставщиков, документах экспертизы реконструкции объектов культурного наследия, протоколах собрания ТСЖ, аудиторские заключения нко с паспортными данными учредителей и такого ещё много.
Писать об этом давая ссылки нельзя, владельцы баз данных и публикаторы материалов инертны и не исправляют месяцами и годами.
Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
[2] https://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1
#privacy #leaks #personaldata
Ivan Begtin blog
Утечки персональных данных из государственных информационных систем. Открытая часть доклада
Хорошо ли государство умеет защищать персональные данные граждан? Достаточно ли сертификатов ФСТЭК и ФСБ для подрядчика и аттестации системы по классу защиты чтобы мы были уверены что наши данные оттуда не пропадут?
Читаю совершенно феноменальный текст свежего 100 миллионного контракта [1] между ФГБУ РОСИНИВХЦ и ООО "ТЕКТУС.ИТ" на Создание сегментов государственной информационной системы Цифровая платформа "Водные данные" Федерального агентства водных ресурсов (ГИС ЦП Вода).
И не могу не поделиться мыслями о деградации ИТ интеграции. Мало того что ТЗ на 100 миллионный контракт всего на 22 страницы, так это ещё и не техническое задание, а технические требования.
В тексте контракта присутствуют формулировки вроде:
5.6. Создание API
Исполнителем должна быть обеспечена разработка API (не менее 10 методов) для вновь создаваемых модулей ЦП Вода.
По результатам оказания услуг модернизируется программный интерфейс для обеспечения внутреннего взаимодействия ЦП Вода, а также инструкция с описанием реализованных методов.
—
Обратите внимание, сами API методы не перечисляются, требования к ним не перечисляются, зачем они нужны не указано, дополнительные требования вроде авторизации не указаны. Исполнитель и заказчик тут настолько вольно могут трактовать этот пункт что можно сдать вообще что угодно.
Или вот
5.4.3. Создание блока «Наборы открытых данных» сегмента «Открытые данные»
Блок «Наборы открытых данных» создается на базе прототипа Цифровой платформы «Водные данные».
Исполнителю необходимо обеспечить размещение в разделе «Наборы открытых данных» не менее трех новых наборов с возможностью выгрузки (в том числе подписанных ЭП). В отношении новых наборов данных необходимо сформировать паспорта.
—
Обратите внимание, что заказчику вообще наплевать что будет опубликовано, хоть "набор данных" из одной строки, главное чтобы не менее трёх. А про возможность выгрузки их подписанными ЭП - это отдельный разговор.
А вот в продолжение про ЭП (электронную подпись)
5.4.2. Создание модуля «Верификация» сегмента «Открытые данные»
В рамках оказания услуг Исполнителю необходимо обеспечить возможность верификации выгружаемых данных из сегмента «Открытые данные» в формате pdf путем подписания ЭП ОГВ.
—
Ну, Вы меня поняли. Верифицированные открытые данные это теперь PDF файлы с электронной подписью органа власти.
Там ещё много всего, выглядящее крайне куцо для большого ИТ контракта. Я лично вчитывался в разделы про данные, насчёт других разделов надо читать другим специалистам.
Когда я был ближе к государству, я бы сказал что прочитав такое "ТЗ" я бы предположил скорую проверку этого контракта/системы в ФГБУ со стороны Счетной палаты/Генпрокуратуры и тд. Сейчас, находясь уже во внешнем контуре по отношению к госуправлению, я даже вполне допускаю что результат будет не так уж плох, но продолжаю удивляться госзаказчикам и поставщикам которые сами себе роют сами знаете что и закапывают себя сами знаете куда.
Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1616305712422000006&contractInfoId=70636526
[2] https://rwec.ru/
[3] https://zakupki.gov.ru/44fz/filestore/public/1.0/download/rpec/file.html?uid=D539BBBD9AB6DD94E05334548D0A0844
#procurement #governmentit #opendata #data
И не могу не поделиться мыслями о деградации ИТ интеграции. Мало того что ТЗ на 100 миллионный контракт всего на 22 страницы, так это ещё и не техническое задание, а технические требования.
В тексте контракта присутствуют формулировки вроде:
5.6. Создание API
Исполнителем должна быть обеспечена разработка API (не менее 10 методов) для вновь создаваемых модулей ЦП Вода.
По результатам оказания услуг модернизируется программный интерфейс для обеспечения внутреннего взаимодействия ЦП Вода, а также инструкция с описанием реализованных методов.
—
Обратите внимание, сами API методы не перечисляются, требования к ним не перечисляются, зачем они нужны не указано, дополнительные требования вроде авторизации не указаны. Исполнитель и заказчик тут настолько вольно могут трактовать этот пункт что можно сдать вообще что угодно.
Или вот
5.4.3. Создание блока «Наборы открытых данных» сегмента «Открытые данные»
Блок «Наборы открытых данных» создается на базе прототипа Цифровой платформы «Водные данные».
Исполнителю необходимо обеспечить размещение в разделе «Наборы открытых данных» не менее трех новых наборов с возможностью выгрузки (в том числе подписанных ЭП). В отношении новых наборов данных необходимо сформировать паспорта.
—
Обратите внимание, что заказчику вообще наплевать что будет опубликовано, хоть "набор данных" из одной строки, главное чтобы не менее трёх. А про возможность выгрузки их подписанными ЭП - это отдельный разговор.
А вот в продолжение про ЭП (электронную подпись)
5.4.2. Создание модуля «Верификация» сегмента «Открытые данные»
В рамках оказания услуг Исполнителю необходимо обеспечить возможность верификации выгружаемых данных из сегмента «Открытые данные» в формате pdf путем подписания ЭП ОГВ.
—
Ну, Вы меня поняли. Верифицированные открытые данные это теперь PDF файлы с электронной подписью органа власти.
Там ещё много всего, выглядящее крайне куцо для большого ИТ контракта. Я лично вчитывался в разделы про данные, насчёт других разделов надо читать другим специалистам.
Когда я был ближе к государству, я бы сказал что прочитав такое "ТЗ" я бы предположил скорую проверку этого контракта/системы в ФГБУ со стороны Счетной палаты/Генпрокуратуры и тд. Сейчас, находясь уже во внешнем контуре по отношению к госуправлению, я даже вполне допускаю что результат будет не так уж плох, но продолжаю удивляться госзаказчикам и поставщикам которые сами себе роют сами знаете что и закапывают себя сами знаете куда.
Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1616305712422000006&contractInfoId=70636526
[2] https://rwec.ru/
[3] https://zakupki.gov.ru/44fz/filestore/public/1.0/download/rpec/file.html?uid=D539BBBD9AB6DD94E05334548D0A0844
#procurement #governmentit #opendata #data
Интересный стартап Dropbase автоматизации работы с облачными базами данных [1] с финансируемый в Y Combinator [2] на неназванную сумму. Создан полностью поверх Snoflake, фактически является красивой надстройкой над ним, позволяет импортировать CSV и Excel файлы и проводить трансформации над ними прямо в облаке. Интеграция устроена по принципу что не он интегрируется, а даёт ключи для прямого подключения к базе Snowflake.
Трасформация данных там очень ограниченная. Я бы даже сказал куцая, по сравнению с серьёзными инструментами вроде Trifacta (коммерческий) или OpenRefine (открытый), но стратегия весьма интересная. Удобный быстрый интерфейс и развитие в сторону преобразования данных. Фактические пользователи такого - analytic engineers, инженеры готовящие данные для аналитиков.
Ссылки:
[1] https://www.dropbase.io
[2] https://www.crunchbase.com/organization/dropbase
#datatools #startups #datawrangling
Трасформация данных там очень ограниченная. Я бы даже сказал куцая, по сравнению с серьёзными инструментами вроде Trifacta (коммерческий) или OpenRefine (открытый), но стратегия весьма интересная. Удобный быстрый интерфейс и развитие в сторону преобразования данных. Фактические пользователи такого - analytic engineers, инженеры готовящие данные для аналитиков.
Ссылки:
[1] https://www.dropbase.io
[2] https://www.crunchbase.com/organization/dropbase
#datatools #startups #datawrangling
www.dropbase.io
Dropbase AI | Build Software Faster With AI
Dropbase is a prompt-based developer platform for building web apps and automation software, fast and painless.
По заказу ВЭБа для города Байкальска создали цифровой мастер план [1]. Я, сознаюсь, до сих пор не могу понять смысла его цифровой формы и в чём его достоинства. Но один плюс есть - из него можно выгрузить все данные по мероприятиям и там их 349 штук, общей стоимостью, по грубым подсчетам, на 165 миллиардов рублей на ближайшие несколько лет. Что из какого бюджета и что от частных инвесторов - отдельный вопрос. При том что среднегодовой бюджет Байкальска 150-200 миллионов рублей, всего там около 13 тысяч жителей.
Не могу сравнить Байкальск с Сочи, не те суммы вроде бы и не тот масштаб города.
Кстати, для тех кто интересовался мастер-планом Байкальска и хочет сделать по нему анализ - есть скачанные данные по всем 349 мероприятиям. Из интересного - крупнейшее мероприятие там на 18 миллиардов рублей на 4 года по очистке территории БЦБК. Для тех кто хочет проанализировать эти данные, они есть по ссылке [2] в формате JSON lines размером в 2.6MB. Формат JSON lines хорошо поддерживает OpenRefine ну и опытные специалисты по работе с данными знают как работать с JSON файлами и JSON lines сложностей не вызовет.
Ссылки:
[1] https://план.байкальск.рф
[2] files.begtin.tech/f/59165db094504bb98e6c/?dl=1
#data #cities #datasets
Не могу сравнить Байкальск с Сочи, не те суммы вроде бы и не тот масштаб города.
Кстати, для тех кто интересовался мастер-планом Байкальска и хочет сделать по нему анализ - есть скачанные данные по всем 349 мероприятиям. Из интересного - крупнейшее мероприятие там на 18 миллиардов рублей на 4 года по очистке территории БЦБК. Для тех кто хочет проанализировать эти данные, они есть по ссылке [2] в формате JSON lines размером в 2.6MB. Формат JSON lines хорошо поддерживает OpenRefine ну и опытные специалисты по работе с данными знают как работать с JSON файлами и JSON lines сложностей не вызовет.
Ссылки:
[1] https://план.байкальск.рф
[2] files.begtin.tech/f/59165db094504bb98e6c/?dl=1
#data #cities #datasets
Поскольку так получилось что вот уже долгое время я больше читал чем писал что-то осмысленное. Тексты в канале - это просто поддержание этого чтения, заметки на полях. Я тут в несколько итераций думал о том как развивается рынок вокруг данных.
Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.
Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.
Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.
#data #dataproducts
Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.
Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.
Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.
#data #dataproducts
Forwarded from Roskomsvoboda
Transparency report Twitter: по запросам на удаление контента Россия поднялась на второе место
Twitter опубликовал отчёт о прозрачности, согласно которому с января по июнь 2021 года компания получила от правительств всего мира 43 387 юридических требования об удалении контента из 196 878 аккаунтов.
95% от общего объёма запросов на удаление пришлось на следующие пять стран (в порядке убывания): Японию, Россию, Турцию, Индию и Южную Корею.
Доля России составила 25% (10448; увеличение на 56% по сравнению с предыдущим периодом), при этом 71% российских требований относился к запрету пропаганды самоубийств:
➡️ https://roskomsvoboda.org/post/twitter-transparency-report-jan-jun-2021/
Twitter опубликовал отчёт о прозрачности, согласно которому с января по июнь 2021 года компания получила от правительств всего мира 43 387 юридических требования об удалении контента из 196 878 аккаунтов.
95% от общего объёма запросов на удаление пришлось на следующие пять стран (в порядке убывания): Японию, Россию, Турцию, Индию и Южную Корею.
Доля России составила 25% (10448; увеличение на 56% по сравнению с предыдущим периодом), при этом 71% российских требований относился к запрету пропаганды самоубийств:
➡️ https://roskomsvoboda.org/post/twitter-transparency-report-jan-jun-2021/
Кто зарабатывает на том что к Вашим данным может добавить дополнительные данные? Примеры стартапов по обогащению данных (Data Enrichment):
- Explorium.ai [1] продвинутая платформа обещающая применение алгоритмов ИИ к анализу данных и дающая сервисы обогащениями данными о людях, компаниях, сайтах, объектах интересах и погоде. Появились в 2017 году в Израиле. Привлекли венчурных инвестиций на $125M
- Uplead [2] предоставляют данные о людях и компаниях. Обогащают данные о человеке, компании или email'е. Частная компания, инвестиции не раскрывают. Созданы в 2017 году в Калифорнии.
- People Data Labs [3] Существуют с 2015 года, привлекли $55.3M инвестиций, из которых $45M в ноябре 2021 года. Фокус только на данных компаний и людей, плюс API по идентификации типов данных для задач комплаенса. Построены вокруг API для обогащения данных о персоне, компании, API по очистке данных и так далее.
Многие из компаний в рынке data enrichment также торгуют данными и их можно найти на площадках вроде Datarade [4], также у многих компаний это часть их больших платформу управления данными.
Ссылки:
[1] https://www.explorium.ai
[2] https://www.uplead.com/data-enhancement/
[3] https://www.peopledatalabs.com/
[4] https://datarade.ai/
#data #startups #dataenrichment
- Explorium.ai [1] продвинутая платформа обещающая применение алгоритмов ИИ к анализу данных и дающая сервисы обогащениями данными о людях, компаниях, сайтах, объектах интересах и погоде. Появились в 2017 году в Израиле. Привлекли венчурных инвестиций на $125M
- Uplead [2] предоставляют данные о людях и компаниях. Обогащают данные о человеке, компании или email'е. Частная компания, инвестиции не раскрывают. Созданы в 2017 году в Калифорнии.
- People Data Labs [3] Существуют с 2015 года, привлекли $55.3M инвестиций, из которых $45M в ноябре 2021 года. Фокус только на данных компаний и людей, плюс API по идентификации типов данных для задач комплаенса. Построены вокруг API для обогащения данных о персоне, компании, API по очистке данных и так далее.
Многие из компаний в рынке data enrichment также торгуют данными и их можно найти на площадках вроде Datarade [4], также у многих компаний это часть их больших платформу управления данными.
Ссылки:
[1] https://www.explorium.ai
[2] https://www.uplead.com/data-enhancement/
[3] https://www.peopledatalabs.com/
[4] https://datarade.ai/
#data #startups #dataenrichment
Explorium
Explorium - B2B Data Foundation for AI Agents & GTM Success
The B2B data foundation for AI agents. Access go-to-market data and infrastructure built to power context-aware AI products and strategies.
Совершенно свежая и поучительная история о том как один немецкий исследователь раскрыл секретное германское ведомство с помощью AirTag'а.
Если вкратце то один немецкий активист отправил AirTag подозрительному германскому федеральному ведомству и отследил его настоящие офисы.
А если подробнее то Лилит Витман, исследователь из Германии, утверждает что она раскрыла что Federal Telecommunications Service в Германии - это, на самом деле, "камуфляжная служба" и она изначально написала о том как столкнулась со службой которой не существует [1].
После чего она обстоятельно и методично собирала все возможные данные о этой структуре, вплоть до IP адресов и того чтобы проехаться мимо зданий [2].
После чего она отправила посылку с AirTag внутри и с помощью сервиса Apple Find My [3] следила за её движением и нашла что посылку переслали в Office for the Protection of the Constitution in Cologne. О чём она написала подробно в германоязычной Википедии [4]
А вся история на английском языке есть в Apple Insider [5].
История поучительна тем что современные технологии позволяют следить за теми кто следит. Можно рассмотреть много кейсов при которых можно выяснять немало интересного о существующих и камуфляжных государственных структурах.
Хочется надеяться что в России после этого AirTag не запретят.
Ссылки:
[1] https://lilithwittmann.medium.com/bundesservice-telekommunikation-wie-ich-versehentlich-eine-tarnbeh%C3%B6rde-in-der-bundesverwaltung-a8823f308536
[2] https://lilithwittmann.medium.com/bundesservice-telekommunikation-enttarnt-dieser-geheimdienst-steckt-dahinter-cd2e2753d7ca
[3] https://appleinsider.com/inside/Find-My
[4] https://de.wikipedia.org/wiki/Bundesservice_Telekommunikation
[5] https://appleinsider.com/articles/22/01/25/apples-airtag-uncovers-a-secret-german-intelligence-agency
#privacy #security #airtag #germany #specialagencies
Если вкратце то один немецкий активист отправил AirTag подозрительному германскому федеральному ведомству и отследил его настоящие офисы.
А если подробнее то Лилит Витман, исследователь из Германии, утверждает что она раскрыла что Federal Telecommunications Service в Германии - это, на самом деле, "камуфляжная служба" и она изначально написала о том как столкнулась со службой которой не существует [1].
После чего она обстоятельно и методично собирала все возможные данные о этой структуре, вплоть до IP адресов и того чтобы проехаться мимо зданий [2].
После чего она отправила посылку с AirTag внутри и с помощью сервиса Apple Find My [3] следила за её движением и нашла что посылку переслали в Office for the Protection of the Constitution in Cologne. О чём она написала подробно в германоязычной Википедии [4]
А вся история на английском языке есть в Apple Insider [5].
История поучительна тем что современные технологии позволяют следить за теми кто следит. Можно рассмотреть много кейсов при которых можно выяснять немало интересного о существующих и камуфляжных государственных структурах.
Хочется надеяться что в России после этого AirTag не запретят.
Ссылки:
[1] https://lilithwittmann.medium.com/bundesservice-telekommunikation-wie-ich-versehentlich-eine-tarnbeh%C3%B6rde-in-der-bundesverwaltung-a8823f308536
[2] https://lilithwittmann.medium.com/bundesservice-telekommunikation-enttarnt-dieser-geheimdienst-steckt-dahinter-cd2e2753d7ca
[3] https://appleinsider.com/inside/Find-My
[4] https://de.wikipedia.org/wiki/Bundesservice_Telekommunikation
[5] https://appleinsider.com/articles/22/01/25/apples-airtag-uncovers-a-secret-german-intelligence-agency
#privacy #security #airtag #germany #specialagencies
Medium
Bundesservice Telekommunikation — wie ich versehentlich eine Tarnbehörde in der Bundesverwaltung…
Vor einigen Tagen tat ich etwas, dass ist so ungewöhnlich, das es scheinbar noch fast niemand vor mir gemacht hat: Ich habe mir die Liste…
В рубрике интересных наборов данных сведения о объёме газа в газовых хранилищах Европы [1] доступны в виде таблиц, выгрузки в Excel и через API. База данных создана и ведётся Gas Infrastructure Europe (GIE) ассоциацией Европейских газовых операторов.
Данные будут полезны всем журналистам пишущих о поставках данных в Европу и о дефиците газа, но не приводящих цифры или графики.
Ссылки:
[1] https://agsi.gie.eu/
#opendata #datasets #gas #europe
Данные будут полезны всем журналистам пишущих о поставках данных в Европу и о дефиците газа, но не приводящих цифры или графики.
Ссылки:
[1] https://agsi.gie.eu/
#opendata #datasets #gas #europe
Телеграм бот @DataClassifierBot - это то что я обещал как инструмент автоматической классификации данных DataCrafter'а. В него можно загрузить файлы в формате CSV (разделитель обязательно запятая) или JSON lines (.jsonl) и на выходе будет одно или нескольк сообщений с таблицей структуры полей в файле, их типа и идентифицированного класса данных. Подробнее можно посмотреть на скриншотах. Через телеграм бот будет открытое бета тестирование, прошу делиться обратной связью в чате @apicrafterchat или написав мне. А для тех у кого более серьёзные задачи скоро будет доступно API.
По результатам бета-тестирования хочется понять:
1) Каких функций возможностей нехватает
2) Какие дополнительные классификации нужны/ожидаемы и пока отсутствуют.
3) Насколько точно алгоритмы работают на Ваших данных
Особенности работы бота:
- отключены почти все "неточные" правила
- текущие основные правила под русский язык
- ограничения на файлы 10Mb, 1000 строк, ограничений на число полей нет
#data #apicrafter #datacrafter #datatools
По результатам бета-тестирования хочется понять:
1) Каких функций возможностей нехватает
2) Какие дополнительные классификации нужны/ожидаемы и пока отсутствуют.
3) Насколько точно алгоритмы работают на Ваших данных
Особенности работы бота:
- отключены почти все "неточные" правила
- текущие основные правила под русский язык
- ограничения на файлы 10Mb, 1000 строк, ограничений на число полей нет
#data #apicrafter #datacrafter #datatools
Многие уже написали о просрочке сертификата домена у cert.gov.ru [1], официального сайта Национального координационного центра по компьютерным инцидентам. В котором, казалось бы, должны быть люди как никто понимающие про безопасность, сертификаты, HTTPS, TLS и так далее, а, тем не менее, вот уже 8 дней с 19 января их сертификат просрочен.
Здесь можно задаваться вопросом и о том что сайт cert.gov.ru почему-то до сих пор сайт-визитка, на нём нет даже методических рекомендаций, а контактный номер - номер мобильной связи.
Но я о другом. Мониторинг состояния доменов, недоступность сайтов, просрочка сертификатов и тому подобное - это всё то что должно быть часть мониторинга государственной инфраструктуры. Как минимум публичной инфраструктуры и который не ведётся и даже не планируется. Нет даже реестра госдоменов и сайтов относящихся к государственным. Я регулярно напоминаю что мы такой реестр ведём в виде открытых данных [2] в частном порядке, для целей архивации сайтов в Национальный цифровой архив [3], но за все эти годы никто из госорганов даже не связывался о том чтобы взять его за основу или иначе повторно использовать для создания государственной системы мониторинга.
Ссылки:
[1] https://cert.gov.ru
[2] https://github.com/infoculture/govdomains
[3] https://ruarxive.org
#security #domains #government
Здесь можно задаваться вопросом и о том что сайт cert.gov.ru почему-то до сих пор сайт-визитка, на нём нет даже методических рекомендаций, а контактный номер - номер мобильной связи.
Но я о другом. Мониторинг состояния доменов, недоступность сайтов, просрочка сертификатов и тому подобное - это всё то что должно быть часть мониторинга государственной инфраструктуры. Как минимум публичной инфраструктуры и который не ведётся и даже не планируется. Нет даже реестра госдоменов и сайтов относящихся к государственным. Я регулярно напоминаю что мы такой реестр ведём в виде открытых данных [2] в частном порядке, для целей архивации сайтов в Национальный цифровой архив [3], но за все эти годы никто из госорганов даже не связывался о том чтобы взять его за основу или иначе повторно использовать для создания государственной системы мониторинга.
Ссылки:
[1] https://cert.gov.ru
[2] https://github.com/infoculture/govdomains
[3] https://ruarxive.org
#security #domains #government
GitHub
GitHub - infoculture/govdomains: Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным…
Создание реестра всех доменных имён Российской Федерации относящихся к органам власти, государственным учреждениям, а также региональным и муниципальным властям. - infoculture/govdomains
Полезное чтение про данные и не только:
- Document Your Dataset Using Apache Parquet [1] о том что формат данных Parquet позволяет хранить метаданные к полям таблиц и к набору данных. Можно использовать его для хранения метаданных пакета данных и документации.
- AutoDoc - a project to document automatically your data warehouse [2] от CastorDoc об автоматизации написания документации к данным. То и чем я тоже занимаюсь и очень связано с автоклассификацией данных. Жаль коротко об этом пишут.
- MDS 18 [3] - 18-я рассылка Modern Data Stack, внутри интересное про low code data engineering, тоже интересный тренд и стартап Prophecy [4] который превращает сложные задачи по настройке сложного ПО в упрощённый интерфейс доступный юниору.
Ссылки:
[1] https://medium.com/geekculture/add-metadata-to-your-dataset-using-apache-parquet-75360d2073bd
[2] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[3] https://letters.moderndatastack.xyz/mds-newsletter-18/
[4] https://www.prophecy.io/
#reading #data #datatools
- Document Your Dataset Using Apache Parquet [1] о том что формат данных Parquet позволяет хранить метаданные к полям таблиц и к набору данных. Можно использовать его для хранения метаданных пакета данных и документации.
- AutoDoc - a project to document automatically your data warehouse [2] от CastorDoc об автоматизации написания документации к данным. То и чем я тоже занимаюсь и очень связано с автоклассификацией данных. Жаль коротко об этом пишут.
- MDS 18 [3] - 18-я рассылка Modern Data Stack, внутри интересное про low code data engineering, тоже интересный тренд и стартап Prophecy [4] который превращает сложные задачи по настройке сложного ПО в упрощённый интерфейс доступный юниору.
Ссылки:
[1] https://medium.com/geekculture/add-metadata-to-your-dataset-using-apache-parquet-75360d2073bd
[2] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[3] https://letters.moderndatastack.xyz/mds-newsletter-18/
[4] https://www.prophecy.io/
#reading #data #datatools
Medium
Document Your Dataset Using Apache Parquet
Working with Dataset — Part 3: Document Your Dataset Using Apache Parquet
Для тех кто задумывается что изучать в работе с данными, в Open Data Science пишут [1] про наиболее популярные платформы и навыки в работе с данными. Данные собраны по результатам анализа 18 тысяч вакансий для специалистов по данным.
Обратите внимание:
- главное data infrastructure - это базовое понимание как работать с данными, извлекать, собирать, хранить и тд.
- Python это отраслевой стандарт де-факто. Остальные языки программирования это плюс к нему, но не более того.
- SQL всё ещё необходим и обязателен, а вот NoSQL, к сожалению, хоть и важен, но не на первых местах.
- облачная работа с данными в приоритетах, особено AWS, Azure, Snowflake, Google Cloud
и так далее.
А из продуктов наиболее востребованы специалисты по Spark, Kafka, Airflow и Hadoop.
Правда, я здесь не могу не оговориться о том что жаль что нет такого анализа в разрезе по годам, потому что всё меняется довольно быстро.
Ссылки:
[1] https://opendatascience.com/20-data-engineering-platforms-skills-needed-in-2022/
#data #dataskills
Обратите внимание:
- главное data infrastructure - это базовое понимание как работать с данными, извлекать, собирать, хранить и тд.
- Python это отраслевой стандарт де-факто. Остальные языки программирования это плюс к нему, но не более того.
- SQL всё ещё необходим и обязателен, а вот NoSQL, к сожалению, хоть и важен, но не на первых местах.
- облачная работа с данными в приоритетах, особено AWS, Azure, Snowflake, Google Cloud
и так далее.
А из продуктов наиболее востребованы специалисты по Spark, Kafka, Airflow и Hadoop.
Правда, я здесь не могу не оговориться о том что жаль что нет такого анализа в разрезе по годам, потому что всё меняется довольно быстро.
Ссылки:
[1] https://opendatascience.com/20-data-engineering-platforms-skills-needed-in-2022/
#data #dataskills