Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from ministryofpoems
Государство развивает проект поддержки тюремно-приходских инновационных предприятий
И проводит для этого серию национальных мероприятий

Министерство развития тюремных акселераторов
Ищет новых менторов и кураторов
Направляйте ваши рекомендации
Через сайт Министерства внутренней дискриминации
В разделе "Клевета, доносы и ренегаты"
Расскажите какие они кандидаты

Обеспечим им гарантированное трудоустройство
Полезное в нашем мироустройстве
За хорошую рекомендацию положена награда
И такая что каждому её надо!

Много баллов в государственном приложении лояльности
Будут полезны Вам до крайности
Можно ими закрыть месяц отсидки
Или получить какие-нибудь скидки
В рубрике интересных продуктов на данных, Directus [1]. Ещё пару лет продвинутая безголовая CMS (headless CMS) конкурирующая с GraphCMS, Strapi и тому подобными CMS решениями и продуктами.

Сейчас позиционируют себя как modern data platform, продукт по превращению SQL баз данных в API и No-code app. Смена бизнес модели довольно существенная, не берусь предсказать насколько новый рынок будет больше, но само изменения существенное.

Как я понимаю произошло оно после того как они привлекли первые венчурные деньги в $1M в июле 2021 г.

Ссылки:
[1] https://directus.io/

#data #dataplatforms #startups
В рубрике как это устроено у них, портал открытых данных Франции data.gouv.fr [1]

Включает более 40 тысяч наборов данных, в основном в форматах CSV, JSON и форматах геоданных GML, GeoJSON, Shape

Создан и поддерживается Etalab, подразделением их межминистерского управления по цифре. Работает на платформе udata [3] каталоге данных созданном специально под этот портал.

Важные особенности:
- большой раздел примеров использования данных [4] более 3000 примеров
- данные публикуют не только госорганы [5] но и предприятия и НКО

Ссылки:
[1] https://data.gouv.fr
[2] https://etalab.gouv.fr
[3] https://github.com/etalab/udata
[4] https://www.data.gouv.fr/fr/reuses/
[5] https://www.data.gouv.fr/fr/organizations/izivia/

#opendata #france #bestpractices
Варианты типов продуктов и новомодных понятий и подходов с ними связанных.

Таблица в черновом виде, но по ней можно увидеть типы продуктов: CMS, ETP, ETL/ELT, CRM, CDP и колонки Headless, Reverse, Serverless и Streaming.

Можно обратить внимание что:
- Headless ETL это скорее будет маркетинговым термином и так почти все ETL предполагают несколько вариантов работы и в жизни такое сочетание не используется, хотя и существует как явление
- reverse CMS, ERP и CDP пока не встречались
- Serverless популярно для всего кроме Serverless CDP, таких продуктов пока нет
- Streaming применимо к ETL/ELT, но не для других.

Каких типов продуктов и каких подходов нехватает на картинке?

#headless #serverless #reverse #streaming
В рубрике интересных проектов на открытых данных, малоизвестная поисковая система по наборам данных Auctus [1] созданная в Visualization, Imaging, and Data Analysis lab (VIDA) Университета Нью Йорка

В отличие от Google Dataset Search (GDS) эта поисковая система выгружает данные, анализирует их состав, дает возможности расширенного поиска и дополнительно визуализирует данные на карте, таблицей и графиками. Охват меньше чем у GDS, зато подача результата качественно лучше.

У проекта открытый код и хорошая документация [2], а также авторы написали научную статью о его создании [3].

Лично я давно хочу сделать похожую штуку, может быть с меньшим акцентом на визуализацию и с большим на обнаружение данных. В том числе включив поиск по семантическим типам данных. А Auctus хороший пример того что такой проект возможен разумными силами.

Ссылки:
[1] https://auctus.vida-nyu.org
[2] https://gitlab.com/ViDA-NYU/auctus/auctus
[3] https://arxiv.org/abs/2102.05716

#opendata #data #datasearch
Это, конечно, плохая новость для остатков ИТ сектора в России. Яндекса одна из немногих полноценных больших технологических компаний в России и с глобальными амбициями.
⚡️Аркадий Волож покидает совет директоров и пост генерального директора группы компаний «Яндекс».

Это решение принято после того, как против него ввел санкции Евросоюз.

«Я считаю решение комиссии нелогичным. Однако пока действуют санкции, я не буду давать никаких указаний и рекомендаций трасту относительно голосования, решения продолжит принимать совет директоров. Это защитит интересы компании и всех наших акционеров. При этом я продолжу помогать компании и ее команде», — прокомментировал санкции и свой уход Аркадий Волож.
В рубрике интересных проектов на данных Data-Driven Discovery of Models (D3M) [1], большой проект DARPA, военного ведомства США финансирующего инновационные проекты.

Проект посвящён автоматизации data science и предсказанием применения моделей данных. А главная идея в улучшении понимания предметных областей для для исследователей данных.

Они упоминают там 3 платформы в этом направлении:
- Einblick [2] система совместного исследования данных и моделирования предсказаний на их основе
- TwoRavens [3] система для моделирования предметных областей через данные и моделирования данных в этих областях
- Distil [4] система для специалистов предметных областей исследовать данные в разных формах

Фактически D3M это экосистема внутри которой финансируются многие проекты. Например, Auctus, поисковик по данным о которым я недавно писал [5] и Datamart [6] проект по анализу наборов данных с сопоставлением их с Wikidata.

А также множество проектов по направлению AutoML, помогающим автоматизировать работу отраслевых экспертов и отделяющих машинное обучение от самих специалистов по машинному обучению. Через типовые модели, через создание базы примитивов для этих моделей и многое другое.

Там много очень разных интересных идей, причём в сторону технологически продвинутых nocode/low-code инструментов внутри которых могут быть сложные алгоритмы работы с данными. Фактически это путь по значительному усилению отраслевых аналитиков в областях экономики, геополитики, промышленности и тд и для того чтобы они самостоятельно могли бы работать с большими данными.

Ссылки:
[1] https://datadrivendiscovery.org/
[2] https://www.einblick.ai/
[3] https://2ra.vn/
[4] https://d3m.uncharted.software/
[5] https://t.iss.one/begtin/3922
[6] https://datadrivendiscovery.org/augmentation/

#data #research #datascience #datadiscovery #ml
На vc.ru статья [1] про инициативу конкретного человека по сбору списка сотрудников компании NTechLab и, по сути, применения к ним культуры отмены. Для тех кто не знает, NTechLab - это российская компания разработчик технологии распознавания по лицам. Технологии мирового уровня по многим измерениям, оценкам и практике применения.

Лично я, мягко говоря, против культуры отмены. Персонифицированные бойкоты слишком похожи на самосуд, даже при плохой правоохранительной системе, они, в основном, создают поддерживают атмосферу общего ожесточения.

Но сейчас хочу сказать не об этом. В технологических компаниях очень многие и слишком часто забывают про то что многие технологии имеют двойное назначение. В каких-то областях это давно знают, есть ограничения таких как Вассенаарских соглашения [2], иногда спорно применяемых к технологиям сильного шифрования, но тем не менее.

Так вот дело в том что во многих технологиях уже невозможно говорить о благих намерениях или говорить о непонимании того как Ваша технология будет применяться на практике. Разработчики безусловно отвечают за применение их технологии и должны уметь отвечать на вопросы:
1. Можно ли с помощью технологии нарушать права граждан?
2. Можно ли с помощью технологии усилить нарушение прав граждан?
3. Какие меры разработчик предпринимает чтобы снизить последствия такого применения?
и ещё многие другие.

Технологии распознавания лиц, силуэтов, походки, или технологии глубокого перехвата трафика и ещё многие безусловно относятся как таким технологиям двойного назначения.

И везде где возможно в мире внедрению таких технологий препятствуют общественные организации, политики, учёные и отдельные активисты.

Есть много примеров такого сопротивления. Сотрудники Гугл активно протестовали против разработки ПО для военных. Соцсети под давлением общественного мнения заблокировали ПО Geofeedia использовавшееся для мониторинга протестов полицейскими в США, а в отношении компании NetSweeper продающей ПО для фильтрации интернета было полномасштабное расследование [3] со стороны НКО Citizenlab в 2018 году.

Меры общественного сопротивления таким технологиям в мире включали: общественные кампании, публикации в СМИ, призывы правительствам стран проводить расследования, протесты при внедрении таких систем, письма сотрудникам с призывом увольняться и многое другое.

Но нигде не было призывов составлять списки всех сотрудников компании и применять к ним культуру отмены (читаем правильно - применять санкции и устраивать самосуд).

При том что я лично понимаю насколько все легальные меры воздействия на подобные компании в России и ряде других стран сейчас ограничены, но очень важно помнить что покраска мира в черно-белый цвет очень редко достигает своих целей.

Для меня всё это выглядит как часть очень неприятного для мира изменения - радикализация инженеров. Главное отличие профессионального инженера в способности нанести гораздо больший вред окружающему обществу при желании. Технологии, в принципе, за последние годы в направлении усиления малых команд и одиночек. Ни один террорист-смертник не мог ранее нанести столько вреда как очень мотивированный инженер сейчас. Возможно пользы тоже, но вред первичен.

Возвращаясь к ситуации с NTechLab. Методы культуры отмены против сотрудников которые сейчас против них применяют, безусловно, мне не нравятся, но и компания безусловно пошла по пути когда их технологии специально заточены под технологии массовой слежки.

Вопрос лишь кто может оказаться следующим на рынке нарушения приватности?

Ссылки:
[1] https://vc.ru/services/435936-programmist-opublikoval-spisok-sotrudnikov-ntechlab-on-obvinyaet-ih-v-pomoshchi-silovikam-v-arestah-posle-mitingov
[2] https://ru.wikipedia.org/wiki/Вассенаарские_соглашения
[3] https://citizenlab.ca/2018/04/planet-netsweeper/

#privacy #security #biometrics #facerecognition
На сервисе BGPView созданном компанией SecurityTrails исчезли все сведения о подсетях и автономных системах относящимся к России.

На странице страны [1] теперь список отсутствует, хотя он есть для других стран: Бразилии, Польши и др. [2] [3]

С чем это связано непонятно. Может быть чтобы мешать украинским хакерам находить российские подсети, может быть чтобы мешать российским безопасникам знать как фильтровать трафик с не-российских подсетей. Но факт остаётся фактом, именно российские подсети там теперь отсутствуют.

Ссылки:
[1] https://bgpview.io/reports/countries/RU
[2] https://bgpview.io/reports/countries/BR
[3] https://bgpview.io/reports/countries/PL

#opendata #security #infrastructure #telecom
Проголосовал 301 человек и результаты скорее удручающие. При том что 27% считают это безусловно неприемлемым, но 35% (17+18) допускают подобное при определенных условиях или даже без них.
Многим не нравится то как пишутся законы и другие регулирующие документы, немногие готовы это принципиально, иногда радикально, менять.

В Великобритании команда Policy Lab выпустила серию из 12 карт [1] экспериментальных подходов к разработке госполитики. Там есть, например:
- сверхпредсказания
- серьёзные игры
- нормативный театр
- вовлечение через метаверс
- цифровые двойники
- бодисторминг
- моральные представления
- децентрализованные автономные системы
- искусство в госполитике
- гражданские собрания
- регенеративный дизайн

Там же у них разные интересные примеры того как это применяется на практике. В чистом виде цифровых инструментов там немного, а вот многие подходы действительно весьма необычны.

Ссылки:
[1] https://openpolicy.blog.gov.uk/2022/05/18/launching-our-experimental-policy-design-methods/

#government #policymaking #policy
Написал большой текст на английском про спектр каталогов данных и отличия между научными репозиториями данных, порталами открытых данных и корпоративными каталогами [1]

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-1-spectrum-of-data-catalogues-ba75d1dd06c9

#opendata #datacatalogs #datascience #openaccess
Ранее было ФНС России, а теперь пишут что ещё и администрация Улан-Удэ блокирует письма не с российских доменов .ru

Как бы по этому поводу поприличнее выразится:
1. Домены .com, .org, .net - не иностранные, а универсальные. Они не относятся к национальным доменным зонам.
2. У многих российских компаний, организаций и граждан есть домены в этих зонах, а также в зонах вроде .io очень популярных в ИТ среде.
3. Напомню что домены .by, .kz, .uz, .am, .kg, .tj тоже иностранные и со странами Евразэс у России, казалось бы, конфликта нет

Правильный вопрос который журналисты могут задать властям города Улан-Удэ (и ФНС России тоже, кстати) - это почему они решили дискриминировать армян, казахов и другие народы близлежащих стран,а заодно и граждан России не проживающих в России.

#security #email #russia #idioten
Написал очередной большой текст на английском Data catalogs. Part 2. Data and metadata standards [1] на Medium о том какие стандарты работы с данными и метаданными используются в каталогах данных.

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-2-data-and-metadata-standards-940dc575a787

#datastandards #datacatalogs
Что-то вдруг рефлексия напала и написал пост про этику в ИБ, которая сейчас, после 24-го февраля, раскрывается с новых, ранее неведанных сторон. Культура отмены, признание хакеров, похвальба взломами… Нам всем еще аукнется то, что сейчас происходит
В рубрике интересных наборов данных портал CanWin [1] созданный на базе системы управления данными с открытым кодом CKAN и на котором опубликовано 64 набора данных по 17 проектам относящимся к наблюдению за водными поверхностями осуществляемыми Центром наук наблюдения за Землёй Университета Манитоба, Канада.

От классического портала данных его отличает значительно более развитая система метаданных связанными с каждым набором данных, наличие ссылки для научного цитирования, включая присвоение DOI, вырузка данных единым пакетом данных и экспорт метаданных во многих форматах.

Похоже CKAN как продукт активно развивается в сторону применения его в задачах открытого доступа и научных порталов данных.

Ссылки:
[1] https://canwin-datahub.ad.umanitoba.ca/

#opendata #ckan #openaccess
Тем временем в Японии специалисты NICT разработали и создали технологию передачи данных со скоростью в 1.02 Петабита в секунду [1] по кабелю длиной 51.7 километра.

Авторы исследования и ранее немало добились в экспериментах по передаче данных, даже интересно когда такие скорости доберутся до потребителей.

Ссылки:
[1] https://www.sciencealert.com/researchers-just-set-a-new-record-for-data-transmission-speed

#tech