Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В ИТ по миру начинаются крупные увольнения и сокращения. Если Google пока только прекратили нанимать новых сотрудников в подразделение маркетинга, то Uber увольняет 5400 человек (20% штата) [1].

Techcrunch выдаёт всё больше новостей по тегу layoffs [2], а Bloomberg пишет о том что крупнейшие ИТ бренды дают обещания никого не увольнять [3].

А что у нас в России? Есть ли ресурсы собирающие информацию о массовых увольнениях в ИТ и не только?

Ссылки:
[1] https://www.theverge.com/2020/4/28/21240414/uber-cto-thuan-pham-resign-layoffs-kalanick
[2] https://techcrunch.com/tag/layoffs/
[3] https://www.bloomberg.com/opinion/articles/2020-04-27/coronavirus-nvidia-cisco-paypal-are-smart-to-pledge-no-layoffs

#jobs #layoffs
В Defense One пишут о сокращении производства на российских оборонительных заводах [1] из-за COVID-19, а PWC France опубликовали записку о результатах геомониторинга экономической активности на фоне COVID-19 [2] и о падении производства на многих китайских заводах.

В обоих случаях авторы ссылаются на данные от Orbital Insight, стартапа из Palo Alto, в Кремниевой долине. С 2013 года, своего основания, они получили 128,7 миллионов USD инвестиций из которых 50 миллионов USD в 2019 году.

Их основная специализация - это геомониторинг, с распознаванием того для чего используются земельные ресурсы, скоплений людей, машин и объектов и анализу социальной активности.

Orbital Insight - это один из ключевых источников альтернативных данных, используемых параллельно с официальной корп. отченостью или госданными. Они, при этом, безусловно не единственные в этой области. Был обзор платформы Quandl по подобным проектам в 2016 году [3]

Ссылки:
[1] https://www.defenseone.com/technology/2020/05/russian-arms-production-slowed-coronavirus-analysts-find/165071/?oref=d-river
[2] https://www.pwc.fr/fr/assets/files/pdf/2020/04/en-france-pwc-covid-19-insights-from-space.pdf
[3] https://blog.quandl.com/alternative-data-satellite-companies

#alternativedata #data #satellite
Максим Смирнов очень кратко и точно [1] про правильное определение digital disruption. Это вынужденная ситуация зависимости как альтернативы потери эффективности. Наиболее эффективные стартапы автоматизируют очень узкую функцию, но очень эффективно. И в определённый момент ты оказываешься в ситуации когда, либо ты от этого сервиса отказываешься и занимаешься, прости Господи за неприличное слово, импортозамещением, или используешь с кучей рисков: санкций, банкротства сервис провайдера, смены его бизнес модели, безальтернативного повышения цены и так далее. Самый очевидный и наглядный пример сейчас - это Zoom. Нишевый сервис который создавался совсем не для того для чего сейчас используется, как следствие, при всём богатстве выбора альтернативы не радуют.

В итоге технологические решения оказываются, часто, сложнослепленным набором разных узкозаточенных профессиональных решений и современное искусство что программирования, что проектирования - это уметь собирать такие конструкторы. Крупнейшие ИТ экосистемы, такие как AWS, Azure, Google Cloud и др. имеют ценность именно в том что они предоставляют возможность получить "сразу всё из коробки" и, в то же время, поднастроить под себя то что хочется получить в иной форме.

В России в госсекторе собирать такие сложные конструкции всегда было большой проблемой и остаётся, кстати, тоже. Создатели гособлаков или ГосТеха не понимают что такое создание конкурентной среды и экосистемы для G2G сервисов. Отсюда и возникают ровно противоположные по устремлениям и одинаково вредные активности по "централизации ИТ" и "децентрализации ИТ", вместо среды где каждому есть место, а главное что любой создаваемый продукт/сервис можно было бы делать не с нуля.

В России из коммерческих сервисов только Яндекс.Облако немного приближается к созданию экосистемы, но других конкурентных преимуществ кроме отечественности у него, увы, нет.

Ссылки:
[1] https://t.iss.one/it_arch/801

#govtech #technology #startups
Мне довольно утомительно повторять идею, которую мне внушили еще лет десять назад: digital disruption – это не о том, что надо всю деятельности перевести в цифру, а скорее о том, что завтра придет какая-то неизвестная ранее компания и начнет делать некоторую, очень малую часть вашей цепочки создания ценности в десять раз эффективней, чем вы это делали сами. При этом, скорее всего платить ей за использование этой фичи вы будете в десять раз больше, чем тратили на этот шаг цепочки раньше. Потому, что это капитализм. Отказаться будет можно только потеряв часть клиентов, возможно значительную часть. Ну, просто клиенты начнут орать: почему вы не продаёте айфоны или еще что-то подобное. Главное, что требуется от компаний (и от их айтишников), четко и экономически выгодно на это отреагировать. Т.е. не раздавать айфоны бесплатно у метро, а сделать что-то чуть более осмысленное
Тем временем Bloomberg запустил свой трекер восстановления экономики [1], в основном на альтернативных данных:
- новые случаи COVID-19
- индекс закрытия (Lockdown Index)
- запросы на пособие по безработице
- число поездок общественным транспортом
- ипотечные запросы
- удобство потребителей
- продажи в тех же магазинах (непонятный критерий)
- бронирования в ресторанах
- активные нефтяные скважины
- производство стали
- индекс S&P
- финансовое состояние рынка

Почти все индексы негосударственные, основанные на альтернативных данных.


Ссылки:
[1] https://www.bloomberg.com/graphics/recovery-tracker/
Очень часто приходится слышать термины Data Warehouse, Data Lake, Data Hub, при этом часто произносящие их не задумываются о реальных отличиях этих понятий. В блоге The Startup на Medium хороший обзор на английском [1] об отличии и сходствах таких понятий как:
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store

Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.

- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.

- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию

- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных

- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.

Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c

#opendata #data #datalakes #datamanagement #datagovernance
Для тех кто хочет сделать полезное в открытых данных, имеет свободное время и свободный английский - проект OpenRefine ищет специалиста/команду/компанию тех кто создаст им документацию по продукту [1]
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.

OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.

Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.

Ссылки:
[1] https://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine

#opendata #openrefine #datajobs
Вышел Open Budget Index за 2019 год [1], обзор оценок открытости бюджетов по странам мира. Он охватывает большинство значимых стран, кроме разьве что, небольших тихоокеанских островов.

Ключевое в индексе - это оценка прозрачности бюджета (budget transparency score). Это совокупность всех оценок прозрачности бюджета, бюджетного процесса на всех стадиях.
У некоторых стран эти оценки совпадают, поэтому правильно считать их места не по списку сверху вниз, а учитывая что некоторые места поделены.
На 1-м месте с оценками в 87 баллов: Новая Зеландия и Южная Африка
На 2-м месте с оценкой в 86 баллов: Швеция

Россия на 7 месте которое она делит с Францией имея 74 балла. Это довольно высокий уровень прозрачности бюджета. Это выше чем Великобритания с 70 баллами и ниже чем США с 76 баллами.

Значит ли это что в России всё хорошо с финансовой открытостью? В целом оно лучше чем у многих стран, но есть нюансы. Например, из-за нац проектов сократилась открытость бюджетной росписи, о чём я писал в колонке в РБК в прошлом году [2]. А оценки вовлечения общества в формирование бюджета очень низкие 22 балла из 100 возможных [3]

Ссылки:
[1] https://www.internationalbudget.org/open-budget-survey/rankings
[2] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
[3] https://live-international-budget-partnership.pantheonsite.io/open-budget-survey/country-results/2019/russia

#openbudgets #budgets #opengov
На CockroachDB [1], движок баз данных с открытым кодом с гео-масштабированием, работой в облаке и с SQL, развиваемый стартапом CockroachLabs [2], его создатели получили $86,6 миллионов финансирования от венчурных фондов [3], что в совокупности даёт $195 миллионов с 2015 года.

По сути, CockroachDB - это PostgreSQL на стероидах. В сравнении на ObjectRocket [4] довольно хорошо перечислены их отличительные особенности и возможности. Все они связаны с репликацией, геомасштабированием и многокластерностью. Важные задачи для любых геораспределённых сервисов и не так критичные для геостационарных, локальных сервисов.

Исходя из их позиционирования можно предполагать что они стали реально востребованным продуктом для крупных цифровых игроков, делающих сервисы и приложения на весь мир.

Ссылки:
[1] https://github.com/cockroachdb/cockroach
[2] https://www.cockroachlabs.com/
[3] https://www.zdnet.com/article/a-gmail-for-databases-cockroachdb-aims-for-the-top-stocks-up-with-86-6m-new-funding/
[4] https://www.objectrocket.com/blog/cockroachdb/how-to-choose-between-postgresql-and-cockroachdb/

#data #databases
Внезапно Zoom купил очень интересный стартап Keybase [1]. Однако KeyBase - это прикольные ребята помешанные на безопасности, а у Zoom с безопасностью всё из рук вон плохо. Надеюсь от этой сделки похорошеет Zoom'у и не поплохеет Keybase. Всё таки я лично пользователь Keybase со стажем.

Ссылки:
[1] https://keybase.io/blog/keybase-joins-zoom

#privacy #security
Среди многочисленных проектов и бизнесов на данных, особо интересны имеющие качественное отраслевое применение, даже если сама бизнес модель совсем не про данные.

Molbase - китайский стартап [1], маркетплейс продажи и покупки химических компонентов. Объединяет спрос и предложения от малых и средних китайских компаний на химические вещества совершенно любого типа. У маркетплейсов своя понятная ниша и, казалось бы, ну что тут можно добавить, но вот создатели Molbase добавили базу знаний по всем продаваемым компонентам, поиск по видам и типам химических веществ, по формулам, химической структуре и так далее.

В декабре они вышли на IPO и сейчас их капитализация $205.9 миллиона [2], а бизнес модель построена на автоматизации хранения и логистики и заявленное число клиентов составляет 94 тысячи покупателей и 33 тысячи продавцов [3].

При этом особенный акцент во всех публичных материалах именно на данные и на искусственный интеллект, с рекомендательными возможностями.

Ссылки:
[1] https://molbase.com
[2] https://craft.co/molecular-data/metrics
[3] https://investor.molbase.com/static-files/d06191ae-4466-449d-a56f-ff27faf808d0

#data #datamarket
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Поставщик Минэкономразвития по сопровождению портала открытых данных добавлен в РНП

Компания "Рунетсофт" 13 апреля добавлена в Реестр недобросовестных поставщиков (РНП) за контракт на сопровождение портала открытых данных (data.gov.ru), исполнение которого было прекращено по инициативе Минэкономразвития в середине марта [1]. Напомню, что стоимость этого контракта - 21,8 млн руб., а фактически из ТЗ почти ничего не было выполнено (не говоря уже о качестве тех работ, которые попытались выполнить).

Интересно, что включение Рунетсофта в РНП не помешало Окружная администрация города Якутска заключить в конце апреля с ними контракт на обновление и техническое обслуживание своего сайта, стоимостью 1,3 млн руб.

[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1771034949419000094
[2] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=3143513390720000021
Цифровая трансформация по польски - это Национальная облачная платформа (Chmura Krajowa) [1] созданная в 2019 году Банком Польши и Польским фондом развития. В сентябре 2019 года они заключили партнёрство с Google, а теперь ещё и партнёрство с Microsoft [2]. При этом Microsoft обещают проинвестировать около 1 миллиарда долларов на создание польской цифровой долины [3].

Здесь интересно многое, например, будет ли это единичным случаем или форма целенаправленной экспансии международных облачных платформ в местные рынки.

И, не могу не напомнить о том где находятся датацентры крупнейших облаков в мире для Google Cloud [4] и Microsoft Azure [5].

Ссылки:
[1] https://chmurakrajowa.pl (польский)
[2] https://news.microsoft.com/europe/2020/05/05/microsoft-announces-a-1-billion-digital-transformation-plan-for-poland-including-access-to-local-cloud-services-with-first-datacenter-region/ (английский)
[3] https://cloudcomputing-news.net/news/2020/may/05/microsoft-unveils-1-billion-poland-cloud-and-digital-investment-plan/ (английский)
[4] https://cloud.google.com/about/locations/
[5] https://azure.microsoft.com/en-us/global-infrastructure/regions/

#datacenters #poland #digital #digitaltransformation
Reuters пишут что в Евросоюзе всерьёз подбираются к регулированию технологических гигантов [1] и заказали исследование на 649 тысяч евро целью которого будет рассмотрение практики разделения бизнеса крупнейших компаний и демократизации доступа к их данным. Однозначно под прицелом будут Google, Amazon, Apple и Facebook, но и другие технологические гиганты это может затронуть.

[1] https://www.reuters.com/article/us-eu-tech-antitrust/eu-looks-for-evidence-to-rein-in-u-s-tech-giants-idUSKBN22K2IT

#tech #regulation #data
Департамент здравоохранения Австралии выложил исходный код мобильных приложений для iPhone и для Android [1] на платформе Github. Кроме того в правилах использования приложения явно указано что все данные будут удалены после пандемии [2], а сам департамент выпустил акт о биобезопасности защищающий права граждан на приватность на период пандемии и после нее [3]. Также подготовлен законопроект особым образом защищающий приватность в этом мобильном приложении на время пандемии [4].

Ссылки:
[1] https://github.com/AU-COVIDSafe
[2] https://www.health.gov.au/resources/apps-and-tools/covidsafe-app#after-the-pandemic
[3] https://www.legislation.gov.au/Details/F2020L00480
[4] https://www.ag.gov.au/RightsAndProtections/Privacy/Pages/COVIDSafelegislation.aspx

#privacy #australia #opensource
Весьма интересная общедоступная база RUPEP.org [1] по базе PEP'ов - политически значимых персон. Уровень проработки у базы весьма неплохой, не только более 5 тысяч персон, но и все юр. лица с которыми они были связаны, с визуализацией и досье на каждую персону. Однако для работы с ресурсом требуется авторизация, там нет открытых данных и самый злободневный вопрос, а кто же автор? На странице "О проекте" владельцем базы указан PEPWatch [2], без каких либо реквизитов и выходных данных. PEPWatch - это коммерческое юридическое лицо в Чехии [3] с единственным учредителем Halyna Senyk [4] и без какой-либо дополнительной информации. Соцсети PEPWatch оказались удалёнными много лет назад, а отсутствие упоминание создателя организации в подробностях - это очень большая редкость в таких проектах.

Поэтому проект интересный и любопытный, а вот его создатель на редкость странный и непонятный. Что-то тут не так с его создателем

Ссылки:
[1] https://rupep.org
[2] https://rupep.org/ru/%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81%D1%8B-%D0%B8-%D0%BE%D1%82%D0%B2%D0%B5%D1%82%D1%8B/
[3] https://rejstrik-firem.kurzy.cz/06719015/pepwatch-z-s/
[4] https://rejstrik-firem.kurzy.cz/osoba/2513651/

#open #peps
Технологические гиганты сокращают или замораживают найм персонала. Вот и Apple заморозили поиск сотрудников текущими вакансиями, за исключением команд которые занимаются ИИ, оборудованием и машинным обучением [1]

[1] https://staging.media.thinknum.com/articles/a-deeper-look-into-apples-job-cuts/
В задачах связанных с работой с данными часто возникают ситуации когда необходимо совмещать автоматизированный сбор и обработку данных и ручную работу по их последующей очистке. Отчасти здесь помогают такие онлайн заменители Access как Airtable [1], но бывает что нужно ещё и настроить потоки входящих и исходящих данных, связать микросервисы, внешние API и так далее. А ещё много задач внутренней автоматизации, на который часто просто не хочется тратить много времени, ибо они отвлекают от основного бизнеса/деятельности.

Сразу несколько инструментов успешно решают такие задачи.

Forest Admin [2] - одноимённые продукт и стартап инструмента внутренней "админки" по управлению данными и деятельностью. Основаны в 2016 году и с тех пор получили $11.2 миллиона инвестиций [3], последний раунд был 6 месяцев назад на $7 миллионов. Предлагают гибридное решение, настраивается через аккаунт в их сервисе, разворачивается локально как контейнер Docker и приложение на Javascript. Главное на чём делают акцент - это то что Ваши данные остаются у Вас. Не надо их никуда передавать или подключать.

Retool [4] - инструмент для создания внутренних инструментов. Позиционируют себя как "инженеры делают для инженеров". Вышли из Y Combinator и получили в 2017 году финансирование на нераскрываемую сумму [5]. Дают очень гибкий инструмент по автоматизации внутренних процессов, с подключением баз данных, API и многого другого. Главные риски - надо подключать туда свои базы данных, но для бизнеса у которого и так все данные в облаках и в API это, чаще, не проблема.

Internal [6] - свежий конкурент Retool, появились в 2019 году и сразу получили финансирование на $5 миллионов [7]. Позиционируют себя как no-code платформу по автоматизации внутренних процессов.

Другие, не совсем относящиеся к подобным инструментам, но пересекающиеся с ними - это "безголовые CMS" (headless CMS). Системы управления контентом в которых управление контентом отделено от его отображение.
Из них можно выделить такие как: Directus [8], Strapi [9]

Всё это дополняется большим числом no-code и low-code платформ.
Поэтому очень часто автоматизация внутренних задач или создания бэкофиса для внешних проектов требует не найма внутренней команды/внешней команды/внешнего подрядчика, а правильного выбора инструмента и его настройки.

[1] https://airtable.com
[2] https://www.forestadmin.com/
[3] https://craft.co/forest-admin/metrics
[4] https://retool.com
[5] https://www.crunchbase.com/organization/retool
[6] https://www.internal.io/
[7] https://craft.co/internal/metrics
[8] https://directus.io/
[9] https://strapi.io

#nocode #lowcode #internaltools
Павел Дуров анонсировал [1] закрытие проект TON в довольно анти-американском стиле, критикуя решение суда в США. Честно говоря не знаю даже что добавить кроме тревоги за судьбу Телеграм'а, который, как я понимаю, из денег привлечённых на TON и финансировался.

[1] https://telegra.ph/What-Was-TON-And-Why-It-Is-Over-05-12

#blockchain #telegram
MemSQL - стартап создающий одноимённую геораспределённую базу данных совместимую с MySQL, получили $50 миллионов инвестиций [1] что составляет $158.1 миллион инвестиций на сегодняшний день.

Главное достоинство MemSQL - это сохранение высокой скорости работы даже при очень большом объёме загруженных данных. При этом MemSQL умеет работать с JSON документами, хотя и, нельзя сказать что это естественная форма работы, что, впрочем, компенсируется высокой скоростью.

Несмотря на то что у себя на сайте они сравнивают себя, в первую очередь, с SAP HANA и Oracle [2], основной их конкурент - это CockroachDb о которой я писал ранее [4], базе данных совместимой с PostgresSQL.

Ссылки
[1] https://siliconangle.com/2020/05/11/distributed-database-startup-memsql-raises-50m-debt-financing/?utm_source=angellist
[2] https://www.memsql.com/comparisons/
[3] https://t.iss.one/begtin/1893

#data #dataengines #db
Многие контрольные ведомства раскрыли свои внутренние контактные данные, чтобы граждане имели возможность обратиться к сотрудникам напрямую. Некоторые даже создают отдельные приложения и горячие линии, а на своих сайтах и в соцсетях публикуют актуальную аналитику или полезную информацию, связанную с пандемией.

ВОА Мексики запустило [1] бесплатное электронное приложение для смартфонов и планшетов, которое позволяет напрямую обращаться в ведомство по вопросам его деятельности.

ВОА США с помощью горячей линии Fraudnet [2] принимает заявления о возможных случаях мошенничества со средствами, которые были выделены на противодействие COVID-19.

Глава ВОА ЮАР [3] активно информирует граждан о ситуации с распространением COVID-19 в республике. Ежедневно в Twitter появляются репосты обновлений статистических данных, публикуются правила изоляции, информация о мерах, принимаемых государством.

Всё это можно узнать из регулярного дайджеста Счётной палаты [4] подписаться на который можно в футере любой страницы на сайте Счетной палаты [5]

P.S. Как человек получающий десятки рассылок самых разных госорганов могу сказать что одна из худших рассылок новостей у ФНС России, а в последние полтора года одна из лучших рассылок именно у Счетной палаты.

Ссылки:
[1] https://twitter.com/ASF_Mexico/status/1245049289438457857
[2] https://www.gao.gov/about/what-gao-does/fraudnet/
[3] https://twitter.com/AuditorGen_SA
[4] https://audit.gov.ru/upload/pdf/Covid-19-SIA.pdf
[5] https://audit.gov.ru/

#open #sprf