Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Поиск по наборам данных от Гугл, Dataset Search [1], вышел из беты и в их посте в блоге рассказывается как он развился [2]
В первой вышедшей из беты версии появились:
- более 25 миллионов наборов данных из которых более 2 миллионов из data.gov (США)
- фильтрация по типу набору данных, геолокации и режиму доступа (открытый/не открытый)
- поиск адаптировали под аудиторию ищущую наборы данных

Российские данные пока доступны через агрегатор data.wu.ac.at который собирает с порталов на базе движка CKAN по всему миру наборы данных и отдает в формате метаданных для Google. Например, данные Хаба открытых данных [3] доступны именно через него [4].

Что значит что будем это исправлять и интегрировать в необходимом формате. Тем временем, напомню что это не единственный поисковик по данным в мире.

Существуют также:
- DataSearch (Elsevier) [5] - поиск по научным данным от Elsevier
- Magda [6] - австралийский движок для индексации и поиска по данным, используется в data.gov.au

Ссылки:
[1] https://g.co/datasetsearch
[2] https://blog.google/products/search/discovering-millions-datasets-web
[3] https://hubofdata.ru
[4] https://datasetsearch.research.google.com/search?query=hubofdata.ru
[5] https://datasearch.elsevier.com
[6] https://magda.io/

#opendata #datasets #search
На regulation.gov.ru выложен документ "О проведении эксперимента по созданию, миграции и развитию государственных сервисов и информационных систем органов государственной власти Российской Федерации и государственных внебюджетных фондов на единой цифровой платформе Российской Федерации «ГосТех»" [1]

Я давно хочу начать декомпозировать НПА в понятную форму, понемногу начну "экспериментировать" на этих НПА

Уровень: Постановление Правительства РФ

Вовлечённые стороны
- Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации;
- Автономная некоммерческая организация «Аналитический центр при Правительстве Российской Федерации»;
- Федеральное агентство по управлению государственным имуществом;
- Федеральный фонд обязательного медицинского страхования;
- Федеральная служба государственной регистрации, кадастра и картографии;
- государственные учреждения, иные юридические лица, обеспечивающие реализацию задач ...ж
- иные организации, индивидуальные предприниматели, а также граждане, согласившиеся на участие в эксперименте на добровольной основе;
- поставщик платформы разработки, которая представляет собой набор технологических компонентов и сервисов, позволяющих разрабатывать и эксплуатировать прикладное программное обеспечение
- Федеральная служба безопасности (не указана явно в списке участников, указана в тексте постановления)
- ФСТЭК России (не указана явно в списке участников, указана в тексте постановления)

Создаваемые оргструктуры:
- межведомственная рабочая группа для координации мероприятий, необходимых для реализации эксперимента

Создаваемые документы:
- требования к платформе «ГосТех»
- оценка результатов эксперимента, в том числе в части определения эффективности применения платформы «ГосТех (? нечеткое определение ?)
- доклады в Правительство Российской Федерации, включающих в том числе предложения по развитию и доработке платформы «ГосТех»
- предложения по целевой архитектуре и модели данных платформы «ГосТех»
- методическая поддержка проведения эксперимента (? нечеткое определение ?)
- модели угроз и модель нарушителя безопасности информации и техническое задание на создание системы защиты информации в рамках компонентов платформы разработки (по каждому эксперименту);

Сервисы
- сервисы для взаимодействия между гражданами, бизнесом и государством в сфере учета и управления государственным имуществом
- сервисы в рамках системы обязательного медицинского страхования;
- сервис, направленный на удобство осуществления кадастровой деятельности и оказания услуг по выполнению кадастровых работ;
- сервис, направленный на повышение удобства совершения сделок с недвижимостью
- сервис, направленный на интеграцию и предоставление заинтересованным лицам аналитической информации на основе сведений Единого государственного реестра недвижимости, сведений, содержащихся в фонде данных государственной кадастровой оценки и в иных источниках
- иные сервисы, определяемые Министерством цифрового развития, связи и массовых коммуникаций Российской Федерации

Финансирование
- Национальная программа «Цифровая экономика Российской Федерации».

Ссылки:
[1] https://regulation.gov.ru/projects#search=01/01/07-20/00105928&npa=105928

#laws #regulation
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google
Google анонсировали закрытие поиска в Австралии [1] если будет принят закон о плате местным СМИ за указание ссылок в выдаче на их сайты.

Позиция понятная, жёсткая, и показывает самосоознание Google/Alphabet себя как участника переговоров, а не объекта регулирования. Похоже что глобальные цифровые корпорации доросли до нового собственного позиционирования, интересно как дальше это всё пойдет.

Тем временем, интересна и позиция властей Австралии, прогнутся ли они или же надавят, а в Австралию придут Bing (Microsoft), DuckDuckGo, Yandex и другие игроки, готовые играть по правилам страны, а не своим собственным.

Ссылки:
[1] https://about.google/google-in-australia/an-open-letter/

#search #data
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex
В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.

Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/

#privacy #search
Рынок поисковых систем настолько сложился и настолько кажется поделенным занятым одним игроком - Google и лишь очень редко чуть-чуть Bing, Яндекс и Baidu, что может может показаться что ничего нового в этой области уже не покажется.

А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.

С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.

Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].

И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.

Потеснят ли они Google? Будет интересно на это посмотреть

Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com

#privacy #search
В рубрике интересных продуктов для работы с данными - Meilisearch [1] система поиска с открытым кодом написанная на Rust и чья команда в январе 2022 года получила $5M инвестиций на создание облачного продукта. Обещают поддержку любого языка использующего пробелы для разделения слов, поддерживают китайский (что сейчас особенно актуально в России) и имеют кучу интеграций. На Github у них почти 24 тысячи звезд [2] и растущая популярность. Пока ещё не обгоняют ElasticSearch, но уже показывают высокую востребованность.

У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].

Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html

#opensource #startups #search #data
В рубрике интересных инструментов с открытым кодом txtai [1], движок для семантического поиска по данным с использованием ИИ. ИИ, там, конечно нет, но есть много машинного обучения и, в принципе, интересный подход к индексированию данных и их поиску. На его основе много чего интересного сделано, например, tldrstory [2] пример с открытым кодом по пониманию заголовков и текстов новостей, а для разработчиков хороший пример code question [3] для получения ответов на поисковые запросы прямо в терминале.

У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.

Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.

Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai

#data #opensource #datatools #search
Написал очередной текст в англоязычный блог о том что поисковые системы - это глобальные инструменты для data discovery (поиска данных), недостатках DataCite Search и Google Dataset Search и о том какой могла бы быть идеальная поисковая система по данным

Dataset search engines as global data discovery tools [1]

Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datasets #search #datatools
Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].

Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.

Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).

Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.

Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] https://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data

#opendata #datasets #search #research
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google