Поиск по наборам данных от Гугл, Dataset Search [1], вышел из беты и в их посте в блоге рассказывается как он развился [2]
В первой вышедшей из беты версии появились:
- более 25 миллионов наборов данных из которых более 2 миллионов из data.gov (США)
- фильтрация по типу набору данных, геолокации и режиму доступа (открытый/не открытый)
- поиск адаптировали под аудиторию ищущую наборы данных
Российские данные пока доступны через агрегатор data.wu.ac.at который собирает с порталов на базе движка CKAN по всему миру наборы данных и отдает в формате метаданных для Google. Например, данные Хаба открытых данных [3] доступны именно через него [4].
Что значит что будем это исправлять и интегрировать в необходимом формате. Тем временем, напомню что это не единственный поисковик по данным в мире.
Существуют также:
- DataSearch (Elsevier) [5] - поиск по научным данным от Elsevier
- Magda [6] - австралийский движок для индексации и поиска по данным, используется в data.gov.au
Ссылки:
[1] https://g.co/datasetsearch
[2] https://blog.google/products/search/discovering-millions-datasets-web
[3] https://hubofdata.ru
[4] https://datasetsearch.research.google.com/search?query=hubofdata.ru
[5] https://datasearch.elsevier.com
[6] https://magda.io/
#opendata #datasets #search
В первой вышедшей из беты версии появились:
- более 25 миллионов наборов данных из которых более 2 миллионов из data.gov (США)
- фильтрация по типу набору данных, геолокации и режиму доступа (открытый/не открытый)
- поиск адаптировали под аудиторию ищущую наборы данных
Российские данные пока доступны через агрегатор data.wu.ac.at который собирает с порталов на базе движка CKAN по всему миру наборы данных и отдает в формате метаданных для Google. Например, данные Хаба открытых данных [3] доступны именно через него [4].
Что значит что будем это исправлять и интегрировать в необходимом формате. Тем временем, напомню что это не единственный поисковик по данным в мире.
Существуют также:
- DataSearch (Elsevier) [5] - поиск по научным данным от Elsevier
- Magda [6] - австралийский движок для индексации и поиска по данным, используется в data.gov.au
Ссылки:
[1] https://g.co/datasetsearch
[2] https://blog.google/products/search/discovering-millions-datasets-web
[3] https://hubofdata.ru
[4] https://datasetsearch.research.google.com/search?query=hubofdata.ru
[5] https://datasearch.elsevier.com
[6] https://magda.io/
#opendata #datasets #search
Google
Discovering millions of datasets on the web
Dataset Search launches publicly with an index of 25 million datasets, helping scientists, journalists, students, data geeks to find data.
На regulation.gov.ru выложен документ "О проведении эксперимента по созданию, миграции и развитию государственных сервисов и информационных систем органов государственной власти Российской Федерации и государственных внебюджетных фондов на единой цифровой платформе Российской Федерации «ГосТех»" [1]
Я давно хочу начать декомпозировать НПА в понятную форму, понемногу начну "экспериментировать" на этих НПА
Уровень: Постановление Правительства РФ
Вовлечённые стороны
- Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации;
- Автономная некоммерческая организация «Аналитический центр при Правительстве Российской Федерации»;
- Федеральное агентство по управлению государственным имуществом;
- Федеральный фонд обязательного медицинского страхования;
- Федеральная служба государственной регистрации, кадастра и картографии;
- государственные учреждения, иные юридические лица, обеспечивающие реализацию задач ...ж
- иные организации, индивидуальные предприниматели, а также граждане, согласившиеся на участие в эксперименте на добровольной основе;
- поставщик платформы разработки, которая представляет собой набор технологических компонентов и сервисов, позволяющих разрабатывать и эксплуатировать прикладное программное обеспечение
- Федеральная служба безопасности (не указана явно в списке участников, указана в тексте постановления)
- ФСТЭК России (не указана явно в списке участников, указана в тексте постановления)
Создаваемые оргструктуры:
- межведомственная рабочая группа для координации мероприятий, необходимых для реализации эксперимента
Создаваемые документы:
- требования к платформе «ГосТех»
- оценка результатов эксперимента, в том числе в части определения эффективности применения платформы «ГосТех (? нечеткое определение ?)
- доклады в Правительство Российской Федерации, включающих в том числе предложения по развитию и доработке платформы «ГосТех»
- предложения по целевой архитектуре и модели данных платформы «ГосТех»
- методическая поддержка проведения эксперимента (? нечеткое определение ?)
- модели угроз и модель нарушителя безопасности информации и техническое задание на создание системы защиты информации в рамках компонентов платформы разработки (по каждому эксперименту);
Сервисы
- сервисы для взаимодействия между гражданами, бизнесом и государством в сфере учета и управления государственным имуществом
- сервисы в рамках системы обязательного медицинского страхования;
- сервис, направленный на удобство осуществления кадастровой деятельности и оказания услуг по выполнению кадастровых работ;
- сервис, направленный на повышение удобства совершения сделок с недвижимостью
- сервис, направленный на интеграцию и предоставление заинтересованным лицам аналитической информации на основе сведений Единого государственного реестра недвижимости, сведений, содержащихся в фонде данных государственной кадастровой оценки и в иных источниках
- иные сервисы, определяемые Министерством цифрового развития, связи и массовых коммуникаций Российской Федерации
Финансирование
- Национальная программа «Цифровая экономика Российской Федерации».
Ссылки:
[1] https://regulation.gov.ru/projects#search=01/01/07-20/00105928&npa=105928
#laws #regulation
Я давно хочу начать декомпозировать НПА в понятную форму, понемногу начну "экспериментировать" на этих НПА
Уровень: Постановление Правительства РФ
Вовлечённые стороны
- Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации;
- Автономная некоммерческая организация «Аналитический центр при Правительстве Российской Федерации»;
- Федеральное агентство по управлению государственным имуществом;
- Федеральный фонд обязательного медицинского страхования;
- Федеральная служба государственной регистрации, кадастра и картографии;
- государственные учреждения, иные юридические лица, обеспечивающие реализацию задач ...ж
- иные организации, индивидуальные предприниматели, а также граждане, согласившиеся на участие в эксперименте на добровольной основе;
- поставщик платформы разработки, которая представляет собой набор технологических компонентов и сервисов, позволяющих разрабатывать и эксплуатировать прикладное программное обеспечение
- Федеральная служба безопасности (не указана явно в списке участников, указана в тексте постановления)
- ФСТЭК России (не указана явно в списке участников, указана в тексте постановления)
Создаваемые оргструктуры:
- межведомственная рабочая группа для координации мероприятий, необходимых для реализации эксперимента
Создаваемые документы:
- требования к платформе «ГосТех»
- оценка результатов эксперимента, в том числе в части определения эффективности применения платформы «ГосТех (? нечеткое определение ?)
- доклады в Правительство Российской Федерации, включающих в том числе предложения по развитию и доработке платформы «ГосТех»
- предложения по целевой архитектуре и модели данных платформы «ГосТех»
- методическая поддержка проведения эксперимента (? нечеткое определение ?)
- модели угроз и модель нарушителя безопасности информации и техническое задание на создание системы защиты информации в рамках компонентов платформы разработки (по каждому эксперименту);
Сервисы
- сервисы для взаимодействия между гражданами, бизнесом и государством в сфере учета и управления государственным имуществом
- сервисы в рамках системы обязательного медицинского страхования;
- сервис, направленный на удобство осуществления кадастровой деятельности и оказания услуг по выполнению кадастровых работ;
- сервис, направленный на повышение удобства совершения сделок с недвижимостью
- сервис, направленный на интеграцию и предоставление заинтересованным лицам аналитической информации на основе сведений Единого государственного реестра недвижимости, сведений, содержащихся в фонде данных государственной кадастровой оценки и в иных источниках
- иные сервисы, определяемые Министерством цифрового развития, связи и массовых коммуникаций Российской Федерации
Финансирование
- Национальная программа «Цифровая экономика Российской Федерации».
Ссылки:
[1] https://regulation.gov.ru/projects#search=01/01/07-20/00105928&npa=105928
#laws #regulation
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.
Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.
Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.
Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/
#opendata #data #search #google
Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.
Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.
Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/
#opendata #data #search #google
Google анонсировали закрытие поиска в Австралии [1] если будет принят закон о плате местным СМИ за указание ссылок в выдаче на их сайты.
Позиция понятная, жёсткая, и показывает самосоознание Google/Alphabet себя как участника переговоров, а не объекта регулирования. Похоже что глобальные цифровые корпорации доросли до нового собственного позиционирования, интересно как дальше это всё пойдет.
Тем временем, интересна и позиция властей Австралии, прогнутся ли они или же надавят, а в Австралию придут Bing (Microsoft), DuckDuckGo, Yandex и другие игроки, готовые играть по правилам страны, а не своим собственным.
Ссылки:
[1] https://about.google/google-in-australia/an-open-letter/
#search #data
Позиция понятная, жёсткая, и показывает самосоознание Google/Alphabet себя как участника переговоров, а не объекта регулирования. Похоже что глобальные цифровые корпорации доросли до нового собственного позиционирования, интересно как дальше это всё пойдет.
Тем временем, интересна и позиция властей Австралии, прогнутся ли они или же надавят, а в Австралию придут Bing (Microsoft), DuckDuckGo, Yandex и другие игроки, готовые играть по правилам страны, а не своим собственным.
Ссылки:
[1] https://about.google/google-in-australia/an-open-letter/
#search #data
about.google
An update on the News Media Bargaining Code - Google
g.co/Australia-Letter
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.
Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.
Ссылки:
[1] https://www.kommersant.ru/doc/4729428
#regulation #it #search #google #yandex
Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.
Ссылки:
[1] https://www.kommersant.ru/doc/4729428
#regulation #it #search #google #yandex
В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.
Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/
#privacy #search
Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/
#privacy #search
Рынок поисковых систем настолько сложился и настолько кажется поделенным занятым одним игроком - Google и лишь очень редко чуть-чуть Bing, Яндекс и Baidu, что может может показаться что ничего нового в этой области уже не покажется.
А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.
С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.
Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].
И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.
Потеснят ли они Google? Будет интересно на это посмотреть
Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com
#privacy #search
А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.
С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.
Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].
И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.
Потеснят ли они Google? Будет интересно на это посмотреть
Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com
#privacy #search
В рубрике интересных продуктов для работы с данными - Meilisearch [1] система поиска с открытым кодом написанная на Rust и чья команда в январе 2022 года получила $5M инвестиций на создание облачного продукта. Обещают поддержку любого языка использующего пробелы для разделения слов, поддерживают китайский (что сейчас особенно актуально в России) и имеют кучу интеграций. На Github у них почти 24 тысячи звезд [2] и растущая популярность. Пока ещё не обгоняют ElasticSearch, но уже показывают высокую востребованность.
У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].
Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html
#opensource #startups #search #data
У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].
Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html
#opensource #startups #search #data
GitHub
GitHub - meilisearch/meilisearch: A lightning-fast search API that fits effortlessly into your apps, websites, and workflow
A lightning-fast search API that fits effortlessly into your apps, websites, and workflow - meilisearch/meilisearch
В рубрике интересных инструментов с открытым кодом txtai [1], движок для семантического поиска по данным с использованием ИИ. ИИ, там, конечно нет, но есть много машинного обучения и, в принципе, интересный подход к индексированию данных и их поиску. На его основе много чего интересного сделано, например, tldrstory [2] пример с открытым кодом по пониманию заголовков и текстов новостей, а для разработчиков хороший пример code question [3] для получения ответов на поисковые запросы прямо в терминале.
У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.
Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.
Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai
#data #opensource #datatools #search
У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.
Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.
Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai
#data #opensource #datatools #search
GitHub
GitHub - neuml/txtai: 💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows
💡 All-in-one open-source embeddings database for semantic search, LLM orchestration and language model workflows - neuml/txtai
Написал очередной текст в англоязычный блог о том что поисковые системы - это глобальные инструменты для data discovery (поиска данных), недостатках DataCite Search и Google Dataset Search и о том какой могла бы быть идеальная поисковая система по данным
Dataset search engines as global data discovery tools [1]
Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
#opendata #datasets #search #datatools
Dataset search engines as global data discovery tools [1]
Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
#opendata #datasets #search #datatools
Medium
Dataset search engines as global data discovery tools
Search engines have a long history, you could easily find text, web pages, images, video, news, and some other content using global search…