Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Итак, уже давно пора анонсировать. В этом году мы открываем новый проект, для разнообразия, коммерческий посвященный API и доступу к данным.
Он называется APICrafter и открыт на сайте https://apicrafter.ru

Идея проекта в том что кроме общественных потребителей открытых данных есть немало бизнеса которому нужны открытые и не только, но данные с удобным доступом и с регулярным обновлением.

Мы анонсируем api к данным по госзакупкам, госконтрактам, госфинансам, организациям, банкам и многому другому что мы насобирали за эти годы. А также к тем коммерческим источникам данных к которым получаем доступ сейчас.

Акцент проекта в том что:
- мы не просто предоставляем данные, а также объясняем как с ними работать;
- мы не только продаем интерфейс для доступа к данным, но и сотрудничаем с теми кто планирует сделать коммерческий доступ к своим данным
- мы помогаем делать собственные API и разрабатываем API на заказ
- плюс делаем выгрузки данных по запросу, для тех клиентов кому нужны данные в каком-то специальном формате.
- мы вычищаем и обрабатываем первоисточники в тех случаях когда это необходимо
- мы адаптируем наши API под клиентов у которых в этом возникает потребность.

Сейчас организован доступ к пакету API по госзакупкам и госконтрактам. До конца года мы будем открывать остальные пакеты API к другим данным. В том числе пока не анонсированным.

Оплата возможна по безналу, в ближайшем будущем мы добавим биллинг, личный кабинет и возможность оплаты банковскими картами и другими видами онлайн оплаты.

Для тех кто использует данные в научных или некоммерческих целях - всегда можно договориться о скидке или использовании в обмен на цитирование.

Все наши некоммерческие проекты при этом сохраняются. В тех случаях когда мы можем собрать данные и сделать API за чей-то еще счет - мы всегда и с удовольствием сделаем это в формате некоммерческого проекта. Такие проекты как Госзатраты - https://clearspending.ru и Открытая полиция - https://openpolice.ru и многие другие сохранят всю ту открытость которая была в них заложена.

В то же время бизнес клиентов все больше в последние годы, у них другие требования, тут мы не можем действовать по принципу "as is". И коммерческий проект - это возможность поддерживать нашу некоммерческую деятельность тоже>

Если у Вас будут какие-либо предложения, пожелания, готовность выступить клиентом, продавцом данных или партнером - пишите мне или на [email protected]

#apicrafter #api
Forwarded from APICrafter
Обновления в каталоге APICrafter

Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]

Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда

Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.

Мы обязательно опубликуем примеры его использования.

Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd

#apicrafter #datascience #datasets #parquet #json #csv
В качестве небольшого пред-анонса, где-то через 1-2 недели планируем обновление DataCrafter'а в виде доступного сервиса идентификации типов данных. Сейчас в DataCrafter'е 76399 полей данных из которых 9722 автоматически классифицированы по классам вот [1]. Пока это делалось внутренним движком обрабатывающим данные в таблицах MongoDB и работающем по базе частично закодированных правил. Этот же движок делался для автоматизации анализа качества датасетов.

Этот код сейчас отчуждается и активно тестируется.

А сами правила переносятся из кода в YAML формат. Сейчас это уже 67 правил из которых 40 про то как называются поля, 27 про то что в них содержится и ещё выявление дат делается хоть и 1 правилом, но по 312 шаблонам.

Вначале появится открытый сервис и API по такой классификации для CSV файлов и сейчас я думаю над тем стоит ли переводить его в open source.

Ссылки:
[1] https://data.apicrafter.ru/class

#openservices #datacrafter #apicrafter #data #dataclassification
Масштабное обновление алгоритмов классификации данных в DataCrafter'е. Теперь из 76500 полей наборов данных классифицированы 19 501 поле, это около 25,5%. Учитывая что многие поля надо отмечать как "неклассифицируемые" потому что они содержат только расчёт численные данные, то 25,5% от всех полей это очень много, можно сказать рекорд!

Классификация данных - это процесс при котором определяется природа данных содержащихся в таблицах/файлах/наборах данных. Например, идентификация кодов ИНН/ОГРН/КПП организация, ФИО / Имён / Отчеств / Фамилий физических лиц и ещё многое другое.

При этом обновлении были добавлены новые идентификаторы и правила их распознавания:
- ruscity - Российский город
- rusdayofweek - День недели на русском языке (понедельник, вторник и т.д.)
- runpa - нормативно-правовые и распорядительные документы. Законы, постановления, распоряжения и приказы
- mimetype - типы MIME, как правило ассоциированные с файлами
- filename - название файла
- rusworkposition - должности. Например: ректор,директор,и.о. директора и т.д.
- timerange - временные промежутки. Например: 10:00-12:00 или 21:10-21:30

и многие другие.

А также многие другие. Сейчас в DataCrafter внесено 90 классов данных [1] для идентификации которых используется 134 правила идентифицирующих данные и 304 правила идентифицирующих дату/время. Дата и время идентифицируются отдельно поскольку ещё в 2017 году я заопенсорсил движок qddate [2] определяющая даты в 348 шаблонах и на 9 языках. Движок, кстати, делался для библиотеки newsworker [3] по извлечению новостей из сайтов не отдающих RSS ленты, на основе шаблонов текстов, в основе которых даты. Эту библиотеку я тогда же заопенсорсил и слегка подзабросил, но она всё ещё вполне работает и актуальна.

Чтобы достичь этого результата внутренний движок классификации данных был полностью переписан. Большая часть правил теперь описывается в конфигурационных настраиваемых файлах YAML. При применении правил они могут фильтроваться по контексту, по языку и по точности. Кроме коллекций в MongoDB теперь поддерживаются файлы CSV и JSONl. Через некоторое время рабочая версия классификатора появится в виде страницы в интернете и телеграм бота (телеграм бот уже тестируется).

Сейчас 72 из 135 правил написаны под русский язык и Россию. Они учитывают, или принятые в России классификаторы, или русскоязычное кодирование информации. Следующий шаг после открытия версии классификатора для публичного тестирования - это поддержка классификации данных происходящих из других стран.

Ссылки:
[1] https://data.apicrafter.ru/class
[2] https://github.com/ivbeg/qddate
[3] https://github.com/ivbeg/newsworker

#opendata #data #datasets #datacrafter #apicrafter #dataclassification