Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В Kaggle, возможно наиболее известном сервисе соревнований алгоритмов на базе данных, появился раздел «Datasets» [1] с большим числом наборов данных, большая часть которых негосударственные, а собраны исследователями, предоставлены компаниями или энтузиастами. Например, данные с по футбольным матчам в Европе [2] или данные по кредитам выданным через Lending Club [3] или многое другое что каждый может найти для себя самостоятельно.

Ссылки:
[1] https://www.kaggle.com/datasets
[2] https://www.kaggle.com/hugomathien/soccer
[3] https://www.kaggle.com/wendykan/lending-club-loan-data

#opendata #datasets #contests
Ранее я уже писал о странностях в [не]прозрачности распределения средств через Российский фонд развития информационных технологий (РФРИТ) [1], а в пятницу фонд опубликовал итоги первого конкурса [2] в виде ранжированного списка победителей конкурсного отбора. В итоговом файле [3] перечислены 13 проектов 12 компаний:

- Акционерное общество «Концерн Радиоэлектронные технологии»
- Акционерное общество «ОДК-Пермские моторы»
- "Акционерное общество «Особая экономическая зона промышленно производственного типа «Алабуга»"
- "Общество с ограниченной ответственностью «Центр экологической безопасности»"
- Публичное акционерное общество «КАМАЗ»
- Акционерное общество «Татэнерго»
- "Общество с ограниченной ответственностью «Научно-технический центр «Бакор»"
- Общество с ограниченной ответственностью «Самараавтожгут»
- "Общество с ограниченной ответственностью «Научно производственный центр ""Пружина""»"
- Акционерное общество «СМАРТС»
- "Общество с ограниченной ответственностью «Управляющая компания «Предприятие жилищно-коммунального хозяйства»"
- "Общество с ограниченной ответственностью «Торговый дом «Ивановская мебельная фабрика»"

Что тут скажешь когда сказать нечего? Я всё же постараюсь
1. В отличие от Фонда содействия инновациям (Фонд Бортника) [4] или Фонда Президентских грантов [5] раскрытие информации хуже чем минимальное. Нет реквизитов получателей и, например, одних только организаций "Общество с ограниченной ответственностью «Центр экологической безопасности»" существует более 5 штук. Нет ни наименований ни описаний проектов, нет видеозаписей работы комиссии, нет протоколов. И самое главное - нет сумм выделяемых конкретным получателям грантов. Я в своей жизни такого ранее никогда не видел.
2. Из 13 проектов 4 из Республики Татарстан из которых в подчинении Правительства Республики Татарстан через Минимущества Татарстан - 2 организации. А из 12 получателей 3 являются дочерними предприятиями ГК Ростех.
3. Ни одной ИТ или даже около ИТ компании в победителях нет. Неизвестно есть ли они в заявителях, поскольку список всех заявок РФРИТ также не публикует (в отличие от ФСИ и ФПГ).
4. Как я уже упоминал Общество с ограниченной ответственностью «Центр экологической безопасности» существует во многих регионах. Какое победило тут? Никто не знает, деятельности ни одного из этих региональных ООО не выдаёт их победы.
5. Я напомню что согласно конкурсной документации распределяется 3 миллиарда с предельной суммой до 1 миллиарда на победителя. Поэтому отсутствие сумм у победителей в итоговом списке особенно настораживает:

2.1.5. Предельная сумма Грантов, которая может быть распределена по результатам
проведения настоящего конкурсного отбора, составляет 3 093 307 335 (Три миллиарда
девяносто три миллиона триста семь тысяч триста тридцать пять) рублей 88 копеек.
2.1.6. Предельный размер Гранта на реализацию одного Проекта в рамках
настоящего конкурсного отбора составляет 1 (Один) миллиард рублей.

Для всех тех кто хочет самостоятельно изучить список победителей по ссылке на Airtable [6] он доступен с привязкой к субъектам федерации, ИНН организаций, группы компаний и так далее (для Airtable требуется регистрация). Набор данных слишком маленький чтобы выкладывать его как базу данных.


Ссылки:
[1] https://t.iss.one/begtin/1604
[2] https://рфрит.рф/konkursnyy-otbor-19
[3] https://xn--h1apajh.xn--p1ai/attachment/144/download/2_Pobediteli
[4] https://fasie.ru
[5] https://pgrants.ru
[6] https://airtable.com/invite/l?inviteId=inviRf00zG5pjnLiu&inviteToken=39efc31dab96d68cbc9b7d9e28e0d9e1cc4dee8057a9254f965a0e9d4a62c825

#rfrit #opendata #data #contests
Для тех кто одновременно является исследователем и работает в НКО - @infoculture Информационная культура проводит конкурс "Исследователь" - https://ngo-research.ru/contest. Конкурс идёт до конца февраля, времени ещё много.

А я напомню что портал Данные НКО - https://ngodata.ru - это один из порталов данных созданных Инфокультурой для публикации открытых данных. Например, многочисленные наборы данных самой НКО опубликованы там на странице организации https://ngodata.ru/organization/infoculture.

Например, я туда регулярно выкладываю данные из собственных архивов и относящиеся к некоммерческой деятельности и сектору НКО в частности, а из нескольких проектов АНО Инфокультура туда данные выгружаются автоматически, например, из проекта Открытые НКО https://ngodata.ru/dataset/ngo-dumps или данные субсидий из проекта Госзатраты https://ngodata.ru/dataset/subs-dumps

Возвращаясь к конкурсу исследований - если есть идеи, предложения и варианты партнерства, пишите на [email protected]

#opendata #opengov #ngo #contests
Тем временем в Финляндии организуют конкурс на создание приложений по преодолению энергетического кризиса [1], ключевое условие - использование открытых источников данных или частных данных и реализация проекта на принципах честной экономики данных (fair data economy) о которой их мозговой центр Sitra публиковал свод правил [2]. Идей для конкурса там много, например, рекомендации потребителям по времени использования электричества за меньшую цену или анализ энергопотребления домохозяйств или бизнеса и рекомендации по корректировке.

В целом публикация открытых данных и конкурсы и хакатоны и иные соревнования для этого и нужны, для решения актуальных задач.

Для участия не обязательно быть из Финляндии, но заявки из России врядли примут. Возможные суммы финансирования: от 5 до 15 тысяч евро на первом этапе и от 20 до 65 тысяч евро на втором.

Ссылки:
[1] https://www.sitra.fi/en/projects/call-for-solutions-using-data-to-curb-energy-use/
[2] https://www.sitra.fi/en/publications/rulebook-for-a-fair-data-economy/

#opendata #contests #energy #finland
Совершенно незаслуженно упущенный мной и ранее не упомянутый вызов/challenge по созданию 30 дневных карт, 30DayMapChallenge [1]. Он организован специально для самых упоротых упорных дизайнеров, проходит 30 дней с 1 по 30 ноября в течение которых необходимо каждый день публиковать карту на заданную тему: точки, линии, полигоны и так далее. Каждый день надо публиковать результат в социальных медиа с хэштегом #30DayMapChallenge

Весь проект - это частная инициатива Topi Tjukanov который проводит эти конкурсы с 2019 года. Можно посмотреть, например, на работы 2022 года [2].

Никаких призов нет, только фан и репутации в сообществе. Это крутой челлендж, с оценкой результатов по "лайкам" и "ретвитам". Потому что это вызов (challenge), а не конкурс

Правил там немного, главное из которых я бы выделил Don’t be an asshole. Для тех кто хочет самому(-ой) себе бросить вызов - это будет прекрасная возможность, попробовать свои навыки, а потом ещё и рассказать об этом по завершению.

Ссылки:
[1] https://30daymapchallenge.com
[2] https://30daymapchallenge.com/2022/

#gis #contests #challenges #geodata #opendata
Хорошая статья [1] о том как добиться высокой производительности Python при обработке очень больших файлов с данными на примере данных конкурса One Billion Row Challenge [2].

Ключевое что можно из статьи вынести:
- да, по умолчанию Python медленный, но есть много способов его очень сильно ускорить
- Polars и DuckDB дают сильнейшее ускорение, буквально 30кратное и делают обработку данных особенно быстрой
- Pandas - это медленно, пора отказываться от него где возможно
- замена CPython на PyPy заметно ускоряет процесс
- всё это без использования GPU, на ноутбуке

А я не могу не вспомнить что уже есть One Trillion Rows Challenge [3] где Dask претендуют на лучшую скорость обработки данных [4]

Больше соревнований хороших и разных!

Ссылки:
[1] https://towardsdatascience.com/python-one-billion-row-challenge-from-10-minutes-to-4-seconds-0718662b303e
[2] https://1brc.dev
[3] https://t.iss.one/begtin/5529
[4] https://docs.coiled.io/blog/1trc.html

#data #dataengineering #contests #python