Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
March 14, 2023
Буквально минут через 20 начнётся GPT-4 Developer Livestream [1] с демо работы GPT-4 для разработчиков.
А совсем свежая информация о только что вышедшем продукте GPT-4 есть на сайте OpenAI [2].

Ожиданий у рынка очень много, лично я также внимательно слежу и думаю для таких задач можно такой продукт применить.

Ссылки։
[1] https://www.youtube.com/watch?v=outcGtbnMuQ
[2] https://openai.com/product/gpt-4

#openai #gpt4 #languagemodels #ai
March 14, 2023
March 14, 2023
Свежий обзор платформ для соревнований в машинном обучении The State of Competitive Machine Learning 2022 Edition [1] в форме подробного сравнения и отчета за год. Авторы сравнивали Kaggle, Tianchi, CodaLab, Zindi и других, всего 11 платформ.

Самое любопытное։
- безусловная лидирующая платформа это Kaggle с более чем 10+ миллионами участников и общим годовым призовым фондом за 2022 год в 1.7 миллиона долларов
- конкурсы академических структур менее популярные чем от коммерческих компаний и самих платформ
- Python - язык победителей. Почти все кто выигрывал соревнования писали на Python, за редким исключением соревнований где использовался C++
- авторы выявили так называемый winning toolkit [2] технологический стек которым преимущественно пользуются победители соревнований
- примерно 50% победителей в конкурсах - это одиночки
- некоторые участники серьёзно вкладываются в оборудование для победы, но, при этом, многие до сих пор выигрывают даже за счёт бесплатных или очень дешёвых онлайн серверов.

Ссылки:
[1] https://mlcontests.com/state-of-competitive-machine-learning-2022/
[2] https://mlcontests.com/winning-toolkit/

#machinelearning #stateof #reports #readings
March 15, 2023
Forwarded from Инфокультура
March 15, 2023
Комментарии к происходящим российским новостям про рынок данных։
- о докладе ЦБ РФ про использование данных в фин. рынке [1] если вкратце, то проблема с качеством данных неизбежна потому что решать её можно только за счёт того чтобы все собираемые данные использовались бы для аналитики, как минимум. Если данные не используют, то их и не чистят и не верифицируют, и они как бы есть, но, как бы, непроверенные.

- о том что в Минцифре создаётся департамент больших данных и искусственного интеллекта. Я бы сказал так, у Минцифры большие провалы в системной, стратегической и нормативной работе и, при этом, если некоторые успехи в проектной работе и существенные успехи в антикризисной, кто бы что там говорил, на фоне других ФОИВов конечно. Вот этот департамент оказывается опять про проектную работу, а не про стратегии и про регулирование. Хорошо ли это? Я лично считаю что стратегии первичны, проекты вторичны.

- о слухах что Минэкономразвития собираются переносить портал открытых данных на платформу Гостех. Я скажу так, минус на минус плюсом не будет. Лично меня уже давно попустило то что российский федеральный портал открытых данных оказался настолько плох, я уже не вижу смысла объяснять тем кто его ведёт почему они делают это плохо и как делать это нормально, потому что это вопрос не технологий, а политической воли к раскрытию ключевых наборов данных и последовательной госполитики в открытости. И того и того сейчас есть достаточно острый дефицит.

Ссылки:
[1] https://www.cbr.ru/Content/Document/File/145403/Consultation_Paper_14032023.pdf

#opendata #itmarket #data #regulation
March 15, 2023
В рубрике интересного чтения про данные, технологии и не только։
- Reproducible Analytical Pipelines [1] методология построения воспроизводимых труб данных используемая командами правительства Великобритании. Например, с помощью такого подхода их статистическая служба сейчас создаёт так называемые быстрые индикаторы (fast indicators) в виде оперативных показателей реального времени с частотой обновления от 1 недели до 1 часа. [2]

- The Past, Present, and Future of Data Architecture [3] обзор современной архитектуры работы с данными, по сути краткое введение в Data Mesh. Мне многое нравится в этом подходе, data mesh дает акцент на хранении первичных данных и на систематизации/каталогизации данных, однако есть много усложняющих практических аспектов в том что все любят работать с данными и мало кто любит их документировать.

- How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud [4] с одной стороны ничего нового, а с другой стороны очень конкретное напоминание что крупнейшие облачные сервисы - это очень удобно и очень дорого, если можно ими не пользоваться, то нужно ими не пользоваться.

Ссылки:
[1] https://analysisfunction.civilservice.gov.uk/support/reproducible-analytical-pipelines/
[2] https://dataingovernment.blog.gov.uk/2023/02/14/using-data-science-for-next-gen-statistics/
[3] https://medium.com/@diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b
[4] https://tech.ahrefs.com/how-ahrefs-saved-us-400m-in-3-years-by-not-going-to-the-cloud-8939dd930af8

#readings #data #dataengineering #uk #government
March 16, 2023
Интересное чтение про данные, технологии и не только, подборка научных статей։
- Open data-set identifier for open innovation and knowledge management [1] авторы рассуждают о создании OpenDatId, уникального идентификатора для открытых данных. Сама статья, к сожалению, не к открытом доступе.

- Towards a Common Definition of Open Data Intermediaries [2] статья вокруг нового понятия open data intermediaries или по-русски "посредники открытых данных". Любопытно, но слегка наукообразно, а не практично. Статья в открытом доступе

- Open science: Scientists are in favor, what about the librarians? [3], по-русски Открытая наука: учёные – «за», а библиотекари? автор Людмила Шевченко из ГПНТБ СО РАН [4]. О том что библиотекарям необходимо пересмотреть отношение к открытой науке. Статья в открытом доступе

- How the Digital Transformation Changed Geopolitics [5] о том как цифровая трансформация (гос-ва и не только) поменяло геополитику. Статья политизирована насквозь, но отражает один из взглядов последствий развития дата-экономики (data-driven economy).

Ссылки։
[1] https://www.emerald.com/insight/content/doi/10.1108/JKM-07-2022-0514/full/html
[2] https://dl.acm.org/doi/10.1145/3585537
[3] https://ntb.gpntb.ru/jour/article/view/1081
[4] https://www.spsl.nsc.ru/professionalam/bibliosfera/avtorskij-ukazatel/shevchenko-lyudmila-borisovna/
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4378419

#opendata #data #readings #articles
March 17, 2023
March 18, 2023
March 18, 2023
По поводу новости о том что российский портал открытых данных собираются переносить на Гостех и потратить на это всё 50 миллионов рублей [1] мне много что есть сказать, в первую очередь анекдотом «Когда в борделе продажи падают, надо работниц(-ков) менять, а не кровати переставлять».

Российский портал открытых данных, хотя и сделан очень криво, на довольно идиотских методических рекомендациях (нигде такого в мире нет), без нормального API и ещё много чего, но кривых национальных порталов открытых данных в мире какое-то количество есть. Сделан он плохо, но проблемы с доступностью данных даже не в нём, а в том он не является частью госполитики ни коим образом. Нет ни одного действующего плана по открытости органов власти, нет раскрытия данных по ключевым общественным событиям, достаточно вспомнить тот же ковид, нет ответственных ни на уровне органов власти, ни на уровне пр-ва РФ за развитие открытости гос-ва и тд.

С учётом этого всего портал оказывается огромной цифровой помойкой, забитый наборами данных в 3 строки, от муниципалитетов и без практического применения где бы то ни было. Я могу от себя сказать что за всё время существования портала открытых данных не было ни одного случая когда я и моя команда в Инфокультуре использовала бы на практике данные публикуемые на data.gov.ru. Потому что, либо данные там отсутствовали, либо устарели, либо автоматизированный доступ к ним был невозможен (бессмысленное и непригодное для работы API) и во всех случаях можно и предпочтительнее было работать с первоисточниками данных.

Ссылки։
[1] https://t.iss.one/CynExp/4126

#opendata #closeddata #russia
March 19, 2023
March 20, 2023
March 20, 2023
March 20, 2023
Написал в рассылку текст #32. Открытые данные в мире, в фактах и тезисах [1] о том как развиваются открытые данные в мире, в науке, в рамках политической подотчетности, в корпорациях и не только. Фактически это ответ вопросы "что не так с порталом открытых данных моей страны?" и "А как там у других?", а у других вот так.

А также не могу не напомнить об одном из недавних текстов #26. Открытость как признак жизни [2] о том что открытость данных, государства и не только - это один из признаков жизнеспособности какой-либо области/темы. Если нет науки, то и нет открытости науки, если нет журналистики, то и данные для журналистов не раскрываются, если нет политики, то и политическая подотчетность сводится к минимуму.

Ссылки:
[1] https://begtin.substack.com/p/d4f
[2] https://begtin.substack.com/p/26

#opendata
March 21, 2023
В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].

В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.

Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/

#privacy #data #regulation #government #china
March 21, 2023
March 22, 2023
March 22, 2023