Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
О секретах популярности языка Python в сентябрьском исследовании от StackOverflow [1]. В качестве спойлера - главная причина в pandas [2], проекте поддерживаемом NUMFocus [3], организации поддерживающей качественные open source проекты полезные для науки.

В исследовании Stack Overflow это хорошо заметно, значительный прирост пользователей у Python происходит из аудитории "Academics" - это преподаватели, студенты и исследователи из университетской среды. Что и говорить, pandas - это отличный продукт по работе данными и полезный для любых задач анализа и обработки данных.

Ссылки:
[1] https://stackoverflow.blog/2017/09/14/python-growing-quickly/
[2] https://pandas.pydata.org/
[3] https://www.numfocus.org/open-source-projects/

#opendata #python #data
Jetbrains и Python Software Foundation опубликовали результаты опроса разработчиков на языке Python [1] в котором получили множество ответов и сформировали картину-образ сообщества.

Из интересного и ожидаемого - Python наиболее активно используется для веб-разработки и анализа данных.

В задачах Data Analysis и Machine Learning наиболее заметный рост. На сегодняшний день Python - это язык с невысоким порогом входа для обучения и огромным числом готовых пакетов для обработки данных.

И, конечно же, первичные анонимизированные данные опроса также опубликованы [2].

Если Вы хотите поучиться программировать, но не знаете чему, то попробуйте начать с Python. Это очень хороший стартовый язык, после него несложно учить более тяжелые языки вроде Java и C++, а для задач в обработке данных он годится сразу же.

Ссылки:
[1] https://www.jetbrains.com/research/python-developers-survey-2017/
[2] https://jb.gg/pythondevsurvey2017raw

#python #polls #data
Для тех кто работает с данными, полезная визуализация и база знаний по библиотекам на Python для работы с данными [1].

Ссылки:
[1] https://community.ibm.com/community/user/datascience/blogs/paco-nathan/2019/03/12/a-landscape-diagram-for-python-data

#python #data
Вышла новая версия Jupiter Notebook, под новым названием Jupiter Book [1]
Из новых возможностей:
- переход на язык разметки MyST Markdown [2]
- новая система сборки с поддержкой Jupiter Cache [3], запускающая исполнение notebook'а только при изменении кода
- больше интерактивности
- возможность сборки с командной строки

Jupiter Book - это стандарт де-факто для работы аналитиков и специалистов по data science и изменения в нём важны для всех кто работает с данными на регулярной основе.

UPD. Как меня поправляют читатели, это не новая версия версия Jupiter Notebook, но возможность преобразовывать .ipynb в книжке в виде новой версии инструмента. Что, впрочем, не отменяет его полезность.

Ссылки:
[1] https://blog.jupyter.org/announcing-the-new-jupyter-book-cbf7aa8bc72e
[2] https://myst-parser.readthedocs.io/en/latest/
[3] https://jupyter-cache.readthedocs.io/

#data #datascience #python
Те кто работал когда-либо с многочисленными библиотеками в языке Python знают про то как часто там одними и теми же словами называется разное или разными словами одинаковое и как оно часто несовместимо между собой.

Команда из Quansight Labs [1] сформировала консорциум по унификации API по работе с данными в языке Python [2], при поддержке таких компаний как Intel, Microsoft, Tensorflow, Google Research и других. О том почему это так важно и сколько накопилось отличий между библиотеками numpy, cupy, dask.array, jax, mxnet, pytorch и tensorflow они пишут в блоге этого консорциума [3]

Это хорошая инициатива, с открытым кодом [4] и полезными результатами для сообщества.

Ссылки:
[1] https://labs.quansight.org/
[2] https://data-apis.org
[3] https://data-apis.org/blog/announcing_the_consortium/
[4] https://github.com/data-apis

#python #data
В рубрике интересных инструментов по работе с данными Mercury [1], утилита по преобразованию тетрадок с Python в веб приложения и возможностью запуска их с определёнными параметрами.

Выглядит любопытно и есть живое демо [2], может быть полезно для разного рода способов публикации, например, студенческих работ или работ на хакатонах/конкурсах.

А может и другие применения есть.

Ссылки:
[1] https://github.com/mljar/mercury
[2] https://mercury-demo-1.herokuapp.com/

#datatools #notebooks #python #opensource
В рубрике интересные продукты с открытым кодом Grist, открытая альтернатива Airtable, инструмент работы с таблицами [1].
Функции очень похожи:
- быстро и с нуля построить базы данных (аналог Access, только в вебе)
- гибкое управление правами доступа к данным
- визуализировать данные, строить отчеты
- делиться данными с другими

Ну и конечно замена Excel во всём что касается редактирования таблиц. Авторы также подготовили обзора сравнений в Airtable [2] и кроме открытого кода предлагают облачный сервис GetGrist [3] где можно его потестить. Конечно из России использовать облако затруднительно, оплата там в долларах США.

Из больших плюсов продукта поддержка формул на Python с полной поддержкой Python’s standard library [4]

Ссылки:
[1] https://github.com/gristlabs/grist-core
[2] https://www.getgrist.com/blog/grist-v-airtable/
[3] https://www.getgrist.com/
[4] https://support.getgrist.com/formulas/#python

#data #tools #spreadsheets #opensource