Python Заметки

Есть такое понятие как Switch Statement. Это некоторая конструкция в языке программирования предназначенная для множественного ветвления алгоритма.
вот примеры реализаций в разных языках:

JavaScrpt
C++ (или здесь)
C#
Ruby
PHP
Go
Delphi
и даже Pascal

В целом, шаблон такой:

switch query:
    case match1:
        ...
    case match1:
        ...

А что у нас в Python?

if condition1:
  ...
elif condition2:
  ...
elif condition2:
  ...
else:
  ...

Вполне рабочий вариант. Но явно отличается от примеров выше.

И тут внезапно!!! 23 июня 2020г выходит в свет PEP622
И что мы видим? Планы на Python 3.10 по добавлению Switch Statement! Называется он Structural Pattern Matching, но по сути мы получаем тот же синтаксис что и в Switch Statement.

match some_expression:
    case pattern_1:
        ...
    case pattern_2:
        ...

В данный момент статус его еще Draft. Интересно как он еще изменится и доживет ли концепция до релиза? Учитывая что один из автором сам Guido van Rossum, можно сказать что внедрят точно!
Пока рано его разбирать, просто подождем...

#pep

605 views09:00

Python Заметки

This media is not supported in your browser

VIEW IN TELEGRAM

Есть у QLabel есть одна особенность. Её минимальный размер определяется текстом, который в неё записан. Это приводит к тому что длинный текст принудительно увеличивает ширину интерфейса.
В большинстве случаев это выглядит плохо.
Как с этим бороться?

🔸 Обрезать текст заранее, задав лимит по длине строки. В этом случае мы теряем часть визуальной информации. Не всегда угадаешь нужный размер. В разных OS шрифт используется разный.

🔸 Делать перенос строки. Тогда мы получим изменение размера в другую сторону, что тоже поломает интерфейс.

🔸 Переопределить paintEvent() и сделать кастомный рендеринг текста. Можно, но слишком сложно для такой задачи.

Проще всего обрезать текст под текущий размер виджета используя класс QFontMetrics.
Он имеет готовый метод elidedText(), который просто вызываем по событию resizeEvent.
Я также добавил установку ToolTip чтобы всегда можно было увидеть полный текст при наведении курсора.

🌎 Код здесь

#qt #source

590 viewsedited 09:00

Python Заметки

Когда-то давно, когда я сел за компьютер примерно третий раз в жизни, я изобрёл... самый быстрый и универсальный конвертор форматов изображений🤓

Схематично он довольно просто (ведь всё гениальное просто):

rename my_image.bmp -> my_image.jpg

Ох уж это наивное IT-детство))) Я действительно думал что победил систему. Если Paint открыл, то значит конвертация прошла успешно! 😭

Если вы пишете какую-то программу работы с изображениями, то порой бывает полезно защититься от таких "гениальных" разработок и однозначно понимать какого типа файл перед вами независимо от его имени. В этом вам поможет стандартная библиотека imghdr.

По умолчанию она понимает следующие форматы:

rgb
gif
pbm
pgm
ppm
tiff
rast
xbm
jpeg
bmp
png
webp
exr

Вы всегда можете добавить свой формат. Для этого в список imghdr.tests нужно добавить функцию проверки с определённым набором аргументов: байты и открытый файл.
Вернуть функция должна либо строку с типом формата либо None.

Пример проверки файла с изменённым расширением

>>> import imghdr
>>> imghdr.what('image.png')
'jpeg'

Как же происходит проверка? Очевидно, что не на основе расширения файла. Каждый тип файла содержит заранее известный паттерн данных (magic number). Функции проверки просто ищут этот паттерн в бинарных данных файла. Если совпадение есть, то формат определён.

Всё станет понятно когда посмотрите исходники этого модуля. Код тестов состоит из 2-3 строк, при этом одна из них это return.

#libs

GitHub

cpython/imghdr.py at main · python/cpython

The Python programming language. Contribute to python/cpython development by creating an account on GitHub.

596 viewsedited 09:00

Python Заметки

Аналогично imghdr в Python есть стандартная утилита sndhdr.
Определение форматов аудио файлов!

Тест этой библиотеки возвращает не просто формат в виде строки, а именованный кортеж с дополнительными данными о файле. Например длительность, количество каналов или частота семплирования.

Поддерживаются следующие форматы:

aifc
aiff
au
hcom
sndr
sndt
voc
wav
8svx
sb
ub
ul

Эммм... а где же MP3? Где Flac??? Может они не вписываются в концепцию библиотеки по каким-либо признакам? Или это задел на развитие? Программисты не используют MP3?
(Только WAV, только хардкор!)
Даже в исходниках есть вопрос без ответа...

#libs

Python documentation

sndhdr — Determine type of sound file

Source code: Lib/sndhdr.py The sndhdr provides utility functions which attempt to determine the type of sound data which is in a file. When these functions are able to determine what type of sound ...

564 views09:00

Python Заметки

Вы прониклись идеей определять тип файла не по расширению из имени а по содержимому (по сигнатуре или по magic number)?
Не хватает стандартных библиотек imghdr и sndhdr?
Тогда специально для вас есть решение — библиотека fleep

Только посмотрите на количество поддерживаемых форматов. Изображения, звук, видео, документы, шрифты, 3D пакеты... На данный момент 104 формата!

Стоит заметить, что:

🔸 автор скорее всего разрабатывал её на Windows 10, стоит хорошо проверить её перед использованием на других платформах.

🔸 добавление новых форматов происходит через обновления JSON файла, но я бы сделал под каждый формат отдельный файл. Просто так удобней расширять список форматов не изменяя исходников.

🔸 Список сигнатур файлов для добавления можно найти в интернете, например на вики: https://ru.wikipedia.org/wiki/Список_сигнатур_файлов

🔸 На хабре есть статья от автора
https://habr.com/ru/post/345822/

PS. Также можете взглянуть на filetype

#libs

650 views09:00

Python Заметки

fleep не поддерживает нужный тип файла? Не нашли подходящую сигнатуру в интернете?
Тогда пробуйте ➡️ puremagic, еще больше типов! Возможно самая актуальная библиотека по данной теме.

Всё ещë нет нужной сигнатуры? Видимо, у вас сложный случай. Остаëтся только найти "магическое число" вашего файла самостоятельно.

Делается это достаточно просто. Нужно посмотреть на файл в шестнадцатеричном представлении. Первые биты файла будут вашим искомым значением.
Для просмотра можно использовать:

🔸 mcedit.
Редактор который идёт в поставке с mc (Linux). Жмем F3 для просмотра и сразу F4 для переключения режима.

🔸 xxd (что это?)

Пример для Linux

xxd myfile.ext | head

head не даёт прочитать весь файл. Нам нужно лишь начало.
Для Windows тот же xxd, который идет в поставке с Git

...\Git\usr\bin\xxd.exe -l 100 myfile.ext

Флаг "l" аналогичен head на Linux
Теперь проходимся по нескольким файлам этого формата и ищем совпадающие первые биты, которые всегда одинаковы. Нужное число найдено!

#libs #tricks

621 viewsedited 09:00

Python Заметки

Так что же такое этот Magic Number?
Это набор байтов, уникальный для определённого типа файла. Он еще называется Сигнатура файла.

Не каждый файл имеет магическое число, например текстовые файлы в них не нуждаются.

По этому набору битов можно точно определить какого типа бинарный файл открыт. Если программе очень важно не перепутать тип файла, то она будет определять его именно по сигнатуре, а не по имени файла.

В Python для скомпилированных PYС-файлов магическое число отличается от версии к версии. По нему можно определить версию интерпретатора, которым скомпилирован этот байт-код.

Пример библиотеки для определения версии

Получить magic number текущей версии можно так:

Python 3

>>> from importlib import util
>>> util.MAGIC_NUMBER.hex()

Python 2

>>> import imp
>>> imp.get_magic().encode('hex')

Интерпретатор использует это значение для проверки PYC-файлов перед импортом.
Если версия не подходящая вы увидете ошибку:

RuntimeError: Bad magic number in .pyc file

То есть, помимо типа файла, магическое число может также обозначать разные версии одного типа.

Итого, сигнатура файла помогает:

🔸 быстро определить формат файла вне зависимости от имени (например для запуска соответствующего приложения в OS)
🔸 обозначать совместимость одного и того же бинарного формата с разными версиями софта (пошло из Unix систем)
🔸 разделить бинарники программ по вариантам сборки
🔸 восстанавливать файлы при потере таблицы файлов диска
🔸 использовать быстрый поиск файлов по типу без обращения к таблице файлов
🔸 получить типа файла, передаваемого по сети, не качая его целиком

Список этим, конечно же, не ограничивается.

#libs #tricks

645 views09:00

Python Заметки

This media is not supported in your browser

VIEW IN TELEGRAM

Опубликовал для вас один из своих учебных проектов моего курса про PySide2 — LaunchPanel.
Это панель, которая выезжает сверху экрана когда к ней подводишь курсор. Содержит кнопки для запуска любых команд.

🔸 можно добавить любые команды
🔸 одна кнопка может содержать много вариантов одной команды. Доступ к ним через контекстное меню
🔸 панель настраивается через файлы конфига

Но самое главное в этом проекте то, что почти каждая строка задокументирована! 😱

Что используется в проекте?

🔸 стилизация виджетов через StyleSheet
🔸 настройка отображения окна как панели без рамок, заголовка и всего остального
🔸 использование файлов конфига
🔸 HTML текст в виджетах
🔸 анимация свойств виджета (позиция и прозрачность)
🔸 реакция виджета на курсор
🔸 запуск подпроцессов

🌎 Исходники забираем здесь

Смотрите, изучайте, пользуйтесь 😉

#qt #source

646 views09:00

Python Заметки

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).

Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!

Приведём пример

>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'

Пока всё отлично

>>> slugify('This is a "Title!"')
'this-is-a-title'

Спец символы удалились, всё хорошо.

>>> slugify('Это заголовок статьи')
''

Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить

>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'

Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.

Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.

Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:

🔸1. Исходный текст:

>>> text = 'Мой заголовок №10 😁!'

Взял специально посложней со специальными символами.

🔸2. Транслит

Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.

from unidecode import unidecode

>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P  1/4  Yue  Shan'

Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:

>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'

Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.

🔸4. Фильтр символов

Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.

>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'

Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".

🔸5. Slugify

Осталось удалить лишние символы по краям и сделать нижний регистр

>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'

Получаем отличный slug! 😎

🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.

#libs #tricks #django

GitHub

django/django/utils/text.py at main · django/django

The Web framework for perfectionists with deadlines. - django/django

724 views09:00

Python Заметки

Python позволяет передавать любые объекты в качестве аргументов или возвращаемых значений.
А так как в Python всё объекты то функции и классы тоже входят в этот список.
Но как проверить что нам вернули именно функцию? Не класс, не None и не число и не строку.
(Да, динамическая типизация в Python даёт о себе знать)

Например, у нас есть функция, полученная из вне.

>>> func = some_module.get_function()

Надо убедиться что это именно функция. Какие есть варианты? Проверим, вызываемый ли это объект.

>>> hasattr(func, '__call__')
True

Но это ничего не говорит о типе объекта. Вызываемым может быть и класс и генератор и lambda.
Лучше всего сравнить тип объекта с типом функции. Но как это сделать? Если бы у нас был int, то всё очевидно:

>>> isinstance(value, int)

Но где взять ссылку на тип функции? Можно просто забрать его от любой функции

>>> # создаём пустую функцию
>>> def f():pass
>>> # сравниваем типы
>>> isinstance(func, type(f))
True

Каждый раз нам этого делать не надо. Все нужные типы уже есть в модуле types, созданные именно таким способом. Нам остаётся только сделать сравнение

>>> import types
>>> isinstance(func, types.FunctionType)
True

Но есть способ еще проще и понятней, это модуль inspect. Всё тоже самое но завёрнуто красиво.

>>> import inspect
>>> inspect.isfunction(func)
True

Приведу неполный но часто используемый мною список функций этого модуля.

Функции, определяющие что объект это:

.isfunction() — функция
.isbuiltin() — стандартная функция Python
.isclass() — класс (не инстанс класса)
.isabstract() — абстрактный класс
.ismethod() — метод класса
.isgenerator() — генератор
.ismodule() — модуль

#libs

757 views09:00

Python Заметки

Что делать если в файле записан текст не ASCII символами? Например кириллица или иероглифы. Вероятно, и кодировка у него будет не utf-8.
Попытка прочитать такой файл может завершиться ошибкой:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc4 in position 25: invalid continuation byte

Всё просто, используем аргумент encoding при открытии файла

>>> f = open(filepath, encoding="windows-1251")

А как быть когда кодировка неизвестна? Делать серию try-except перебирая разные варианты? Конечно нет! Можно использовать библиотеку для определение кодировки chardet.

>>> import chardet
>>> chardet.detect(open(filepath, 'rb').read())
{'encoding': 'windows-1251', 'confidence': 0.9657063861040789, 'language': 'Russian'}

Функция detect() принимает байты а не строку.

Полный код

>>> import chardet
>>> filepath = '...'
>>> enc = chardet.detect(open(filepath, 'rb').read())['encoding']
>>> text = open(filepath, encoding=enc)

#libs

689 views09:00

Python Заметки

Словарь это очень распространённый тип данных в Python.
Он присутствует буквально в каждом скрипте.
Именованные аргументы (kwargs), атрибуты объекта (ˍˍdictˍˍ), любые неймспейсы и тд.

Одна из основных особенностей словаря была в том, что это неупорядоченное множество. То есть порядок добавления ключей не гарантирует что они сохранятся в той же последовательности. Но всё изменилось в Python3.6. Как это произошло?

Словарь, как часто используемый тип данных, стараются максимально оптимизировать. Про одну из таких оптимизация нам рассказывает PEP468 - Preserving the order of **kwargs in a function.

Хм, причем здесь оптимизация?

Всё начинается с отдельной имплементации Python под названием PyPy. В этой версии интерпретатора сделали довольно хорошую оптимизацию словарю.
Показательно разница описана на этой странице

Если вкратце, то дело вот в чём.
Словарь на стороне С это массив. Каждый элемент это тоже массив из 3х элементов (хеш ключа, ключ и значение).
Раньше, чтобы всякий раз при обновлении словаря не изменять размер массива в С (это затратно по времени), изначально он делался с запасом. Как только массив заполняется, его еще увеличивают с запасом, обычно на 1/3. При этом элементы, еще не занятые данными, заполнялись пустышками (полный пример на странице по ссылке выше)

entries = [
    ['--', '--', '--'],
    [-8522787127447073495, 'barry', 'green'],
    ['--', '--', '--'],
    ['--', '--', '--'],
    ['--', '--', '--'],
    [-9092791511155847987, 'timmy', 'red'],
    ['--', '--', '--'],
    [-6480567542315338377, 'guido', 'blue']
    ]

Перерасход памяти очевиден. И что было предложено? Переделать структуру данных словаря разделив его на данные и индексы.

indices =  [None, 1, None, None, None, 0, None, 2]
entries =  [[-9092791511155847987, 'timmy', 'red'],
            [-8522787127447073495, 'barry', 'green'],
            [-6480567542315338377, 'guido', 'blue']]

Именно этот принцип повторили в Python 3.6. Что мы получаем в итоге?

🔸 Увеличилась скорость поиска и добавления ключей.
🔸 Сократился расход памяти в 3 раза

Python 2.x-3.5

>>> d = {x: x*2 for x in range(100)}
>>> d.ˍˍsizeofˍˍ()
12536

Python 3.6

>>> d = {x: x*2 for x in range(100)}
>>> d.ˍˍsizeofˍˍ()
4680

Ведь теперь вместо элемента ['--', '--', '--'] у нас просто None, который, кстати, является одним и тем же объектом где бы он не использовался.

🔸 Как бонус (или как побочный эффект), мы получаем упорядоченность ключей.

То есть одним выстрелом завалили трёх мамонтов!

#pep

Python Enhancement Proposals (PEPs)

PEP 468 – Preserving the order of **kwargs in a function. | peps.python.org

The **kwargs syntax in a function definition indicates that the interpreter should collect all keyword arguments that do not correspond to other named parameters. However, Python does not preserved the order in which those collected keyword arguments w...

👍1

669 viewsedited 09:00

Python Заметки

В PEP509 описано добавление в структуру данных словаря приватного поля с версией. Что это за версия? Она нужна для ускорения проверки изменений в словаре. Разные механизмы должны следить за целостностью данных (например неймспейса, который суть словарь). Чтобы каждый раз не проверять изменился ли словарь, мы просто можем проверить его версию.

На стороне реализации С в структуру данных словаря добавлена приватная переменная ma_version_tag, которая изменяется всякий раз при изменении словаря.

clear()
pop(key)
popitem()
setdefault(key, value)
__delitem__(key)
__setitem__(key, value)
update(...)

Если вызван один из этих методов, то версия изменяется. Версия это не хеш и не ID. Каждый словарь имеет свою уникальную версию, даже два одинаковых или два пустых словаря.

Как посмотреть версию? Из самого словаря не получится. Есть код в тестах для получения свойства ma_version_tag, используется для прогонки тестов.
Чтобы попробовать этот код достаточно повторить то что написано в тестах.

Для Windows следует добавить директорию Lib\test в PYTHONPATH.

>>> import _testcapi
>>> d1 = {}
>>> d2 = {}
>>> _testcapi.dict_get_version(d1)
12083
>>> _testcapi.dict_get_version(d2)
12099

Интересно то, что версия изменится даже если данные будут одинаковыми. Главное сам факт изменения.

>>> d = {1:2}
>>> _testcapi.dict_get_version(d)
12200
>>> d[1] = 2
>>> _testcapi.dict_get_version(d)
12239

Таким образом мы можем узнать а не пытался ли кто-то что-либо сделать с нашим словариком?

Жаль только нет стандартного способа получения версии (или я не нашел?). Я думаю применение нашлось бы)

#pep #tricks

Python.org

PEP 509 -- Add a private version to dict

The official home of the Python Programming Language

663 views09:00

Python Заметки

Python по умолчанию кеширует числа int в диапазоне -5...256.
Думаю, это всем известный факт.

>>> a = 10
>>> b = 10
>>> a is b
True

>>> a = 270
>>> b = 270
>>> a is b
False

Но вот что интересно, это не сработает внутри модуля.

# matchtest.py ####
a = 270
b = 270
print(a is b)
# end file ########

>>> import matchtest
True

Почему одно и тоже работает по разному? Что за двойные стандарты?
Вот вам подсказка, в интерактивной консоли это можно повторить, запустив обе команды как одну.

>>> a = 270; b = 270
>>> a is b
True

А разница в том как интерпретатор получает код, точней какими порциями. Каждую "порцию" он "интерпретирует", попутно оптимизируя логику кода.
А оптимизация замечает нашу "бездарную писанину" и исправляет явные ошибки. Грубо говоря, такой код:

a = 270
b = 270

Превращается в нечто такое:

a = b = 270

Зачем создавать два одинаковых объекта когда можно создать один объект и две ссылки?

Если выполнять команды по отдельности то оптимизация не сработает, так как это отдельные объекты кода.
Если же это одна команда, введёная в консоль или код загружен из модуля, то интерпретатор увидит это как единый блок. Этап оптимизации изменит исходный код и это сведёт на нет наши исследования, выдав не то что мы ожидаем.

#triks

650 views09:00

Python Заметки

Кроме типа integer кешированию подвергаются и строки, но не все. Строки, которые больше всего подходят для использования в ключах словарей или как имена Python-объектов кешируются для оптимизации доступа к данным. А именно:

🔹 в словарях по ключу
🔹 для методов getattr и setattr

Чтобы строка попала в таблицу interned strings (закешировалась), она должна подходить под следующие правила:

🔸 символы должны входить в список "name characters"

Если коротко, это то что попадает под паттерн regex

[a-zA-Z0-9_]

То есть строки, похожие на имена объектов.

🔸 строка должна быть длиной до 4096 символов включительно

>>> a = 'a'*4096
>>> b = 'a'*4096
>>> a is b
True
>>> a = 'a'*4097
>>> b = 'a'*4097
>>> a is b
False

🔸 строка должна быть определена в коде как константа но не создана динамически.

В константу также входят строки, которые таковыми становятся в результате оптимизации на этапе компиляции байт кода .

Простые константы

>>> a = 'python'
>>> b = 'python'
>>> a is b
True

Динамически созданная строка

>>> a = 'python'
>>> b = ''.join('python')
>>> a is b
False

Оптимизированный код

>>> a = 'python'
>>> b = 'pyt'+'hon'
>>> a is b
True

Создание строки b оптимизировано в константу 'python' на этапе компиляции байт кода.

Также к динамически созданным строкам относятся те, что прочитаны из файлов или получены по сети

>>> a = 'python'
>>> open(tempfile, 'w').write(a)
>>> b = open(tempfile).read()
>>> a is b
Flase

>>> a = requests.get(url).content()
>>> b = requests.get(url).content()
>>> a is b
Flase

#tricks

645 views09:00

Python Заметки

В прошлом посте мы узнали, что не все строки кешируются интерпретатором в момент создания. Даже если строка короткая но содержит недопустимые символы, она не закешируется.

>>> a = '😁'
>>> b = '😁'
>>> a is b
False

Но мы можем форсированно закешировать любую строку, обойдя эти правила. Мало ли, вдруг у вас будет словарь где ключ это смайл ))). Для этого просто используйте функцию sys.intern()

>>> a = sys.intern('😁')
>>> b = sys.intern('😁')
>>> a is b
True

Теперь ваша строка добавлена в таблицу "interned" strings.
Да, это успех! Но что то нам даёт? Узнаем в следующем посте.

#tricks #libs

606 viewsedited 09:00

Python Заметки

В прошлом посте мы закешировали строки в таблицу “interned strings”
И что мы получаем от этого? Прирост скорости достаточно мал и не будет заметен. Экономия памяти уже получше, но реально увидеть различия можно только на больших массивах данных. Где тогда это применять?

🔸Пример 1
Если вы делаете синтаксический разбор большого текста, вполне имеет смысл закинуть в кеш часто встречающиеся части текста. Например, самые популярные слова. Если их наберется несколько миллионов по всему тексту, то уже хорошая экономия памяти. Да, короткие слова Python сам кеширует, но если вы прочитали их из файла то это следует сделать самостоятельно.

🔸Пример 2
В "этих ваших интернетах" часто приводят такой пример:
Функция intern() помещает строку в таблицу, либо возвращает ссылку на тот же объект если строка там уже есть. И это может очень пригодится для сравнения больших строк. Ведь оператор "is", проверяющий совпадение адреса в памяти, работает куда быстрей чем оператор "==", сравнивающий все символы в строке.

Мы можем закинуть в кеш две строки и просто сравнить их через оператор "is".
Синтетический тест сравнения показывает прирост скорости в 50-55 раз.
Но так ли часто нам надо сравнивать две большие и одинаковые строки столько раз? Этот тест лишь показывает разницу в скорости операторов и тот факт что intern() действительно делает две переменные одним объектом.

Давайте сделаем иначе, вторую строку будем создавать в каждой итерации и сравнивать с эталоном, созданным один раз.
И тут мы получаем просадку по скорости в 10 раз😕!
Почему?
Могу предположить, что intern() для добавления строки в таблицу делает обычное сравнение с другими элементами таблицы, и лишь потом выдаёт результат. То есть, для добавления строки в кеш проверка посимвольно всё равно происходит, но только добавляется еще ряд других операций. В итоге никакой выгоды не получаем.

Итого
Выходит, что самый модный пример про функцию intern() не очень-то пригоден в работе. Реальный профит мы получим если будем использовать эту функцию аналогично задумке её основному назначению — кеширование часто используемых строк, то есть первый пример.

#tricks #libs

611 views09:00

Python Заметки

Все мы любим pathlib за его краткость, логичность и ООП-подход.
История его появления в стандартных библиотеках это пример как надо интегрировать новые принципы в архитектуру языка программирования или любого приложения.
Расскажу кратко, по этапам:

🔸 Сначала у нас был os.path. Это функциональный подход который выглядит громоздко и многословно.

#пример переименования
import os

my_path = '/path/to/file.ext'
dir_name = os.path.dirname(my_path)
new_name = 'file2' + os.path.splitext(my_path)[1]
new_path = os.path.join(dir_name, new_name)
os.rename(my_path, new_path)

🔸 В версии 3.4 появилась библиотека pathlib которая поменяла ход игры. Теперь работаем с путями как с объектами. Кода стало меньше, счастья больше.

# пример переименования с pathlib
from pathlib import Path

my_path = Path('/path/to/file.ext')
new_path = my_path.with_name('file2').with_suffix(my_path.suffix)
my_path.rename(new_path)

🔸 С приходом этой сущности появились и проблемы, старые методы для работы с путями просто не понимают этот тип. Они работают только со строками.

my_path = Path('/path/to/file.ext')
open(my_path)
TypeError: invalid file: PosixPath('...')

То же самое с subprocess и остальными.

🔸Возникла задача адаптации всех стандартных методов для работы с данной библиотекой. Чтобы каждый из них смог понять объект Path и правильно его обработать. И самое интересное, как это было реализовано.

🔸 Если объект Path конвертнуть в строку str(Path) то мы получим правильный путь. Получается, что надо просто добавить форсированную конвертацию аргументов в str везде где это нужно? Нет!, так мы только всё усложим.

Просить юзеров конвертить в str когда нужно? Тоже нет, не pythonic-way.

В результате в Python 3.6 появляется новый абстрактный класс os.PathLike и понятие path-like object, который понимают все стандартные методы работы с файлами. Теперь, при написании библиотеки для работы с путями, ваша задача следовать правилам этого типа чтобы аккуратно вписаться в экосистему Python-путей.

А правила там простые, magic-метод ˍˍfspathˍˍ (file system path), который возвращает валидный путь.
Все методы для обработки файлов используют os.fspath() для объекта пути перед его использованием.

class MyPath(os.PathLike):
    def __init__(self, val):
        self.val = val

    def __fspath__(self):
        return self.val

path = MyPath('/path/to/file/ext')
f = open(path, 'w')  # PROFIT!!!

Это сработает и без наследования от os.PathLike, Достаточно и только метода ˍˍfspathˍˍ. Но лучше всё же наследоваться, чтобы добавить дополнительные проверки субклассов.

А если наследоваться не получается то можно воспользоваться методом register

os.PathLike.register(MyPath)

Кстати, именно так и поступили в pathlib

🔸 Вывод

В этой истории показательно то, что вместо внесений изменений под конкретный случай (читай костыль), разработчики создали подходящие условия для всех.

То есть не библиотека диктует правила как с ней обходиться, а язык создаёт правила как нужно подстроиться библиотеке чтобы все были довольны. В результате разработчики не только вписали удобную библиотеку в привычный нам код, но и мы получили возможность писать свои альтернативные системы работы с путями, которые понимаются всеми стандартными методами.

Это принцип за который я сам всегда всеми руками ЗА.
Низкоуровневые решения не должны заниматься частными случаями. Если мы попробуем подстроиться под каждый необычный случай то получим жуткую кашу из if-else, try-except или еще чего похуже.

Когда вас просят поправить ваш api, потому что вот тут в таком-то случае у юзера всё ломается, остановитесь на секунду и подумайте, а точно ли вам нужно делать именно то что просят?

Если ваше решение начинается с if, это неверное решение!

#libs #tricks #pathlib

GitHub

cpython/os.py at main · python/cpython

The Python programming language. Contribute to python/cpython development by creating an account on GitHub.

631 viewsedited 09:00

Python Заметки

Как получить справку в Python имея только консоль?

🔸 Основная справка

python3 -h

Команда вводится в консоль. Даёт информацию по флагам и переменным интерпретатора.

🔸 Справка по объектам

Сначала нужно зайти в REPL (интерактивная консоль Python) и там вводить такой код

>>> import some
>>> help(some)

Функция help() достаёт докстринги и распечатывает в консоль. Это самый очевидный способ получить справку по объекту не выходя из консоли. Но в такой метод нельзя передать директивы, например import или def

>>> help(import)
SyntaxError: invalid syntax

🔸 модуль pydoc

Специальный инструмент для работы с документаций в Python.

Доступные команды:

как использовать pydoc

python3 -m pydoc

показать справку по функции или классу

python3 -m pydoc os.path.join

показать справку по ключевым словам языка

python3 -m pydoc <keyword>

например

python3 -m pydoc import
python3 -m pydoc def

справка по модулям

python3 -m pydoc <modulename>

поиск по документации

python3 -m pydoc -k <request>

Есть еще одна интересная возможность — запускать веб сервер документации как оболочка для pydoc.
То есть это не статичные HTML страницы из файлов, а сгенерированные на лету из докстрингов.

запустить веб сервер с документацией на порту 8000

python3 -m pydoc -p 8000

Теперь можете зайти на этот хост по указанному порту и получите простой сайт с документацией.

Если вы на локальном хосте, то можно открыть браузер введя команду b, или добавить такой же флаг в команду чтобы браузер открылся сам сразу.

Запустить веб сервер и сразу открыть браузер

python3 -m pydoc -p 8000 -b

____________________
PS. Чтобы с помощью функции help() получить справку по ключевым словам, следует их писать в виде строки

help('import')

#libs

622 viewsedited 09:00

Python Заметки

Допустим у нас есть какой-то список
Для сортировки этого списка у нас есть два пути:

🔸 функция sorted()

>>> a = [3, 1, 2]
>>> b = sorted(a)
>>> print(a, b)
[3, 1, 2] [1, 2, 3]

Думаю, всем очевидно что теперь a и b это разные объекты. Так работает sorted(), то есть получает один список, и возвращает другой список с изменениями. Исходный список не изменяется.

🔸 метод list.sort()

>>> a = [3, 1, 2]
>>> b = a.sort()
>>> print(a, b)
[1, 2, 3], None

Метод list.sort() не возвращает новый список. Он вообще ничего не возвращает. Он просто сортирует исходный список.

Надеюсь, уловили разницу? Но это было лишь вступление чтобы был ясна следующая тема.

На самом деле я хотел рассказать про операторы "=" и "+=" по отношению к спискам.
Все мы привыкли что запись

x += 3

Это просто более короткая версия записи

x = x + 3

Но это не всегда так.
Дело в том, что со списками оператор "+" работает аналогично функции sorted(), то есть возвращает новый объект, после чего оператор "=" записывает значение в переменную. В то время как "+=" работает аналогично методу list.sort() — изменяет исходный список.

Вот небольшой пример для проверки:

>>> a = [1, 2]
>>> b = a
>>> a = a + [3, 4]
>>> print(a, b)
[1, 2, 3, 4] [1, 2]

Во второй строке a и b ссылаются на один и тот же обеъект. Но после присвоения результата оператора сложения в переменную a мы создали новый объект и переписали ссылку a.

>>> a = [1, 2]
>>> b = a
>>> a += [3, 4]
>>> print(a, b)
[1, 2, 3, 4] [1, 2, 3, 4]

А в этом примере переменная a не перезаписалась, оператор отработал с исходным объектом. Поэтому мы изменили и b тоже.
Можете пройтись функцией id() чтобы точно всё проверить.

Данная фишка не сработает с кортежами, так как они неизменяемые. Оба варианта создают новый объект.

Пример, где это может вызвать неоднозначность. Класс, в атрибутах которого указывается список каких-то дефолтных полей. Во время создания инстанса мы можем их расширять через аргументы.

class MyClass:
    L1 = [0]
    L2 = [0]
    
    def __init__(self, fields):
        self.L1 = self.L1 + fields
        self.L2 += fields

Класс имеет два статических атрибута.
В конструкторе класса в первом случае мы создаём новый атрибут инстанса L1 который своим именем перекрывает атрибут класса. Такое значение L1 будет только у этого инстанса.
Во втором случае мы меняем именно атрибут класса L2, то есть это будет видно во всех инстансах данного класса.

>>> obj1 = MyClass(fields=[1])
>>> print(obj1.L1, obj1.L2)
[0, 1] [0, 1]

>>> obj2 = MyClass(fields=[2])
>>> print(obj2.L1, obj2.L2)
[0, 2] [0, 1, 2]

>>> obj3 = MyClass(fields=[3])
>>> print(obj3.L1, obj3.L2)
[1, 3] [0, 1, 2, 3]

В атрибут класса L2 добавляется элемент при каждом создании инстанса.

#tricks

615 views09:00

About

Blog

Apps

Platform