Вот, кстати, некоторые из них:
— добавить файл
sample.txt
к архиву .tar.gz
:
import tarfile
with tarfile.open('sample.tar.gz', 'w:gz') as tar:
tar.add('sample.txt')
— понятный вывод различий между строками
import difflib
diff = difflib.ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
'ore\ntree\nemu\n'.splitlines(keepends=True))
print(''.join(diff))
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Сравниваем DBSCAN и OPTICS
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
👍5❤1🔥1
—
pip install marker-pdf
Процесс преобразования PDF при помощи Marker состоит из таких шагов:
— извлечение текста, при необходимости использование OCR (эвристические методы, Surya, Tesseract)
— определение макета страницы и порядка чтения (Surya)
— подготовка и форматирование каждого блока (эвристика, Texify)
— объединение блоков и постобработка полного текста (Heuristics, Pdf_postprocessor)
Marker использует ML-модели только там, где это необходимо, что повышает скорость и точность
Пример использования:
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥7❤3
—
pip install distilabel --upgrade
Помимо создания синтетических данных, Distilabel помогает организовать сложные конвейеры обработки данных;
эти конвейеры могут содержать любое количество разных шагов.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥2
—
pip install -U instructor
Instructor позволяет легко получать структурированные данные (например, в формате JSON) от таких LLM, как GPT-3.5, GPT-4, GPT-4-Vision, и моделей с открытым исходным кодом, включая Mistral/Mixtral, Anyscale, Ollama и llama-cpp-python.
Instructor отличается простотой и ориентированным на пользователя дизайном, построенным на базе Pydantic.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍5❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Если нужны кластеры нужной формы (например, хочется сравнить разные алгоритмы кластеризации) — не проблема, для этого есть библиотека
drawdata
и функция draw_scatter()
# ячейка 1
import pandas as pd
import seaborn as sns
from drawdata import draw_scatter
draw_scatter()
# ячейка 2
df = pd.read_clipboard(sep=',')
sns.scatterplot(data=df, x='x', y='y', hue='z')
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥6❤5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥7❤3🎉1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍5❤3🎉1
—
pip install tinygrad
tinygrad имеет встроенную библиотеку для работы с нейросетями, используя разные классы, оптимизаторы и инструменты для управления состоянием нейросетей.
В tinygrad есть JIT, чтобы всё работало быстро.
Также tinygrad имеет отличную поддержку нескольких GPU, что позволяет удобно параллелить операции над тензорами с помощью
Tensor.shard
.@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤5🔥3