—
pip install pytorch-ignite
Особенности PyTorch-Ignite:
— позволяет запускать любые обработчики на любые встроенные или кастомные события
— даёт возможность устанавливать контрольные точки, делать раннюю остановку, выполнять профилирование, планирование параметров и многое другое
— позволяет без проблем подключать дополнительные CPU, GPU и TPU
— имеет 50+ метрик, позволяющих легко оценивать модели
— бесшовно интегрируется с Tensorboard, MLFlow, WandB, Neptune
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6❤2
Repo2txt может пригодиться для интеллектуального анализа текстов или обучения LLM.
При написании Repo2txt автор не использовал сторонние зависимости и уместил всё в один файл. Для лучшей производительности применяется многопоточность. Кроме того, Repo2txt учитывает файлы в
.gitignore
, чтобы исключать их из вывода, поддерживается вывод двоичных файлов (аудио, изображений). Сам исходный файл понятен человеку и может легко токенизироваться для обучения моделей.Кроме возможности обучать на полученных данных нейросети, разработчик приводит и другие сценарии использования Repo2txt:
— анализ данных;
— резервное копирование;
— локальное версирование.
Сперва утилиту необходимо скачать, локально клонировав исходный репозиторий. После этого для копирования репозиториев надо выполнить файл main.py с указанием пути к репозиторию и флагами:
—
-d
, --directory
— путь к каталогу (обязательно).—
-t
, --tree
— вывод дерева репозитория (без содержимого файлов, отключен по умолчанию).—
-e
, --embed
— включить дерево в начале вывода.—
-b
, --binary
— ключить двоичные файлы (отключен по умолчанию).—
-g
, --gitignore
— использовать .gitignore для исключения файлов.—
-i
, --ignore
— можно через запятую указать дополнительный шаблон для исключения файлов.—
-o
, --output
— имя файла на выходе.@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥6❤1
This media is not supported in your browser
VIEW IN TELEGRAM
—
curl -sSL https://pdm-project.org/install-pdm.py | python3 -
PDM — это инструмент управления зависимостями и пакетами Python нового поколения.
Если вам не хватает чего-то в Pipenv или Poetry, вероятно, вам подойдёт PDM.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥6❤3
—
pip install deepchem
DeepChem предоставляет отличный набор open-source инструментов, который демократизирует использование Deep Learning для открытия лекарств, материаловедения, квантовой химии и биологии.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍11🔥5🤩1
https://www.youtube.com/watch?v=j0BrMPgrCuo
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤2
—
pip install geemap
Библиотека geemap Python создана на базе ipyleaflet и ipywidgets и позволяет пользователям анализировать и визуализировать наборы данных Earth Engine в интерактивном режиме в среде, основанной на Jupyter.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥6❤1
Вот, кстати, некоторые из них:
— добавить файл
sample.txt
к архиву .tar.gz
:
import tarfile
with tarfile.open('sample.tar.gz', 'w:gz') as tar:
tar.add('sample.txt')
— понятный вывод различий между строками
import difflib
diff = difflib.ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
'ore\ntree\nemu\n'.splitlines(keepends=True))
print(''.join(diff))
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Сравниваем DBSCAN и OPTICS
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
👍5❤1🔥1
—
pip install marker-pdf
Процесс преобразования PDF при помощи Marker состоит из таких шагов:
— извлечение текста, при необходимости использование OCR (эвристические методы, Surya, Tesseract)
— определение макета страницы и порядка чтения (Surya)
— подготовка и форматирование каждого блока (эвристика, Texify)
— объединение блоков и постобработка полного текста (Heuristics, Pdf_postprocessor)
Marker использует ML-модели только там, где это необходимо, что повышает скорость и точность
Пример использования:
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥7❤3
—
pip install distilabel --upgrade
Помимо создания синтетических данных, Distilabel помогает организовать сложные конвейеры обработки данных;
эти конвейеры могут содержать любое количество разных шагов.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥2