🔧 Data-Juicer — универсальная система для обработки текстовых и мультимодальных данных, предназначенная для работы с foundation-моделями. Проект предлагает более 100 готовых операторов для очистки, анализа и синтеза данных, поддерживая сценарии предобучения и тонкой настройки моделей.
Data-Juicer уже интегрирован в платформу Alibaba PAI и позволяет обрабатывать миллиарды образцов данных за часы благодаря распределённым вычислениям через Ray. Для тестирования доступен облачный JupyterLab, а сообщество активно развивает рецепты обработки под разные задачи.
🤖 GitHub
@data_analysis_ml
Data-Juicer уже интегрирован в платформу Alibaba PAI и позволяет обрабатывать миллиарды образцов данных за часы благодаря распределённым вычислениям через Ray. Для тестирования доступен облачный JupyterLab, а сообщество активно развивает рецепты обработки под разные задачи.
🤖 GitHub
@data_analysis_ml
❤7👍3🔥2
Многие привычные библиотеки (pandas, NumPy, scikit-learn) можно заменить их GPU-версией, сохранив API.
Это даёт прирост скорости в десятки раз.
-
pandas
→ %load_ext cudf.pandas
-
polars
→ .collect(engine="gpu")
-
scikit-learn
→ %load_ext cuml.accel
-
xgboost
→ device="cuda"
-
umap
→ %load_ext cuml.accel
-
hdbscan
→ %load_ext cuml.accel
-
networkx
→ %env NX_CUGRAPH_AUTOCONFIG=True
🚀 Плюсы:
- Минимальные изменения кода (API почти идентичен).
- GPU-ускорение: от 10х до 100х быстрее на больших данных.
- Отлично подходит для ETL, ML и обработки сигналов.
Если ты работаешь с большими данными в Python, достаточно «заменить импорт» и получить колоссальный прирост скорости без боли и переписывания кода.
🚀 Подробнее: developer.nvidia.com/blog/7-drop-in-replacements-to-instantly-speed-up-your-python-data-science-workflows
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍10🔥7🤔1🙏1
🚀 Hugging Face Jobs — полностью автоматический способ запускать CPU и GPU задачи прямо из CLI или Python-скриптов ⚡
Вам не нужно искать железо или настраивать окружение — просто запускайте скрипт, экспериментируйте и стройте свои проекты!
📦 Запускается очень просто:
https://huggingface.co/docs/huggingface_hub/en/guides/jobs
Вам не нужно искать железо или настраивать окружение — просто запускайте скрипт, экспериментируйте и стройте свои проекты!
📦 Запускается очень просто:
hf jobs run python:3.12 python -c "print('Hello from the cloud!')"
https://huggingface.co/docs/huggingface_hub/en/guides/jobs
🔥8👍6❤5
🚀 GitHub решил главную боль open-source ИИ-проектов — теперь inference доступен всем
Новая инициатива GitHub Models позволяет запускать LLM прямо из кода или CI,
⚡️ без API-ключей OpenAI, без развёртывания моделей, без костылей.
🔧 Как это работает:
- Полная совместимость с
- Поддержка GPT‑4o, Llama 3, DeepSeek и др.
- Авторизация через обычный
- Бесплатно для OSS и личных аккаунтов
- Можно использовать даже в GitHub Actions (просто `permissions: models: read`)
💡 Зачем это нужно:
- Убирает барьер входа для пользователей и контрибьюторов
- Помогает легко добавлять ИИ‑фичи в open-source проекты
- Работает с OpenAI SDK, LangChain, Python, Node.js и другими библиотеками
📦 Теперь запускать AI в open-source так же просто, как
📝 Подробности:
https://github.blog/ai-and-ml/llms/solving-the-inference-problem-for-open-source-ai-projects-with-github-models
Новая инициатива GitHub Models позволяет запускать LLM прямо из кода или CI,
⚡️ без API-ключей OpenAI, без развёртывания моделей, без костылей.
🔧 Как это работает:
- Полная совместимость с
openai.ChatCompletion.create
- Поддержка GPT‑4o, Llama 3, DeepSeek и др.
- Авторизация через обычный
GITHUB_TOKEN
- Бесплатно для OSS и личных аккаунтов
- Можно использовать даже в GitHub Actions (просто `permissions: models: read`)
💡 Зачем это нужно:
- Убирает барьер входа для пользователей и контрибьюторов
- Помогает легко добавлять ИИ‑фичи в open-source проекты
- Работает с OpenAI SDK, LangChain, Python, Node.js и другими библиотеками
📦 Теперь запускать AI в open-source так же просто, как
git push
.📝 Подробности:
https://github.blog/ai-and-ml/llms/solving-the-inference-problem-for-open-source-ai-projects-with-github-models
❤14🔥5👍4