Аналитик данных
6.05K subscribers
215 photos
27 videos
2 files
199 links
Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам
Download Telegram
🖥 Polars 1.0 — наконец-то

pip install polars

1 июля 2024 года состоялся релиз открытой библиотеки для быстрой обработки данных Python Polars 1.0 на Rust и Python.

Этим мажорным выпуском разработчики подтвердили, что компоненты in-memory engine и API проекта Polars готовы к стабильной работе. Они убеждены, что Polars находится в том состоянии, когда это уже один из лучших проектов с открытым исходным кодом для быстрого моделирования данных, ориентированного на вертикальное масштабирование.

Планы на будущее проекта Python Polars: улучшение функциональности, масштабируемости и производительности. Выпуск первой основной версии отмечает момент времени, когда разделение между API и фактической реализацией достаточно стабильное, чтобы разработчики могли продолжать улучшать проект и поддерживать необходимую обратную совместимость.

Также в планах разработчиков проекта: поддержка right join и non-equi join, расширенная поддержка метаданных, поддержка re-ordering optimization и расширенная поддержка SQL.

🖥 GitHub

Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83
👌 Deep Learning на пальцах

Это бесплатный курс по глубокому обучению, который читает исследователь MIT Семён Козлов. В том же объёме курс читается и для магистрантов Новосибирского Государственного Университета, а также студентов CS центра Новосибирска.

Хоть он проходил в мае, на сайте доступны видеолекции, слайды, а также задания по курсу. Вот темы, которые он охватывает:

▪️Python, numpy, notebooks
▪️Нейронные сети
▪️PyTorch и подробности
▪️Введение в NLP, компьютерное зрение, распознавание речи и обучение с подкреплением.

🔗 Ссылка на материалы
43👍2
🤗 Все что нужно знать о работе с Hugging Face за 10 минут!

В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!

https://www.youtube.com/watch?v=4B_foZbWh2c

Аналитика данных
👍32🔥2
🔥3👍2🤣2🙈2
🖥 Deep Java Library — это высокоуровневая open-source библиотека Java для ML и Deep Learning

DJL — это удобная библиотека машинного обучения для языка Java, особенностью которой является зоопарк моделей (Model Zoo), позволяющий получить готовую модель по описываемым параметрам из списка доступных моделей. Также имеется возможность создать свою модель, сохранить на диск и загрузить для дальнейшего использования.

🖥 GitHub
🟡 Доки
🟡 Примеры использования
🟡 Обзор DJL

Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2
⚡️ Запускаем ComfyUI на GPU AMD Radeon в Docker. Статья + код

Stable Diffusion — передовая модель глубокого обучения, способная создавать реалистичные изображения и произведения искусства по текстовым описаниям. ComfyUI - это веб-интерфейс Stable Diffusion, оптимизированный для настройки рабочего процесса.

#python #comfyui

Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1
🖥 Point Cloud Library (PCL) — библиотека C++ для работы с облаками точек

PCL позволяет обрабатывать 2D/3D изображения и облака точек. Библиотека имеет лицензию BSD, поэтому свободна для коммерческого и исследовательского использования.

🖥 GitHub
🟡 Примеры использования
🟡 Wiki

Аналитика данных
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
Human Refiner может улучшить качество изображений рук и конечностей человека!

Этот метод позволяет выявлять и исправлять проблемы, связанные с неправильными позами человека.

https://github.com/Enderfga/HumanRefiner

Аналитика данных
👍2🔥2
Специалисты «Яндекса» сократили расходы на внедрение нейросетей до восьми раз! 🚀

Yandex Research совместно с IST Austria и Kaust разработали методы сжатия больших языковых моделей, позволяющие запускать их на менее мощных устройствах без потери качества. Новые инструменты сокращают необходимые вычислительные ресурсы, сохраняя в среднем 95% качества ответов. Это делает внедрение и обслуживание ИИ дешевле для бизнеса.

Код и обучающие материалы доступны на GitHub. 📉💡

Аналитика данных

#ml #yandex #machinelearning #big_data #python #ai
👍72🔥1
Forwarded from Machinelearning
⚡️ Zamba2-2.7B: небольшая гибридная языковая модель на Mamba.

Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.

Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.

Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.

⚠️ Внимание:

🟠модель не имеет встроенной модерации и не подвергалась дополнительному цензурированию;
🟠модель не была дообучена для выполнения инструкций или выполнений функций чата, поэтому не стоит ожидать хороших результатов от нее в этих задачах;
🟠не рекомендуется использовать модель без поддержки Mamba, поскольку это приведет к значительному увеличению задержки и использования памяти.

Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.

▶️Локальный запуск :

# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e

# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d

# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))


📌Лицензирование : Apache 2.0 license


🟡Страница проекта
🟡Arxiv
🟡Модель на HF
🖥Github [ Stars: 10 | Issues: 0 | Forks: 0]


@ai_machinelearning_big_data

#AI #ML #SLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍21
Forwarded from Machinelearning
⚡️ FLUX: SOTA Text-to-image модели от BlackForest.

Black Forest Labs, компания, основанная командой разработки, покинувшей SatbilityAI (Stable Diffusion) опубликовала пресс-релиз с презентаций своего семейства GenAI моделей FLUX версии 1.

Представленное семейство FLUX.1 определяет новый уровень детализации изображения, точного следования промпту, разнообразия стилей и сложности сцен для синтеза текста в изображение.
Каждая вариация семейства FLUX.1 поддерживают популярные соотношения сторон и разрешения от 0,1 (128х) до 2,0(2048х) мегапикселя.
FLUX.1 выпускается в трех вариантах: FLUX.1 pro, FLUX.1 dev и FLUX.1 schnell:

🟠FLUX.1 pro. Старшая и лучшая модель в семействе, доступная только по подписке через API и на онлайн-сервисах Replicate и FalAI. Подписка доступна частным лицам и корпоративным пользователям. Стоимость подписки - 0.05USD за изображение 1024х1024 при 50 шагах генерации;

🟢FLUX.1 dev. Открытая модель для некоммерческого использования. Оптимизирована методом дистилляции из версии FLUX.1 pro, что сделало ее менее требовательной к потреблению VRAM, повысило скорость инференса при незначительной деградации качества и точности. Веса модели доступны на Huggingface. Для коммерческой эксплуатации нужно запрашивать лицензию у разработчика.

🟢FLUX.1 schnell. Младшая и самая быстрая модель, предназначенная для локальной разработки и личного использования. Версия schnell распространяется под лицензией Apache2.0 и опубликована в открытом доступе на Huugingface.
Код инференса можно найти на Github проекта или использовать поддержку модели в ComfyUI.

Все модели FLUX.1 основаны на гибридной архитектуре мультимодальных и параллельных блоков трансформеров диффузии и масштабированы до 12B параметров.
Улучшения предыдущих диффузионных моделей проведено за счет использования согласования потоков - концептуально простого метода обучения, который включает диффузию как частный случай.
Повышение производительности модели и эффективность использования аппаратного обеспечения получено за счет использования rotary positional embeddings и параллельных слоев внимания.
Более подробный технический отчет разработчики обещают опубликовать в ближайшем будущем.

Локальный запуск с автозагрузкой моделей dev и schell с выводом cli или с UI Streamlit:

# Clone repo and install dependences
cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e '.[all]'

# Download dev or schnell automatically via HuggingFace you will need to be logged in HF
# For manual downloaded models you can specify the paths via environment-variables:
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>

# For cli interactive sampling run
python -m flux --name <name> --loop

# Or to generate a single sample run
python -m flux --name <name> \
--height <height> --width <width> \
--prompt "<prompt>"

# streamlit demo that does both text-to-image and image-to-image
streamlit run demo_st.py




🟡Страница проекта
🟡Модель dev на HF
🟡Модель schnell на HF
🟡Demo на FalAI (FLUX Pro)
🟡Demo на FalAI (FLUX dev)
🟡Demo на HF (FLUX.1 schnell)
🖥Github [ Stars: 1.3K | Issues: 11 | Forks: 52]


@ai_machinelearning_big_data

#AI #FLUX #Diffusers #Text2Image #Image2Image #GenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3
13👍3🥰2
Forwarded from Machinelearning
🌟 InternLM2.5-20B-chat и InternLM2.5-1.8B-chat: Расширение семейства языковых моделей InternLM 2.5.

InternLM2.5-20B-chat - базовая модель с 20 миллиардами параметров ориентированная на чат-взаимодействие. Модель обладает математическими возможностями, поддерживает сбор информации с веб-страниц и получила улучшенный навык следования инструкциям.
Модель может быть развернута с помощью Transformers, vLLM и LMDeploy.

Доступна также версии GGUF для запуска в llama.cpp, LMStudio и Ollama с половинной точностью FP16 (39.7GB) и в малоразрядных квантованных вариациях c шагом в 1 bit : от 2-bit (7.55 GB) до 8-bit (21 GB).


InternLM2.5-1.8B-chat - модель с 1.8 миллиардами параметров и точно такой же направленности и возможностями, как и 20B-chat версия.

Для InternLM2.5-1.8B-chat тоже доступны GGUF версии с разрядностью от FP16 (3.78 GB) до до 2-bit (772 Mb), с шагом в 1 bit.


📌Лицензирование :

🟠InternLM2.5-20B-chat: бесплатно. Коммерческое применение требует подачи заявки через форму.
🟢InternLM2.5-1.8B-chat: Apache 2.0 License


🟡Страница проекта
🟡Набор моделей на HF
🟡Сообщество в Discord
🖥Github [ Stars: 6.1K | Issues: 7 | Forks: 431]


@ai_machinelearning_big_data

#AI #LLM #ML #InternLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2