Machinelearning

🌟 OCRonos-Vintage: специализированная модель для коррекции OCR.

OCRonos-Vintage — это небольшая модель со 124 миллионами параметров и небольшим контекстным окном в 1024 токена, которая была предварительно обучена с нуля на 18 миллиардах токенов датасета материалов архивов культурного наследия для задачи коррекции OCR. Несмотря на свой небольшой размер, она обеспечивает качество коррекции, сопоставимое с большими моделями, такими как GPT-4, при этом эффективна для работы на CPU.

Модель обучалась в течение 2 эпох с использованием фреймворка обучения llm.c на наборе данных из Library of Congress, Internet Archive и Hathi Trust. Обучение проводилось на 4 графических процессорах H100 и заняло два с половиной часа. OCRonos-Vintage использует токенизатор GPT-2.

OCRonos-Vintage можно загрузить и использовать для инференса так же, как модель GPT-2. Она принимает OCR-текст в качестве входных данных и генерирует исправленный текст. Входные данные и данные инференса разделяются специальными тегами: "### Text ###" и "### Correction ###".
Модель также можно использовать для генерации стилизованного исторического текста, если дать подсказку, начинающуюся с ### Text ###. Это позволяет имитировать исторические стили письма и содержание.

▶️

Квантованная 5-bit GGUF версия модели размером всего 127 МБ для локального запуска на llama.cpp

📌Лицензирование : Apache 2.0 License

🟡

Модель

🟡

Google Collab (инференс)

🟡

Demo

@ai_machinelearning_big_data

#AI #SLM #ML #OCR

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤5🔥2🥰1🎄1

8.52K views15:52

Machinelearning

⚡️ Новостной дайджест

✔️ Anthropic опубликовала system prompts для Claude всех версий.

Anthropic опубликовала системные подсказки для своих моделей Claude 3.5 Opus, Sonnet и Haiku, стремясь к большей прозрачности в области ИИ.
Это системные промпты, которые определяют основные качества моделей и их поведение. Они указывают, что Claude не может открывать ссылки или идентифицировать людей на изображениях. Например, модель должна вести себя так, как будто она "полностью слепа к лицам".
Также указаны характеристики, которые модели должны демонстрировать, такие как интеллектуальное любопытство и беспристрастность при обсуждении спорных тем.
techcrunch.com

✔️ Китайские компании обходят экспортные ограничения США на чипы искусственного интеллекта, используя сервисы Amazon AWS.

За последние два года правительство США ужесточило правила, запрещающие продажу высокопроизводительных ИИ-чипов Nvidia и AMD, в Китай, чтобы ограничить технологические достижения китайских военных.
Доступ к этим чипам через облачные сервисы не нарушает американские законы, поскольку они касаются только прямого экспорта физических товаров. По данным Reuters, по меньшей мере 11 китайских организаций искали доступ к ограниченным технологиям через облачные сервисы, среди которых четыре явно указали на Amazon Web Services (AWS).
Например, Шэньчжэньский университет потратил 200,000 юаней (около $28,000) через посредника для доступа к серверам AWS с чипами Nvidia A100 и H100, запрещенными для прямого экспорта в Китай.
В ответ на это в Конгрессе был предложен законопроект, который даст Министерству торговли США полномочия регулировать удаленный доступ к американским технологиям.
cio.com

✔️ Salesforce готовит к релизу модель Tex-2-Video.

Salesforce опубликовала технический отчет о xGen-VideoSyn-1, модели T2V, которая генерирует реалистичные сцены из текстовых описаний.
Модель использует видео-вариационный автоэнкодер (VidVAE) для сжатия видеоданных и снижения вычислительные требования, и диффузионный трансформер (DiT) для улучшения временной согласованности и обобщения.
Репозиторий Selesforce на Github, указанный в отчете ограничен для доступа с определенных IP-адресов, что говорит о последних подготовках к релизу.
arxiv.org

✔️ На Huggingface Spaces появился генератор синтетических текстовых датасетов на любую тематику.

Генератор работает на базе phi-3-mini, генерирует 99 строк за одну итерацию в формате таблицы в большинстве случаев, формата Title, Text, Label.
У генератора есть поиск по ключевому слову для темы для дальнейшего выбора предустановленных шаблонов.
Он не самый точный, но быстрый и производительный.
huggingface.co

✔️Модель для поиска новых лекарств и биоактивных комбинаций.

ActFound - модель искусственного интеллекта, которая предназначена для проектирования биоактивности соединений была разработана совместными усилиями ученых из Китая и США. Модель сочетает метаобучение и парное обучение, чтобы преодолеть ограничения в нехватке данных и несовместимые измерения при поиске новых химических соединений.

ActFound была обучена на ~35 000 проб из популярной химической базы данных и 1,6 млн экспериментально измеренных биоактивностей.
По завершении обучения, ActFound был протестирован на 6 реальных наборах данных о биологической активности и превзошел 9 конкурирующих моделей для прогнозирования в своей области.
scmp.com

✔️ IBM представила новый чип Spyre для IBM Z для масштабирования корпоративных ИИ-нагрузок будущего.

Spyre включает 32 ядра ускорителей и 25.6 миллиарда транзисторов, производясь по 5-нм технологии. Чипы могут быть установлены на PCIe-карты, которые можно объединять для увеличения вычислительных мощностей.
Архитектура чипа оптимизирована для выполнения матричных операций, что энергоэффективней по сравнению с традиционными процессорами.
IBM планирует дальнейшую разработку Spyre с учетом возможности обучения моделей ИИ на своих мейнфреймах.
research.ibm.com

✔️ Google представляет GameNGen, первый игровой движок, полностью основанный на нейронных сетях.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤11🔥4

7.97K viewsedited 06:21

Machinelearning

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ CogVideoX: Модель CogVideoX-5B теперь в открытом доступе

Tsinghua University (THUDM) выложили в открытый доступ более крупную модель генерации Text-to-Video серии CogVideoX - CogVideoX-5B, которая ранее была доступна только по API.

Помимо публикации большей модели, значительно оптимизирована производительность вычислений обеих моделей: CogVideoX-2B и CogVideoX-5B, изменена лицензия у младшей 2B модели на Apache 2.0 License и усовершенствован код в репозитории на Github

Теперь вы можете запускать CogVideoX-2B на более ранних GPU, например GTX 1080TI и CogVideoX-5B на современных GPU, таких как RTX 3060.

📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование модели CogVideoX-2B: Apache 2.0 License.

📌Лицензирование модели CogVideoX-5B: CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 5.9K | Issues: 19 | Forks: 543]

@ai_machinelearning_big_data

#AI #Text2Video #Cogvideo #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21❤5🔥3🥰2

9.66K views09:02

Machinelearning

🌟Zamba2-mini: компактная и производительная модель с гибридной архитектурой.

Zamba2-mini - гибридная модель c 1.2B параметров, построенная из блоков state-space Mamba (SSM) и transformer.

Модель создана на общей архитектуре Zamba, но отличается от большей модели 2.7B тремя особенностями:

🟢добавлены rotary position embeddings;

🟢чередующиеся трансформерные блоки заменены одним общим;

🟢вместо LoRA на блоке MLP добавлены проекторы LoRA в блоки внимания.

Zamba2-mini использует токенизатор Mistral v0.1 и была предварительно обучена на 3 триллионах токенов текстовых данных и коде различных языков программирования, полученных из открытых веб-наборов данных, к которым был добавлен собственный корпу данных Zyda.

Впоследствии, на втором этапе Zamba2-mini была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.

Zamba2-mini показала в тестах результаты, сопоставимые с моделями с параметрами <2B и может конкурировать с некоторыми LLM большего размера.

Благодаря уникальной гибридной архитектуре SSM Zamba2-mini демонстрирует низкие задержки логического вывода и быструю генерацию при значительно меньшем потреблении VRAM, чем другие модели такой же плотности параметров на основе трансформеров.
Такие характеристики делает ее идеальной универсальной моделью для приложений на устройствах.

⚠️ Примечание: Zamba2-mini еще не полностью совместима со всеми фреймворками и инструментами HuggingFace.

Реализацию Zamba2-1.2B для Pytorch можно найти здесь.

▶️Локальная установка и инференс:

# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git

#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate

#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

▶️Для запуске на CPU - only, укажите use_mamba_kernels=False при загрузке модели с помощью AutoModelForCausalLM.from_pretrained.

📌Лицензирование : Apache 2.0 License.

🟡

Страница проекта

🟡

Arxiv

🟡

Модель

@ai_machinelearning_big_data

#AI #SLM #Mamba #ML #Zamba2mini

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤7🔥5😁3

10.1K views16:04

Machinelearning

⚡️ Новостной дайджест.

✔️ NVIDIA запускает NIM Agent Blueprints для предприятий, чтобы помочь им создать свой корпоративный ИИ.

Компания NVIDIA объявила о выпуске каталога готовых ИИ-решений под названием NVIDIA NIM Agent Blueprints, который позволит разработчикам создавать и развертывать генеративные ИИ-приложения для различных отраслей.

NIM Agent Blueprints представляет собой набор предварительно обученных, настраиваемых рабочих процессов, которые могут быть использованы для создания приложений для обслуживание клиентов, автоматизации рабочих процессов и извлечение данных из PDF-файлов.

NVIDIA также объявила о сотрудничестве с Accenture, Cisco, Dell Technologies, Deloitte, Hewlett Packard Enterprise, Lenovo, SoftServe и World Wide Technology, которые будут использовать NIM Agent Blueprints для создания и развертывания генеративных ИИ-приложений для своих клиентов.
nvidianews.nvidia.com

✔️ Claude.ai сделала доступной функцию Artifacts для всех пользователей.

Компания Claude.ai объявила о доступности функции Artifacts для всех пользователей, включая владельцев бесплатных, профессиональных и командных планов. Теперь пользователи могут создавать и просматривать Artifacts в мобильных приложениях для iOS и Android.
anthropic.com

✔️ Cerebras Inference: самый быстрый инференс для языковых моделей.

Компания Cerebras Systems представила сервис для инференса LLM, который показывает рекордную производительность и скорость. Движок, работающий на базе третьего поколения процессора Wafer Scale Engine, способен обрабатывать до 1800 токенов в секунду для модели Llama3.1 8B и до 450 токенов в секунду для модели Llama3.1 70B. Это в 20 раз быстрее, чем решения на базе графических процессоров NVIDIA.

Онлайн-сервис Cerebras предлагает лучшую цену в отрасли - 10 центов за миллион токенов для модели Llama 3.1 8B и 60 центов за миллион токенов для модели Llama 3 70B. Разработчикам уже доступен API для работы с сервисом.
В планах компании - поддержка моделей Llama3 405B и Mistral Large 2 в ближайшие недели.
cerebras.ai

✔️ Закрыта студия дополненной реальности MetaSpark.

Компания объявила о закрытии платформы MetaSpark для сторонних дополнений и контента с 14 января 2025 года. Это означает, что AR решения, созданные сторонними разработчиками, включая бренды и сообщество AR-создателей, больше не будут доступны.

Однако, AR инструменты, принадлежащие Meta, продолжат быть доступны пользователям во всех приложениях компании.
Это решение является частью дорожной карты по приоритезации продуктов, которые лучше всего будут отвечать будущим потребностям потребителей и бизнес-клиентов.
spark.meta.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤4🔥4

16.7K views07:14

Machinelearning

🌟LongVILA: Масштабирование VLM с длинным контекстом для обработки длинных видео.

LongVILA, полнофункциональное решение на основе LLaVA, разработанное NVLabs, для длинноконтекстных VLM, включающее программный набор, претрейн-моделей и разработку набора данных для обучения.

Программная реализация основывается на Multi-Modal Sequence Parallelism (MM-SP).
Это распределенный фреймворк для обучения и вывода, который предназначен для визуальных языковых моделей (VLM) с длинным контекстом. Он решает сложную задачу обработки огромных объемов данных и вычислений, необходимых для обучения и развертывания VLM на длинных видео.

Ядром MM-SP является двухэтапная стратегия шардинга и механизм 2D-внимания.
На первом этапе изображения равномерно распределяются по устройствам, обеспечивая сбалансированное кодирование изображений.
Второй этап включает в себя шардинг токенов уровня глобального зрения и текстовых входных данных с добавлением фиктивных токенов для совместимости с кольцевым вниманием.
Механизм 2D-внимания повышает эффективность в MM-SP, объединяя кольцевой стиль и стиль Улисса (Ulysses) последовательного параллелизма, используя внутриузловое общение All-2-All и межузловое общение P2P.

MM-SP распределяет вычислительную нагрузку по нескольким устройствам позволяя проводить обучение и вывод на чрезвычайно длинных последовательностях. Кроме того гибридная стратегия параллелизма минимизирует накладные расходы на связь еще больше улучшая пропускную способность обучения и сокращая время вывода.

Полный стек решения LongVILA расширяет число возможных кадров VILA в 128 раз (с 8 до 1024 кадров) и улучшает оценку аннотирования длинных видео с 2,00 до 3,26 (в 1,6 раза), демонстрируя 99,5% точности в 1400-кадровом видео (длина контекста 274k).

Претрейн модели основаны на Llama-3-8B и предназначены для рассуждений с использованием нескольких изображений и имеют навык визуальной цепочки мышления.
Опубликованы 3 модели:

🟢

Llama-3-LongVILA-8B-128Frames;

🟢

Llama-3-LongVILA-8B-256Frames;

🟢

Llama-3-LongVILA-8B-512Frames.

Эти модели были обучены на 53 миллионах пар "изображение-текст" и могут быть развернуты на конечных устройствах от Jetson Orin для FP16 версий до потребительских ноутбуков в квантованной 4-bit размерности через TinyChat.

📌Лицензирование кода : Apache 2.0 license.

📌Лицензирование моделей: CC-BY-NC-SA-4.0 license.

🟡

Arxiv

🟡

Набор моделей

🖥

Github [ Stars: 1.2K | Issues: 33 | Forks: 92]

@ai_machinelearning_big_data

#AI #NVLab #VLM #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤5🔥3

8.41K views09:52

Machinelearning

🌟 Eagle-X5: Обновление семейства MMLM от NVIDIA Research Projects.

Eagle - это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:

🟢

Eagle-X5-7B

🟢

Eagle-X5-13B

🟠

Eagle-X5-13B-Chat

Архитектура Eagle-X5:

🟠

LLM: Eagle-X5 использует Vicuna-v1.5-7B и Vicuna-v1.5-13B для создания текстовых ответов и рассуждений о визуальном вводе;

🟠

Vision Encoders: в моделях Eagle-X5 пять энкодеров, предварительно натренированы на различных задачах и разрешениях - CLIP, ConvNeXt, Pix2Struct, EVA-02 и SAM (Segment Anything);

🟠

Fusion Module: визуальные признаки, полученные от каждого энкодера, объединяются с помощью поканальной конкатенации;

🟠

Projection Layer: используется для проецирования обработанных визуальных признаков в пространство встраивания LLM.

Обучение модели Eagle-X5 проходит в три этапа:

🟢каждый vision encoder индивидуально настраивается с замороженной LLM методом next-token-prediction supervision. Этот этап приводит визуальные представления в соответствие с языковым пространством и устраняет искажения;

🟢проекционный слой тренируется парами изображение-текст для дальнейшего выравнивания визуального и языкового пространства;

🟢SFT-этап, на котором вся модель точно настраивается на основе мультимодальных наборов данных: пары изображение-текст, VQA и мультимодальных диалоговых наборах.

Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению - OCR и понимание документов.

Установка и запуск с GradioUI:

# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle

# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip  # enable PEP 660 support
pip install requirements

# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1