Forwarded from Machinelearning
olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах.
olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач.
Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема.
Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы.
В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.
poppler-utilssglang с flashinfer для GPU-инференса# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
# Set up a conda env
conda create -n olmocr python=3.11
conda activate olmocr
git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .
# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf
# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
@ai_machinelearning_big_data
#AI #ML #LLM #OCR #Olmocr
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Попробуйте модель по ссылке: Gemma 3 27B.
@ai_machinelearning_big_data
#gemma #ai #ml #release #google #
Please open Telegram to view this post
VIEW IN TELEGRAM
Мощный инструмент для документирования баз данных. Он анализирует структуру базы данных и автоматически генерирует красивую документацию в формате Markdown, HTML, JSON и других.
🔹 Основные возможности:
- Автоматический разбор схемы базы данных.
- Поддержка множества СУБД (PostgreSQL, MySQL, SQLite, MSSQL и др.).
- Генерация наглядных диаграмм и связей между таблицами.
- Возможность кастомизации документации.
- Интеграция с CI/CD для автоматического обновления документации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1
Визуализация пакетов PyPi — новый способ поиска библиотек
Если вы разрабатываете на Python, то наверняка используете PyPi. Мы нашли интересную визуализацию пакетов, которая делает процесс их изучения и поиска более удобным и наглядным.
✅ Графическая карта пакетов
✅ Удобный поиск и исследование зависимостей
✅ Возможность находить новые полезные библиотеки
📂 Исходный код и инструкции для воспроизведения тоже доступны.
https://fi-le.net/pypi/
Если вы разрабатываете на Python, то наверняка используете PyPi. Мы нашли интересную визуализацию пакетов, которая делает процесс их изучения и поиска более удобным и наглядным.
✅ Графическая карта пакетов
✅ Удобный поиск и исследование зависимостей
✅ Возможность находить новые полезные библиотеки
📂 Исходный код и инструкции для воспроизведения тоже доступны.
https://fi-le.net/pypi/
fi-le.net
fi-le.net, the Fiefdom of Files
👍6❤1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🧍 LHM: новая модель Alibaba для генерации 3D из единственного изображения.
Этот ИИ может превратить ЛЮБОЕ изображение в полный рост в анимированных 3D-персонажей за считанные секунды.
🟢 Основные моменты работы модели:
Выделение признаков: Из входного изображения извлекаются токены, описывающие как общую структуру тела, так и детали лица (с помощью схемы многоуровневого кодирования для головы).
🟢 Мультимодальный трансформер: С помощью архитектуры трансформера происходит объединение 3D-геометрических токенов тела с визуальными токенами изображения. Механизм внимания позволяет сохранять геометрию одежды и текстурные детали.
🟢 Декодирование в 3D: После слияния токенов модель быстро (в режиме feed-forward) декодирует их в параметры 3D-гaуссового распределения, которые задают форму и внешний вид анимируемого 3D-аватара.
⚡️ Модель выдает очень приличные генерации, видео выглядит плавно и естественно, особенно анимация лица и рук.
Установка:
📌 Лицензирование: Apache 2.0 License.
🟡 Github
🟡 Проект
🟡 Демка (периодически отваливается из-за наплыва пользователей)
🟡 Статья
🟡 Видео
@ai_machinelearning_big_data
#ml #opensource #3dgenerator #Alibaba
Этот ИИ может превратить ЛЮБОЕ изображение в полный рост в анимированных 3D-персонажей за считанные секунды.
Выделение признаков: Из входного изображения извлекаются токены, описывающие как общую структуру тела, так и детали лица (с помощью схемы многоуровневого кодирования для головы).
Установка:
git clone [email protected]:aigc3d/LHM.git
cd LHM@ai_machinelearning_big_data
#ml #opensource #3dgenerator #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2
Forwarded from Machinelearning
По сути это улучшенная альтернатива Jupyter.
Как работает Marimo?
▪️ При изменении значения переменной или взаимодействии с UI-элементом, Marimo автоматически выполняет все ячейки, зависящие от этой переменной, поддерживая консистентность кода и результатов.
Отличия от Jupyter:
▪️ Формат файлов: Marimo сохраняет блокноты как чистые Python-файлы (
.py), облегчая интеграцию с системами контроля версий, в отличие от Jupyter, использующего формат JSON (.ipynb). ▪️ Реактивность: В Marimo изменение данных автоматически обновляет все связанные ячейки, тогда как в Jupyter это требует ручного выполнения.
Основные преимущества Marimo:
▪️ Интерактивность: Встроенные UI-элементы, такие как слайдеры и выпадающие списки, синхронизируются с кодом без необходимости в дополнительных настройках.
▪️ Отсутствие скрытых состояний и детерминированный порядок выполнения обеспечивают надежность результатов.
▪️ Поддерживает возможность исполнять блокноты как скрипты, импортировать их в другие проекты и разворачивать как веб-приложения.
Marimo представляет собой мощный инструмент для разработчиков и исследователей, стремящихся к более эффективной и надежной работе с Python-блокнотами.
В галерее Marimo представлены блокноты на все случае жизни, созданные сообществом, демонстрирующие различные возможности и сценарии использования Marimo.
@ai_machinelearning_big_data
#marimo #ds #ml #tools #opensource #datascience
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2❤1
Forwarded from Machinelearning
Команда DeepSeek представила DeepSeek-GRM (Generalist Reward Modeling) - новую систему для моделирования вознаграждения (RM), цель которой - улучшить согласованность LLM с общими запросами (general query alignment).
DeepSeek-GRM предлагает новый масштабируемый способ построения более надежных и универсальных систем вознаграждения.
DeepSeek-GRM-27B с масштабированием во время инференса показывает SOTA (или близкие к SOTA) результаты на RM бенчмарках, будучи при этом эффективнее по параметрам, чем гигантские модели, и имея меньше проблем с систематическими ошибками.
LLM-as-a-Judge показывает схожие показатели, но с более низкой производительностью.
Это интересный вектор развития RM, переносящий часть "интеллекта" оценки на этап инференса для повышения качества моделей.
#LLM #AI #MachineLearning #RewardModeling #DeepSeek #ReinforcementLearning #NLP #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
полезная шпаргалка, после которой вы реально поймёте LLM
Что внутри шпаргалки:
— Архитектура трансформеров
— Механизмы внимания
— Обучение языковых моделей
— Позиционные эмбеддинги
— Разбор современных LLM
🔝 И многое другое, объяснённое максимально наглядно всего на 4 страницах!
https://github.com/afshinea/stanford-cme-295-transformers-large-language-models/blob/main/en/cheatsheet-transformers-large-language-models.pdf
Что внутри шпаргалки:
— Архитектура трансформеров
— Механизмы внимания
— Обучение языковых моделей
— Позиционные эмбеддинги
— Разбор современных LLM
🔝 И многое другое, объяснённое максимально наглядно всего на 4 страницах!
https://github.com/afshinea/stanford-cme-295-transformers-large-language-models/blob/main/en/cheatsheet-transformers-large-language-models.pdf
👍4❤1
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
Вебинар будет интересен как новичкам, так и уже опытным специалистам
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Модель поэтапно предсказывает следующий кадр или блок кадров, обеспечивая плавную и контролируемую генерацию. При этом FramePack позволяет создавать видео длительностью более 60 секунд.
Вместо хранения полного контекста он распределяет между кадрами разное число патч‑токенов и поддерживает общее количество токенов постоянным. Благодаря этому нагрузка остаётся O(1) относительно длины ролика — даже 13 B‑модель может генерировать тысячи кадров на обычной GPU.
Распределение «места» между кадрами задаётся расписанием (
FramePack Scheduling): линейным, экспоненциальным, равномерным или кастомным. Например, можно сделать первый кадр самым детальным для задач image‑to‑video или отдавать приоритет последним кадрам.Дополнительно применяется двусторонняя sampling‑схема — генерация кадров «вперёд‑назад»: модель чередует прямой и обратный проход по временной оси, что минимизирует накопление ошибок и сохраняет качество даже на полноценных минутных видео.
.
~2.5 с/кадр без оптимизаций
~1.5 с/кадр с TeaCache
O(1) по длине видео. Эти метрики делают FramePack одним из самых практичных решений для генерации длинных видео даже на относительно слабом железе.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM