🔍 OCR-2.0 на подходе, генеративный ИИ и мультимодальные LLM станут его основой!
GOT (General OCR Theory) - это модель 580M OCR-2.0, превосходящая все существующие методы оптического распознавания символов.
GOT состоит из Vision-Encoder для преобразования изображений в трансформеры изображений, а затем токены и для распознавания OCR в различных форматах (например,
GOT разработан для обработки сложных документов, таких как громадные таблици, формулы и геометрические фигуры.
Реализация
1️⃣Vision Предварительное обучение кодировщика: Кодировщик VitDet
2️⃣ Совместное обучение: Кодер соединен с декодером (Qwen-0.5B),
3️⃣ Фантюнинг модели на конкретных задачах
🧠 Encoder-Decoder с 80 М (VitDet) и 500 М (Qwen2) с контекстом 8k
🥇Достигает 0,035 Расстояние Левенштейна (метрика, измеряющая по модулю разность между двумя последовательностями символов.) и оценка BLEU 0,972 для обычного OCR
📊 Превосходит LLaVA-NeXT и Qwen-VL-Max в распознавании текстов документов и сцен
🧮 Может извлекать формулы LaTeX из Arxiv и конвертировать их в формат Mathpix
📃 Поддерживает динамическое разрешение и многостраничный OCR
🖼️ Принимает разрешение до 1024x1024
▪Статья: https://huggingface.co/papers/2409.01704
▪ Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0
@data_analysis_ml
GOT (General OCR Theory) - это модель 580M OCR-2.0, превосходящая все существующие методы оптического распознавания символов.
GOT состоит из Vision-Encoder для преобразования изображений в трансформеры изображений, а затем токены и для распознавания OCR в различных форматах (например,
обычный
текст, markdown, Mathpix
). GOT разработан для обработки сложных документов, таких как громадные таблици, формулы и геометрические фигуры.
Реализация
1️⃣Vision Предварительное обучение кодировщика: Кодировщик VitDet
2️⃣ Совместное обучение: Кодер соединен с декодером (Qwen-0.5B),
3️⃣ Фантюнинг модели на конкретных задачах
🧠 Encoder-Decoder с 80 М (VitDet) и 500 М (Qwen2) с контекстом 8k
🥇Достигает 0,035 Расстояние Левенштейна (метрика, измеряющая по модулю разность между двумя последовательностями символов.) и оценка BLEU 0,972 для обычного OCR
📊 Превосходит LLaVA-NeXT и Qwen-VL-Max в распознавании текстов документов и сцен
🧮 Может извлекать формулы LaTeX из Arxiv и конвертировать их в формат Mathpix
📃 Поддерживает динамическое разрешение и многостраничный OCR
🖼️ Принимает разрешение до 1024x1024
▪Статья: https://huggingface.co/papers/2409.01704
▪ Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0
@data_analysis_ml
👍16🔥6❤4
This media is not supported in your browser
VIEW IN TELEGRAM
🪨 Google представляет GenMS: генеративный иерархический поиск материалов
Инструмент для управляемой генерации кристаллических структур.
GenMS использует графическую нейронную сеть для прогнозирования свойств (например, энергии образования) генерируемых кристаллических структур.
Эксперименты показывают, что GenMS превосходит другие альтернативыные модели для генераций как в удовлетворении запросов пользователей, так и в генерации новых низкоэнергетических структур.
GenMS способна генерировать обычные кристаллические структуры, такие как двойные перовскиты (сравнительно редкий для поверхности Земли минерал, титанат кальция. Эмпирическая формула: CaTiO3. Был впервые обнаружен в 1839 году на Урале; назван в честь русского государственного и военного деятеля сенатора Льва Перовского) или шпинели (минерал кубической сингонии, смешанный оксид магния и алюминия MgAl2O4. Бывает окрашен минеральными примесями в различные цвета: бурый, чёрный, розовый, красный, синий.), исключительно на основе данных естественного языка и, следовательно, может стать основой для создания более сложных структур для изучения.
▪проект: https://generative-materials.github.io/genms/
▪abs: https://arxiv.org/abs/2409.06762
@data_analysis_ml
Инструмент для управляемой генерации кристаллических структур.
GenMS использует графическую нейронную сеть для прогнозирования свойств (например, энергии образования) генерируемых кристаллических структур.
Эксперименты показывают, что GenMS превосходит другие альтернативыные модели для генераций как в удовлетворении запросов пользователей, так и в генерации новых низкоэнергетических структур.
GenMS способна генерировать обычные кристаллические структуры, такие как двойные перовскиты (сравнительно редкий для поверхности Земли минерал, титанат кальция. Эмпирическая формула: CaTiO3. Был впервые обнаружен в 1839 году на Урале; назван в честь русского государственного и военного деятеля сенатора Льва Перовского) или шпинели (минерал кубической сингонии, смешанный оксид магния и алюминия MgAl2O4. Бывает окрашен минеральными примесями в различные цвета: бурый, чёрный, розовый, красный, синий.), исключительно на основе данных естественного языка и, следовательно, может стать основой для создания более сложных структур для изучения.
▪проект: https://generative-materials.github.io/genms/
▪abs: https://arxiv.org/abs/2409.06762
@data_analysis_ml
👍12❤3🔥3
Agent Workflow Memory
Интрумент, который значительно улучшает базовые результаты агентов на 24,6 % и 51,1 % относительного показателя успешности на бенчмарках
репозиторий: https://github.com/zorazrw/agent-workflow-memory
abs: https://arxiv.org/abs/2409.07429
@data_analysis_ml
Интрумент, который значительно улучшает базовые результаты агентов на 24,6 % и 51,1 % относительного показателя успешности на бенчмарках
Mind2Web и WebArena
, уменьшая при этом количество шагов, необходимых для успешного решения задач.репозиторий: https://github.com/zorazrw/agent-workflow-memory
abs: https://arxiv.org/abs/2409.07429
@data_analysis_ml
👍7❤2🔥1
Forwarded from Machinelearning
⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o,
Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.
Заявлено, что модель будет сильно лучше писать код и понимать физику мира
Тот самый секретны проект, над которым так долго работала компания.
Доступ обещают дать уже сегодня.
@ai_machinelearning_big_data
#openai #chatgpt
Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.
Заявлено, что модель будет сильно лучше писать код и понимать физику мира
Тот самый секретны проект, над которым так долго работала компания.
Доступ обещают дать уже сегодня.
@ai_machinelearning_big_data
#openai #chatgpt
👍22🔥11❤8🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 ALOHA Unleashed для выполнения задач манипулирования двумя руками
🦾 DemoStart для управления роботизированной рукой.
Они научились выполнять целый ряд действий, требующих ловкости рук.
🧵Релиз: https://deepmind.google/discover/blog/advances-in-robot-dexterity/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍5❤4
Forwarded from Machinelearning
Новостной дайджест
✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках.
Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.
Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.
Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com
✔️ Audible планирует создавать голосовые копии дикторов аудиокниг.
Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.
В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com
✔️ ell: Библиотека программирования LLM.
ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.
Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной.
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.
Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so
✔️ Loopy: генеративная модель портретного видео на основе аудио.
Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.
Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io
✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG.
В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.
Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com
@ai_machinelearning_big_data
#news #ai #ml
Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.
Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.
Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com
Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.
В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com
ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.
Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной.
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.
Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so
Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.
Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io
В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.
Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Инструмент для оценки мультимодальных агентов Работающих с ОС Windows
Windows Agent Arena: среда, ориентированная исключительно на Windows, где агенты могут свободно работать в реальных задачах и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, которые доступны пользователям при работе.
Это адаптарованный фреймворк OSWorld (Xie et al., 2024) для создания 150+ разнообразных задач Windows в различных областях, требующих от агентов способностей к планированию, пониманию происходящего на экране пк и применение инструментов для реальных задач.
huggingface.co/papers/2409.08264
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤4👍2
GOT (General OCR Theory) - 580M модель OCR-2.0, которая теперь доступна на
▪ Модель: https://huggingface.co/ucaslcl/GOT-OCR2_0
▪ Github: https://github.com/Ucas-HaoranWei/GOT-OCR2.0/
@data_analysis_ml
▪ Модель: https://huggingface.co/ucaslcl/GOT-OCR2_0
▪ Github: https://github.com/Ucas-HaoranWei/GOT-OCR2.0/
@data_analysis_ml
❤6👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Крутой домашний клестер: Llama 3.1 405B работает распределенно на 2х макбуках.
https://github.com/exo-explore/exo
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🥴10❤6🔥3🥱2🌭1
⚡️ SkillNer - это модуль NLP для автоматического извлечения HR данных из неструктурированных объявлений о работе, текстов и резюме соискателей.
Извлечение необходимой информации о стеке разработчиков из объявлений о вакансиях, резюме и любого другого неструктурированного текста может занимать много времени и сил, если делать это вручную.
Этот инструмент может быть полезен:
- Рекрутерам для автоматизации извлечения для ускорения отбора кандидатов.
- Специалистам по исследованию данных для извлечения структурированных данных из неструктурированного текста, связанного с работой.
SkillNER автоматизирует этот процесс, делая пирсинг быстрым и эффективным.
Вот небольшой пример:
📘 Github
🚀 Demo
🌟 Docs
@data_analysis_ml
pip install skillNer
Извлечение необходимой информации о стеке разработчиков из объявлений о вакансиях, резюме и любого другого неструктурированного текста может занимать много времени и сил, если делать это вручную.
Этот инструмент может быть полезен:
- Рекрутерам для автоматизации извлечения для ускорения отбора кандидатов.
- Специалистам по исследованию данных для извлечения структурированных данных из неструктурированного текста, связанного с работой.
SkillNER автоматизирует этот процесс, делая пирсинг быстрым и эффективным.
Вот небольшой пример:
python
import spacy
from spacy.matcher import PhraseMatcher
from skillNer.general_params import SKILL_DB
from skillNer.skill_extractor_class import SkillExtractor
# Load the spaCy model
nlp = spacy.load("en_core_web_lg")
# Initialize the SkillExtractor
skill_extractor = SkillExtractor(nlp, SKILL_DB, PhraseMatcher)
# Sample job description
job_description = """
You are a data scientist with strong expertise in Python. You have solid experience in
data analysis and visualization, and can manage end-to-end data science projects.
You quickly adapt to new tools and technologies, and are fluent in both English and SQL.
"""
# Extract skills from the job description
annotations = skill_extractor.annotate(job_description)
annotations
📘 Github
🚀 Demo
🌟 Docs
@data_analysis_ml
👍16❤9🤣4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🫦 Pose Talk - это мощный метод синхронизации губ, который позволяет создавать видеоролики с говорящей головой из одного изображения, аудио и текстовых подсказок.
https://junleen.github.io/projects/posetalk
@data_analysis_ml
https://junleen.github.io/projects/posetalk
@data_analysis_ml
👍11❤4🔥3
Andrew Ng только что выпустили два свежих курса по AI Python для начинающих!
В курсе учат, как писать код с использованием ИИ.
Если вы подумываете о том, чтобы научиться писать код, то сейчас самое подходящее время для этого.
https://deeplearning.ai/short-courses/ai-python-for-beginners/
@data_analysis_ml
В курсе учат, как писать код с использованием ИИ.
Если вы подумываете о том, чтобы научиться писать код, то сейчас самое подходящее время для этого.
https://deeplearning.ai/short-courses/ai-python-for-beginners/
@data_analysis_ml
👍20❤8🔥6
- Оптимизирована для ролевых игр, RAG QA и вызова функций на английском языке.
- Поддерживает контекст длиной 4 096 лексем.
- Разрешено коммерческое использование
🌟 Подробнее про Nemotron
Это доработанная версия nvidia's Minitron-4B-Base, которая была обрезана(прунинг) и соборно из Nemotron-4 15B с помощью техники сжатия LLM.
https://huggingface.co/nvidia/Nemotron-Mini-4B-Instruct
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4🔥4
Он улавливает уникальные особенности письма и хорошо работает на нескольких языках.
https://github.com/dailenson/One-DM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤7🔥6
🔥 g1: Using Llama-3.1 70b on Groq to create o1-like reasoning chains
Прототип g1, в котором показано использование Llama-3.1 70B на платформе Groq для формирования цепочек выводов, схожих с теми, что используются в o1 Open AI.
В отличие от o1, в g1 представлены все элементы рассуждений посредством использования открытой модели, что стимулирует сообщество open source к разработке новых стратегий.
Данный эксперимент демонстрирует продуктивность пошаговых рассуждений при таком подходе, хотя g1 не достигает таких высоких результатов в сложных задачах, как o1, которая использует масштабное обучение с подкреплением.
https://github.com/bklieger-groq/g1
@data_analysis_ml
Прототип g1, в котором показано использование Llama-3.1 70B на платформе Groq для формирования цепочек выводов, схожих с теми, что используются в o1 Open AI.
В отличие от o1, в g1 представлены все элементы рассуждений посредством использования открытой модели, что стимулирует сообщество open source к разработке новых стратегий.
Данный эксперимент демонстрирует продуктивность пошаговых рассуждений при таком подходе, хотя g1 не достигает таких высоких результатов в сложных задачах, как o1, которая использует масштабное обучение с подкреплением.
https://github.com/bklieger-groq/g1
@data_analysis_ml
1❤15👍5🔥2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
- Полноценный анализ данных
- Copilot генерирует Python скрипты
- Excel выполняет код, чтобы вывести результат.
И все это без необходимости формулы.
Только естественный язык.
Супер легкий анализ и визуализация данных.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50🔥16❤6🥱5❤🔥1