🚀 SmolDocling-256M-preview: Компактная NLP-модель от IBM для работы с документами
SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов.
Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи.
▪Cохраняет контекст даже в документах на 10k+ токенов.
▪Специализация — обучена на корпусах документов (юридических, технических, медицинских).
▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3.
Работает на CPU и малом GPU (например, T4),
🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview
SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов.
Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи.
▪Cохраняет контекст даже в документах на 10k+ токенов.
▪Специализация — обучена на корпусах документов (юридических, технических, медицинских).
▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3.
Работает на CPU и малом GPU (например, T4),
🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview
❤9👍7🔥2
Синтетический набор данных, содержащий более 22 млн цепочек рассуждений для прометав общего назначения в различных областях.
Большой датасет, содержащих следы рассуждений для различных тем: связанных с кодом/математикой, социальных сферах и естественных наук и тд.
https://huggingface.co/datasets/glaiveai/reasoning-v1-20m
#dataset #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4❤3
🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA.
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
👍9❤4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤6👍2
🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper.
💬 1 Новая модель TTS - которой можно указать *как* ей говорить.
Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта.
🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов.
Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями.
📌 Потестить можно здесь: https://www.openai.fm/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍6🔥4
Оно позволяет пользователям выполнять семантический поиск по видео, получать точные временные метки и извлекать информацию из часов видеоматериалов за считанные секунды.
📌 Основные функции YT Navigator:
Семантический поиск: Возможность находить релевантные сегменты видео с точными временными метками на основе естественных языковых запросов.
Интерактивное общение: Пользователи могут "общаться" с содержимым канала, получая ответы на вопросы, основанные на транскриптах видео.
Экстракция информации: Быстрое извлечение ключевой информации из большого объёма видеоконтента, что экономит время и усилия при анализе материалов.
Преимущества использования YT Navigator:
Экономия времени: Быстрый доступ к конкретной информации без необходимости просмотра длительных видеороликов.
Удобство: Интуитивно понятный интерфейс и мощные функции делают процесс поиска и анализа видеоконтента более эффективным.
YT Navigator особенно полезен для исследователей, аналитиков и всех, кто работает с большими объёмами видеоданных, предоставляя инструменты для быстрого и точного анализа контента.
📌 Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤8🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ JARVIS-VLA – модель обучения масштабных моделей «визуально-языкового взаимодействия» (Vision Language Models) для игры с использованием клавиатуры и мыши.
Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.
▪ Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.
▪ Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.
▪ Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.
▪ HF
▪Статья
@data_analysis_ml
Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.
▪ Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.
▪ Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.
▪ Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.
▪ HF
▪Статья
@data_analysis_ml
👍10❤5🔥4
Media is too big
VIEW IN TELEGRAM
🔥 Tripo MCP Server
Основная функция tripo-mcp заключается в генерации 3D-объектов на основе текстовых описаний с использованием API Tripo и их импорте в Blender. Проект находится на стадии альфа-версии.
📌 Туториал: https://tripo3d.ai/blog/cursor-tripo-mcp-tutorial
📌 Github: https://github.com/VAST-AI-Research/tripo-mcp
@data_analysis_ml
#blendermcp #vibecoding #tripo3d
Основная функция tripo-mcp заключается в генерации 3D-объектов на основе текстовых описаний с использованием API Tripo и их импорте в Blender. Проект находится на стадии альфа-версии.
📌 Туториал: https://tripo3d.ai/blog/cursor-tripo-mcp-tutorial
📌 Github: https://github.com/VAST-AI-Research/tripo-mcp
@data_analysis_ml
#blendermcp #vibecoding #tripo3d
👍9❤5🔥3❤🔥1
Лучший способ изучить PyTorch — создать что-нибудь с его помощью на практике.
В этом блоге представлен пошаговый гайд по написанию трансформерам с помощью PyTorch с нуля.
📌 Гайд
📌 Что под капотом у PyTorch
📌Видео объяснения базы по тензорам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍8🔥4
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥3🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Alibaba только что выпустила TaoAvatar на Hugging Face
Реалистичные говорящие аватары в полный рост для дополненной реальности с помощью 3D-гауссовых сплатов.
Он обеспечивает точное управление мимикой и движениями, работая в реальном времени даже на мобильных устройствах.
Метод использует нейросетевую дистилляцию, достигая 90 FPS на Apple Vision Pro.
🟡 Проект
🟡 Статья
🟡 Видео
🟡 Демка
@data_analysis_ml
Реалистичные говорящие аватары в полный рост для дополненной реальности с помощью 3D-гауссовых сплатов.
Он обеспечивает точное управление мимикой и движениями, работая в реальном времени даже на мобильных устройствах.
Метод использует нейросетевую дистилляцию, достигая 90 FPS на Apple Vision Pro.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤4🔥3😐1