⚡️ Remade Effects — это интерактивный проект Spaces от Remade-AI, который демонстрирует возможности генеративного ИИ для создания креативных эффектов на изображениях.
▪ Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели.
▪ Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров.
▪ Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна.
https://huggingface.co/spaces/Remade-AI/remade-effects
@data_analysis_ml
▪ Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели.
▪ Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров.
▪ Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна.
https://huggingface.co/spaces/Remade-AI/remade-effects
@data_analysis_ml
👍4🔥2
Forwarded from Machinelearning
Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0 🔥
🟡 HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
🟡 Post: https://mistral.ai/news/mistral-small-3-1/
@ai_machinelearning_big_data
#mistral #llm #mistralsmall
@ai_machinelearning_big_data
#mistral #llm #mistralsmall
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤4👍4
Multimodal-SAE 🚀
Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные.
▪️ Для кого?
▪ Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA).
▪ Исследователи, изучающие интерпретируемость нейросетей.
▪ Инженеры, которым нужно оптимизировать мультимодальные модели.
▪️ Чем полезен?
▪ Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций.
▪ Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели.
▪ Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs.
▪ Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.).
▪️ Преимущества перед аналогами
▪Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений.
▪Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными.
▪Универсальность — поддерживает CV, NLP, Speech в одном фреймворке.
▪Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps).
P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей!
📌 Github
📌 Paper
@data_analysis_ml
Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные.
▪️ Для кого?
▪ Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA).
▪ Исследователи, изучающие интерпретируемость нейросетей.
▪ Инженеры, которым нужно оптимизировать мультимодальные модели.
▪️ Чем полезен?
▪ Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций.
▪ Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели.
▪ Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs.
▪ Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.).
▪️ Преимущества перед аналогами
▪Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений.
▪Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными.
▪Универсальность — поддерживает CV, NLP, Speech в одном фреймворке.
▪Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps).
P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей!
📌 Github
📌 Paper
@data_analysis_ml
👍5❤4🔥3
Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.
1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.
Модель 32B, которая по размеру равна примерно 5% от размера DeepSeek r1, превосходит ее почти на всех бенчмарках.
Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LG #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤3👍2
🚀 SmolDocling-256M-preview: Компактная NLP-модель от IBM для работы с документами
SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов.
Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи.
▪Cохраняет контекст даже в документах на 10k+ токенов.
▪Специализация — обучена на корпусах документов (юридических, технических, медицинских).
▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3.
Работает на CPU и малом GPU (например, T4),
🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview
SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов.
Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи.
▪Cохраняет контекст даже в документах на 10k+ токенов.
▪Специализация — обучена на корпусах документов (юридических, технических, медицинских).
▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3.
Работает на CPU и малом GPU (например, T4),
🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview
❤9👍7🔥2
Синтетический набор данных, содержащий более 22 млн цепочек рассуждений для прометав общего назначения в различных областях.
Большой датасет, содержащих следы рассуждений для различных тем: связанных с кодом/математикой, социальных сферах и естественных наук и тд.
https://huggingface.co/datasets/glaiveai/reasoning-v1-20m
#dataset #Reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4❤3
🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA.
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
👍9❤4🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤6👍2
🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper.
💬 1 Новая модель TTS - которой можно указать *как* ей говорить.
Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта.
🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов.
Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями.
📌 Потестить можно здесь: https://www.openai.fm/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍6🔥4
Оно позволяет пользователям выполнять семантический поиск по видео, получать точные временные метки и извлекать информацию из часов видеоматериалов за считанные секунды.
📌 Основные функции YT Navigator:
Семантический поиск: Возможность находить релевантные сегменты видео с точными временными метками на основе естественных языковых запросов.
Интерактивное общение: Пользователи могут "общаться" с содержимым канала, получая ответы на вопросы, основанные на транскриптах видео.
Экстракция информации: Быстрое извлечение ключевой информации из большого объёма видеоконтента, что экономит время и усилия при анализе материалов.
Преимущества использования YT Navigator:
Экономия времени: Быстрый доступ к конкретной информации без необходимости просмотра длительных видеороликов.
Удобство: Интуитивно понятный интерфейс и мощные функции делают процесс поиска и анализа видеоконтента более эффективным.
YT Navigator особенно полезен для исследователей, аналитиков и всех, кто работает с большими объёмами видеоданных, предоставляя инструменты для быстрого и точного анализа контента.
📌 Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤8🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ JARVIS-VLA – модель обучения масштабных моделей «визуально-языкового взаимодействия» (Vision Language Models) для игры с использованием клавиатуры и мыши.
Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.
▪ Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.
▪ Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.
▪ Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.
▪ HF
▪Статья
@data_analysis_ml
Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.
▪ Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.
▪ Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.
▪ Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.
▪ HF
▪Статья
@data_analysis_ml
👍10❤5🔥4
Media is too big
VIEW IN TELEGRAM
🔥 Tripo MCP Server
Основная функция tripo-mcp заключается в генерации 3D-объектов на основе текстовых описаний с использованием API Tripo и их импорте в Blender. Проект находится на стадии альфа-версии.
📌 Туториал: https://tripo3d.ai/blog/cursor-tripo-mcp-tutorial
📌 Github: https://github.com/VAST-AI-Research/tripo-mcp
@data_analysis_ml
#blendermcp #vibecoding #tripo3d
Основная функция tripo-mcp заключается в генерации 3D-объектов на основе текстовых описаний с использованием API Tripo и их импорте в Blender. Проект находится на стадии альфа-версии.
📌 Туториал: https://tripo3d.ai/blog/cursor-tripo-mcp-tutorial
📌 Github: https://github.com/VAST-AI-Research/tripo-mcp
@data_analysis_ml
#blendermcp #vibecoding #tripo3d
👍9❤5🔥3❤🔥1