Clapper - это инструмент визуализации историй, разрабатываемый как пет-проект сотрудником Huggingface Julian Bilcke
Созданный год назад, Clapper не предназначен для замены традиционных видеоредакторов или AI-редакторов, использующих 3D-сцены в качестве исходного материала.
Философия Clapper заключается в том, чтобы каждый мог создавать видео с помощью GenAI-инструментов посредством интерактивного, итеративного и интуитивного процесса, без необходимости использования разных интерфейсов, навыков режиссуры или AI-инженерии.
В Clapper вы не редактируете последовательность видео- и аудиофайлов напрямую, а итерируете (с помощью вашего помощника ИИ) свою историю, используя высокоуровневые абстракции, такие как персонажи, места, погода, временной период, стиль и т. д.
Конечной целью проекта заявлен полностью режиссерский режим, с которым вы можете просто перевести видео в полноэкранный режим, удобно расположиться в режиссерском кресле (или на диване) и, произнося голосом команды своему AI-ассистенту для создания вашего фильма, насладитесь созданным лично Вами шедевром.
⚠️ Это альфа-версия инструмента, который разрабатывают 3 человека. Не стоит ожидать от этого открытого проекта революционных результатов.
Clapper поддерживает интеграцию по API с локальными системами (ComfyUI) и он-лайн сервисами:
HuggingFace, Replicate, ComfuICU, FalAI, ModelsLab, OpenAI, Groq, Google, Anthropic, Cohere, MistralAI, StabilityAI, ElevenLabs, KitsAI.
Проект написан на TypeScript. Необходимые условия перед установкой:
# Install the dependencies:
# --include=optional to make
# sure deps are installed
bun i
# build the app:
npm run build
# Running the web app:
bun run dev
# first time you go to localhost:3000
# Wait around 1 minute, the app will compile
cd packages/app
bun run electron:start
# You can also build Clapper:
cd packages/app
bun run electron:make
@ai_machinelearning_big_data
#AI #Storytelling #Clapper #Visialtool
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍18❤8
Экосистема Fluх развивается очень быстро, каждый день появляются новые способы, решения, возможности и инструменты для работы с моделями Fluх онлайн и оффлайн.
Теперь у сообщества FLUX появился обновляемый и упорядоченный Awesome FLUX!
https://awesomeflux.com/
@ai_machinelearning_big_data
#AI #FLUX #ML #Awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤6🔥4❤🔥2
Alibaba Group выпустила mPLUG-Owl3, общую мультимодальную модель на базе Qwen2, ориентированную на понимание нескольких изображений и длинных видео. По словам разработчиков, модель может проанализировать 2-часовой фильм всего за 4 секунды.
mPLUG-Owl3 сокращает время ожидания первого токена в 6 раз и увеличивает возможность обработки изображений, обрабатываемых одним GPU A100 до 400 штук в секунду.
Архитектура mPLUG-Owl3 состоит из визуального кодировщика, линейного проекционного слоя и декодера языковой модели.
Ключевая особенность mPLUG-Owl3 - блоки Hyper Attention Transformer (HATB), которые включают перекрестное внимание между визуальными и текстовыми признаками, благодаря чему модель адаптивно выбирает и извлекает релевантную визуальную информацию на основе текстовой семантики.
Технические характеристики модели:
# Clone repository
https://github.com/X-PLUG/mPLUG-Owl.git
# Navigate to OWL3 folder
cd mPLUG-Owl3
# Install the dependencies
pip install -r requirements.txt
# Execute the demo
python gradio_demo.py
@ai_machinelearning_big_data
#AI #OWL3 #MMLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤11🔥6🎉1
MoA использует несколько LLM для генерации ответов. На выходе получается ответ, который превосходит по качеству все предшествующие.
В рамках способа была создана многослойная структура с несколькими моделями на каждом слое. На вход подавали один вопрос, и каждый слой давал на него ответ. Затем полученные данные передавались на следующий слой, и всё повторялось.
@ai_machinelearning_big_data
#AI #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤6🔥4❤🔥3
Salesforce AI Research представила XGen-MM (BLIP-3) - коллекцию из 4 моделей на основе phi3-mini-instruct с улучшенным обучением и повышенной, согласно бенчмаркам претрейна, производительностью.
XGen-MM (BLIP-3) может использоваться в различных областях - от обработки естественного языка до компьютерного зрения. Он способен понимать сложные, мультимодальные входные данные, что делает его мощным инструментом для различных приложений, от виртуальных помощников до создания контента.
Набор моделей:
@ai_machinelearning_big_data
#AI #xGEN #LMM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤7🔥2
⚡️ Новостной дайджест
✔️ EX.CO представила систему рекомендаций видеоконтента на основе LLM для цифровых издателей.
Презентованная система позволяет издателям предоставлять аудитории наиболее релевантные видеоролики из банка видеоконтента в режиме реального времени, без ручного сопоставления текстовых данных с мультимедиа.
Система показала высокие результаты, достигнув 80% совпадения релевантности и 4-кратного увеличения вовлеченности аудитории по сравнению с отраслевыми стандартами. Среднее количество негативных взаимодействий с видеоплеером уменьшилось на 30-40%.
prnewswire.co.uk
✔️ Microsoft дпопнули Phi 3.5
- Phi-3,5-3,8B (Mini)
(обучался только на 3,4T токенах)
- Phi-3.5-16x3.8B (MoE)
(обученный только на 4,9Т токенов)
- Phi-3.5-V-4.2B (Vision) превосходит GPT-4o
Подробнее
✔️Модель HeAR от Google DeepMind выявляет заболевания с помощью анализа звука.
Google разработал биоакустическую модель под названием Health Acoustic Representations (HeAR), предназначенную для обнаружения заболеваний через анализ звуков. Модель была обучена на 300 миллионах аудиофайлов, включая 100 миллионов звуков кашля.
Индийская компания Salcit Technologies использует HeAR в своем приложении Swaasa для анализа кашля с целью раннего выявления туберкулеза.
HeAR демонстрирует высокую эффективность при меньшем объеме обучающих данных. Модель также может обнаруживать другие заболевания, такие как хроническая обструктивная болезнь легких и, потенциально деменцию.
blockonomi.com
✔️ Henrik.ai: мультиконтекстный сервис с ИИ для разработчиков.
Neuralogics представила платформу искусственного интеллекта Henrik которая упрощает процесс разработки программного обеспечения. Пользователи могут создавать функциональные приложения всего лишь с помощью простого запроса.
Henrik.ai основан на концепции "мультиконтекстного интеллекта" которая использует сеть специально обученных AI-моделей для создания комплексных программных систем. Набор моделей позволяет сервису адаптироваться к различным контекстам и сценариям обеспечивая функциональность масштабируемость и безопасность.
Платформа также включает адаптивное обучение которое помогает сервису улучшаться на основе новых данных и взаимодействий с пользователями. Neuralogics акцентирует внимание на этичности и прозрачности решений.
devops.com
✔️ Новая система Парето от Recogni оптимизирует вычисления ИИ с минимальными потерями точности.
Компания Recogni Inc представила новую логарифмическую систему чисел под названием Pareto, которая оптимизирует вычисления ИИ при минимизации потери точности. Она решает проблемы, связанные с высокими вычислительными требованиями генеративных моделей которые требуют petaFLOPS операций.
Система преобразует умножения в сложения, снижает потребление энергии, задержку и размер чипа, сохраняет высокий уровень точности и достигает высокой производительности при значительно меньшем потреблении энергии.
Эта разработка позиционирует Recogni как лидера в области проектирования чипов, особенно для генеративных приложений, предоставляя решение которое балансирует производительность и эффективность без ущерба для качества модели.
siliconangle.com
✔️ DeepBrain AI в сотрудничестве с Национальным полицейским агентством Кореи представила решение для обнаружения дипфейков.
Сотрудничество государственного органа и частой компании направлены на борьбу с растущей угрозой преступлений, связанных с подменой личности, которые становятся все более сложными и представляют значительные риски для общества.
Система включает два основных компонента: комплексное и голосовое обнаружение. Она анализирует поведенческие паттерны, такие как углы наклона головы и движения губ, для определения подлинности изображаемого лица. Процесс обнаружения занимает от 5 до 10 минут, после чего контент классифицируется как "настоящий" или "фальшивый".
Система основана на данных, собранных DeepBrain AI, включая один миллион корейских и 130 тысяч азиатских данных.
Продукт доступен как SaaS, а также в виде локальной версии для организаций.
globenewswire.com
@ai_machinelearning_big_data
#news #ai #ml
Презентованная система позволяет издателям предоставлять аудитории наиболее релевантные видеоролики из банка видеоконтента в режиме реального времени, без ручного сопоставления текстовых данных с мультимедиа.
Система показала высокие результаты, достигнув 80% совпадения релевантности и 4-кратного увеличения вовлеченности аудитории по сравнению с отраслевыми стандартами. Среднее количество негативных взаимодействий с видеоплеером уменьшилось на 30-40%.
prnewswire.co.uk
- Phi-3,5-3,8B (Mini)
(обучался только на 3,4T токенах)
- Phi-3.5-16x3.8B (MoE)
(обученный только на 4,9Т токенов)
- Phi-3.5-V-4.2B (Vision) превосходит GPT-4o
Подробнее
✔️Модель HeAR от Google DeepMind выявляет заболевания с помощью анализа звука.
Google разработал биоакустическую модель под названием Health Acoustic Representations (HeAR), предназначенную для обнаружения заболеваний через анализ звуков. Модель была обучена на 300 миллионах аудиофайлов, включая 100 миллионов звуков кашля.
Индийская компания Salcit Technologies использует HeAR в своем приложении Swaasa для анализа кашля с целью раннего выявления туберкулеза.
HeAR демонстрирует высокую эффективность при меньшем объеме обучающих данных. Модель также может обнаруживать другие заболевания, такие как хроническая обструктивная болезнь легких и, потенциально деменцию.
blockonomi.com
Neuralogics представила платформу искусственного интеллекта Henrik которая упрощает процесс разработки программного обеспечения. Пользователи могут создавать функциональные приложения всего лишь с помощью простого запроса.
Henrik.ai основан на концепции "мультиконтекстного интеллекта" которая использует сеть специально обученных AI-моделей для создания комплексных программных систем. Набор моделей позволяет сервису адаптироваться к различным контекстам и сценариям обеспечивая функциональность масштабируемость и безопасность.
Платформа также включает адаптивное обучение которое помогает сервису улучшаться на основе новых данных и взаимодействий с пользователями. Neuralogics акцентирует внимание на этичности и прозрачности решений.
devops.com
Компания Recogni Inc представила новую логарифмическую систему чисел под названием Pareto, которая оптимизирует вычисления ИИ при минимизации потери точности. Она решает проблемы, связанные с высокими вычислительными требованиями генеративных моделей которые требуют petaFLOPS операций.
Система преобразует умножения в сложения, снижает потребление энергии, задержку и размер чипа, сохраняет высокий уровень точности и достигает высокой производительности при значительно меньшем потреблении энергии.
Эта разработка позиционирует Recogni как лидера в области проектирования чипов, особенно для генеративных приложений, предоставляя решение которое балансирует производительность и эффективность без ущерба для качества модели.
siliconangle.com
Сотрудничество государственного органа и частой компании направлены на борьбу с растущей угрозой преступлений, связанных с подменой личности, которые становятся все более сложными и представляют значительные риски для общества.
Система включает два основных компонента: комплексное и голосовое обнаружение. Она анализирует поведенческие паттерны, такие как углы наклона головы и движения губ, для определения подлинности изображаемого лица. Процесс обнаружения занимает от 5 до 10 минут, после чего контент классифицируется как "настоящий" или "фальшивый".
Система основана на данных, собранных DeepBrain AI, включая один миллион корейских и 130 тысяч азиатских данных.
Продукт доступен как SaaS, а также в виде локальной версии для организаций.
globenewswire.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤7🔥5
Голосовые реплики Алисы стали более живыми за счет расширения спектра эмоций. Теперь она может подбодрить, посочувствовать или порадоваться за собеседника. А еще менять оттенки эмоций в рамках одной реплики. Обновление уже доступно в Станциях Лайт 2.
В основе изменений Алисы лежит синтез эмоциональной речи. О том, как его создавали — со схемами и примерами — разработчики Яндекса рассказали в статье на Хабре.
#news #ml
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤8🔥5🤩1🙈1🗿1
Llama-3.1-Storm-8B - инструктивная модель, сочетающая в себе баланс размера и производительности, ориентированная на использование в приложениях и сервисах, генерацию текста, вызов функций и чат-ботов.
Модель обучалась на 1 миллионе высококачественных образцах из большого датасета (2.8M), отобранных вручную. Образцы оценивались на основе образовательной ценности и уровня сложности, чтобы модель могла получить релевантные и сложные данные в качестве тренировочной базы.
Полученный набор данных использовался для контролируемого файнтюна базовой Llama-3.1-8B-Instruct c применением методологии SPECTRUM. В завершении, полученная модель была объединена с моделью Llama-Spark методом сферической линейной интерполяции SLERP.
Локальный запуск Llama-3.1-Storm-8B поддерживается в Transformers, vLLM и LitGPT.
You are a function calling AI model.
You may call one or more functions to assist with the user query.
Don't make assumptions about what values to plug into function.
The user may use the terms function calling or tool use interchangeably.
Here are the available functions:
<tools>LIST_OF_TOOLS</tools>
For each function call return a json object with function name and arguments within <tool_call></tool_call> XML tags in the format:
<tool_call>{"tool_name": <function-name>, "tool_arguments": <args-dict>}</tool_call>
⚡️Лицензирование : Llama 3.1 Community License
▪Demo
▪Набор моделей
▪Google Collab (инференс)
@ai_machinelearning_big_data
#AI #Llama #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤5🔥5