Эта модель объединяет данные из различных источников (изображения, видео, данные о робототехнических манипуляциях и тд) и позволяет решать сложные задачи, требующие одновременной обработки текстовой, визуальной и пространственной информации.
Как работает Magma:
Для чего нужен:
@ai_machinelearning_big_data
#AI #ML #LLM #opensource #agents #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🔥19❤9👌5
This media is not supported in your browser
VIEW IN TELEGRAM
Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.
@ai_machinelearning_big_data
#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍34❤18😁9🤩2😨1
Warner Bros., Sony Pictures и Paramount меняют подход к защите контента: вместо удаления сгенерированных фейковых трейлеров на YouTube они настаивают на передаче им рекламных доходов. Например, Warner Bros. претендует на монетизацию роликов с использованием «Супермена», а Sony — трейлеров к «Человеку-пауку» и «Крейвену». Это стратегический шаг — студии видят в ИИ не только угрозу, но и источник прибыли, адаптируясь к цифровой реальности.
Технологии генерации контента упростили создание фейков, но теперь авторы таких видео рискуют лишиться заработка. Вместо привычных копирайт-страйков правообладатели используют систему Content ID, автоматически перенаправляя деньги себе. Пока неясно, как эта ситуация повлияет на кузнецов контента — возможно, им придется искать новые платформы или договариваться со студиями.
deadline.com
Manus AI анонсировала запуск мобильного приложения для iOS. Основной фишкой стал Sandbox с расширенным контекстом и мультимодальными функциями. Всю систему перевели на Claude 3.7 Sonnet, что повысило скорость и точность обработки задач.
После закрытого бета-тестирования Manus AI открыл доступ всем пользователям, предложив 3 тарифа: Free дает 1000 кредитов, Starter за $39/мес. - 3900 кредитов и 2 параллельных процесса , Pro-версия ($199/мес) - 19 900 кредитов, 5 задач одновременно + доступ к бета-функциям.
Manus AI в X (ex-Twitter)
Еврокомиссия планирует инвестировать 1,3 млрд. евро (1,4 млрд долларов) в ИИ, кибербезопасность и цифровые навыки в рамках программы "Цифровая Европа" в период с 2025 по 2027 год, говорится в заявлении, опубликованном в пятницу.
"Обеспечение технологического суверенитета Европы начинается с инвестирования в передовые технологии и предоставления людям возможности повысить свою цифровую компетентность", - заявила руководитель отдела цифровых технологий Европейской комиссии Хенна Вирккунен.
reuters.com
Обновленный VBench-2.0 от NTU S-Lab и Shanghai AI Lab переводит оценку ИИ-видео с «красивой картинки» на уровень глубинного понимания физики, анатомии и логики. Система проверяет 18 параметров — от движения камеры до правдоподобности бытовых сцен. VBench-2.0 в открытом доступе — можно тестировать свои модели, сравнивать результаты и влиять на развитие экосистемы.
github.com
Новый сервис Interests от Amazon использует ИИ, чтобы превратить хобби пользователей в высокоточные рекомендации. Система анализирует естественные запросы вроде «инструменты для варки кофе» или «деревянные головоломки», преобразуя их в поисковые параметры. Под капотом, возможно, задействована масштабированная версия модели Nova series Reasoning — хотя компания пока не раскрывает детали.
Интересы можно детализировать: указать бюджет, материалы или цвета, а алгоритм будут непрерывно предлагать новые товары. Планируется, что сервис интегрируют в Alexa+ — следующее поколение ассистента, которое будет подключать специализированные ИИ-модули.
Пока функция доступна ограниченному кругу пользователей в США через мобильное приложение. Но если тесты пройдут успешно, Amazon масштабирует технологию, усиливая конкуренцию в сфере персонализированной коммерции.
aboutamazon.com
Ожидается, что во все модели будут добавлены новые инструменты и обновления.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54❤18🔥12❤🔥4🌚2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).
TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .
TripoSF
Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).
Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.
@ai_machinelearning_big_data
#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥22❤17🙏3🕊1
Пользуемся: https://gemini.google.com
@ai_machinelearning_big_data
#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥26❤12😐11
Основная цель инструмента - обеспечить "
temporal-grounded video understanding
", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.Как работает:
Chain-of-LoRA
", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.@ai_machinelearning_big_data
#agent #ai #ml #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍13❤12✍4🥰3
Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.
Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.
В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.
Для интеграции с Python используется пакет
xet-core,
написанный на Rust, который обрабатывает все низкоуровневые детали.Чтобы начать использовать Xet, установите дополнительную зависимость:
pip install -U huggingface_hub[hf_xet]
После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.
Доплнительно:
huggingface-cli delete-cache
получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size
).@ai_machinelearning_big_data
#huggingface #release #xet
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46❤12🔥6🥱1🍾1
Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.
Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!
Здесь можно найти платины на все случаи жизни:
•Автоматизация Браузера
• Облачные Платформы
• Командная Строка
• Коммуникации
• Базы данных
• Инструменты Разработчика
• Файловые Системы
• Финансы
• Игры
• Службы определения местоположения
• Маркетинг
• Мониторинг
• Поиск
• Спорт
• Путешествия И Транспорт
• Другие инструменты и интеграций
@ai_machinelearning_big_data
#mcp #ai #agents #awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍55🔥12❤8🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
Nova Micro, Lite и Pro, предоставляют быстрые и экономически эффективные решения для различных приложений.
Особо интересен агент Amazon Nova Act, обученный выполнять комплексные действия в браузере.
1) Агент может автономно управлять -браузером для выполнения задач, имитируя действия человека. 🌐
2) SDK для разработчиков: Поставляется с набором для разработки ПО (SDK), который позволит разработчикам создавать и тестировать собственные прототипы ИИ-агентов. 🧑💻
3) Интеграция с Alexa+: Эта технология станет основой для будущих продвинутых функций в улучшенном ИИ-ассистенте Amazon - Alexa+. 🗣️
4) Автоматизация задач: Nova Act способен выполнять реальные задачи, такие как заказ еды , бронирование столиков , покупки и многое другое.
5) Поддержка контроля человеком: Предусмотрена возможность вмешательства человека, когда это необходимо, для повышения надежности и управляемости. 🧑💼
6) Оптимизация производительности: Amazon утверждает, что во внутренних тестах Nova Act превосходит все конкурирующие решения, такие как Operator от OpenAI и Computer Use от Anthropic. Например, в ScreenSpot Web Text, который измеряет, как агент ИИ взаимодействует с текстом на экране. Nova Act набрал 94 %, превзойдя CUA OpenAI (88 %) и Claude 3.7 Sonnet от Anthropic (90 %).
Верим?)
SDK Nova Act доступен в превью режиме здесь.
#Amazon #NovaAct #AIAgent #Alexa #TechNews #Automation #SDK
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32❤13🔥7🤔4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Авито развивает собственные генеративные модели: A-Vibe и A-Vision
Авито представил уникальное семейство генеративных моделей — A-Vibe и A-Vision, созданные на базе нейросети Qwen2.5 с 7 миллиардами параметров. Их разработали специально для задач, связанных с покупкой и продажей товаров, что делает их особенно полезными для классифайдов.
📋 Что умеют эти модели?
🟡A-Vibe — текстовая модель, которая создает продающие описания товаров и помогает в общении между пользователями.
🟡A-Vision — мультимодальная нейросеть, работающая с изображениями и текстом. Она анализирует визуальные характеристики товаров, распознает текст на фотографиях и улучшает качество изображений.
Компания представила генеративные модели в рамках новой стратегии, посвященной внедрению искусственного интеллекта. В соответствии с ней до 2028 года Авито собирается инвестировать порядка 12 млрд рублей в технологии GenAI и получить более 21 млрд рублей прибыли.
@ai_machinelearning_big_data
#ai #ml #avito
Авито представил уникальное семейство генеративных моделей — A-Vibe и A-Vision, созданные на базе нейросети Qwen2.5 с 7 миллиардами параметров. Их разработали специально для задач, связанных с покупкой и продажей товаров, что делает их особенно полезными для классифайдов.
📋 Что умеют эти модели?
🟡A-Vibe — текстовая модель, которая создает продающие описания товаров и помогает в общении между пользователями.
🟡A-Vision — мультимодальная нейросеть, работающая с изображениями и текстом. Она анализирует визуальные характеристики товаров, распознает текст на фотографиях и улучшает качество изображений.
Компания представила генеративные модели в рамках новой стратегии, посвященной внедрению искусственного интеллекта. В соответствии с ней до 2028 года Авито собирается инвестировать порядка 12 млрд рублей в технологии GenAI и получить более 21 млрд рублей прибыли.
@ai_machinelearning_big_data
#ai #ml #avito
👍48❤12🔥8🤣8😴4🗿4😁2
🏥 Что MedAgentSim -
Это открытая симуляция больницы, где ИИ-агенты на базе LLM играют роли врачей и пациентов, ведут диалоги, ставят диагнозы, запрашивают анализы и учатся на своих ошибках.
Всё происходит автоматически, как в игре или симуляторе.
🌟 Чем отличается от обычных ИИ-медицинских систем?
1. Реализм (а не просто ответы на вопросы):
Обычные датасеты типа "вопрос — ответ" (QA) статичны.
А тут врач-агент:
ведёт многоголовую консультацию,
сам решает, какие тесты назначить (например, ЭКГ, рентген),постепенно уточняет диагноз.
2. Самообучение через память и размышления:
Система запоминает успешные и неудачные случаи.
При ошибках агент запускает "рефлексию" — анализирует, что пошло не так, и учится на ошибках.
Использует память и рассуждения в стиле chain-of-thought (цепочки мыслей).
3. Можно управлять вручную:
По желанию вы можете взять на себя роль врача или пациента.
Всё это работает на игровом движке (Phaser), агенты ходят по 2D-карте, взаимодействуют с инструментами и разговаривают.
4. Работает лучше аналогов:
Сильно превосходит стандартные модели на тестах NEJM, MedQA, MIMIC-IV, особенно если подключить LLaVA (модель, которая "понимает" медицинские изображения).
5. Фокус на анализ предвзятости:
Проверяли, как модели справляются с задачами в условиях когнитивных и имплицитных (скрытых) предубеждений.
GPT-4o и LLaMA оказались надёжнее, чем, например, Mixtral.
Если коротко:
Забавный проект, по сути MedAgentSim — это умный симулятор больницы с ИИ-врачами, которые взаимодействуют как в реальной жизни, учатся на опыте и даже умеют анализировать свои ошибки.
🟡 Paper
🟡 Project
🟡 Github
@ai_machinelearning_big_data
#ml #ai #aiagents #simulation #MedAgent
Это открытая симуляция больницы, где ИИ-агенты на базе LLM играют роли врачей и пациентов, ведут диалоги, ставят диагнозы, запрашивают анализы и учатся на своих ошибках.
Всё происходит автоматически, как в игре или симуляторе.
1. Реализм (а не просто ответы на вопросы):
Обычные датасеты типа "вопрос — ответ" (QA) статичны.
А тут врач-агент:
ведёт многоголовую консультацию,
сам решает, какие тесты назначить (например, ЭКГ, рентген),постепенно уточняет диагноз.
2. Самообучение через память и размышления:
Система запоминает успешные и неудачные случаи.
При ошибках агент запускает "рефлексию" — анализирует, что пошло не так, и учится на ошибках.
Использует память и рассуждения в стиле chain-of-thought (цепочки мыслей).
3. Можно управлять вручную:
По желанию вы можете взять на себя роль врача или пациента.
Всё это работает на игровом движке (Phaser), агенты ходят по 2D-карте, взаимодействуют с инструментами и разговаривают.
4. Работает лучше аналогов:
Сильно превосходит стандартные модели на тестах NEJM, MedQA, MIMIC-IV, особенно если подключить LLaVA (модель, которая "понимает" медицинские изображения).
5. Фокус на анализ предвзятости:
Проверяли, как модели справляются с задачами в условиях когнитивных и имплицитных (скрытых) предубеждений.
GPT-4o и LLaMA оказались надёжнее, чем, например, Mixtral.
Если коротко:
Забавный проект, по сути MedAgentSim — это умный симулятор больницы с ИИ-врачами, которые взаимодействуют как в реальной жизни, учатся на опыте и даже умеют анализировать свои ошибки.
@ai_machinelearning_big_data
#ml #ai #aiagents #simulation #MedAgent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76❤19🔥13
OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.
Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X
Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).
ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov
Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml
MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.
SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github
Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.
Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com
Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.
Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts
Модели легко импортируются в Blender.
Krea
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥23❤13❤🔥1