This media is not supported in your browser
VIEW IN TELEGRAM
Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.
@ai_machinelearning_big_data
#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍34❤18😁9🤩2😨1
Warner Bros., Sony Pictures и Paramount меняют подход к защите контента: вместо удаления сгенерированных фейковых трейлеров на YouTube они настаивают на передаче им рекламных доходов. Например, Warner Bros. претендует на монетизацию роликов с использованием «Супермена», а Sony — трейлеров к «Человеку-пауку» и «Крейвену». Это стратегический шаг — студии видят в ИИ не только угрозу, но и источник прибыли, адаптируясь к цифровой реальности.
Технологии генерации контента упростили создание фейков, но теперь авторы таких видео рискуют лишиться заработка. Вместо привычных копирайт-страйков правообладатели используют систему Content ID, автоматически перенаправляя деньги себе. Пока неясно, как эта ситуация повлияет на кузнецов контента — возможно, им придется искать новые платформы или договариваться со студиями.
deadline.com
Manus AI анонсировала запуск мобильного приложения для iOS. Основной фишкой стал Sandbox с расширенным контекстом и мультимодальными функциями. Всю систему перевели на Claude 3.7 Sonnet, что повысило скорость и точность обработки задач.
После закрытого бета-тестирования Manus AI открыл доступ всем пользователям, предложив 3 тарифа: Free дает 1000 кредитов, Starter за $39/мес. - 3900 кредитов и 2 параллельных процесса , Pro-версия ($199/мес) - 19 900 кредитов, 5 задач одновременно + доступ к бета-функциям.
Manus AI в X (ex-Twitter)
Еврокомиссия планирует инвестировать 1,3 млрд. евро (1,4 млрд долларов) в ИИ, кибербезопасность и цифровые навыки в рамках программы "Цифровая Европа" в период с 2025 по 2027 год, говорится в заявлении, опубликованном в пятницу.
"Обеспечение технологического суверенитета Европы начинается с инвестирования в передовые технологии и предоставления людям возможности повысить свою цифровую компетентность", - заявила руководитель отдела цифровых технологий Европейской комиссии Хенна Вирккунен.
reuters.com
Обновленный VBench-2.0 от NTU S-Lab и Shanghai AI Lab переводит оценку ИИ-видео с «красивой картинки» на уровень глубинного понимания физики, анатомии и логики. Система проверяет 18 параметров — от движения камеры до правдоподобности бытовых сцен. VBench-2.0 в открытом доступе — можно тестировать свои модели, сравнивать результаты и влиять на развитие экосистемы.
github.com
Новый сервис Interests от Amazon использует ИИ, чтобы превратить хобби пользователей в высокоточные рекомендации. Система анализирует естественные запросы вроде «инструменты для варки кофе» или «деревянные головоломки», преобразуя их в поисковые параметры. Под капотом, возможно, задействована масштабированная версия модели Nova series Reasoning — хотя компания пока не раскрывает детали.
Интересы можно детализировать: указать бюджет, материалы или цвета, а алгоритм будут непрерывно предлагать новые товары. Планируется, что сервис интегрируют в Alexa+ — следующее поколение ассистента, которое будет подключать специализированные ИИ-модули.
Пока функция доступна ограниченному кругу пользователей в США через мобильное приложение. Но если тесты пройдут успешно, Amazon масштабирует технологию, усиливая конкуренцию в сфере персонализированной коммерции.
aboutamazon.com
Ожидается, что во все модели будут добавлены новые инструменты и обновления.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54❤18🔥12❤🔥4🌚2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).
TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .
TripoSF
Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).
Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.
@ai_machinelearning_big_data
#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥22❤17🙏3🕊1
Пользуемся: https://gemini.google.com
@ai_machinelearning_big_data
#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥26❤12😐11
Основная цель инструмента - обеспечить "
temporal-grounded video understanding
", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.Как работает:
Chain-of-LoRA
", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.@ai_machinelearning_big_data
#agent #ai #ml #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍13❤12✍4🥰3
Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.
Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.
В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.
Для интеграции с Python используется пакет
xet-core,
написанный на Rust, который обрабатывает все низкоуровневые детали.Чтобы начать использовать Xet, установите дополнительную зависимость:
pip install -U huggingface_hub[hf_xet]
После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.
Доплнительно:
huggingface-cli delete-cache
получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size
).@ai_machinelearning_big_data
#huggingface #release #xet
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46❤12🔥6🥱1🍾1
Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.
Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!
Здесь можно найти платины на все случаи жизни:
•Автоматизация Браузера
• Облачные Платформы
• Командная Строка
• Коммуникации
• Базы данных
• Инструменты Разработчика
• Файловые Системы
• Финансы
• Игры
• Службы определения местоположения
• Маркетинг
• Мониторинг
• Поиск
• Спорт
• Путешествия И Транспорт
• Другие инструменты и интеграций
@ai_machinelearning_big_data
#mcp #ai #agents #awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍55🔥12❤8🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
Nova Micro, Lite и Pro, предоставляют быстрые и экономически эффективные решения для различных приложений.
Особо интересен агент Amazon Nova Act, обученный выполнять комплексные действия в браузере.
1) Агент может автономно управлять -браузером для выполнения задач, имитируя действия человека. 🌐
2) SDK для разработчиков: Поставляется с набором для разработки ПО (SDK), который позволит разработчикам создавать и тестировать собственные прототипы ИИ-агентов. 🧑💻
3) Интеграция с Alexa+: Эта технология станет основой для будущих продвинутых функций в улучшенном ИИ-ассистенте Amazon - Alexa+. 🗣️
4) Автоматизация задач: Nova Act способен выполнять реальные задачи, такие как заказ еды , бронирование столиков , покупки и многое другое.
5) Поддержка контроля человеком: Предусмотрена возможность вмешательства человека, когда это необходимо, для повышения надежности и управляемости. 🧑💼
6) Оптимизация производительности: Amazon утверждает, что во внутренних тестах Nova Act превосходит все конкурирующие решения, такие как Operator от OpenAI и Computer Use от Anthropic. Например, в ScreenSpot Web Text, который измеряет, как агент ИИ взаимодействует с текстом на экране. Nova Act набрал 94 %, превзойдя CUA OpenAI (88 %) и Claude 3.7 Sonnet от Anthropic (90 %).
Верим?)
SDK Nova Act доступен в превью режиме здесь.
#Amazon #NovaAct #AIAgent #Alexa #TechNews #Automation #SDK
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32❤13🔥7🤔4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Авито развивает собственные генеративные модели: A-Vibe и A-Vision
Авито представил уникальное семейство генеративных моделей — A-Vibe и A-Vision, созданные на базе нейросети Qwen2.5 с 7 миллиардами параметров. Их разработали специально для задач, связанных с покупкой и продажей товаров, что делает их особенно полезными для классифайдов.
📋 Что умеют эти модели?
🟡A-Vibe — текстовая модель, которая создает продающие описания товаров и помогает в общении между пользователями.
🟡A-Vision — мультимодальная нейросеть, работающая с изображениями и текстом. Она анализирует визуальные характеристики товаров, распознает текст на фотографиях и улучшает качество изображений.
Компания представила генеративные модели в рамках новой стратегии, посвященной внедрению искусственного интеллекта. В соответствии с ней до 2028 года Авито собирается инвестировать порядка 12 млрд рублей в технологии GenAI и получить более 21 млрд рублей прибыли.
@ai_machinelearning_big_data
#ai #ml #avito
Авито представил уникальное семейство генеративных моделей — A-Vibe и A-Vision, созданные на базе нейросети Qwen2.5 с 7 миллиардами параметров. Их разработали специально для задач, связанных с покупкой и продажей товаров, что делает их особенно полезными для классифайдов.
📋 Что умеют эти модели?
🟡A-Vibe — текстовая модель, которая создает продающие описания товаров и помогает в общении между пользователями.
🟡A-Vision — мультимодальная нейросеть, работающая с изображениями и текстом. Она анализирует визуальные характеристики товаров, распознает текст на фотографиях и улучшает качество изображений.
Компания представила генеративные модели в рамках новой стратегии, посвященной внедрению искусственного интеллекта. В соответствии с ней до 2028 года Авито собирается инвестировать порядка 12 млрд рублей в технологии GenAI и получить более 21 млрд рублей прибыли.
@ai_machinelearning_big_data
#ai #ml #avito
👍48❤12🔥8🤣8😴4🗿4😁2
🏥 Что MedAgentSim -
Это открытая симуляция больницы, где ИИ-агенты на базе LLM играют роли врачей и пациентов, ведут диалоги, ставят диагнозы, запрашивают анализы и учатся на своих ошибках.
Всё происходит автоматически, как в игре или симуляторе.
🌟 Чем отличается от обычных ИИ-медицинских систем?
1. Реализм (а не просто ответы на вопросы):
Обычные датасеты типа "вопрос — ответ" (QA) статичны.
А тут врач-агент:
ведёт многоголовую консультацию,
сам решает, какие тесты назначить (например, ЭКГ, рентген),постепенно уточняет диагноз.
2. Самообучение через память и размышления:
Система запоминает успешные и неудачные случаи.
При ошибках агент запускает "рефлексию" — анализирует, что пошло не так, и учится на ошибках.
Использует память и рассуждения в стиле chain-of-thought (цепочки мыслей).
3. Можно управлять вручную:
По желанию вы можете взять на себя роль врача или пациента.
Всё это работает на игровом движке (Phaser), агенты ходят по 2D-карте, взаимодействуют с инструментами и разговаривают.
4. Работает лучше аналогов:
Сильно превосходит стандартные модели на тестах NEJM, MedQA, MIMIC-IV, особенно если подключить LLaVA (модель, которая "понимает" медицинские изображения).
5. Фокус на анализ предвзятости:
Проверяли, как модели справляются с задачами в условиях когнитивных и имплицитных (скрытых) предубеждений.
GPT-4o и LLaMA оказались надёжнее, чем, например, Mixtral.
Если коротко:
Забавный проект, по сути MedAgentSim — это умный симулятор больницы с ИИ-врачами, которые взаимодействуют как в реальной жизни, учатся на опыте и даже умеют анализировать свои ошибки.
🟡 Paper
🟡 Project
🟡 Github
@ai_machinelearning_big_data
#ml #ai #aiagents #simulation #MedAgent
Это открытая симуляция больницы, где ИИ-агенты на базе LLM играют роли врачей и пациентов, ведут диалоги, ставят диагнозы, запрашивают анализы и учатся на своих ошибках.
Всё происходит автоматически, как в игре или симуляторе.
1. Реализм (а не просто ответы на вопросы):
Обычные датасеты типа "вопрос — ответ" (QA) статичны.
А тут врач-агент:
ведёт многоголовую консультацию,
сам решает, какие тесты назначить (например, ЭКГ, рентген),постепенно уточняет диагноз.
2. Самообучение через память и размышления:
Система запоминает успешные и неудачные случаи.
При ошибках агент запускает "рефлексию" — анализирует, что пошло не так, и учится на ошибках.
Использует память и рассуждения в стиле chain-of-thought (цепочки мыслей).
3. Можно управлять вручную:
По желанию вы можете взять на себя роль врача или пациента.
Всё это работает на игровом движке (Phaser), агенты ходят по 2D-карте, взаимодействуют с инструментами и разговаривают.
4. Работает лучше аналогов:
Сильно превосходит стандартные модели на тестах NEJM, MedQA, MIMIC-IV, особенно если подключить LLaVA (модель, которая "понимает" медицинские изображения).
5. Фокус на анализ предвзятости:
Проверяли, как модели справляются с задачами в условиях когнитивных и имплицитных (скрытых) предубеждений.
GPT-4o и LLaMA оказались надёжнее, чем, например, Mixtral.
Если коротко:
Забавный проект, по сути MedAgentSim — это умный симулятор больницы с ИИ-врачами, которые взаимодействуют как в реальной жизни, учатся на опыте и даже умеют анализировать свои ошибки.
@ai_machinelearning_big_data
#ml #ai #aiagents #simulation #MedAgent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76❤19🔥13
OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.
Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X
Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).
ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov
Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml
MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.
SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github
Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.
Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com
Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.
Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts
Модели легко импортируются в Blender.
Krea
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥23❤13❤🔥1
Вместо увеличения размеров модели или объема обучающих данных, Video-T1 использует дополнительные вычислительные ресурсы во время инференса для повышения качества генерированных видео.
Процесс: Этот метод довольно прямолинейный. Берется несколько (N) разных случайных начальных "шумов" (Gaussian noise).
Для каждого из этих шумов запускается стандартный процесс генерации видео (пошаговое "очищение" от шума, denoising) от начала до конца, создавая N полных видео-кандидатов.
Специальные модели или алгоритмы, называемые "тестовыми верификаторами" (test verifiers), оценивают каждый из N сгенерированных видеороликов по разным критериям (например, соответствие тексту, качество изображения, правдоподобность движения).
Выбирается то видео, которое получило наивысшую оценку от верификаторов.
➖ Недостаток: Требует генерации множества полных видео, что может быть очень затратно по времени и ресурсам, особенно для длинных видео.
Процесс: Этот метод более хитрый и потенциально более эффективный. Он разбивает генерацию на этапы и строит "дерево" возможных вариантов, отсекая бесперспективные "ветви" на ранних стадиях.
(a) Этап 1: Выравнивание на уровне изображений: Начинается генерация нескольких вариантов первых кадров или коротких начальных сегментов. Верификаторы оценивают, насколько хорошо эти начальные изображения соответствуют запросу. Этот этап важен, так как первые кадры сильно влияют на последующие. Отбираются лучшие "стартовые" ветви.
(b) Этап 2: Поиск с динамической проверкой: Для перспективных "ветвей" генерация продолжается кадр за кадром (или короткими клипами). На этом этапе верификаторы (возможно, с динамическими подсказками, адаптирующимися к уже сгенерированному) фокусируются на стабильности движения и физической правдоподобности. Они дают обратную связь, которая направляет "эвристический поиск" — алгоритм решает, какие "ветви" дерева продолжать растить, а какие — "подрезать" (prune) как неперспективные. Это экономит ресурсы, не тратя их на заведомо плохие продолжения.
(c) Этап 3: Финальная оценка: Когда несколько полных видео- "ветвей" сгенерированы, финальные верификаторы оценивают их общее качество и полное соответствие исходному текстовому запросу. Выбирается лучшее видео из финальных кандидатов.
Преимущество: Позволяет более эффективно использовать вычислительный бюджет, концентрируясь на наиболее обещающих вариантах генерации на каждом этапе.
Зачем нужен Video-T1:
1) Улучшение качества видео:
Применение TTS позволяет существенно повысить качество сгенерированных видео и их соответствие заданным текстовым описаниям.
2) Экономия ресурсов:
Вместо дорогостоящего увеличения размеров моделей или повторного обучения на больших объемах данных, Video-T1 использует дополнительные вычисления на этапе инференса, что более экономично.
3) Метод может быть адаптирован к различным моделям генерации видео, обеспечивая стабильное улучшение качества при увеличении вычислительных ресурсов во время инференса.
TTS особенно хорошо работает для улучшения видео по параметрам, которые легко оценить:
* Соответствие общим запросам (например, генерация определенной сцены или объекта).
* Качество изображения (четкость, детализация).
@ai_machinelearning_big_data
#ai #ml #videogenerator #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤11🔥4🕊1😭1