Что было бы, если студия Ghibli сняла «Властелина колец»?
Бюджет в 250 долларов на Kling и 9 часов на монтаж трейлера «Братства Кольца», чтобы воплотить эту идею в жизнь.
- Сначала автор сделал скриншоты всех 102 кадров трейлера (смотри 2 видео со сравнением оригинала и генерации)
- Затем ремикс на них в стиле Ghibli в Sora
- Далее анимация в Kling
и Luma
- Повторный монтаж синхронизирован с трейлером.
А вот промпт, который использовал автор:
"Recreate this in the style of Studio Ghibli, intricately detailed. Make sure the composition, colors and vibe is similar. The scene pictured shows black cloaked figures on black horses riding away from a massive wave of water on a riverbed that is chasing the riders."
🔗 Полный процес создания описан здесь.
Теперь всё — от студии Ghibli. Даже Властелин колец.
@ai_machinelearning_big_data
#sora #kling #Luma
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🔥41❤19🥱6🤬4🥰3😢2👏1🤓1
This media is not supported in your browser
VIEW IN TELEGRAM
Это open-source инструмент, который использует LLM для автоматизации работы у вас в браузере.
По сути это альтернатива OpenAI Operator, работающая локально.
Оператору можно задавать промпты на естественном языке (или через код), а умные агенты (Планировщик, Навигатор, Валидатор) выполняют их в веб-окружении.
Чем полезен ?
Главное, что ваши данные не уходят на сторонние серверы (если вы используете локальную LLM).
Поддерживает различные большие языковые модели, не привязывая вас к одному провайдеру.
🔗GitHub: https://github.com/nanobrowser/nanobrowser
@ai_machinelearning_big_data
#Nanobrowser #AI #WebAutomation #OpenSource #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍72🔥18❤12
Media is too big
VIEW IN TELEGRAM
Цель: Понять, как модели работают изнутри ("реверс-инжиниринг"), чтобы лучше оценивать их надежность и пригодность под конкретные задачи.
Несмотря на впечатляющие возможности, внутренние алгоритмы работы больших языковых моделей остаются в значительной степени "черным ящиком".
Модели обучаются, а не программируются напрямую, поэтому мы не понимаем, как они делают большинство вещей, которые они делают.
Новые методы интерпретации позволяют Anthropic проследить этапы «мышления» LLM.
Anthropic разработали новый инструмент – графы атрибуции (attribution graphs).
Он позволяет частично отслеживать цепочку промежуточных шагов, которые модель использует для обработки входных данных и получения результата.
Метод помогает идентифицировать ключевые внутренние представления ("features") и картировать связи между ними (подобно "схеме соединений" мозга).
Это позволяет сформулировать гипотезы о механизмах работы модели, которые затем проверяются экспериментально.
Метод был применен для изучения конкретной модели Claude 3.5 Haiku.
Авторы описывают десять тематических аспектов работы модели, каждое из которых иллюстрирует один из аспектов «биологии ИИ».
Вот некоторые открытия:
Эти выводы подчеркивают, что даже при наличии общих представлений о работе модели, детали и взаимодействие её компонентов могут быть весьма неожиданными и многообразными.
https://transformer-circuits.pub/2025/attribution-graphs/biology.html
Описания методов, используемых в исселдованиях: https://transformer-circuits.pub/2025/attribution-graphs/methods.html
Please open Telegram to view this post
VIEW IN TELEGRAM
❤69👍43🔥26👏6
NVIDIA Research предлагает 4 решения: MobilityGen генерирует синтетические данные в Isaac Sim, экономя время на сбор реальных данных, COMPASS создаёт универсальные алгоритмы передвижения для роботов любого типа — от двуногих до колесных, обеспечивая мгновенное внедрение из симуляции в реальность.
Для гуманоидов важен контроль всего тела: HOVER объединяет управление балансом, движением и манипуляциями в единую нейросеть, а ReMEmbR добавляет «память» — робот анализирует окружение с помощью ИИ-моделей (LLM, VLM) и действует на основе контекста.
Уже сейчас эти решения тестируют компании Under Control Robotics и Advantech: роботы собирают данные, перемещают грузы и избегают препятствий в динамичных условиях. Для разработчиков доступны исходники на GitHub и набор учебных материалов.
developer.nvidia.com
Google тизернула набор функций с ИИ для организации летних поездок. В Поиске теперь доступны AI Overviews — сводки, которые генерируют маршруты по запросам вроде «создать план поездки в Коста-Рику с акцентом на природу». В Gemini появился инструмент, позволяющий настраивать «экспертов» под конкретные задачи — например, для подбора направлений или списка вещей в дорогу. Отдельное внимание уделили отслеживанию цен: теперь, кроме авиабилетов, система уведомит о снижении стоимости отелей через email.
Обновление коснулось и Google Maps: приложение научилось анализировать скриншоты с сохраненными локациями. Достаточно открыть доступ к фото — и ИИ автоматически распознает места, предложив добавить их в список.
Пока функция доступна в США на iOS, версия для Android ожидается в ближайшее время.
techcrunch.com
Garmin открыла платную подписку Connect+ за $7 в месяц, предлагающую ИИ-функции для анализа тренировок - персонализированные рекомендации, дашборд эффективности и советы для бегунов и велосипедистов. Сервис использует историю активности, чтобы оптимизировать прогресс и уведомления LiveTrack для безопасности.
В отличие от Strava (от $12/месяц), Garmin сохраняет доступную цену, делая AI-инструменты привлекательнее для любителей и профи. Хотя часть пользователей критикует переход на монетизацию, 30-дневный тест-период позволяет оценить новинку.
gizmodo.com
Vamba — гибридная архитектура на основе Mamba и Transformer для обработки длинных видео. Она позволяет анализировать до 100 тыс. видеотокенов без сжатия, сохраняя ключевые сцены и действия. За счёт замены части операций на модули Mamba-2, сложность вычислений снижается с квадратичной до линейной, что ускоряет обучение в 2 раза и сокращает потребление памяти на 50%.
В тестах На LVBench Vamba обошла конкурентов по точности (плюс 4,3%) и по стабильности обработки: даже при 512 кадрах потребление памяти не превышала 12 ГБ. Дополнительные тесты на датасетах с шумом и динамичными сценами доказали, что архитектура сохраняет детализацию без «провалов» в сложных условиях. Модель уже доступна в открытом доступе — код, веса.
tiger-ai-lab.github.io
Apple выпустила обновления для Final Cut Pro на Mac, iPad и приложения Final Cut Camera. Главным новшеством стала интеграция Apple Intelligence: теперь в Image Playground можно быстро генерировать стилизованные изображения на основе описаний или фото из библиотеки.
Для Mac добавлены коррекция цвета, аудиоэффект Quantec QRS и улучшенный Magnetic Mask. На iPad появилась портретная ориентация и хоткеи для монтажа. Final Cut Camera обзавелась переключением на 48-мм телеобъектив (для iPhone 14 Pro и новее), поддержкой Apple Log LUT и записью в Spatial Audio (требуется iPhone 16).
Технические требования: macOS 15.2 и новее для Mac на M1+, iOS 18.2 для устройств с A17 Pro/M1.
9to5mac.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32👍25🔥7🤔3
RL требует не только правильно настроенных алгоритмов, но и качественных данных. Многие существующие датасеты имеют проблемы в виде дублирования задач, низкого качества вопросов и недостаточную полноту охвата целевой специализации: в OpenR1 обнаружили 20 повторяющихся задач из Math-500, а General Reasoning содержит мусорные данные из-за обработке на краудсорсинге. Это мешает моделям учиться глубокому анализу, заставляя их «угадывать» ответы вместо логических рассуждений.
Intelligent Internet представили II-Thought-RL-v0 — датасет из 340 тысяч задач, созданный для решения этих проблем. Его ключевые принципы: масштаб, качество и чистота данных.
Каждый вопрос проходит многоступенчатую обработку: сначала удаляются дубликаты и загрязненные данные, затем Gemini 2.0 Flash и Qwen-2.5-32B фильтруют неоднозначные или некорректные задачи - отбраковываются вопросы с ошибками в формулировках, зависимостью от изображений или открытыми ответами.
Особенность датасета — акцент на верификацию. Математические задачи проверяются через Math-Verify, код запускается в изолированном окружении Sandbox Fusion, а для медицинских вопросов используется LLM-судья. Это снижает риск «взлома наград», когда модель начинает идти кратчайшим путем, а не решать задачи, рассуждая.
II-Thought-RL-v0 уже превзошел аналоги в тестах: модель с 1,5 млрд. параметров, обученная на этом датасете, обогнала DeepSeek-R1 на 3-5% в задачах AIME и LiveCodeBench.
Пока остается нерешенным вопрос дисбаланса сфер в наборе: 70% данных относятся к математике и программированию, а медицина, финансы и инженерия почти не представлены. В будущем создатели датасета планируют расширить его, чтобы модели учились рассуждать в реальных мультидисциплинарных сценариях.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥14❤10
Эта модель объединяет данные из различных источников (изображения, видео, данные о робототехнических манипуляциях и тд) и позволяет решать сложные задачи, требующие одновременной обработки текстовой, визуальной и пространственной информации.
Как работает Magma:
Для чего нужен:
@ai_machinelearning_big_data
#AI #ML #LLM #opensource #agents #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🔥19❤9👌5
This media is not supported in your browser
VIEW IN TELEGRAM
Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.
@ai_machinelearning_big_data
#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍34❤18😁9🤩2😨1
Warner Bros., Sony Pictures и Paramount меняют подход к защите контента: вместо удаления сгенерированных фейковых трейлеров на YouTube они настаивают на передаче им рекламных доходов. Например, Warner Bros. претендует на монетизацию роликов с использованием «Супермена», а Sony — трейлеров к «Человеку-пауку» и «Крейвену». Это стратегический шаг — студии видят в ИИ не только угрозу, но и источник прибыли, адаптируясь к цифровой реальности.
Технологии генерации контента упростили создание фейков, но теперь авторы таких видео рискуют лишиться заработка. Вместо привычных копирайт-страйков правообладатели используют систему Content ID, автоматически перенаправляя деньги себе. Пока неясно, как эта ситуация повлияет на кузнецов контента — возможно, им придется искать новые платформы или договариваться со студиями.
deadline.com
Manus AI анонсировала запуск мобильного приложения для iOS. Основной фишкой стал Sandbox с расширенным контекстом и мультимодальными функциями. Всю систему перевели на Claude 3.7 Sonnet, что повысило скорость и точность обработки задач.
После закрытого бета-тестирования Manus AI открыл доступ всем пользователям, предложив 3 тарифа: Free дает 1000 кредитов, Starter за $39/мес. - 3900 кредитов и 2 параллельных процесса , Pro-версия ($199/мес) - 19 900 кредитов, 5 задач одновременно + доступ к бета-функциям.
Manus AI в X (ex-Twitter)
Еврокомиссия планирует инвестировать 1,3 млрд. евро (1,4 млрд долларов) в ИИ, кибербезопасность и цифровые навыки в рамках программы "Цифровая Европа" в период с 2025 по 2027 год, говорится в заявлении, опубликованном в пятницу.
"Обеспечение технологического суверенитета Европы начинается с инвестирования в передовые технологии и предоставления людям возможности повысить свою цифровую компетентность", - заявила руководитель отдела цифровых технологий Европейской комиссии Хенна Вирккунен.
reuters.com
Обновленный VBench-2.0 от NTU S-Lab и Shanghai AI Lab переводит оценку ИИ-видео с «красивой картинки» на уровень глубинного понимания физики, анатомии и логики. Система проверяет 18 параметров — от движения камеры до правдоподобности бытовых сцен. VBench-2.0 в открытом доступе — можно тестировать свои модели, сравнивать результаты и влиять на развитие экосистемы.
github.com
Новый сервис Interests от Amazon использует ИИ, чтобы превратить хобби пользователей в высокоточные рекомендации. Система анализирует естественные запросы вроде «инструменты для варки кофе» или «деревянные головоломки», преобразуя их в поисковые параметры. Под капотом, возможно, задействована масштабированная версия модели Nova series Reasoning — хотя компания пока не раскрывает детали.
Интересы можно детализировать: указать бюджет, материалы или цвета, а алгоритм будут непрерывно предлагать новые товары. Планируется, что сервис интегрируют в Alexa+ — следующее поколение ассистента, которое будет подключать специализированные ИИ-модули.
Пока функция доступна ограниченному кругу пользователей в США через мобильное приложение. Но если тесты пройдут успешно, Amazon масштабирует технологию, усиливая конкуренцию в сфере персонализированной коммерции.
aboutamazon.com
Ожидается, что во все модели будут добавлены новые инструменты и обновления.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54❤18🔥12❤🔥4🌚2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).
TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .
TripoSF
Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).
Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.
@ai_machinelearning_big_data
#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥22❤17🙏3🕊1
Пользуемся: https://gemini.google.com
@ai_machinelearning_big_data
#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥26❤12😐11