Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.
Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.
Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.
Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.
Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.
В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.
В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.
Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.
Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.
Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.
Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.
Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.
Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.
Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").
Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1
✨ Возможности:
- Объединение и разделение файлов
- Поворот и обрезка страниц
- Перестановка и удаление страниц
- Интуитивный drag-and-drop интерфейс
Полностью опенсорс (GPL-3.0).
Идеален, если нужно быстро подготовить PDF к печати или презентации — без сложных настроек.
📌 GitHub
#PDF #opensource #Linux #devtools
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
⚡️Qoder — бесплатный ИИ-редактор кода от Alibaba
Разработчики называют его платформой для кодинга «нового поколения». Qoder понимает всю кодовую базу, разбивает задачу на шаги, запоминает твой стиль и самое классное — модель подбирается автоматически в зависимости от задачи.
Есть еще Quest Mode: описываешь задачу, а Qoder сам пишет спецификацию, планирует и выполняет изменения по коду.
https://qoder.com/
Разработчики называют его платформой для кодинга «нового поколения». Qoder понимает всю кодовую базу, разбивает задачу на шаги, запоминает твой стиль и самое классное — модель подбирается автоматически в зависимости от задачи.
Есть еще Quest Mode: описываешь задачу, а Qoder сам пишет спецификацию, планирует и выполняет изменения по коду.
https://qoder.com/
👍4❤3
Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Чем хороша модель:
- 8B параметров - лёгкая для локального инференса.
- Средний балл 77.0 на OpenCompass - сводная оценка по 8 популярным бенчмаркам.
- По этим тестам обгоняет ряд проприетарных моделей уровня GPT-4o-latest и Gemini-2.0 Pro, а также сильный опенсорс Qwen2.5-VL 72B в задачах vision-language.
- Фактически самый результативный MLLM до 30B параметров.
Что соберём за сессию:
1) Мини-API для инференса - роут /chat с приемом текста и изображения.
2) Ультралёгкий фронт в anycoder - поле ввода, загрузка картинки, предпросмотр.
3) Набор промпт-темплейтов - описание изображения, OCR-вопросы, разбор скриншотов кода.
Где модель особенно заходит:
- Разбор скринов UI и PDF с таблицами.
- Вопросы по диаграммам и графикам.
- Помощь по коду по фотографиям экрана.
https://huggingface.co/spaces/akhaliq/MiniCPM-V-4_5
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Вопрос только один: что вы сделаете, если встретите его на улице?
@ai_machinelearning_big_data
#UnitreeG1 #robots #ai
@ai_machinelearning_big_data
#UnitreeG1 #robots #ai
Forwarded from Machinelearning
BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.
Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.
Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".
В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.
Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:
Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.
Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.
Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.
На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.
Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.
@ai_machinelearning_big_data
#AI #ML #DeepResearch #Dataset #InfoSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 AI vs рекрутеры: кто лучше проводит собеседования?
Исследование Университета Чикаго и Erasmus University показало, что AI-интервьюеры могут иметь серьёзные преимущества перед людьми.
📊 Результаты на 67 000 соискателей (call-center, Филиппины):
• Кандидаты, прошедшие интервью у чат-бота Anna AI, на 12% чаще получали оффер.
• Среди получивших оффер — на 18% чаще выходили на работу.
• Соискатели вдвое реже жаловались на дискриминацию по полу.
• Anna AI охватывала в среднем 9 тем против 5 у рекрутеров.
• 71% кандидатов оценили опыт интервью с ботом позитивно.
⚠️ Минусы: 5% интервью заканчивались раньше времени, 7% имели техсбои.
💡 Почему это важно:
AI-интервью могут быть более объективными, масштабируемыми и удобными для кандидатов, чем живое интервью с рекрутером. Особенно это заметно в массовом найме для entry-level позиций.
📌 Полный разбор исследования
Исследование Университета Чикаго и Erasmus University показало, что AI-интервьюеры могут иметь серьёзные преимущества перед людьми.
📊 Результаты на 67 000 соискателей (call-center, Филиппины):
• Кандидаты, прошедшие интервью у чат-бота Anna AI, на 12% чаще получали оффер.
• Среди получивших оффер — на 18% чаще выходили на работу.
• Соискатели вдвое реже жаловались на дискриминацию по полу.
• Anna AI охватывала в среднем 9 тем против 5 у рекрутеров.
• 71% кандидатов оценили опыт интервью с ботом позитивно.
⚠️ Минусы: 5% интервью заканчивались раньше времени, 7% имели техсбои.
💡 Почему это важно:
AI-интервью могут быть более объективными, масштабируемыми и удобными для кандидатов, чем живое интервью с рекрутером. Особенно это заметно в массовом найме для entry-level позиций.
📌 Полный разбор исследования
❤1🔥1