End-to-end multi-objective, совмещенный с дистилляцией - решение для ранжирования от Airbnb.
В контексте долгосрочного роста платформы важно не только предсказание конверсии, но и её исхода. При этом традиционные подходы к ранжированию страдают из-за дисбаланса данных. Решение, которое предлагают исследователи Airbnb, подобно разобрали ML-спецы.
#Stateoftheart
В контексте долгосрочного роста платформы важно не только предсказание конверсии, но и её исхода. При этом традиционные подходы к ранжированию страдают из-за дисбаланса данных. Решение, которое предлагают исследователи Airbnb, подобно разобрали ML-спецы.
#Stateoftheart
FinRobot: открытый мультиагентный фреймворк для анализа рынка акций
Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель опубликована в открытом доступе на Github.
FinRobot обрабатывает отчеты SEC (годовые 10-K и квартальные 10-Q), корпоративные релизы, отчеты о прибыли, отраслевые исследования, новости рынка в реальном времени и использует альтернативные источники данных. Группа аналитиков инвестиционных банков высоко оценила ответы модели в точности - 9.5/10, логичности - 9.4/10 и качестве повествования (8.4/10).
#StateoftheArt
Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель опубликована в открытом доступе на Github.
FinRobot обрабатывает отчеты SEC (годовые 10-K и квартальные 10-Q), корпоративные релизы, отчеты о прибыли, отраслевые исследования, новости рынка в реальном времени и использует альтернативные источники данных. Группа аналитиков инвестиционных банков высоко оценила ответы модели в точности - 9.5/10, логичности - 9.4/10 и качестве повествования (8.4/10).
#StateoftheArt
NVIDIA представила X-MeshGraphNet - открытый Physics-ML фреймворк для создания сложных физических симуляций на основе графовых нейросетей. X-MeshGraphNet - это расширение модели MeshGraphNet от Deepmind, и он доступен в репозитории NVIDIA Modulus.
X-MeshGraphNet простраивает пользовательские графы напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса и разбивает графы на halo-области для масштабируемой обработки. Исследователи проверили производительность на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML: модель успешно предсказала разпределение давления воздуха и паттерны пристеночного сдвигового напряжения.
#StateoftheArt
X-MeshGraphNet простраивает пользовательские графы напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса и разбивает графы на halo-области для масштабируемой обработки. Исследователи проверили производительность на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML: модель успешно предсказала разпределение давления воздуха и паттерны пристеночного сдвигового напряжения.
#StateoftheArt
DeepLearning.AI представил бесплатный видеокурс Building an AI-Powered Game длиной 1 час. Преподаватели Ники Биркнер из Together AI и Ник Уолтон, сооснователь Latitude & AI Dungeon, покажут, как примененять LLM в разработке игр на реальных примерах.
На курсе вы узнаете, как:
1. применять промт-инжениринг для создания игрового мира с процендурно-генерируемым контентом;
2. создавать игровой прототип, включающий core-механику пользовательский интерфейс, систему загрузки игрового мира;
3. гарантировать безопасную игровую среду, используя Llama Guard и настраиваемые политики контента;
4. добавлять сюжетные элементы и компоненты игрового мира с помощью моделей ИИ.
Курс предназначен для разработчиков начального уровня подготовки и выше.
#Development
На курсе вы узнаете, как:
1. применять промт-инжениринг для создания игрового мира с процендурно-генерируемым контентом;
2. создавать игровой прототип, включающий core-механику пользовательский интерфейс, систему загрузки игрового мира;
3. гарантировать безопасную игровую среду, используя Llama Guard и настраиваемые политики контента;
4. добавлять сюжетные элементы и компоненты игрового мира с помощью моделей ИИ.
Курс предназначен для разработчиков начального уровня подготовки и выше.
#Development
OpenAI презентовала Sora Turbo - модель генерации видео, впервые анонсированную в феврале 2024. Sora Turbo создает видео с разрешением от 480p до 1080p, длительностью от 10 до 20 секунд с вариациями соотношения сторон. Модель принимает на ввод текст, изображения и видео. Интерфейс Sora позволяет заменять, удалять или перегенерировать компоненты внутри сцен с указанием таймингов и деталей.
Техноблогер MKBHD, получивший ранний доступ, отметил впечатляющую реалистичность и высокое качество видео, но также и проблемы с галлюцинациями, неестественной физикой, искаженным текстом и непоследовательностью объектов.
Sora доступна по подписке OpenAI за $20 с ограничением в 50 генераций и 480p, и без ограничений за $200 в месяц.
#AIapps
Техноблогер MKBHD, получивший ранний доступ, отметил впечатляющую реалистичность и высокое качество видео, но также и проблемы с галлюцинациями, неестественной физикой, искаженным текстом и непоследовательностью объектов.
Sora доступна по подписке OpenAI за $20 с ограничением в 50 генераций и 480p, и без ограничений за $200 в месяц.
#AIapps
ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.
В основе ArtAug - мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.
Исходный код и предобученные модели доступны под лицензией Apache 2.0.
#StateoftheArt #Development
В основе ArtAug - мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.
Исходный код и предобученные модели доступны под лицензией Apache 2.0.
#StateoftheArt #Development
На CES 2025 Nvidia представила микросервисы NIM для локального запуска ИИ-пайплайнов и новую серию RTX 50.
GPU RTX 5090 с объемом памяти 32ГБ поддерживает 4-битные числа FP4, что сокращает объем памяти, необходимой для ИИ-вычислений, вдвое.
Микросервисы NIM созданы для локального развертывания крупных моделей, например, от Black Forest Labs и Mistral. Микросервисы позволяют интегрировать модели с популярными фреймворками, такими как ComfyUI и LangChain. Благодаря GPU RTX 50 ИИ-вычисления теперь могут эффективно выполняться на локальных устройствах, сохраняя при этом возможность интеграции облачных ресурсов.
Nvidia также анонсировала готовые пайплайны в графическом интерфейсе. Например, пайплайн преобразования PDF в подкасты извлекает данные из документа, создает сценарий, генерирует аудио и позволяет взаимодействовать с виртуальным ведущим в реальном времени.
Платформа NIM будет доступна с февраля и поддерживается ведущими производителями ПК, включая Acer, ASUS, Dell, GIGABYTE, HP, Lenovo и MSI.
#Development
GPU RTX 5090 с объемом памяти 32ГБ поддерживает 4-битные числа FP4, что сокращает объем памяти, необходимой для ИИ-вычислений, вдвое.
Микросервисы NIM созданы для локального развертывания крупных моделей, например, от Black Forest Labs и Mistral. Микросервисы позволяют интегрировать модели с популярными фреймворками, такими как ComfyUI и LangChain. Благодаря GPU RTX 50 ИИ-вычисления теперь могут эффективно выполняться на локальных устройствах, сохраняя при этом возможность интеграции облачных ресурсов.
Nvidia также анонсировала готовые пайплайны в графическом интерфейсе. Например, пайплайн преобразования PDF в подкасты извлекает данные из документа, создает сценарий, генерирует аудио и позволяет взаимодействовать с виртуальным ведущим в реальном времени.
Платформа NIM будет доступна с февраля и поддерживается ведущими производителями ПК, включая Acer, ASUS, Dell, GIGABYTE, HP, Lenovo и MSI.
#Development
MiniMax опубликовал модель MiniMax-01 с 456 миллиардами параметров. Языковая модель MiniMax-Text-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов. Модель доступна через Hailou chat и по API, веса выложены на Github.
MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.
На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.
#StateoftheArt
MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.
На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.
#StateoftheArt