Hunyuan3D 2.0 - усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов высокого разрешения.
Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.
Генеративная модель формы, построена на масштабируемом диффузионном трансформере, она нужна для создания правильной геометрии объекта и отвечает за согласование генерации.
Модель синтеза текстур создает карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.
Модель превосходит предыдущие модели, как с открытым кодом, так и платные модели по детализации, геометрии, качеству текстур и т. д.
▪ GitHub
▪ HF
▪Demo
@ai_machinelearning_big_data
#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent #3dgenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥13❤11😁4👏2
CBS сообщает, что он включает возвращение проекта Stargate.
OpenAI, Softbank и Oracle планируют инвестировать $500 млрд в течение следующих четырех лет.
Целью инвестиций является поддержка лидерства США в сфере искусственного интеллекта. Ожидается, что официальный анонс проекта состоится в скором времени.
На данный момент Соединённые Штаты удерживают лидирующие позиции благодаря таким компаниям, как OpenAI, Anthropic и Microsoft.
Но Китай активно наращивает свои позиции, ежемесячно выпуская новые модели, которые работают не менее эффективно, но с большей скоростью и меньшими затратами.
В рамках инициативы Stargate планируется строительство нескольких гигантских дата-центров, причем первый из них будет открыт в штате Техас.
Оставшиеся ресурсы будут направлены на создание и обучение новых моделей ИИ.
AGI появится раньше, чем мы все ожидаем, а нас ждет настоящая гонка вооружений и ещё более стремительное развитие ИИ.
▪️Новость
@ai_machinelearning_big_data
#ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥25❤16🤔14👾8💘1
🌟 Google только что обновили Gemini 2.0 Flash Thinking
✅ Контекст с 1 миллионом токенов (5-х больше, чем o1 Pro)
#1 на арене чат-ботов👑
Модель показала наивысший результат, обогнав Gemini-Exp-1206
+ 17 очков прироста по сравнению с предыдущей контрольной точкой 1219
- №1 по всем направлениям (генерации кода), за исключением управления стилем.
• AIME: 73.3%
• GPQA: 74.2%
• MMMU: 75.4%
Модель доступна в ai-gradio
pip install --upgrade "ai-gradio[gemini]"
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21
@ai_machinelearning_big_data
#google #gemini
✅ Контекст с 1 миллионом токенов (5-х больше, чем o1 Pro)
#1 на арене чат-ботов
Модель показала наивысший результат, обогнав Gemini-Exp-1206
+ 17 очков прироста по сравнению с предыдущей контрольной точкой 1219
- №1 по всем направлениям (генерации кода), за исключением управления стилем.
• AIME: 73.3%
• GPQA: 74.2%
• MMMU: 75.4%
Модель доступна в ai-gradio
pip install --upgrade "ai-gradio[gemini]"
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21
@ai_machinelearning_big_data
#google #gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51👍24❤12🙈3
🧠Миграция парсера YQL с ANTLR3 на ANTLR4
Выпускник ШАда рассказал, как перевёл парсер YQL с ANTLR3 на ANTLR4.
🔥Почему это важно?
Новый парсер открыл возможности для автодополнения, синтаксической подсветки и генерации парсеров на Go, TypeScript и C++.
Решение задачи упростило поддержку YDB и расширило его функционал.
⚙️ Ключевые моменты:
- Миграция потребовала глубокого изучения работы ANTLR3, ANTLR4 и структуры парсинга в YDB
- В процессе пришлось адаптировать систему парсинга, которая использует protobuf для описания синтаксического дерева.
В итоге удалось внедрить решение, сохранив стабильность системы.
📌 Читайте подробности о процессе, нюансах ANTLR и реализации парсинга в YQL в статье на Хабре.
@ai_machinelearning_big_data
Выпускник ШАда рассказал, как перевёл парсер YQL с ANTLR3 на ANTLR4.
🔥Почему это важно?
Новый парсер открыл возможности для автодополнения, синтаксической подсветки и генерации парсеров на Go, TypeScript и C++.
Решение задачи упростило поддержку YDB и расширило его функционал.
⚙️ Ключевые моменты:
- Миграция потребовала глубокого изучения работы ANTLR3, ANTLR4 и структуры парсинга в YDB
- В процессе пришлось адаптировать систему парсинга, которая использует protobuf для описания синтаксического дерева.
В итоге удалось внедрить решение, сохранив стабильность системы.
📌 Читайте подробности о процессе, нюансах ANTLR и реализации парсинга в YQL в статье на Хабре.
@ai_machinelearning_big_data
Хабр
Как я сделал PR на 14К строк в проект YDB будучи студентом
В этой статье я хотел бы рассказать о задаче, решение которой легло в основу моей дипломной работы. В ноябре 2023 года я был студентом Физтеха — учился...
👍20❤8🔥7😁2
⚡️ IBytedanceTalk только что выпустили UI-TARS модели (+ приложение для ПК / Mac OS) для взаимодействия с интерфейсами.
ИИ-агенты, которые объединяют возможности рассуждений и действий в единой vision-language model для комплексной автоматизации задач на вашем пк на уровне человека.
3️⃣ Доступны в 3-х размерах: 2B, 7B и 72B
⭐ Обученные на базе Qwen2-VL с поддержкой SOFT & DPO
⭐ Версия 72B показывает 82,8% на VisualWebBench (опережая GPT-4 и Claude).
✅ SOTA: Достигает самых высоких результатов на 10 +бенчмарках
▪Модели: https://huggingface.co/bytedance-research/UI-TARS-72B-DPO
▪Статья: https://huggingface.co/papers/2501.12326
▪Code: https://github.com/bytedance/UI-TARS
▪Приложения: https://github.com/bytedance/UI-TARS-desktop https://pic.x.com/pevF7Umtx7
@ai_machinelearning_big_data
ИИ-агенты, которые объединяют возможности рассуждений и действий в единой vision-language model для комплексной автоматизации задач на вашем пк на уровне человека.
3️⃣ Доступны в 3-х размерах: 2B, 7B и 72B
⭐ Обученные на базе Qwen2-VL с поддержкой SOFT & DPO
⭐ Версия 72B показывает 82,8% на VisualWebBench (опережая GPT-4 и Claude).
✅ SOTA: Достигает самых высоких результатов на 10 +бенчмарках
▪Модели: https://huggingface.co/bytedance-research/UI-TARS-72B-DPO
▪Статья: https://huggingface.co/papers/2501.12326
▪Code: https://github.com/bytedance/UI-TARS
▪Приложения: https://github.com/bytedance/UI-TARS-desktop https://pic.x.com/pevF7Umtx7
@ai_machinelearning_big_data
👍42🔥12❤5
🚀rStar-Math от Microsoft - техника, которая позволяет улучшать небольшие модели, такие как Qwen-7B и Phi3-mini, позволяя им работать на уровне OpenAI o1 и выше в решении математических задач.
Ключевые моменты:
🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.
Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.
Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.
Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.
📊 Результаты:
🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.
🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.
🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.
Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.
◾️GitHub
@ai_machinelearning_big_data
#rstar #microsoft #mah
Ключевые моменты:
🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.
Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.
Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.
Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.
📊 Результаты:
🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.
🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.
🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.
Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.
◾️GitHub
@ai_machinelearning_big_data
#rstar #microsoft #mah
❤29👍25🔥15🐳2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Однако у этой технологии есть проблема с временной несогласованности в видео, что значительно ограничивает её практическое применение.
😩Существующие методы могут улучшить согласованность видео, но они применимы к коротким видео (менее 10 секунд) и требуют компромисса между качеством и эффективностью съёмки.
🤗 Video Depth Anything — модель, которая обеспечивает высококачественную и последовательную оценку глубины видео без ущерба для их эффективности.
Она построена на основе Depth Anything V2 и обладает мощным пространственно-временным управлением.
Доступны модели различных масштабов, при этом самая маленькая из них обеспечивает производительность в реальном времени со скоростью 30 кадров в секунду 🔥👍
Начало работы:
git clone https://github.com/DepthAnything/Video-Depth-Anything
cd Video-Depth-Anything
pip install -r requirements.txt
▪GitHub
▪Paper
▪Model Small
▪Model Large
▪Demo
@ai_machinelearning_big_data
#DepthAnything #opensource #ml #depthestimation #videodepth
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥43❤17👍16🥰2🤣1👀1
SmolVLM - серия компактных VLM отличающихся высокой эффективностью использования памяти и могут быть развернуты на локальных устройствах с ограниченными ресурсами.
Только что были выпущены SmolVLM (256M и 500M), которым требуются GPU <1GB для запуска.
Модели настолько маленькт, что могут работать 100% локально в вашем браузере на WebGPU!
🤗 Модели: https://huggingface.co/collections/HuggingFaceTB/smolvlm-256m-and-500m-6791fafc5bb0ab8acc960fb0
@ai_machinelearning_big_data
#AI #ML #SmallVLM #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥59👍26❤12🤗3
Operator — это ИИ-агент, который умеет работать с браузером, заказывать продукты, бронировать билеты и столики в ресторанах искать данные и тп.
Вам нужно просто описать свою задачу, а затем наблюдать в реальном времени, как оператор выполняет её за вас.
Доступ пользователям Pro уже открыт, для остальных обещают в ближайшем времени:
▪operator
В преддверии релиза OpenAI Operator разработчики начали собирать полезные ресурсы, связанные с Operator и другими подобными решениями для автоматизации задач:
▪Github
Imagen 3 дебютирует на первом месте, обойдя Recraft-v3 с впечатляющим отрывом в +70 очков!
Imagen 3 доступен на сайте .
Это тщательно собранный датасет с 3 000 вопросов, разработанный при участии сотен профильных экспертов, чтобы отразить границы человеческих знаний. Лучше всех справляется с ним DeepSeek R1 от, достигая 9.4%, у o1 отставание с 9.1%.
▪Dataset
⭐️ Можем ли мы генерировать изображения с помощью цепочки мыслей CoT?
Давайте проверим и улучшим генерацию изображений шаг за шагом.
Авторегрессионная генерация изображений + масштабирование выводов приводят к существенному улучшению генерации изображений на нескольких бенчмарках.
▪Github ▪Статья ▪HF
Крутейший генератор видео уже на подходе 😁 Движение в реальном времени стало намного лучше!
Здесь, можно подать заявку на ранний доступ:
▪Доступ
▪Новость
Новая функция API, которая позволяет Claude обосновывать свои ответы на предоставленных вами источниках.
Еще Claude может процитировать конкретные предложения и отрывки, которые лежат в основе каждого ответа.
▪Новость
@ai_machinelearning_big_data
#news #ai #ml #machinelearning #deeplearning #openai #pika #chatgpt #Imagen #cot #Anthropic #Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35👍28❤11🤣2👾1
Quantum Swarm (QUARM) - это мощная мультиагентная система, которая обрабатывает запросы с помощью скоординированного роя специализированных ИИ-агентов.
Каждый агент играет уникальную роль в анализе и ответе на запросы пользователей, предоставляя свой вариант ответа на поставленную задачу.
✨ Особенности
Сложные запросы обрабатываются несколькими специализированными агентами:
- Система Query Triage: Определяет сложность каждого запроса
- Интерпретатор запросов: Разбирает и анализирует запросы
- Специалист по исследованиям: Определяет ключевые области для исследования
- Критический анализатор: Оценивает информацию и выявляет пробелы
- Творческий исследователь: Генерирует новые варианты решения задачи
Синтезатор информации: - Объединяет идеи в последовательные ответы
🚀 Поддерживает различные интерфейсы:
- Поддержка CLI
- Простая Интеграция с Telegram-ботми
- RESTful API с поддержкой потоковой передачи данных
- Поддержка веб-интерфейса
🚨 Расширенные возможности:
- Потоковая передача ответов в реальном времени
- Память диалогов с автоматической очисткой
- Настраиваемые параметры агента
- Поддержка нескольких LLM-провайдеров (OpenAI, Groq, Heurist)
- Поддержка CORS для веб-интеграции
Установка:
git clone https://github.com/QuarmFW/Quarm.git
cd quarm
▪ Github
@ai_machinelearning_big_data
#python #ai #ml #aiagents #agents #aiswarm
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤33👍19🔥10😁3👀2👏1👾1