223K subscribers
3.87K photos
646 videos
17 files
4.48K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️Tencent выпустили новую версию модели для генерации 3D из текста и изображения - Hunyuan3D 2.0.

Hunyuan3D 2.0 - усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов высокого разрешения.

Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.

Генеративная модель формы, построена на масштабируемом диффузионном трансформере, она нужна ​​для создания правильной геометрии объекта и отвечает за согласование генерации.

Модель синтеза текстур создает карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.

Модель превосходит предыдущие модели, как с открытым кодом, так и платные модели по детализации, геометрии, качеству текстур и т. д.

GitHub
HF
Demo

@ai_machinelearning_big_data


#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent #3dgenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥1311😁4👏2
💵Трамп сегодня ​​представит масштабный план по развитию инфраструктуры ИИ.

CBS сообщает, что он включает возвращение проекта Stargate.

OpenAI, Softbank и Oracle планируют инвестировать $500 млрд в течение следующих четырех лет.

Целью
инвестиций является поддержка лидерства США в сфере искусственного интеллекта. Ожидается, что официальный анонс проекта состоится в скором времени.

На данный момент Соединённые Штаты удерживают лидирующие позиции благодаря таким компаниям, как OpenAI, Anthropic и Microsoft.

Но Китай активно наращивает свои позиции, ежемесячно выпуская новые модели, которые работают не менее эффективно, но с большей скоростью и меньшими затратами.

В рамках инициативы Stargate планируется строительство нескольких гигантских дата-центров, причем первый из них будет открыт в штате Техас.

Оставшиеся ресурсы будут направлены на создание и обучение новых моделей ИИ.

AGI появится раньше, чем мы все ожидаем, а нас ждет настоящая гонка вооружений и ещё более стремительное развитие ИИ.

▪️Новость

@ai_machinelearning_big_data

#ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥2516🤔14👾8💘1
🌟 Google только что обновили Gemini 2.0 Flash Thinking

Контекст с 1 миллионом токенов (5-х больше, чем o1 Pro)

#1 на арене чат-ботов
👑

Модель показала наивысший результат, обогнав Gemini-Exp-1206

+ 17 очков прироста по сравнению с предыдущей контрольной точкой 1219

- №1 по всем направлениям (генерации кода), за исключением управления стилем.

• AIME: 73.3%
• GPQA: 74.2%
• MMMU: 75.4%

Модель доступна в ai-gradio

pip install --upgrade "ai-gradio[gemini]"

https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21

@ai_machinelearning_big_data

#google #gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51👍2412🙈3
🧠Миграция парсера YQL с ANTLR3 на ANTLR4

Выпускник ШАда рассказал, как перевёл парсер YQL с ANTLR3 на ANTLR4.

🔥Почему это важно?

Новый парсер открыл возможности для автодополнения, синтаксической подсветки и генерации парсеров на Go, TypeScript и C++.
Решение задачи упростило поддержку YDB и расширило его функционал.

⚙️ Ключевые моменты:
- Миграция потребовала глубокого изучения работы ANTLR3, ANTLR4 и структуры парсинга в YDB
- В процессе пришлось адаптировать систему парсинга, которая использует protobuf для описания синтаксического дерева.

В итоге удалось внедрить решение, сохранив стабильность системы.

📌 Читайте подробности о процессе, нюансах ANTLR и реализации парсинга в YQL в статье на Хабре.

@ai_machinelearning_big_data
👍208🔥7😁2
⚡️ IBytedanceTalk только что выпустили UI-TARS модели (+ приложение для ПК / Mac OS) для взаимодействия с интерфейсами.

ИИ-агенты, которые объединяют возможности рассуждений и действий в единой vision-language model для комплексной автоматизации задач на вашем пк на уровне человека.


3️⃣ Доступны в 3-х размерах: 2B, 7B и 72B
Обученные на базе Qwen2-VL с поддержкой SOFT & DPO
Версия 72B показывает 82,8% на VisualWebBench (опережая GPT-4 и Claude).
SOTA: Достигает самых высоких результатов на 10 +бенчмарках

Модели: https://huggingface.co/bytedance-research/UI-TARS-72B-DPO
Статья: https://huggingface.co/papers/2501.12326
Code: https://github.com/bytedance/UI-TARS
Приложения: https://github.com/bytedance/UI-TARS-desktop https://pic.x.com/pevF7Umtx7

@ai_machinelearning_big_data
👍42🔥125
🚀rStar-Math от Microsoft - техника, которая позволяет улучшать небольшие модели, такие как Qwen-7B и Phi3-mini, позволяя им работать на уровне OpenAI o1 и выше в решении математических задач.

Ключевые моменты:

🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.

Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.

Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.

Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.

📊 Результаты:

🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.

🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.

🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.

Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.

◾️GitHub

@ai_machinelearning_big_data

#rstar #microsoft #mah
29👍25🔥15🐳2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🔎 Depth Anything — это передовая технология оценки глубины, использующая монокуляр (одну камера).

Однако у этой технологии есть проблема с временной несогласованности в видео, что значительно ограничивает её практическое применение.

😩Существующие методы могут улучшить согласованность видео, но они применимы к коротким видео (менее 10 секунд) и требуют компромисса между качеством и эффективностью съёмки.

🤗 Video Depth Anything — модель, которая обеспечивает высококачественную и последовательную оценку глубины видео без ущерба для их эффективности.

Она построена на основе Depth Anything V2 и обладает мощным пространственно-временным управлением.

🍪 Разработанная на основе совместного набора данных о глубине видео и дешевых немаркированных изображений, эта модель представляет эффективную стратегию оценки длинного видео на основе ключевых кадров. Ограничения на градиенты глубины устраняют необходимость в дополнительных предварительных данных.

🖥 Эксперименты показали, что Video Depth Anything обрабатывает видео любой длины без потери качества, последовательности, что устанавливает новый уровень в оценке глубины видео с нулевой съемкой.

Доступны модели различных масштабов, при этом самая маленькая из них обеспечивает производительность в реальном времени со скоростью 30 кадров в секунду 🔥👍

Начало работы:

git clone https://github.com/DepthAnything/Video-Depth-Anything
cd Video-Depth-Anything
pip install -r requirements.txt


Лицензирование: Apache 2.0

GitHub
Paper
Model Small
Model Large
Demo

@ai_machinelearning_big_data


#DepthAnything #opensource #ml #depthestimation #videodepth
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥4317👍16🥰2🤣1👀1
🌟 SmolVLM: набор компактных VLM от HuggingFace - Base, Synthetic и Instruct.

SmolVLM - серия компактных VLM отличающихся высокой эффективностью использования памяти и могут быть развернуты на локальных устройствах с ограниченными ресурсами.

Только что были выпущены SmolVLM (256M и 500M), которым требуются GPU <1GB для запуска.

🤗 SmolVLM-256M – это cамая маленькая VLM в мире!

Модели настолько маленькт, что могут работать 100% локально в вашем браузере на WebGPU!

🧠МЕНЬШЕ И УМНЕЕ: теперь модели на 256M параметров достаточно, чтобы превзойти Idefics 80B- модель, которая вышла 18 месяцев назад 🔥

📌Лицензирование:  Apache 2.0

⭐️ Smolervlm: https://huggingface.co/blog/smolervlm
🤗 Модели: https://huggingface.co/collections/HuggingFaceTB/smolvlm-256m-and-500m-6791fafc5bb0ab8acc960fb0

@ai_machinelearning_big_data


#AI #ML #SmallVLM #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥59👍2612🤗3
⭐️ OpenAI представили своего AI агента.

Operator — это ИИ-агент, который умеет работать с браузером, заказывать продукты, бронировать билеты и столики в ресторанах искать данные и тп.
Вам нужно просто описать свою задачу, а затем наблюдать в реальном времени, как оператор выполняет её за вас.
Доступ пользователям Pro уже открыт, для остальных обещают в ближайшем времени:
operator

⭐️ Open Operator
В преддверии релиза OpenAI Operator разработчики начали собирать полезные ресурсы, связанные с Operator и другими подобными решениями для автоматизации задач:
Github

⭐️ Новый лидер на Text-to-Image Arena! Imagen 3 от Google DeepMind

Imagen 3 дебютирует на первом месте, обойдя Recraft-v3 с впечатляющим отрывом в +70 очков!
Imagen 3 доступен на сайте .

⭐️ "Последний экзамен человечества"

Это тщательно собранный датасет с 3 000 вопросов, разработанный при участии сотен профильных экспертов, чтобы отразить границы человеческих знаний. Лучше всех справляется с ним DeepSeek R1 от, достигая 9.4%, у o1 отставание с 9.1%.
Dataset

⭐️ Можем ли мы генерировать изображения с помощью цепочки мыслей CoT?

Давайте проверим и улучшим генерацию изображений шаг за шагом.
Авторегрессионная генерация изображений + масштабирование выводов приводят к существенному улучшению генерации изображений на нескольких бенчмарках.
Github Статья HF

⭐️ Pika 2.1

Крутейший генератор видео уже на подходе 😁 Движение в реальном времени стало намного лучше!
Здесь, можно подать заявку на ранний доступ:
Доступ

⭐️ o3-mini станет бесплатной — работать с моделью скоро смогут все желающие!
Новость


⭐️ Anthropic. Представили Citations

Новая функция API, которая позволяет Claude обосновывать свои ответы на предоставленных вами источниках.

Еще Claude может процитировать конкретные предложения и отрывки, которые лежат в основе каждого ответа.
Новость

@ai_machinelearning_big_data


#news #ai #ml #machinelearning #deeplearning #openai #pika #chatgpt #Imagen #cot #Anthropic #Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35👍2811🤣2👾1
🤖 Quantum Swarm

Quantum Swarm (QUARM) - это мощная мультиагентная система, которая обрабатывает запросы с помощью скоординированного роя специализированных ИИ-агентов.

Каждый агент играет уникальную роль в анализе и ответе на запросы пользователей, предоставляя свой вариант ответа на поставленную задачу.

Особенности

Сложные запросы обрабатываются несколькими специализированными агентами:

- Система Query Triage: Определяет сложность каждого запроса
- Интерпретатор запросов: Разбирает и анализирует запросы
- Специалист по исследованиям: Определяет ключевые области для исследования
- Критический анализатор: Оценивает информацию и выявляет пробелы
- Творческий исследователь: Генерирует новые варианты решения задачи
Синтезатор информации: - Объединяет идеи в последовательные ответы

🚀 Поддерживает различные интерфейсы:

- Поддержка CLI
- Простая Интеграция с Telegram-ботми
- RESTful API с поддержкой потоковой передачи данных
- Поддержка веб-интерфейса

🚨 Расширенные возможности:

- Потоковая передача ответов в реальном времени
- Память диалогов с автоматической очисткой
- Настраиваемые параметры агента
- Поддержка нескольких LLM-провайдеров (OpenAI, Groq, Heurist)
- Поддержка CORS для веб-интеграции

Установка:

git clone https://github.com/QuarmFW/Quarm.git
cd quarm


Github

@ai_machinelearning_big_data


#python #ai #ml #aiagents #agents #aiswarm
Please open Telegram to view this post
VIEW IN TELEGRAM
133👍19🔥10😁3👀2👏1👾1