223K subscribers
3.87K photos
646 videos
17 files
4.48K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Magma – это фундаментальная модель от Microsoft, предназначенная для создания мульти-модальных AI-агентов, способных воспринимать окружение и действовать в цифровом и физическом мире.

Эта модель объединяет данные из различных источников (изображения, видео, данные о робототехнических манипуляциях и тд) и позволяет решать сложные задачи, требующие одновременной обработки текстовой, визуальной и пространственной информации.

Как работает Magma:
🟢 Используется единый визуальный энкодер, который преобразует изображения и видео в векторные представления, обеспечивая универсальное понимание визуальных данных.
🟢 Далее применяется техника Set-of-Mark (SoM) для маркировки ключевых объектов в изображениях (например, интерактивных кнопок или частей робота), что позволяет модели точно «привязывать» действия к нужным элементам сцены.
🟢Техника Trace-of-Mark (ToM) отвечает за планирование действий, анализируя динамику видеоданных и предсказывая последовательности будущих движений или изменений состояния объектов.
🟢Интеграция визуальной информации с текстовыми данными осуществляется через языковую модель, которая генерирует ответы в виде текста, пространственных координат или команд для выполнения конкретных задач.

Для чего нужен:

🟢Magma обеспечивает мульти-модальное понимание данных, объединяя вербальный, пространственный и временной аспекты, что значительно расширяет возможности AI-агентов.
🟢 Применим в широком спектре задач – от навигации по пользовательским интерфейсам до управлени роботами и играми – благодаря способности адаптироваться к новым задачам без дообучения (zero-shot).
🟢Позволяет разрабатывать интеллектуальные системы, которые не просто анализируют данные, но и планируют и осуществляют последовательность действий, что особенно важно для робототехники и интерактивных приложений.

🟡Github
🟡Проект
🟡Статья
🟡HF
🟡Video

@ai_machinelearning_big_data

#AI #ML #LLM #opensource #agents #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🔥199👌5
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ DeepSite на базе DeepSeek-V3-0324, позволяет генерировать, код, приложения или игры прямо в браузере и хостить их.

Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.

😶 По сути это Сursor в браузере.

🟡Попробовать: https://huggingface.co/spaces/enzostvs/deepsite

@ai_machinelearning_big_data


#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍3418😁9🤩2😨1
✔️ Киностудии требуют доход с ИИ-трейлеров на YouTube вместо их блокировки.

Warner Bros., Sony Pictures и Paramount меняют подход к защите контента: вместо удаления сгенерированных фейковых трейлеров на YouTube они настаивают на передаче им рекламных доходов. Например, Warner Bros. претендует на монетизацию роликов с использованием «Супермена», а Sony — трейлеров к «Человеку-пауку» и «Крейвену». Это стратегический шаг — студии видят в ИИ не только угрозу, но и источник прибыли, адаптируясь к цифровой реальности.

Технологии генерации контента упростили создание фейков, но теперь авторы таких видео рискуют лишиться заработка. Вместо привычных копирайт-страйков правообладатели используют систему Content ID, автоматически перенаправляя деньги себе. Пока неясно, как эта ситуация повлияет на кузнецов контента — возможно, им придется искать новые платформы или договариваться со студиями.
deadline.com

✔️ Manus AI выпустили приложение для iOS, перешли на Sonnet 3.7 и опубликовали тарифы.

Manus AI анонсировала запуск мобильного приложения для iOS. Основной фишкой стал Sandbox с расширенным контекстом и мультимодальными функциями. Всю систему перевели на Claude 3.7 Sonnet, что повысило скорость и точность обработки задач.

После закрытого бета-тестирования Manus AI открыл доступ всем пользователям, предложив 3 тарифа: Free дает 1000 кредитов, Starter за $39/мес. - 3900 кредитов и 2 параллельных процесса , Pro-версия ($199/мес) - 19 900 кредитов, 5 задач одновременно + доступ к бета-функциям.
Manus AI в X (ex-Twitter)

✔️ ЕС инвестирует 1,3 млрд. евро в ИИ, кибербезопасность и цифровые навыки.

Еврокомиссия планирует инвестировать 1,3 млрд. евро (1,4 млрд долларов) в ИИ, кибербезопасность и цифровые навыки в рамках программы "Цифровая Европа" в период с 2025 по 2027 год, говорится в заявлении, опубликованном в пятницу.
"Обеспечение технологического суверенитета Европы начинается с инвестирования в передовые технологии и предоставления людям возможности повысить свою цифровую компетентность", - заявила руководитель отдела цифровых технологий Европейской комиссии Хенна Вирккунен.
reuters.com

✔️ VBench-2.0: обновление бенчмарка генерации видео.

Обновленный VBench-2.0 от NTU S-Lab и Shanghai AI Lab переводит оценку ИИ-видео с «красивой картинки» на уровень глубинного понимания физики, анатомии и логики. Система проверяет 18 параметров — от движения камеры до правдоподобности бытовых сцен. VBench-2.0 в открытом доступе — можно тестировать свои модели, сравнивать результаты и влиять на развитие экосистемы.
github.com

✔️ Amazon Interests: гиперперсонализированный шопинг с ИИ.

Новый сервис Interests от Amazon использует ИИ, чтобы превратить хобби пользователей в высокоточные рекомендации. Система анализирует естественные запросы вроде «инструменты для варки кофе» или «деревянные головоломки», преобразуя их в поисковые параметры. Под капотом, возможно, задействована масштабированная версия модели Nova series Reasoning — хотя компания пока не раскрывает детали.

Интересы можно детализировать: указать бюджет, материалы или цвета, а алгоритм будут непрерывно предлагать новые товары. Планируется, что сервис интегрируют в Alexa+ — следующее поколение ассистента, которое будет подключать специализированные ИИ-модули.

Пока функция доступна ограниченному кругу пользователей в США через мобильное приложение. Но если тесты пройдут успешно, Amazon масштабирует технологию, усиливая конкуренцию в сфере персонализированной коммерции.
aboutamazon.com

✔️ В GPT-4o был замечен ризонинг!

Ожидается, что во все модели будут добавлены новые инструменты и обновления.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5418🔥12❤‍🔥4🌚2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 TripoSG и TripoSF — это новые модели генеративного ИИ для создания высококачественных 3D-моделей.

TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).

TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.

😶Как работают эти модели?
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .

😶Данные для обучения: Модель обучена на специально подготовленном наборе данных из 2 миллионов пар "изображение-SDF" (SDF — signed distance function, функция, описывающая расстояние до поверхности объекта).

😶Процесс работы: Вы загружаете одно изображение (например, фото статуи или рисунок персонажа). Модель анализирует его, используя вариационный автоэнкодер (VAE) с геометрическим надзором, и генерирует 3D-сетку с высокой детализацией.

😶Результат: На выходе получаем 3D-модель, которую можно использовать в играх, анимации или 3D-печати.
TripoSF

Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).

Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.

🟡Github
🟡Model
🟡Project
🟡Paper

@ai_machinelearning_big_data


#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥2217🙏3🕊1
✔️ Теперь Gemini 2.5 Pro теперь доступна бесплатно для всех пользователей с аккаунтом Google.


Пользуемся: https://gemini.google.com

@ai_machinelearning_big_data


#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥2612😐11
🌟 VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени.

Основная цель инструмента - обеспечить "temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.

Как работает:
🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа.
🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.

✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA).

🟡Github
🟡Demo
🟡Paper
🟡Dataset
🟡Checkpoints

@ai_machinelearning_big_data


#agent #ai #ml #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍13124🥰3
🔥 ​Hugging Face выпустила версию 0.30.0 библиотеки huggingface_hub - это самое крупное обновление за два года!

Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.​

✔️ Основные нововведения:

Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.

В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.

Для интеграции с Python используется пакет xet-core, написанный на Rust, который обрабатывает все низкоуровневые детали.​

Чтобы начать использовать Xet, установите дополнительную зависимость:​
pip install -U huggingface_hub[hf_xet]

После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.​

Доплнительно:
😶 Расширен InferenceClient:
😶 Добавлена поддержка новых провайдеров для инференса: Cerebras и Cohere.
😶 Внедрены асинхронные вызовы для задач инференса (например, text-to-video), что повышает стабильность и удобство работы.
😶 Улучшен CLI
😶 Команда huggingface-cli upload теперь поддерживает wildcards (шаблоны) прямо в пути к файлам (например, huggingface-cli upload my-model *.safetensors вместо опции --include).
😶 Команда huggingface-cli delete-cache получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size).

✔️ Полный список обновлений
✔️Блог
✔️Документация по Xet

@ai_machinelearning_big_data


#huggingface #release #xet
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4612🔥6🥱1🍾1
🔥 Awesome MCP Servers

Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).

✔️ Что такое MCP серверы?
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.

Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!

Здесь можно найти платины на все случаи жизни:

Автоматизация Браузера
Облачные Платформы
Командная Строка
Коммуникации
Базы данных
Инструменты Разработчика
Файловые Системы
Финансы
Игры
Службы определения местоположения
Маркетинг
Мониторинг
Поиск
Спорт
Путешествия И Транспорт
Другие инструменты и интеграций

🟡Github

@ai_machinelearning_big_data


#mcp #ai #agents #awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍55🔥128🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Сегодня Amazon расширила доступ к своим новым генеративным ИИ моделям.

Nova Micro, Lite и Pro, предоставляют быстрые и экономически эффективные решения для различных приложений.

Особо интересен агент Amazon Nova Act, обученный выполнять комплексные действия в браузере.

🌟Вот ключевые особенности:
1) Агент может автономно управлять -браузером для выполнения задач, имитируя действия человека. 🌐
2) SDK для разработчиков: Поставляется с набором для разработки ПО (SDK), который позволит разработчикам создавать и тестировать собственные прототипы ИИ-агентов. 🧑‍💻
3) Интеграция с Alexa+: Эта технология станет основой для будущих продвинутых функций в улучшенном ИИ-ассистенте Amazon - Alexa+. 🗣️
4) Автоматизация задач: Nova Act способен выполнять реальные задачи, такие как заказ еды , бронирование столиков , покупки и многое другое.
5) Поддержка контроля человеком: Предусмотрена возможность вмешательства человека, когда это необходимо, для повышения надежности и управляемости. 🧑‍💼
6) Оптимизация производительности: Amazon утверждает, что во внутренних тестах Nova Act превосходит все конкурирующие решения, такие как Operator от OpenAI и Computer Use от Anthropic. Например, в ScreenSpot Web Text, который измеряет, как агент ИИ взаимодействует с текстом на экране. Nova Act набрал 94 %, превзойдя CUA OpenAI (88 %) и Claude 3.7 Sonnet от Anthropic (90 %).
Верим?)

SDK Nova Act доступен в превью режиме здесь.

🟡Новость

#Amazon #NovaAct #AIAgent #Alexa #TechNews #Automation #SDK
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3213🔥7🤔4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Авито развивает собственные генеративные модели: A-Vibe и A-Vision

Авито представил уникальное семейство генеративных моделей — A-Vibe и A-Vision, созданные на базе нейросети Qwen2.5 с 7 миллиардами параметров. Их разработали специально для задач, связанных с покупкой и продажей товаров, что делает их особенно полезными для классифайдов.

📋 Что умеют эти модели?

🟡A-Vibe — текстовая модель, которая создает продающие описания товаров и помогает в общении между пользователями.
🟡A-Vision — мультимодальная нейросеть, работающая с изображениями и текстом. Она анализирует визуальные характеристики товаров, распознает текст на фотографиях и улучшает качество изображений.

Компания представила генеративные модели в рамках новой стратегии, посвященной внедрению искусственного интеллекта. В соответствии с ней до 2028 года Авито собирается инвестировать порядка 12 млрд рублей в технологии GenAI и получить более 21 млрд рублей прибыли.

@ai_machinelearning_big_data

#ai #ml #avito
👍4812🔥8🤣8😴4🗿4😁2
🏥 Что MedAgentSim -
Это открытая симуляция больницы, где ИИ-агенты на базе LLM играют роли врачей и пациентов, ведут диалоги, ставят диагнозы, запрашивают анализы и учатся на своих ошибках.

Всё происходит автоматически, как в игре или симуляторе.

🌟 Чем отличается от обычных ИИ-медицинских систем?
1. Реализм (а не просто ответы на вопросы):
Обычные датасеты типа "вопрос — ответ" (QA) статичны.
А тут врач-агент:
ведёт многоголовую консультацию,
сам решает, какие тесты назначить (например, ЭКГ, рентген),постепенно уточняет диагноз.

2. Самообучение через память и размышления:

Система запоминает успешные и неудачные случаи.
При ошибках агент запускает "рефлексию" — анализирует, что пошло не так, и учится на ошибках.
Использует память и рассуждения в стиле chain-of-thought (цепочки мыслей).

3. Можно управлять вручную:

По желанию вы можете взять на себя роль врача или пациента.
Всё это работает на игровом движке (Phaser), агенты ходят по 2D-карте, взаимодействуют с инструментами и разговаривают.

4. Работает лучше аналогов:
Сильно превосходит стандартные модели на тестах NEJM, MedQA, MIMIC-IV, особенно если подключить LLaVA (модель, которая "понимает" медицинские изображения).

5. Фокус на анализ предвзятости:
Проверяли, как модели справляются с задачами в условиях когнитивных и имплицитных (скрытых) предубеждений.

GPT-4o и LLaMA оказались надёжнее, чем, например, Mixtral.

Если коротко:
Забавный проект, по сути MedAgentSim — это умный симулятор больницы с ИИ-врачами, которые взаимодействуют как в реальной жизни, учатся на опыте и даже умеют анализировать свои ошибки.

🟡Paper
🟡Project
🟡Github

@ai_machinelearning_big_data


#ml #ai #aiagents #simulation #MedAgent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7619🔥13
✔️ OpenAI анонсировала открытую модель: релиз через несколько месяцев.

OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.

Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X

✔️ В Китае появились цены на медицинские услуги с использованием интерфейсов "мозг-компьютер".

Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).

ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov

✔️ Runway выпустила Gen-4.

Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml

✔️ SANA-Sprint: SOTA в реалтайм-диффузии.

MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.

SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github

✔️ Microsoft расширяет функционал Copilot+ для устройств на AMD, Intel и Snapdragon.

Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.

Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com

✔️ Apple разрабатывает ИИ-агента для здоровья.

Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.

Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts

✔️ Krea представила новый генератор 3D-моделей с использованием передовой технологии Hunyuan 3D.

Модели легко импортируются в Blender.
Krea

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥2313❤‍🔥1