223K subscribers
3.85K photos
642 videos
17 files
4.47K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ DeepSite на базе DeepSeek-V3-0324, позволяет генерировать, код, приложения или игры прямо в браузере и хостить их.

Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.

😶 По сути это Сursor в браузере.

🟡Попробовать: https://huggingface.co/spaces/enzostvs/deepsite

@ai_machinelearning_big_data


#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍3418😁9🤩2😨1
✔️ Киностудии требуют доход с ИИ-трейлеров на YouTube вместо их блокировки.

Warner Bros., Sony Pictures и Paramount меняют подход к защите контента: вместо удаления сгенерированных фейковых трейлеров на YouTube они настаивают на передаче им рекламных доходов. Например, Warner Bros. претендует на монетизацию роликов с использованием «Супермена», а Sony — трейлеров к «Человеку-пауку» и «Крейвену». Это стратегический шаг — студии видят в ИИ не только угрозу, но и источник прибыли, адаптируясь к цифровой реальности.

Технологии генерации контента упростили создание фейков, но теперь авторы таких видео рискуют лишиться заработка. Вместо привычных копирайт-страйков правообладатели используют систему Content ID, автоматически перенаправляя деньги себе. Пока неясно, как эта ситуация повлияет на кузнецов контента — возможно, им придется искать новые платформы или договариваться со студиями.
deadline.com

✔️ Manus AI выпустили приложение для iOS, перешли на Sonnet 3.7 и опубликовали тарифы.

Manus AI анонсировала запуск мобильного приложения для iOS. Основной фишкой стал Sandbox с расширенным контекстом и мультимодальными функциями. Всю систему перевели на Claude 3.7 Sonnet, что повысило скорость и точность обработки задач.

После закрытого бета-тестирования Manus AI открыл доступ всем пользователям, предложив 3 тарифа: Free дает 1000 кредитов, Starter за $39/мес. - 3900 кредитов и 2 параллельных процесса , Pro-версия ($199/мес) - 19 900 кредитов, 5 задач одновременно + доступ к бета-функциям.
Manus AI в X (ex-Twitter)

✔️ ЕС инвестирует 1,3 млрд. евро в ИИ, кибербезопасность и цифровые навыки.

Еврокомиссия планирует инвестировать 1,3 млрд. евро (1,4 млрд долларов) в ИИ, кибербезопасность и цифровые навыки в рамках программы "Цифровая Европа" в период с 2025 по 2027 год, говорится в заявлении, опубликованном в пятницу.
"Обеспечение технологического суверенитета Европы начинается с инвестирования в передовые технологии и предоставления людям возможности повысить свою цифровую компетентность", - заявила руководитель отдела цифровых технологий Европейской комиссии Хенна Вирккунен.
reuters.com

✔️ VBench-2.0: обновление бенчмарка генерации видео.

Обновленный VBench-2.0 от NTU S-Lab и Shanghai AI Lab переводит оценку ИИ-видео с «красивой картинки» на уровень глубинного понимания физики, анатомии и логики. Система проверяет 18 параметров — от движения камеры до правдоподобности бытовых сцен. VBench-2.0 в открытом доступе — можно тестировать свои модели, сравнивать результаты и влиять на развитие экосистемы.
github.com

✔️ Amazon Interests: гиперперсонализированный шопинг с ИИ.

Новый сервис Interests от Amazon использует ИИ, чтобы превратить хобби пользователей в высокоточные рекомендации. Система анализирует естественные запросы вроде «инструменты для варки кофе» или «деревянные головоломки», преобразуя их в поисковые параметры. Под капотом, возможно, задействована масштабированная версия модели Nova series Reasoning — хотя компания пока не раскрывает детали.

Интересы можно детализировать: указать бюджет, материалы или цвета, а алгоритм будут непрерывно предлагать новые товары. Планируется, что сервис интегрируют в Alexa+ — следующее поколение ассистента, которое будет подключать специализированные ИИ-модули.

Пока функция доступна ограниченному кругу пользователей в США через мобильное приложение. Но если тесты пройдут успешно, Amazon масштабирует технологию, усиливая конкуренцию в сфере персонализированной коммерции.
aboutamazon.com

✔️ В GPT-4o был замечен ризонинг!

Ожидается, что во все модели будут добавлены новые инструменты и обновления.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5418🔥12❤‍🔥4🌚2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 TripoSG и TripoSF — это новые модели генеративного ИИ для создания высококачественных 3D-моделей.

TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).

TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.

😶Как работают эти модели?
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .

😶Данные для обучения: Модель обучена на специально подготовленном наборе данных из 2 миллионов пар "изображение-SDF" (SDF — signed distance function, функция, описывающая расстояние до поверхности объекта).

😶Процесс работы: Вы загружаете одно изображение (например, фото статуи или рисунок персонажа). Модель анализирует его, используя вариационный автоэнкодер (VAE) с геометрическим надзором, и генерирует 3D-сетку с высокой детализацией.

😶Результат: На выходе получаем 3D-модель, которую можно использовать в играх, анимации или 3D-печати.
TripoSF

Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).

Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.

🟡Github
🟡Model
🟡Project
🟡Paper

@ai_machinelearning_big_data


#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥2217🙏3🕊1
✔️ Теперь Gemini 2.5 Pro теперь доступна бесплатно для всех пользователей с аккаунтом Google.


Пользуемся: https://gemini.google.com

@ai_machinelearning_big_data


#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80🔥2612😐11
🌟 VideoMind - это агент для анализа видео, разработанный для точного понимания контента с привязкой ко времени.

Основная цель инструмента - обеспечить "temporal-grounded video understanding", то есть способность отвечать на вопросы о видео, точно указывая на конкретные моменты (визуальные доказательства) в видеоряде, что является сложной задачей для стандартных больших языковых моделей.

Как работает:
🟢 Внутри использует ролевой агентный подход (role-based agentic workflow), который включает специализированные компоненты (роли), такие как планировщик (planner) для координации, локализатор (grounder) для привязки ко времени, верификатор (verifier) для оценки точности временных интервалов и ответчик (answerer) для формулировки ответа.
🟢 Разработчики использовали очень интересную стратегию "Chain-of-LoRA", которая позволяет эффективно переключаться между различными ролями с помощью легковесных адаптеров LoRA (Low-Rank Adaptation) без необходимости загружать несколько отдельных моделей, оптимизируя баланс между гибкостью и вычислительной эффективностью.

✔️ Результаты: демонстрирует SOTA производительность на 14 бенчмарках для различных задач понимания видео, включая ответы на вопросы с привязкой ко времени (Grounded VideoQA), временную локализацию событий (VTG) и общие ответы на вопросы по видео (VideoQA).

🟡Github
🟡Demo
🟡Paper
🟡Dataset
🟡Checkpoints

@ai_machinelearning_big_data


#agent #ai #ml #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍13124🥰3
🔥 ​Hugging Face выпустила версию 0.30.0 библиотеки huggingface_hub - это самое крупное обновление за два года!

Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.​

✔️ Основные нововведения:

Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.

В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.

Для интеграции с Python используется пакет xet-core, написанный на Rust, который обрабатывает все низкоуровневые детали.​

Чтобы начать использовать Xet, установите дополнительную зависимость:​
pip install -U huggingface_hub[hf_xet]

После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.​

Доплнительно:
😶 Расширен InferenceClient:
😶 Добавлена поддержка новых провайдеров для инференса: Cerebras и Cohere.
😶 Внедрены асинхронные вызовы для задач инференса (например, text-to-video), что повышает стабильность и удобство работы.
😶 Улучшен CLI
😶 Команда huggingface-cli upload теперь поддерживает wildcards (шаблоны) прямо в пути к файлам (например, huggingface-cli upload my-model *.safetensors вместо опции --include).
😶 Команда huggingface-cli delete-cache получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size).

✔️ Полный список обновлений
✔️Блог
✔️Документация по Xet

@ai_machinelearning_big_data


#huggingface #release #xet
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4612🔥6🥱1🍾1
🔥 Awesome MCP Servers

Тщательно отобранный список (Awesome List) с MCP серверами (Model Control Plane Servers).

✔️ Что такое MCP серверы?
MCP серверы являются микросервисами, которые могут быть использованы LLM для выполнения вашей задачи.
По сути это мост между LLM и внешним миром: сайтами, базами данных, файлами и сервисами и тд.

Коллекция из 300+ MCP-серверов для ИИ-агентов 100% oпенсорс.!

Здесь можно найти платины на все случаи жизни:

Автоматизация Браузера
Облачные Платформы
Командная Строка
Коммуникации
Базы данных
Инструменты Разработчика
Файловые Системы
Финансы
Игры
Службы определения местоположения
Маркетинг
Мониторинг
Поиск
Спорт
Путешествия И Транспорт
Другие инструменты и интеграций

🟡Github

@ai_machinelearning_big_data


#mcp #ai #agents #awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍55🔥128🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Сегодня Amazon расширила доступ к своим новым генеративным ИИ моделям.

Nova Micro, Lite и Pro, предоставляют быстрые и экономически эффективные решения для различных приложений.

Особо интересен агент Amazon Nova Act, обученный выполнять комплексные действия в браузере.

🌟Вот ключевые особенности:
1) Агент может автономно управлять -браузером для выполнения задач, имитируя действия человека. 🌐
2) SDK для разработчиков: Поставляется с набором для разработки ПО (SDK), который позволит разработчикам создавать и тестировать собственные прототипы ИИ-агентов. 🧑‍💻
3) Интеграция с Alexa+: Эта технология станет основой для будущих продвинутых функций в улучшенном ИИ-ассистенте Amazon - Alexa+. 🗣️
4) Автоматизация задач: Nova Act способен выполнять реальные задачи, такие как заказ еды , бронирование столиков , покупки и многое другое.
5) Поддержка контроля человеком: Предусмотрена возможность вмешательства человека, когда это необходимо, для повышения надежности и управляемости. 🧑‍💼
6) Оптимизация производительности: Amazon утверждает, что во внутренних тестах Nova Act превосходит все конкурирующие решения, такие как Operator от OpenAI и Computer Use от Anthropic. Например, в ScreenSpot Web Text, который измеряет, как агент ИИ взаимодействует с текстом на экране. Nova Act набрал 94 %, превзойдя CUA OpenAI (88 %) и Claude 3.7 Sonnet от Anthropic (90 %).
Верим?)

SDK Nova Act доступен в превью режиме здесь.

🟡Новость

#Amazon #NovaAct #AIAgent #Alexa #TechNews #Automation #SDK
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3213🔥7🤔4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Авито развивает собственные генеративные модели: A-Vibe и A-Vision

Авито представил уникальное семейство генеративных моделей — A-Vibe и A-Vision, созданные на базе нейросети Qwen2.5 с 7 миллиардами параметров. Их разработали специально для задач, связанных с покупкой и продажей товаров, что делает их особенно полезными для классифайдов.

📋 Что умеют эти модели?

🟡A-Vibe — текстовая модель, которая создает продающие описания товаров и помогает в общении между пользователями.
🟡A-Vision — мультимодальная нейросеть, работающая с изображениями и текстом. Она анализирует визуальные характеристики товаров, распознает текст на фотографиях и улучшает качество изображений.

Компания представила генеративные модели в рамках новой стратегии, посвященной внедрению искусственного интеллекта. В соответствии с ней до 2028 года Авито собирается инвестировать порядка 12 млрд рублей в технологии GenAI и получить более 21 млрд рублей прибыли.

@ai_machinelearning_big_data

#ai #ml #avito
👍4812🔥8🤣8😴4🗿4😁2
🏥 Что MedAgentSim -
Это открытая симуляция больницы, где ИИ-агенты на базе LLM играют роли врачей и пациентов, ведут диалоги, ставят диагнозы, запрашивают анализы и учатся на своих ошибках.

Всё происходит автоматически, как в игре или симуляторе.

🌟 Чем отличается от обычных ИИ-медицинских систем?
1. Реализм (а не просто ответы на вопросы):
Обычные датасеты типа "вопрос — ответ" (QA) статичны.
А тут врач-агент:
ведёт многоголовую консультацию,
сам решает, какие тесты назначить (например, ЭКГ, рентген),постепенно уточняет диагноз.

2. Самообучение через память и размышления:

Система запоминает успешные и неудачные случаи.
При ошибках агент запускает "рефлексию" — анализирует, что пошло не так, и учится на ошибках.
Использует память и рассуждения в стиле chain-of-thought (цепочки мыслей).

3. Можно управлять вручную:

По желанию вы можете взять на себя роль врача или пациента.
Всё это работает на игровом движке (Phaser), агенты ходят по 2D-карте, взаимодействуют с инструментами и разговаривают.

4. Работает лучше аналогов:
Сильно превосходит стандартные модели на тестах NEJM, MedQA, MIMIC-IV, особенно если подключить LLaVA (модель, которая "понимает" медицинские изображения).

5. Фокус на анализ предвзятости:
Проверяли, как модели справляются с задачами в условиях когнитивных и имплицитных (скрытых) предубеждений.

GPT-4o и LLaMA оказались надёжнее, чем, например, Mixtral.

Если коротко:
Забавный проект, по сути MedAgentSim — это умный симулятор больницы с ИИ-врачами, которые взаимодействуют как в реальной жизни, учатся на опыте и даже умеют анализировать свои ошибки.

🟡Paper
🟡Project
🟡Github

@ai_machinelearning_big_data


#ml #ai #aiagents #simulation #MedAgent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7619🔥13
✔️ OpenAI анонсировала открытую модель: релиз через несколько месяцев.

OpenAI впервые после GPT-2 готовит релиз языковой модели с открытыми весами, доступной для модификации. Как заявил Сэм Альтман, система обладает продвинутыми возможностями логического вывода, а её эффективность планируют повысить за счет обратной связи от разработчиков. Для этого OpenAI запустила форму для сбора предложений и планирует провести очные сессии в Сан-Франциско, Европе и АТР.

Модель будет близка по возможностям с o3-mini, ее релиз запланирован на ближайшие месяцы.
Sam Altman в X

✔️ В Китае появились цены на медицинские услуги с использованием интерфейсов "мозг-компьютер".

Бюро медицинского страхования провинции Хубэй объявило о введении первых в КНР тарифов на нейротехнологии. Инвазивные процедуры — установка и удаление интерфейса "мозг-компьютер" (ИМК) — оценены в 6552 (902 $) и 3139 (432 $) юаней соответственно, а адаптация неинвазивных систем обойдётся в 966 юаней (133 $).

ИМК делится на два типа. Неинвазивный, с датчиками на голове, безопасен, но дает менее точные сигналы. Инвазивный, с имплантатами, эффективнее, однако требует хирургического вмешательства. Обе технологии уже помогают пациентам ходить, «говорить» или «видеть», преобразуя мозговые импульсы в команды.
ybj.hubei.gov

✔️ Runway выпустила Gen-4.

Runway представила Gen-4 — новую модель для генерации видео с высокой детализацией. Система генерирует ролики с консистентными персонажами, объектами и окружением, улучшая физику движений и реалистичность по сравнению с Gen-3 Alpha. Gen-4 использует визуальные ссылки и инструкции и не требует дополнительного обучения.
runwayml

✔️ SANA-Sprint: SOTA в реалтайм-диффузии.

MiT и NVIDIA представилb SANA-Sprint — диффузионную модель, которая генерирует высококачественные изображения 1024x1024 пикселей всего за 0,1 секунды на H100. Технология построена на гибридной дистилляции, что позволяет избежать проблем конкурентов — нестабильности GAN, вычислительной нагрузки VSD и падения качества при малом числе шагов.

SANA-Sprint выбивает FID 7,59 и GenEval 0,74 в одношаговом режиме, обгоняя FLUX-schnell как по скорости (в 10 раз быстрее), так и по точности. Интеграция с ControlNet даёт возможность интерактивного редактирования изображений с задержкой менее 0,25 секунды.
nvlabs.github

✔️ Microsoft расширяет функционал Copilot+ для устройств на AMD, Intel и Snapdragon.

Microsoft анонсировала обновления для Copilot+ PC, которые теперь доступны не только на Snapdragon, но и на устройствах с процессорами AMD и Intel. Среди ключевых нововведений — функция Live Captions, обеспечивающая перевод аудио и видео в режиме реального времени на английский и упрощенный китайский. Voice Access также получил улучшения, упрощая управление ПК голосом.

Для творческих задач в Paint добавлен Cocreator — инструмент, объединяющий текстовые подсказки с ручной отрисовкой, а в приложении Photos появились Restyle Image и Image Creator. Они позволяют трансформировать фото в художественные стили или генерировать изображения по описанию. Обновление уже распространяются через Windows Update.
blogs.windows.com

✔️ Apple разрабатывает ИИ-агента для здоровья.

Apple, по данным Bloomberg, активизирует разработку ИИ-агента, способного давать персонализированные рекомендации по здоровью. Проект Mulberry, эволюция более ранней инициативы Quartz, направлен на создание «цифрового тренера», который поможет пользователям улучшить физическую активность, сон и питание. Запуск сервиса планируется в составе iOS 19.4 — уже весной или летом 2025 года.

Система будет анализировать данные с Apple Watch и iPhone, предлагая советы на основе медицинских алгоритмов. Для обучения нейросети привлечены не только штатные врачи компании, но и внешние эксперты: диетологи, кардиологи, психотерапевты. Особый упор сделают на трекинг питания — это выведет Apple на прямую конкуренцию с MyFitnessPal и Noom.
pymnts

✔️ Krea представила новый генератор 3D-моделей с использованием передовой технологии Hunyuan 3D.

Модели легко импортируются в Blender.
Krea

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥2313❤‍🔥1
🔥 Video-T1 — это метод в области машинного обучения, направленный на улучшение качества генерации видео посредством масштабирования вычислений на этапе инференса (Test-Time Scaling, TTS).

Вместо увеличения размеров модели или объема обучающих данных, Video-T1 использует дополнительные вычислительные ресурсы во время инференса для повышения качества генерированных видео.​

🌟 Как работает Video-T1:​

😶Случайный Линейный Поиск (Random Linear Search):

Процесс: Этот метод довольно прямолинейный. Берется несколько (N) разных случайных начальных "шумов" (Gaussian noise).

Для каждого из этих шумов запускается стандартный процесс генерации видео (пошаговое "очищение" от шума, denoising) от начала до конца, создавая N полных видео-кандидатов.

Специальные модели или алгоритмы, называемые "тестовыми верификаторами" (test verifiers), оценивают каждый из N сгенерированных видеороликов по разным критериям (например, соответствие тексту, качество изображения, правдоподобность движения).

Выбирается то видео, которое получило наивысшую оценку от верификаторов.

Недостаток: Требует генерации множества полных видео, что может быть очень затратно по времени и ресурсам, особенно для длинных видео.

😶Поиск "Дерево Кадров" (Tree of Frames - ToF):
Процесс: Этот метод более хитрый и потенциально более эффективный. Он разбивает генерацию на этапы и строит "дерево" возможных вариантов, отсекая бесперспективные "ветви" на ранних стадиях.

(a) Этап 1: Выравнивание на уровне изображений: Начинается генерация нескольких вариантов первых кадров или коротких начальных сегментов. Верификаторы оценивают, насколько хорошо эти начальные изображения соответствуют запросу. Этот этап важен, так как первые кадры сильно влияют на последующие. Отбираются лучшие "стартовые" ветви.

(b) Этап 2: Поиск с динамической проверкой: Для перспективных "ветвей" генерация продолжается кадр за кадром (или короткими клипами). На этом этапе верификаторы (возможно, с динамическими подсказками, адаптирующимися к уже сгенерированному) фокусируются на стабильности движения и физической правдоподобности. Они дают обратную связь, которая направляет "эвристический поиск" — алгоритм решает, какие "ветви" дерева продолжать растить, а какие — "подрезать" (prune) как неперспективные. Это экономит ресурсы, не тратя их на заведомо плохие продолжения.

(c) Этап 3: Финальная оценка: Когда несколько полных видео- "ветвей" сгенерированы, финальные верификаторы оценивают их общее качество и полное соответствие исходному текстовому запросу. Выбирается лучшее видео из финальных кандидатов.
Преимущество: Позволяет более эффективно использовать вычислительный бюджет, концентрируясь на наиболее обещающих вариантах генерации на каждом этапе.

Зачем нужен Video-T1:
1) Улучшение качества видео:​
Применение TTS позволяет существенно повысить качество сгенерированных видео и их соответствие заданным текстовым описаниям.​

2) Экономия ресурсов:​
Вместо дорогостоящего увеличения размеров моделей или повторного обучения на больших объемах данных, Video-T1 использует дополнительные вычисления на этапе инференса, что более экономично.​

3) Метод может быть адаптирован к различным моделям генерации видео, обеспечивая стабильное улучшение качества при увеличении вычислительных ресурсов во время инференса.​

TTS особенно хорошо работает для улучшения видео по параметрам, которые легко оценить:
* Соответствие общим запросам (например, генерация определенной сцены или объекта).
* Качество изображения (четкость, детализация).

🟡Github
🟡Paper
🟡Project

@ai_machinelearning_big_data


#ai #ml #videogenerator #video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2911🔥4🕊1😭1