Архитектура YOLO (You Only Look Once) получила своё название благодаря подходу, при котором нейронная сеть анализирует всё изображение целиком за один проход, чтобы определить присутствие и расположение объектов. Это отличается от других методов, которые сначала выделяют потенциальные области с объектами, а затем отдельно классифицируют их, что требует нескольких обработок одного изображения
YOLOE сохраняет принцип однократного взгляда на изображение для детекции объектов, но вносит архитектурные улучшения, направленные на повышение точности и эффективности модели.
▪ Ключевые отличия от классического YOLO:
- Оптимизированная архитектура: В YOLOE внедрены новые подходы для более эффективной обработки признаков, что позволяет улучшить качество детекции без значительного увеличения вычислительных затрат.
- Повышенная точность: Улучшенные модули и методы, такие как ре-параметризация отдельных блоков, способствуют более точному обнаружению объектов, включая мелкие и сложно различимые элементы.
- Скорость и эффективность: YOLOE сохраняет высокую скорость инференса, делая его пригодным для задач в реальном времени, при этом обеспечивая конкурентоспособное соотношение производительности и точности.
YOLOE представляет собой современное и улучшенное решение для задач детекции объектов, совмещающее лучшие стороны классического YOLO с новыми архитектурными подходами.
#yoloe #opensource #ml #ai #yolo #objectdetection
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61❤20🔥7🥰2🤓2
This media is not supported in your browser
VIEW IN TELEGRAM
Как работает модель:
начинается с существующей траектории движения камеры или даже с чистого шума. Так задаётся исходное состояние, которое модель будет постепенно улучшать.
Модель использует одновременно два типа входных данных – рендеры точечных облаков (3D-представления сцен) и исходные видео.
Модель обучается шаг за шагом «очищать» случайный шум, превращая его в последовательность траекторий. На каждом шаге происходит итеративное уточнение — модель предсказывает, как должна выглядеть более реалистичная траектория, исходя из заданных условий (например, плавности движения, и согласованности сцены).
Вместо того чтобы использовать только видео снятые с разных ракурсов, авторы создали обучающий набор, комбинируя обширные монокулярные видео (с обычной камерой) с ограниченными, но качественными многоплановыми видео. Такую стратегию достигается с помощью назвали - «двойная репроекция», она помогает модели лучше адаптироваться к различным сценам.
После серии итераций, когда шум устранен, генерируется новая траектория камеры, которая соответствует заданным условиям и обладает высоким качеством визуальной динамики.
Установка:
git clone --recursive https://github.com/TrajectoryCrafter/TrajectoryCrafter.git
cd TrajectoryCrafter
@ai_machinelearning_big_data
#opensource #ml #ai #cameracontrol #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤18🔥8💯2
🔥 Mistral Small 3.1
Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0
Модель превосходит аналогичные модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость инференса 150 токенов в секунду.
Это новая версия компактной языковой модели от Mistral.ai, разработанная для обеспечения высокой производительности при минимальных вычислительных затратах.
▪ Оптимизированная архитектура: Улучшения в конструкции модели позволяют снизить задержки инференса и повысить точность генерации, что особенно важно для приложений в реальном времени. Mistral Small 3.1 может работать на одном RTX 4090 или Mac с 32 ГБ оперативной памяти.
▪ Эффективное использование ресурсов: Благодаря сниженным вычислительным требованиям, модель идеально подходит для работы на устройствах с ограниченными ресурсами — от мобильных телефонов до облачных серверов.
▪ Широкий спектр применения: Mistral Small 3.1 сохраняет баланс между компактностью и качеством, что делает её универсальным инструментом для задач обработки естественного языка: от чат-ботов и виртуальных помощников до систем анализа текстов.
▪ Стабильность и надёжность: Новая версия демонстрирует улучшенную устойчивость и предсказуемость работы, что помогает разработчикам создавать более качественные и надежные приложения.
🟡 HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
🟡 Post: https://mistral.ai/news/mistral-small-3-1/
@ai_machinelearning_big_data
#mistral #llm #mistralsmall
Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0
Модель превосходит аналогичные модели, такие как Gemma 3 и GPT-4o Mini, обеспечивая при этом скорость инференса 150 токенов в секунду.
Это новая версия компактной языковой модели от Mistral.ai, разработанная для обеспечения высокой производительности при минимальных вычислительных затратах.
▪ Оптимизированная архитектура: Улучшения в конструкции модели позволяют снизить задержки инференса и повысить точность генерации, что особенно важно для приложений в реальном времени. Mistral Small 3.1 может работать на одном RTX 4090 или Mac с 32 ГБ оперативной памяти.
▪ Эффективное использование ресурсов: Благодаря сниженным вычислительным требованиям, модель идеально подходит для работы на устройствах с ограниченными ресурсами — от мобильных телефонов до облачных серверов.
▪ Широкий спектр применения: Mistral Small 3.1 сохраняет баланс между компактностью и качеством, что делает её универсальным инструментом для задач обработки естественного языка: от чат-ботов и виртуальных помощников до систем анализа текстов.
▪ Стабильность и надёжность: Новая версия демонстрирует улучшенную устойчивость и предсказуемость работы, что помогает разработчикам создавать более качественные и надежные приложения.
@ai_machinelearning_big_data
#mistral #llm #mistralsmall
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67🔥26❤16🍾6
Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.
Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".
Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io
Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.
Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org
ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.
ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org
На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.
MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com
YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.
Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52❤21🔥13🤷♂3
Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.
1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.
Модель 32B, которая по размеру равна примерно 5% от размера DeepSeek r1, превосходит ее почти на всех бенчмарках.
Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LG #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
❤37👍26🔥7🤓2
Эта разработка, представленная в исследовательском превью, позволяет создавать реалистичные 3D видео без сложной реконструкции сцены или специализированной оптимизации.
С помощью одного или нескольких изображений модель позволяет создать видео с плавной траекторией с любой перспективы, которой вы пожелаете.
Релиз доступен для исследовательского использования под некоммерческой лицензией.
Веса: https://huggingface.co/stabilityai/stable-virtual-camera
@ai_machinelearning_big_data
#stability #ai #ml #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42🔥21👍9
Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах.
В итоге получился очень годный гайд, со множеством технических деталей.
Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna.
Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%.
Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов.
Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью.
А здесь можно почитать описание семейства моделей Yolo.
#yolo #guide #detection #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤18🤓5🔥3😁2🗿2👌1
OpenAI планирует запустить новую функцию «Коннекторы ChatGPT», которая позволит подписчикам плана "Team" подключать учетные записи Google Диска и Slack к ChatGPT, позволяя отвечать на вопросы на основе файлов, презентаций, электронных таблиц на этих ресурсах. В будущем коннекторы ChatGPT планируется расширить на Microsoft SharePoint и Box.
"Коннекторы" разрабатываются, чтобы дать возможность корпоративным пользователям получать доступ к внутренней информации так же легко, как при поиске в Интернете. Компаниям, участвующим в тестировании "коннекторов", необходимо предоставить OpenAI минимум 100 документов, таблиц, презентаций или диалогов в канале Slack.
techcrunch.com
Аналитик TF International Securities Минг-Чи Куо предположил, что новый чип B300 станет ключевым моментом пресс-конференции GTC 2025. HBM был значительно модернизирован с 192 ГБ до 288 ГБ, а вычислительная производительность была улучшена на 50% (FP4) по сравнению с B200. Ожидается, что B300 будет запущен в опытное производство во 2 квартале 2025 г., а массовое производство — в 3-м квартале 2025 г.
jiemian.com
Гарвардский университет объявил о расширении правил стипендий. Для студентов бакалавриата, чей доход семьи не превышает 200 000 долл. в год, плата за обучение будет отменена, а для студентов, чей доход семьи не превышает 100 000 долл. в год, обучение будет полностью бесплатным.
Пенсильванский университет и Массачусетский технологический институт приняли аналогичные решения. В то время, когда плата за обучение во многих ведущих ВУЗах США превышает 90 000 долл. в год, эта политика сделают их более доступными.
wsj.com
Марк Цукерберг написал в своем аккаунте на платформе Threads, что «открытое» семейство моделей Llama было загружено более 1 миллиарда раз. По сравнению с 650 миллионами загрузок в начале декабря 2024 года рост скачиваний составил примерно 53% всего за 3 месяца.
Mark Zukerberg в Threads
Три ИТ-гиганта объявили о новом этапе давнего партнерства, направленном на продвижение ИИ, расширение доступа к ИИ-инструментам, ускорение разработки физического ИИ и трансформацию здравоохранения, производства и энергетики. Инженеры Alphabet тесно сотрудничают с техническими командами NVIDIA, используя AI и симуляцию для создания роботов с навыками захвата, переосмысления открытия лекарств и оптимизации энергосетей. Для поддержки этих исследований Google Cloud станет одним из первых, кто внедрит NVIDIA GB300 NVL72 и GPU NVIDIA RTX PRO 6000 Blackwell Server Edition.
Совместно с Disney Research разрабатывается Newton, опенсорсный физический движок, ускоренный NVIDIA Warp, который значительно повысит скорость машинного обучения в робототехнике.
nvidianews.nvidia.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤19🔥13🗿2🥰1