Machinelearning

👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения.

Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.

Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.

Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.

Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.

Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.

В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.

По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.

Теперь модель может отслеживать до 16 объектов за один проход.

С multiplexing все объекты обрабатываются одновременно:

• меньше лишних вычислений
• нет узких мест по памяти

Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!

На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.

https://github.com/facebookresearch/sam3

@ai_machinelearning_big_data

#ai #ml #llm #cv #python

3🤩107👍44🎉29❤23👏13🔥11🙏1🌚1👾1

19.6K views05:18

Machinelearning

✔ В России предложили способ быстро адаптировать чат-ботов и голосовых ассистентов под новые задачи.

Исследователи из MWS AI (входит в MTS Web Services), Университета ИТМО и IITU представили метод, который улучшает понимание диалога. Работа принята на EACL 2026, одну из главных конференций по NLP.

Ключевая проблема диалоговых систем заключается в том, что боты теряют контекст разговора, начинают отвечать мимо запроса, и в итоге пользователь получает нерелевантный результат. Новый подход меняет сам принцип обучения. Вместо того чтобы просто показывать модели правильные ответы, ей дают возможность самой находить решения и получать сигнал за точность. Для этого используется обучение с подкреплением GRPO.

Такой подход снижает требования к данным, упрощает перенос на новые сценарии и делает внедрение быстрее и дешевле. В экспериментах модель на 8 млрд параметров показала точность 41,9%, превзойдя GPT-4 с результатом 38,7%, а также более крупную модель на 32 млрд параметров.

Отмечается, что обучение может проходить на данных из других доменов, весь процесс укладывается в одну GPU, а код открыт.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍116👏29😁17🎉16❤7💯7🔥3👀1

18.3K views07:04

✔️

Утечка в Anthropic раскрыла детали новой модели Claude.

Из-за ошибки в CMS в открытый доступ попали около 3000 внутренних документов Anthropic. Главной утечкой стала информация о разработке новой модели, которая в черновиках упоминается как Mythos и Capybara. Представители компании подтвердили тестирование продукта.

Mythos или Capybara представляет собой новый класс моделей, стоящий на ступень выше актуальной флагманской Opus. Разработчики заявляют о качественном скачке в логике, написании кода и кибербезопасности - результаты тестов значительно превосходят показатели Opus 4.6.

В документах говорится, что возможности модели по поиску уязвимостей могут представлять угрозу. Из-за этого релиз будет крайне осторожным: сначала API откроют узкой группе раннего доступа. Другой преградой для релиза стала высокая стоимость инференса - Anthropic пытается оптимизировать архитектуру, чтобы сделать использование модели рентабельным.
fortune.com

✔️

OpenAI запустила систему плагинов для Codex.

Обновление ориентировано в первую очередь на корпоративные IT-команды, которые смогут упаковывать рабочие процессы, интеграции и настройки MCP-серверов в версионируемые пакеты. Из коробки Codex поддерживает работу с Slack, Figma, Notion и Gmail.

Через эти плагины Codex может брать на себя задачи по планированию, сбору информации и координации, которые предшествуют разработке и управлять последующими процессами.

Новая функция уже доступна в приложении Codex, CLI и расширениях для IDE. В будущем OpenAI планирует запустить официальный каталог плагинов и добавить платформу для их публикации.
OpenAI Developers в сети Х

✔️

Суд временно заблокировал запрет Пентагона на использование моделей Anthropic.

Федеральный суд США вынес предварительное постановление, запрещающее Министерству обороны разрывать связи с разработчиком чат-бота Claude. Судья встала на сторону стартапа, расценив действия властей как незаконную месть за корпоративную позицию, а не как защиту национальной безопасности.

Суд также отверг аргументы правительства о риске саботажа со стороны Anthropic. Юристы стартапа доказали техническую невозможность подобных сценариев: после развертывания модели на стороне заказчика компания лишается доступа к ней и не может удаленно отключить нейросеть, изменить ее код или отследить, как именно военные ее применяют.

Вступление судебного приказа в силу отложено на семь дней, чтобы дать правительству время на апелляцию. Представитель Минобороны назвал вердикт «позором», сославшись на фактические ошибки суда.
bloomberg.com

✔️

В Gemini появилась функция миграции из ChatGPT и Claude.

Google добавила в Gemini возможность легкого перехода с конкурирующих ИИ-платформ. Теперь можно перенести предпочтения, сохраненный контекст и полную историю чатов из ChatGPT и Claude.

Механика миграции работает двумя способами. Для переноса персональных настроек используется промпт: его нужно скопировать в старый ИИ-ассистент для генерации сводки, а затем вставить ответ в Gemini. Историю диалогов предлагается загружать архивом истории в формате ZIP объемом до 5 ГБ. Это позволит продолжить старые беседы уже в интерфейсе Google.

В рамках обновления раздел Past Chats также переименован в Memory.
blog.google

✔️

CapCut расширил географию доступа к генератору видео Seedance 2.0.

Вслед за релизом инструмента Video Studio на базе Seedance 2.0, CapCut открыла доступ к функциям генерации для новых регионов. Теперь обновление доступно пользователям из Европы, Канады, Австралии, Новой Зеландии и Южной Кореи.

Опробовать возможности модели можно в бесплатном пробном периоде на всех платформах сервиса, включая мобильное приложение, десктопный клиент и веб-версию.

Для пользователей сервиса также опубликовано руководство по работе с новыми ИИ-инструментами редактора.
СupCut в сети Х

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔38❤37👍24🔥6👏2😍2

21.2K views08:10

Machinelearning

Жиза

@ai_machinelearning_big_data

#news #ai #ml

❤99😁87🤔43👍16💯16👏9🔥7❤‍🔥1🙈1

21.5K views12:51

📌

В прокат вышел документальный фильм о будущем ИИ.

27 марта года в широкий прокат вышла полуторачасовая документалка «The AI Doc: Or How I Became an Apocaloptimist».

Фильм сняли оскароносный режиссер Дэниел Рорер и Чарли Тайрелл, номинировавшийся на премию Академии за короткометражку. Премьера картины состоялась на кинофестивале «Сандэнс» 27 января этого года.

Сюжет строится на личной истории Рорера: узнав, что станет отцом, он пытается понять, в каком мире предстоит жить его ребенку. Об этом он разговаривает с ключевыми фигурами отрасли и независимыми исследователями.

Среди собеседников - глава OpenAI Сэм Альтман, основатели Anthropic Дарио и Даниэла Амодеи, руководитель Google DeepMind Демис Хассабис, лауреат премии Тьюринга Джошуа Бенжио, исследовательница этики ИИ Тимнит Гебру, а также Элиезер Юдковский, один из наиболее известных сторонников жесткого контроля над развитием ИИ-систем.

Фильм подсвечивает полярный спектр мнений: от потери рабочих мест, тотальной слежке, возможности появления неуправляемого сверхразума до аргументов в пользу того, что ИИ способен ускорить открытия в медицине и борьбе с изменением климата.

Название содержит неологизм «апокалоптимист» - так режиссер обозначил позицию, при которой человек признает серьезность угроз, но отказывается от пассивного отчаяния.

На Rotten Tomatoes картина набрала 89% положительных рецензий из 35 опубликованных, а на Metacritic средняя оценка составляет 60 баллов из 100 на основе 9 рецензий. Зрительский рейтинг на IMDb: 7,3 из 10.

Ленту показывают в оффлайн кинотеатрах США и на избранных онлайн-платформах (Fandango at Home и Apple TV). В бесплатные кинотеатры пока не завезли.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔64👍44❤10🤣10👏9🔥5🥱5🙈2💯1👻1

20.1K views08:04

Machinelearning

0:46

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Xiaomi показала обновленную бионическую руку для робота CyberOne.

Рука уменьшена в размерах на 60% и теперь практически совпадает по габаритам с ладонью взрослого человека.

Это не вопрос эстетики: при обучении робота через телеуправление оператором-человеком несовпадение пропорций приводит к деградации обучающих данных. Инженеры называют это «проблемой изоморфизма» и Xiaomi говорит, что решила ее.

Число активных степеней свободы выросло до 22–27, что на 83% больше, чем у предыдущей версии.

Площадь тактильных сенсоров, покрывающих ладонь, подушечки и фаланги пальцев стала 8200 мм².

Увеличение площади дает возможность манипулировать объектами на ощупь, без опоры на компьютерное зрение: робот может закручивать винты и удерживать перо, не повредив его.

Для сбора обучающих данных Xiaomi использует тактильные перчатки. Оператор выполняет действия руками, а система в реальном времени записывает данные о захвате и передает их собственным ИИ-моделям компании.

Предыдущие версии руки выходили из строя менее чем за 10 тыс. циклов захвата из-за износа компонентов. Новая конструкция прошла 150 тыс циклов ( это примерно 61 час непрерывной работы).

Фишка апдейта - бионические потовые железы.

Система микронасосов испаряет жидкость через каналы охлаждения, изготовленные с помощью передовых производственных технологий, и рассеивает около 10 Вт тепла.

Принцип заимствован у человеческого тела: испарение отводит тепло от встроенных моторов и предотвращает перегрев компактного корпуса при длительных силовых захватах.

Ранее Xiaomi продемонстрировала работу робота на реальной автомобильной сборочной линии - 3 часа непрерывной работы с показателем успешности 90,2%. Обновленная рука рассчитана на то, чтобы довести эту цифру до 99,9%.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍75❤28🔥17😁4👾2

19.3K views08:02

Machinelearning

🌟

Alibaba выпустили Qwen3.5-Omni

Не мультимодальную сборку из отдельных компонентов, а единую нативную архитектуру, которая с первого слоя работает с текстом, изображением, аудио и видео одновременно.

Главное, что отличает модель от конкурентов: Audio-Visual Vibe Coding. Описываешь голосом в камеру что нужно сделать, модель генерирует рабочий код сайта или игры.

Плюс Script-Level Captioning, который превращает видео в полноценный сценарий с таймкодами и привязкой реплик к спикерам.

• По бенчмаркам Qwen3.5-Omni-Plus бьёт Gemini 3.1 Pro в большинстве категорий.
• По распознаванию речи WenetSpeech: 4.30/5.84 против 11.5/14.2.
• По пониманию аудио VoiceBench: 93.1 против 88.9.
•
• По зрению MVBench: 79.0 против 74.1. По тексту MMLU-Redux: 94.2 против 95.9 (тут паритет). Итого 215 SOTA-результатов по подзадачам.

Модель корректно реагирует на перебивание и не ломается от фонового шума), встроенный WebSearch и Function Calling, поддержка 74 языков в ASR и 29 в TTS.
Доступна через Qwen Chat, HuggingFace и API Alibaba Cloud.

Qwenchat: https://chat.qwen.ai
Blog: https://qwen.ai/blog?id=qwen3.5-omni
Hugging Face Offline Demo: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-Demo
Hugging Face Online Demo: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo

@ai_machinelearning_big_data

#ai #ml #qwen

Please open Telegram to view this post

VIEW IN TELEGRAM

👍79🔥50💯38❤22🎉8👨‍💻4💘2

18.7K views14:09

Machinelearning

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

🤖 Компания Z.ai (создатели моделей GLM) выпустили AutoClaw - инструмент, который позволяет запускать OpenClaw локально, без интернета и без API-ключей других провайдеров.

OpenClaw - это ИИ-агент, который умеет выполнять многошаговые задачи и использовать инструменты (например, подключаться к Slack, Telegram, Discord, WhatsApp и другим сервисам).

В чем плюсы AutoClaw:
• Скачал - запустил. Никаких сторонних API-ключей не нужно
• Можно использовать любую модель или встроенную GLM-5-Turbo, заточенную под работу с инструментами и сложными задачами
• Полностью локально, твои данные никуда не уходят

По сути, это локальный аналог таких агентов, как Cursor или Operator, но работающий целиком на твоей машине, без слежки и без сторонних подписок.

AutoClaw: https://autoglm.z.ai/autoclaw/
Discord: https://discord.gg/jvrbCRSF3x

@ai_machinelearning_big_data

❤82👨‍💻69👍46🎉24🔥11🤩4👏3🗿3😁2🌚2🤔1

20.8K viewsedited 17:12

✔️

Anthropic планирует выйти на IPO в октябре 2026 года.

Anthropic начала подготовку к первичному размещению акций и ведет предварительные переговоры с ключевыми игроками Уолл-стрит: Goldman Sachs, JPMorgan и Morgan Stanley, чтобы выбрать организаторов листинга.

Ожидается, что в ходе IPO стартап сможет привлечь более $60 млрд. Размещению предшествовал крупный раунд финансирования, прошедший в феврале этого года. В рамках этого раунда консорциум инвесторов во главе с фондами GIC и Coatue вложил в компанию $30 млрд, что подняло общую капитализацию Anthropic до $380 млрд.

Финансовый рынок уже отреагировал на новости: эмитенты ETF начали подавать заявки на регистрацию маржинальных фондов, привязанных к котировкам будущих акций компании.
bloomberg.com

✔️

Microsoft опенсорснула семейство эмбеддингов Harrier.

Harrier-OSS-v1 - линейка мультиязычных моделей для векторизации текста. Они используются для информационного поиска, кластеризации, классификации текстов и оценки семантической близости. Семейство выбило SOTA-рекорд в бенчмарке Multilingual MTEB v2.

Флагманская модель на 27 млрд. параметров и компактная на 270 млн. построены на архитектуре Gemma 3, а средняя версия на 600 млн. параметров использует базу Qwen 3. Модели поддерживают контекстное окно до 32 тыс. токенов и работают с более чем 94 языками, включая русский.

Семейство открыто под лицензией MIT и интегрированы в sentence-transformers, LangChain и LlamaIndex.
huggingface.co

✔️

Видеогенератор Sora закрылся из-за убытков.

После громкого релиза аудитория сервиса быстро сократилась с миллиона до 500 тысяч человек, при этом поддержание работы видеогенератора обходилось OpenAI примерно в $1 млн. ежедневно. В итоге проект оказался для компании обузой.

К финансовым потерям добавились проблемы с авторскими правами и опасения, что создание низкокачественных роликов вредит репутации бренда. Обучение новых видеомоделей уже полностью остановлено.

Под давлением конкуренции со стороны Anthropic руководство OpenAI решило перенаправить вычислительные мощности на более маржинальные направления: разработку ИИ-агентов, генерацию кода и корпоративные продукты. Команду Sora перевели на создание моделей мира для робототехники.
wsj.com

✔️

Microsoft расширила возможности Copilot.

В рамках обновления Microsoft 365 Copilot компания добавила новые инструменты для автоматизации рабочих процессов и глубокого поиска. Во главе апдейта - агент Researcher с функцией Critique, которая задействует 2 модели: одну для черновика, а другую - в роли проверяющего редактора, комбинируя возможности моделей от OpenAI и Anthropic. Microsoft говорит, что агент опережает Perplexity на базе Claude Opus 4.6 на 7 пунктов.

Вторая часть - это функция Model Council, которая выводит на один экран ответы от разных ИИ-моделей для наглядного сравнения их выводов и поиска расхождений.

Попутно Microsoft расширила доступ к Copilot Cowork по программе Frontier. Система научилась брать на себя многоэтапные задачи: она самостоятельно взаимодействует с рабочими файлами, планирует расписание в календаре и формирует ежедневные брифинги.
microsoft.com

✔️

GitHub Copilot вставлял рекламу прямо в пулл-реквесты.

Независимый разработчик Зак Мэнсон обнаружил , что при автокоррекции опечаток в PR Copilot добавляла рекламный текст. Поиск по GitHub подтвердил, что десятки тысяч PR уже успели получить навязчивое предложение использовать утилиту Raycast для запуска Copilot на macOS и Windows.

Представитель Copilot подтвердил инцидент и сообщил, что функцию оперативно отключили, признав ее внедрение ошибкой. Однако случившееся серьезно подорвало доверие сообщества разработчиков.

На фоне этого пользователи начали сообщать о переносе приватных репозиториев с GitHub на альтернативные открытые площадки: Forgejo, Gitea, Codeberg и собственные self-hosted решения.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤78🤔50👍35🤬14😢12👏6🔥5💔3

13.3K views06:27

Machinelearning

✔️

Исходный код Claude Code (cli) снова утёк в сеть - его обнаружили через map-файл в npm-реестре.

Архив с кодом выложен по ссылке:
https://github.com/instructkr/claude-code

https://pub-aea8527898604c1bbb12468b1581d95e.r2.dev/src.zip

@ai_machinelearning_big_data

#claude

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥79🤔30😨12😁10❤7🤬5👍4😢3

9.88K viewsedited 11:19

Machinelearning

📌

Нейроанатомия LLM: улучшаем модель без дообучения.

Дэвид Ноэль, независимый исследователь из Мюнхена, в середине 2024 года занял 1 место на HuggingFace Open LLM Leaderboard методом, который не требует ни новых данных, ни файнтюна.

Он взял 80-слойную Qwen2-72B, продублировал блок из 7 средних слоёв (45–51) и получил модель RYS-XLarge, где каждый добавленный параметр - копия уже существующего. На 5 из 6 бенчмарков лидерборда результаты выросли: MuSR прибавил 17,7%, MATH - 8,2%.

Позже ByteDance предложила Looped Language Models (ноябрь 2025), но Дэвид пришёл к своим выводам независимо на основе 2 наблюдений:

LLM способны вести связный диалог в Base64 - модель декодирует вход, рассуждает и перекодирует ответ обратно. Если это работает, то получается, что ранние слои транслируют входные данные в абстрактное внутреннее представление, поздние переводят его обратно в текст, а средние занимаются рассуждением в формате, не привязанном к конкретному языку.

Модель Goliath-120B, где слои двух разных 70B-моделей были перемешаны так, что выход поздних слоёв подавался на вход ранних. По всем канонам обучения это не должно было работать, но работало.

Внутренние представления трансформеров оказались куда однороднее, чем предполагалось.

Для поиска оптимальной конфигурации Дэвид построил «сканер мозга» трансформера: берется блок слоёв (с 20-го по 35-й), затем он вставляется повторно и на инференсе замеряется, стала модель лучше или хуже.

Так перебираются все возможные начала и концы блока (3241 конфигурация). Каждую конфигурацию Дэвид прогонял через 2 быстрых теста: арифметику без CoT и EQ-Bench.

Тепловые карты сканера показали, что средние слои можно дублировать с пользой, а вот крайние - нельзя. При этом повтор только одного слоя почти всегда ухудшает результат. Cредние слои работают как цельные функциональные контуры, и вырванный из цепочки шаг бесполезен.

Буквально на днях Дэвид опубликовал продолжение, но уже с Qwen3.5-27B.

Эксперимент с косинусным сходством скрытых состояний для текстовых запросов на 8 языках впервые показал трёхфазную архитектуру напрямую: к 10 слою фразы с одинаковым смыслом на разных языках оказывались ближе друг к другу, чем на одном языке с разным смыслом.

Модель думает не на каком-то из человеческих языков, а в собственном внутреннем представлении.

В Qwen3.5-27B архитектура модели иная. После 2 млн. конфигураций через суррогатную модель оптимальным решением на Pareto-фронте стало простейшее - продублировать один слой из середины стека. 1,5% дополнительных вычислений и... модель становится заметно сильнее.

Метод ортогонален файнтюнингу и квантованию: модель получает дополнительное время на размышление, используя контуры, которые у нее уже есть.

🟡Статья ч.1 ч.2

🟡

Набор RYS-моделей

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #RYS

Please open Telegram to view this post

VIEW IN TELEGRAM

❤25🔥16🤔11👍4👏2👌2👨‍💻2❤‍🔥1

4.71K views12:03

About

Blog

Apps

Platform