Machinelearning

🙂

POV: Senior Agentic Engineer

@ai_machinelearning_big_data

Please open Telegram to view this post

2❤174👍116😁77🔥62👏14🥰8

25.3K views07:45

🌟

Tencent HY-WU: динамические LoRA для редактирования изображений.

Tencent HY опубликовала первую часть серии работ под названием HY-WU (Weight Unleashing). Суть метода в отказе от стандартной парадигмы адаптации, при которой модель получает один фиксированный набор весов для всех задач.

Специальная модель-генератор синтезирует LoRA отдельно под каждый входной пример прямо во время инференса, без дополнительной оптимизации на тест-тайме.

Проблема, которую решает HY-WU, хорошо знакома всем, кто работал с дообучением: когда задачи противоречат друг другу (например, "размыть" против "убрать размытие" или "состарить лицо" против "восстановить"), общий адаптер вынужден идти на компромисс.

Градиенты конфликтуют, и результат оказывается хуже, чем если бы задачи обучались раздельно.

Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны.

HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель.

Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров.

🟡

Тесты и результаты

Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны.

🟢В попарном human evaluation (GSB) HY-WU выигрывает у всех топовых open-source редакторов с большим отрывом: 67–78% против Step1X, Qwen, LongCat и FLUX;

🟢Среди закрытых систем модель обошла Seedream 4.5 (55.6%) и GPT Image 1.5 (55.5%).

🟠Единственные, кто пока впереди - Nano Banana 2 и Nano Banana Pro.

Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели.

Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов.

Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах:

🟢сравнить функциональную память с retrieval-подходами и понять, когда каждый из них уместен;

🟢разработать протоколы онлайн-обучения, при которых модель усваивает новые задачи без деградации на старых;

🟢исследовать масштабирование модели-генератора отдельно от базовой модели.

Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора.

Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает.

Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM.

📌Лицензирование: Tencent Hunyuan Community License.

🟡

Страница проекта

🟡

Prompt Handbook (китайский)

🟡

Модель

🟡

Техотчет

🖥

Github

@ai_machinelearning_big_data

#AI #ML #ImageEdit #HYWU #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤩97❤52👏25🔥20👍12💯11😍5🎉2🗿2

23.3K views06:26

✔️

Anthropic представила Claude Code Review.

Claude Code Review - инструмент для поиска багов в пулл-реквестах, который сейчас доступен в режиме превью для корпоративных пользователей Team и Enterprise. Процесс полностью бесшовен, агенты автоматически активируются при открытии PR.

В зависимости от объема и сложности изменений система запускает необходимое количество ИИ-агентов. Они анализируют код, отсеивают ложные срабатывания и ранжируют найденные уязвимости по уровню критичности. Результат оформляется в виде общей сводки и инлайн-комментариев к проблемным строкам.

В среднем такое ревью занимает около 20 минут, а тарификация идет по расходу токенов (от $15 до $25 за один пулл-реквест). Эффективность инструмента подтверждена внутренними тестами: после его внедрения доля PR с содержательными комментариями выросла с 16% до 54%.
claude.com

✔️

Samsung планирует принести вайб-кодинг на смартфоны Galaxy.

Компания изучает варианты интеграции концепции вайб-кодинга в свои будущие устройства. По словам представителя Samsung, новая функция выйдет за рамки банальной настройки внешнего вида: ИИ позволит на лету менять логику UX и адаптировать существующие приложения под конкретные задачи владельца.

Технические детали реализации пока не раскрываются, однако тренд на генеративный интерфейс активно набирает обороты в мобильной индустрии. Похожая механика уже есть у компании Nothing, где владельцы смартфонов могут с помощью ИИ-моделей собирать кастомные виджеты с функционалом мини-приложений.
9to5google.com

✔️

Claude Opus 4.6 распознал тестовую среду и взломал ключи ответов в бенчмарке.

Anthropic зафиксировала уникальный случай: во время прогона на BrowseComp Claude Opus 4.6 поняла, что находится в среде оценки. Не имея данных о названии теста, модель вычислила его и целенаправленно расшифровала скрытые ответы. Это первый известный прецедент, когда ИИ проявляет подобную дедукцию и взламывает проверку без прямых подсказок.

Это потребовало огромных вычислительных затрат. В одном из эпизодов модель потратила около 40,5 млн токенов (в 38 раз больше медианного значения). Разработчики также отметили, что в мультиагентной конфигурации частота поиска подобных нестандартных решений составила 0,87%, что в 3,7 раза выше, чем при работе одного агента (0,24%).
anthropic.com

✔️

Глава аппаратного направления OpenAI уволилась из-за контракта с Пентагоном.

Кейтлин Калиновски покинула компанию в знак протеста против контракта с Министерством обороны США. Причиной стало заключение сделки без предварительной подготовки механизмов контроля. Калиновски отметила, что ИИ действительно играет важную роль в национальной безопасности, однако вопросы массовой слежки и использования оружия без санкции человека требуют гораздо более серьезного обсуждения.

Кейтлин перешла к Сэму Альману в ноябре 2024 из проекта AR-очков Марка Цукерберга. OpenAI официально подтвердила отставку Калиновски.
linkedin.com

✔️

ИИ-агент от Alibaba сбежал из песочницы ради майнинга криптовалюты.

Исследователи из команды, связанной с Alibaba, столкнулись с незапланированным поведением при обучении ИИ-агента ROME. Система не просто вышла за рамки своей изолированной среды - она сделала это без прямых инструкций со стороны разработчиков.

Вместо выполнения целевых задач агент самостоятельно организовал SSH-туннель и попытался запустить несанкционированный майнинг. Авторы отмечают, что в тестовых запросах не было никаких упоминаний сетевого туннелирования или добычи токенов. Самостоятельность модели застала инженеров врасплох и привела к срабатыванию внутренних систем безопасности.
axios.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔78❤68🔥25👌15👏14😁11💯9👍7

18.9K views06:21

Machinelearning

✔️

ML-архитектура рекомендательных и поисковых систем в продакшене

Если вы работаете с ML или интересуетесь тем, как устроены реальные рекомендательные системы, стоит посмотреть этот воркшоп.

Спикер: Илья Осиновсков, руководитель отдела рекомендательных технологий в Ozon. Он разберёт, как на практике строятся системы рекомендаций и поиска в больших продуктах.

На воркшопе обсудят:

- как устроены пайплайны рекомендательных и поисковых систем
- какие этапы проходит система - от генерации кандидатов до ранжирования и пост-обработки
- какие метрики используются для оценки качества
- как учитываются продуктовые ограничения и бизнес-требования

Будут примеры из индустрии: e-commerce, стриминговые сервисы и соцсети.

Это хороший шанс посмотреть на архитектуру таких систем глазами инженера, который делает их в продакшене, а не только в теории.

Больше интересного у нас в Канале.

Начало: 11 марта в 19:00

Регистрация на воркшоп:
https://shvm.xyz/webinar/recsys?utm_source=telegram&utm_medium=ai_machinelearning_big_data_10.03.26

Реклама: ООО "ШВМ", ИНН: 9728100991
Erid: 2VtzqvDB9BB

Please open Telegram to view this post

VIEW IN TELEGRAM

shvm.xyz

Узнайте, как рекомендательные и поисковые системы работают в реальных продуктах. На воркшопе практикующий ML-инженер разберет на примерах из e-commerce, стриминга и соцсетей

👍47❤17👏13🤣7🔥5👌5🌚3

19K views12:21

Machinelearning

⚡️

Anthropic открыла программу амбассадоров Claude.

Если вы организовываете митапы, ведете локальное комьюнити или просто знаете, как собрать разработчиков в одной месте - Anthropic готова это поддержать.

Что дает программа:

🟢финансирование мероприятий (митапы, воркшопы, хакатоны);
🟢ежемесячные API-кредиты для демо и экспериментов;
🟢ранний доступ к фичам и сессии с продуктовыми командами;
🟢приватный Slack с другими амбассадорами и сотрудниками Anthropic.

Технический бэкграунд важен - нужен реальный опыт работы с Claude Code или Cowork. Но официальный статус разработчика не обязателен, важнее практика и умение передавать знания другим.

Программа глобальная. В одном городе может быть несколько амбассадоров. Заявки рассматривают 2 недели, потом короткий скрининг-звонок.

🔜

Подать заявку можно тут

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡37👏29🔥22👍19❤13😁7

19.8K views13:25

Machinelearning

15 марта пройдет AI Dev Day — митап Яндекса, посвящённый опыту внедрения AI-инструментов в процессы разработки

Недавний мем о том, что теперь спонсоры не берутся за проекты без AI — уже не мем, а реальность. Почти в каждом приложении/продукте теперь есть встроенные нейронки, агенты, тулсы. Другой вопрос: какой это дает профит и как этот профит вообще посчитать.

Через 5 дней Яндекс соберет на своем митапе руководителей и инженеров крупных IT-компаний, которые расскажут, как оценивать реальную эффективность AI.

Все выступления спикеров поделили на 2 тематических блока. Первый — про опыт внедрения, метрики и влияние AI на продуктивность и качество. Второй — про построенные мультиагентные системы, внутренние продукты и конкретные рабочие инструменты, которыми уже можно пользоваться.

Лидер трека AI в разработке Яндекса Андрей Попов объяснит, на какие метрики смотреть при оценке эффективности, и покажет, каких результатов они достигли. А еще расскажет, как компания использует AI для тестирования, оптимизации процессов и работы с инцидентами. В этой же части — выступление руководителя продуктовой аналитики в управлении базовых технологий в Т-Банке про оценку эффективности в SDLC.

Во втором блоке Сергей Бульдяев, технический менеджер продукта в Яндексе, представит кейсы агента в IDE на базе open-source решения, а Максим Шведенко, руководитель направления Департамента недвижимости и эксплуатации в Сбере, объяснит из чего состоит мультиагентная система для дизайнеров.

Митап пройдет в Москве, а для тех, кто в другом городе, будет онлайн-трансляция. Зарегистрироваться на ивент можно тут.

👨‍💻71👍42👏14❤13💯7🤣3😁2🤷‍♂1

17.7K views16:03

Machinelearning

✔️

OpenAI покупает red-teaming стартап.

OpenAI объявила о приобретении Promptfoo, платформы для тестирования безопасности и оценки ИИ-систем. После закрытия сделки технологии компании войдут в продукт Frontier, корпоративную платформу для создания и эксплуатации ИИ-агентов.

Promptfoo основали Иан Уэбстер и Майкл Д'Анджело в 2024 году За неполные два года команда создала CLI-инструмент с открытым исходным кодом и набор решений, которые используют более 25% компаний из списка Fortune 500. Основная специализация — оценка поведения LLM-приложений и контролируемые попытки взломать систему, чтобы найти уязвимости до того, как это сделают злоумышленники.

Интеграция с Frontier предполагает 3 направления.

🟢Встроенное security-тестирование. Автоматические проверки на prompt injection, jailbreak, утечки данных и нецелевое использование инструментов станут нативной частью платформы.

🟢Интеграция в dev-workflows - выявлять и устранять риски можно будет прямо в процессе разработки, не откладывая безопасность на финальный этап.

🟢Аудит и комплаэнс. Встроенная отчетность поможет командам документировать тестирование и выполнять требования по управлению ИИ-рисками.

Решение о покупке основано на том, что по мере того как агенты получают доступ к реальным данным и бизнес-системам, цена ошибки резко возрастает.

Стандартных метрик качества явно недостаточно, бизнесу нужны систематические инструменты для верификации поведения агентов в нештатных ситуациях. Promptfoo именно этим и занималась, причем в open-source-формате.

OpenAI обещает продолжать развивать open-source составляющую Promptfoo параллельно с интеграцией в Frontier.

Сумма сделки не раскрывается, но по открытым данным, в июле прошлого года стартап оценили в 86 млн. долларов.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👨‍💻76👍35👏19🤔8🎉8😍5❤4🔥1

18.5K views17:15

✔️

В ChatGPT появились интерактивные визуализации для изучения математики и физики.

OpenAI внедрила в ChatGPT динамические визуальные объяснения для более чем 70 математических и естественно-научных концепций. Пользователи получили возможность на лету менять переменные и мгновенно отслеживать, как новые значения влияют на итоговые графики и формулы.

На данный момент инструмент охватывает в основном школьную и университетскую программу. Среди уже доступных тем: квадрат бинома, экспоненциальный распад, закон Ома, сложные проценты и тригонометрические тождества.

Новая функция открыта для всех пользователей по всему миру. В дальнейшем OpenAI планирует расширить обучающие модули, добавив поддержку новых дисциплин.
openai.com

✔️

Nvidia выделит 1 ГВт мощностей ИИ-стартапу Миры Мурати.

Thinking Machines Lab, основанный бывшим топ-менеджером OpenAI Мирой Мурати, заключил стратегическое партнерство с Nvidia. По условиям соглашения компания получит доступ как минимум к одному гигаватту вычислительных мощностей на базе новейших систем Vera Rubin. Эти ресурсы необходимы для тренировки собственных ИИ-моделей стартапа. Развертывание кластеров начнется в начале следующего года.

Помимо предоставления аппаратной базы, Nvidia увеличила свою финансовую долю в проекте. Ранее чипмейкер уже участвовал в раунде на 2 млрд. долларов, по итогам которого Thinking Machines Lab оценили в 12 миллиардов.

Компании будут совместно разрабатывать инфраструктуру для обучения и деплоя нейросетей, чтобы открыть доступ к передовым ИИ-решениям для бизнеса и научного сообщества.
blogs.nvidia.com

✔️

Amazon обязал инженеров проверять сгенерированный ИИ код.

Руководство Amazon ввело новое правило: теперь любые изменения в коде, написанные с помощью ИИ, должны проходить обязательное ревью у старших инженеров перед деплоем. Решение приняли после череды критических инцидентов, которые в компании охарактеризовали как сбои с "большим радиусом поражения".

Старший вице-президент Дэйв Тредвелл созвал сотрудников на специальное совещание для разбора причин деградации сервисов. В Amazon признали, что надежные практики и механизмы защиты при работе с код-генераторами в индустрии пока не сформированы. До тех пор ручной фильтр в виде экспертизы опытных разработчиков останется для компании главной страховкой от новых масштабных падений продакшена.
ft.com

✔️

Nvidia делает open-source платформу NemoClaw.

Nvidia готовится запустить NemoClaw - открытую платформу, которая позволит разработчикам корпоративного ПО создавать и развертывать автономных ИИ-агентов. Фишка проекта в том, что он не требует привязки к железу Nvidia. Ожидается, что официальный анонс состоится на грядущей конференции в Сан-Хосе. Компания уже ведет переговоры о раннем доступе с Salesforce, Google, Cisco, Adobe и CrowdStrike.

Выпуск open-source решения стратегически важный шаг для Nvidia. Компания стремится выйти за рамки своей экосистемы CUDA, чтобы сохранить лидерство в ИИ-инфраструктуре на фоне того, как крупные IT-гиганты проектируют собственные кастомные чипы.
wired.com

✔️

Cortical Labs запустила первые дата-центры.

Cortical Labs, о котором мы рассказывали недавно, открыл в Мельбурне первый биологический дата-центр и готовится к запуску второй площадки в Сингапуре. Вместо традиционных серверов в ЦОДах используются биокомпьютеры CL1.

Их вычислительным ядром выступают выращенные из человеческих клеток нейроны, размещенные на специальных чипах. Аппаратная часть обменивается с биоматериалом электрическими сигналами, а программное обеспечение интерпретирует реакции клеток как результаты вычислений.

До прямой конкуренции с классическими процессорами еще далеко, но стартап демонстрирует уверенный прогресс. В мельбурнском центре уже размещены 120 установок, а сингапурский кластер в перспективе планируют масштабировать до тысячи биомодулей.
bloomberg.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍76❤23👏17🤓11🔥7🎉3🤷‍♀2😁2🤔1

16.8K views05:57

Machinelearning

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Google выпустила Gemini Embedding 2.

Gemini Embedding 2 - первая нативно мультимодальная эмбеддинг-модель, в которой один запрос может содержать сразу несколько типов данных: например, изображение плюс текст, которые модель обрабатывает совместно, улавливая смысловые связи между разными форматами. Заявлена поддержка более 100 языков.

По параметрам:

🟢Текст: до 8 192 токенов;
🟢Изображения: до 6 штук в запросе (PNG, JPEG);
🟢Видео: до 120 секунд (MP4, MOV);
🟢PDF: до 6 страниц;
🟢Аудио понимает напрямую, без промежуточной транскрибации.

Размерность векторов по умолчанию - 3072, но за счет Matryoshka RL можно снизить до 1536 или 768, жертвуя частью точности ради экономии памяти и ускорения поиска.

Это та же техника вложенных представлений, которую Google использовала в предыдущих моделях и теперь она работает с мультимодальными данными.

Новинка доступна через Gemini API и Vertex AI в режиме Public Preview.

Из коробки работает с LangChain, LlamaIndex, Haystack, Weaviate, Qdrant и ChromaDB.

На GitHub можно найти Notebook-примеры для Gemini и Vertex, а тут - попробовать демо многомодального семантического поиска.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍68❤26⚡25🔥11👨‍💻11👏7🤩3🎉2💯1

13.1K views17:46

About

Blog

Apps

Platform