✨ ByteDance представила FaceCLIP - новую модель для генерации изображений с сохранением личности
Модель FaceCLIP обучается представлять лицо (Identity) и текстовое описание в едином векторном пространстве, что позволяет создавать изображения, где сохраняется похожесть субъекта и при этом учитывать желаемую стилистику или указания из текста. :contentReference[oaicite:0]{index=0}
Авторы отказались от подходов с адаптерами и предложили унифицированную мультимодальную стратегию кодирования: лицо + текст → общее представление, которое направляет генеративную модель (UNet / DiT) при синтезе.
Преимущества FaceCLIP:
- лучшие результаты в сохранении идентичности на портретах
- более точное соответствие текстовым инструкциям
- высокая реалистичность по сравнению с предыдущими методами
Модель доступна под лицензией MIT / некоммерческое исследовательское использование — с предупреждением об ответственном использовании. :contentReference[oaicite:4]{index=4}
📄 HF: https://huggingface.co/ByteDance/FaceCLIP
Модель FaceCLIP обучается представлять лицо (Identity) и текстовое описание в едином векторном пространстве, что позволяет создавать изображения, где сохраняется похожесть субъекта и при этом учитывать желаемую стилистику или указания из текста. :contentReference[oaicite:0]{index=0}
Авторы отказались от подходов с адаптерами и предложили унифицированную мультимодальную стратегию кодирования: лицо + текст → общее представление, которое направляет генеративную модель (UNet / DiT) при синтезе.
Преимущества FaceCLIP:
- лучшие результаты в сохранении идентичности на портретах
- более точное соответствие текстовым инструкциям
- высокая реалистичность по сравнению с предыдущими методами
Модель доступна под лицензией MIT / некоммерческое исследовательское использование — с предупреждением об ответственном использовании. :contentReference[oaicite:4]{index=4}
📄 HF: https://huggingface.co/ByteDance/FaceCLIP
❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 ИИ генерации стали так реалистичны, что сами отказываются верить, что они сгенерированы.
This media is not supported in your browser
VIEW IN TELEGRAM
Работа под названием “Evolution of Deep Learning by Hand” визуально показывает, как развивались ключевые идеи, сформировавшие современный мир нейросетей.
Автор вручную изобразил путь от первых искусственных нейронов до сложных архитектур, чтобы почтить вклад Хинтона — одного из основателей глубокого обучения и лауреата Нобелевской премии.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation - и учит ИИ не просто копировать, а думать и анализировать свои ошибки.
Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке - быстро, но без понимания сути.
В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет - объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели.
Что показали результаты
Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов.
Результаты впечатляют:
Модель-ученик после обучения с on-policy distillation показала почти ту же точность, что и гораздо более крупная модель-учитель.
При этом вычислительные затраты снизились в несколько раз, делая модель заметно эффективнее и дешевле.
Кроме того, ученик стал лучше понимать собственные ошибки, что повысило устойчивость и надёжность при решении новых, незнакомых задач.
Почему это важно
On-policy distillation решает ключевую проблему традиционных методов - отсутствие адаптивности.
Модель теперь учится на собственных шагах, как человек, — экспериментирует, ошибается, корректирует поведение и растёт.
Уникальность подхода - в балансе между качеством RL и экономичностью KD. Это реальная схема, где маленькая модель учится “в поле” (реагируя на собственные действия), но без дорогих RL-запусков и сложных reward-моделей.
Это не новый метод обучения, а новая инженерная формула, которая позволяет дешевле «учить» компактные модели, ведущие себя как большие.
Это открывает путь к созданию компактных LLM нового поколения, которые рассуждают почти как топовые модели, но стоят в разы дешевле.
Такие модели можно запускать на edge-устройствах, в автономных агентах и локальных сервисах, где важны скорость, приватность и энергоэффективность.
@ai_machinelearning_big_data
#ThinkingMachines #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🙏1
Крупнейший в мире контрактный производитель электроники в течение 6 месяцев начнет использовать человекоподобных роботов на своем заводе в Техасе. Роботы будут задействованы в сборке серверов для ИИ-систем. По словам CEO Янг Лю, это первый подобный опыт за более чем 50-летнюю историю Foxconn.
Этот шаг является частью стратегии по агрессивному расширению производства в Северной Америке. Компания, являясь ключевым поставщиком Nvidia, считает Северную Америку своим главным хабом по выпуску ИИ-серверов на ближайшие 3 года. Решение о роботизации принято для повышения эффективности производства, которое, по словам Лю, критически важно в сфере ИИ.
asia.nikkei.com
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
ElevenLabs представила Scribe v2 Realtime, новую модель Speech-to-Text, разработанную для задач, требующих минимальной задержки: голосовых агентов, ассистентов для совещаний и создания субтитров в реальном времени. Система обрабатывает речь с задержкой менее 150 мс, поддерживает более 90 языков и демонстрирует точность 93.5% по 30 популярным языкам. Особое внимание уделено работе с аудиозаписями, содержащими фоновый шум.
Фишкой модели стала «отрицательная задержка» - функция предсказывания следующего слова и знака препинания. Также есть автоматическое определение языка, обнаружение голоса и полный контроль над фиксацией сегментов транскрипции. Сервис готов к корпоративному использованию (SOC 2, GDPR) и уже доступен через API.
elevenlabs.io
Платформа для ИИ-агентов Backboard достигла рекордного показателя в 90.1% в бенчмарке LoCoMo, предназначенном для оценки долговременной диалоговой памяти. Это лучше предыдущих показателей популярных библиотек, которые находились в диапазоне 67–69%.
LoCoMo тестирует способность системы запоминать, обновлять и извлекать факты о пользователе и контекст диалога на протяжении многих сессий. Высокий балл означает, что ассистенты будут лучше следовать инструкциям, реже переспрашивать и требовать более коротких промптов, что снижает расход токенов.
Backboard предоставляет API для долгосрочной памяти, мультимодельный API для роутинга между 2200+ LLM и RAG-слой. Все результаты теста воспроизводимы - скрипты, логи и промпты опубликованы на GitHub.
backboard.io
Компания по облачной безопасности Wiz обнаружила, что 65% компаний из списка Forbes AI 50 допустили утечку API-ключей, токенов и других учетных данных на GitHub. По словам исследователей, это могло привести к раскрытию приватных моделей, данных обучения или внутренней структуры организаций.
Чаще всего секреты находили в файлах Jupyter Notebook и Python-скриптах. Среди утечек были токены Hugging Face, Azure и W&B. В одном из случаев скомпрометированный токен Hugging Face мог открыть доступ к тысяче приватных моделей.
Wiz публично назвала только ElevenLabs и LangChain, отметив их быструю реакцию. При этом почти половина всех уведомлений об утечках, отправленных другим компаниям, осталась без ответа.
wiz.io
Cloudflare объявила о поддержке Python в своем сервисе Workflows, предназначенном для создания и управления многоэтапными процессами на платформе Workers. Раньше инструмент был доступен только для TypeScript.
Новшество открывает сервис для сообщества Python-разработчиков, специализирующихся на AI/ML и обработке данных. В качестве примеров использования компания приводит оркестрацию конвейеров данных, обучение ML-моделей и создание сложных ИИ-агентов, архитектура которых упрощается за счет встроенной обработке ошибок и сохранению состояния. Технически часть реализована через Pyodide — порт CPython в WebAssembly.
blog.cloudflare.com
По оценкам аналитиков, затраты на видеогенератор Sora обходятся OpenAI в $15 млн. в день, что в годовом выражении превышает $5 млрд. Расчеты основаны на стоимости генерации одного 10-секундного ролика, которая составляет для компании около $1.3, и предполагаемом объеме в 11 млн. видео ежедневно. Несмотря на убыточность, OpenAI, вероятно, следует классической стратегии захвата рынка, стремясь сначала сформировать аудиторию, а уже потом искать пути монетизации. Бесплатный доступ также насыщает компанию огромным количеством данных для дальнейшего обучения моделей.
Впрочем, Сэм Альтман уже подтвердил, что компания планирует сокращать объемы бесплатной генерации. По его словам, ни одна рекламная модель не сможет покрыть расходы на создание «забавных мемов для трех друзей».
forbes.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Андрей Карпаты
Его идея в том, что вместо того, чтобы задавать вопрос одной LLM, вы можете объединить их в «Совет моделей».
LLM Council - это простое локальное веб-приложение, с интерфейсом как у ChatGPT, но с той разницей, что запрос отправляется через Openrouter нескольким LLM. Полученные ответы перекрестно оцениваются и ранжируются, и, наконец, «модель-председатель совета» формирует окончательный ответ.
Более подробно процесс выглядит так:
Запрос отправляется всем моделям по отдельности, и их ответы собираются. Ответы каждой модели отображаются в отдельной вкладке, чтобы можно было их посмотреть вручную.
Каждая модель получает ответы других моделей. При этом идентификаторы анонимизированы, чтобы исключить «игру в любимчиков» при оценке чужих результатов. На этом этапе ответы ранжируются их по точности и глубине анализа.
Модель-председатель принимает все ответы моделей и компилирует их в единый окончательный ответ.
⚠️ Для использования нужен API-ключ OpenRouter.
@ai_machinelearning_big_data
#AI #ML #LLMCouncil #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1