Media is too big
VIEW IN TELEGRAM
xAI открыла API-доступ к голосовому агенту grok-voice-think-fast-1.0, который позиционируется для клиентского сервиса и телемаркетинга.
В бенчмарке τ-Voice Bench на дуплексный режим с шумом, акцентами и перебиваниями, модель набрала 67,3%, оставив позади gpt-realtime-1.5 (35,3%), gemini-3.1-flash-live-preview-thinking-high(43,8%).
Архитектура поддерживает фоновый инференс без задержки ответа на 25+ языках, включая русский. Модель разработана совместно со Starlink, провайдер уже использует её в клиентской поддержке.
Протестировать новую модель можно в xAI Playground.
x.ai
ChatGPT for Clinicians - версия ассистента на базе GPT-5.4, адаптированная под клинические задачи. Сервис бесплатно доступен верифицированным медработникам в США. На внутренних тестах от практикующих врачей клиническая модель обошла по точности базовый GPT-5.4, сторонние решения и самих врачей.
Модель должна снять с врачей административную рутину: разбор профильной литературы, направления, инструкции пациентам, отчёты со ссылками на рецензируемые источники. Чаты не используются для обучения следующих моделей, поддержка HIPAA доступна опционально.
Вместе с релизом OpenAI открыла набор данных HealthBench Professional для оценки ИИ в здравоохранении.
openai.com
Microsoft открыла общий доступ к агентным функциям Copilot в Word, Excel и PowerPoint. Раньше ассистент жил в боковой панели и отвечал на вопросы - теперь он действует в приложениях и сам меняет содержимое файлов.
Обновленный Copilot может переформатировать и переписать текст, собрать сводную таблицу или применить формулу в Excel, сверстать презентацию по корпоративному шаблону. Все правки агента можно просмотреть, скорректировать или откатить до применения.
Функция уже работает по умолчанию на подписках Microsoft 365 Copilot, Premium, Personal и Family.
microsoft.com
Обновление принесло крупные изменения - модель больше не собирает объект за один проход: сначала формирует общую структуру, затем на её основе прорабатывает грани, стенки и сложную топологию.
За текстурирование отвечает PBR-модель с архитектурой MoE. VLM анализирует физические свойства поверхностей на исходном изображении, поэтому материалы адекватно реагируют на смену освещения в сцене.
В системе появилась декомпозиция: Seed3D 2.0 разделяет объект на функциональные и подвижные элементы и выгружает их с кинематическими связями в формате URDF. Ассеты экспортируются напрямую в игровые движки и физические симуляторы. Доступ открыт на платформе ByteDance.
bytedance.com
Бывший сотрудник OpenAI, проработавший у Сэма Альтмана 7 лет, открыл исследовательскую лабораторию Core Automation. Заявленная цель - автоматизировать процесс разработки ИИ.
Команда будет работать над новыми алгоритмами обучения за пределами RL и над архитектурами, которые масштабируются лучше трансформеров. Планируется, что небольшая группа инженеров плюс автономные ИИ-агенты закроют объём, который сегодня тянут крупные корпорации.
Core Automation встаёт в один ряд с Safe Superintelligence Ильи Суцкевера и Thinking Machines Lab Миры Мурати, стартапами выходцев из OpenAI, которые ищут архитектурную альтернативу подходу "больше параметров, больше железа".
Jerry Tworek в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96❤24🔥16👏7🤩5🎉2
Большие данные и ML часто идут рука об руку, но инфраструктура нередко становится узким местом. На митапе к трехлетию выхода YTsaurus в опенсорс команда показала, как платформа развивается в сторону более универсального инструмента для задач обучения и инференса моделей.
Разработку YTsaurus возглавляет Максим Бабенко, руководитель отдела технологий распределенных вычислений в Яндексе. Кандидат физико‑математических наук. Преподаватель и заместитель директора отделения компьютерных наук ШАДа, заведующий базовой кафедрой Яндекса на ФКН НИУ ВШЭ.
Команда проделала большую работу, чтобы YTsaurus можно было использовать как инфраструктуру для запуска GPU-вычислений. А еще много изменений произошло в системе хранения, а также команда активно развивает встроенные аналитические инструменты на базе ClickHouse и Apache Spark.
Разработку YTsaurus возглавляет Максим Бабенко, руководитель отдела технологий распределенных вычислений в Яндексе. Кандидат физико‑математических наук. Преподаватель и заместитель директора отделения компьютерных наук ШАДа, заведующий базовой кафедрой Яндекса на ФКН НИУ ВШЭ.
Команда проделала большую работу, чтобы YTsaurus можно было использовать как инфраструктуру для запуска GPU-вычислений. А еще много изменений произошло в системе хранения, а также команда активно развивает встроенные аналитические инструменты на базе ClickHouse и Apache Spark.
ytsaurus.tech
YTsaurus Блог
YTsaurus — платформа с открытым исходным кодом, способная хранить и обрабатывать большие данные для десятков тысяч пользователей одновременно. Выполняйте задачи по Batch-обработке, Ad hoc аналитике, OLTP, машинному обучению, построению хранилищ данных и ETL!
👍65👏25🤔14❤6🔥3🤣3😁2
Исследовательская команда ИИ-поисковика опубликовала техотчёт о деталях создания своего веб-поискового агента на открытых моделях Qwen3.5-122B-A10B и Qwen3.5-397B-A17B.
При бюджете в 4 вызова инструмента итоговая Qwen3.5-397B-SFT-RL показывает 73,9% точности на FRAMES и стоит 2 цента за запрос против 67,8% за 8,5 цента у GPT-5.4 и 62,4% за 15,3 цента у Sonnet 4.6.
Сначала SFT закрепляет целевое поведение: следование инструкциям, формат ответа, языковую согласованность, корректные отказы.
Затем RL с GRPO оттачивает точность поиска и эффективность вызовов инструментов, не трогая поведение, заданное на первой стадии.
Попытка оптимизировать эти цели совместно в один этап обычно ломает либо качество поиска, либо продакшен-требования.
Первый - синтетические многошаговые вопросы с проверяемым ответом: из затравочного запроса выстраивают цепочку связанных сущностей, формулируют вопрос, а единственность ответа подтверждают несколько независимых решателей.
Второй - диалоги общего назначения, где требования к формату и инструкциям превращают в набор атомарных рубрик, проверяемых без субъективной оценки.
Итоговая смесь берётся в пропорции 90/10 в пользу верифицируемых QA, чтобы более лёгкий сигнал рубрик не перетягивал градиент на себя.
В основе системы вознаграждений - агрегирование со шлюзом по корректности: скор Bradley-Terry-модели учитывается только при условии, что базовый бинарный сигнал равен 1 (то есть ответ корректен или все рубрики выполнены).
Это блокирует взлом награды, когда стилистически удачная реплика компенсирует фактическую ошибку.
Штраф за эффективность привязан к GRPO: число вызовов инструмента и длина генерации сравниваются с победителями внутри группы, а не с фиксированной нормой.
На FRAMES при 1 вызове инструмента старшая Qwen3.5 показывает 57,3% (это +5,7 пункта к GPT-5.4 и +4,7 к Sonnet 4.6). Разрыв увеличивается в диапазоне 2–7 вызовов, а это и есть рабочий режим продакшена.
Расчёт использует публичные цены API без учёта кэширования. Perplexity отдельно оговаривает, что внутренние оптимизации инференса (повторное использование KV-кэша, префиксное кэширование, квантование MoE) снижают реальную стоимость ещё сильнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Train #Research #Perplexity
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔72👍41👏27❤14🔥7🤓7🤣2✍1😎1
Media is too big
VIEW IN TELEGRAM
Формат DESIGN.md, изначально созданный для ИИ-инструмента Stitch, позволяет упаковать визуальные правила бренда в единый машиночитаемый файл.
Структура DESIGN.md совмещает точные значения переменных в формате YAML (цвета, размеры шрифтов, отступы) с простыми текстовыми заметками, объясняющими логику их применения.
Опираясь на разметку, агенты могут генерировать UI-компоненты в строгом соответствии с корпоративным стилем компании, а также автоматически проверять готовый дизайн на соответствие стандартам доступности WCAG.
Проект опубликован на GitHub под лицензией Apache 2.0 и пока находится в стадии альфа-тестирования.
В комплекте разработчики выпустили CLI-утилиту для валидации файлов, их сравнения и быстрого экспорта в W3C DTCG или Tailwind.
Создать кастомный DESIGN.md можно бесплатно на платформе Stitch.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👌66❤30👍19🤔12🔥8👏8🎉5
Ресерчеры из AI VK и ИТМО предложили новый метод дообучения generative retrieval моделей, который позволяет учитывать новые данные без полного переобучения в случае, когда для этапа токенизации используется коллаборативный сигнал из логов взаимодействий.
Telegram
AI VK Hub
🔁 Generative retrieval с коллаборативными Semantic ID: как обновлять токены без полного переобучения
Владимир Байкалов, ведущий исследователь в AI VK и коллеги из ИТМО выяснили, что наивное обновление Semantic ID в generative retrieval может ухудшить качество…
Владимир Байкалов, ведущий исследователь в AI VK и коллеги из ИТМО выяснили, что наивное обновление Semantic ID в generative retrieval может ухудшить качество…
🤓101👍39🤔16❤10🤣5🔥4😁4😍1
На днях одновременно опубликованы 2 исследования, с разных сторон описывающие, как ИИ распределяется между профессиями.
Опрос Financial Times и компании Focaldata, охвативший 4 000 работников в США и Великобритании, и отчёт Anthropic, основанный на ответах 81 000 пользователей Claude, во многом пересекаются.
По данным FT, более 60% наиболее высокооплачиваемых работников используют ИИ ежедневно - против лишь 16% среди низкооплачиваемых.
Юристы, бухгалтеры и IT-специалисты обращаются к этим инструментам примерно одинаково вне зависимости от стажа, но значительно чаще, чем их коллеги из менее квалифицированных групп в тех же отраслях, например кассиры, кладовщики и операторы поддержки.
Anthropic добавляет к этим наблюдениям данные о том, как технологию воспринимают те, кто непосредственно пользуется ИИ.
В профессиях, где Claude выполняет значительную долю задач, сотрудники чаще опасаются сокращений: программисты переживают заметно сильнее, чем, например, учителя начальной школы.
Наибольший прирост производительности заявляют работники высокооплачиваемых должностей, но часть низкооплачиваемых (от оператора колл-центра до курьера, запустившего онлайн-магазин) также сообщают об ощутимом ускорении работы.
FT выяснил, что самыми активными пользователями ИИ оказались не студенты, а работники около 30 со сложившимся профессиональным опытом. Эксперты полагают, что модели лучше раскрываются в руках тех, у кого уже есть экспертиза.
Опрос Anthropic указывает в ту же сторону: сотрудники на ранних этапах карьеры заметно чаще говорят об угрозе замещения, а о личной выгоде от ИИ сообщают 60% из них против 80% среди старших коллег.
И FT, и Anthropic отмечают опасение, что часть задач, на которых прежде учились начинающие работники, теперь делегируется ИИ более опытными сотрудниками.
Воронка найма для начинающих сужается, нарабатывать базу негде.
Означают ли эти данные устойчивое социальное расслоение или временную асимметрию, характерную для начала любой технологической волны, - в этом мнения аналитиков расходятся.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔127👍35❤22💯19👏12🤓9😁7🔥2😢2🤬1😭1
После проекта Vend, в котором Claude управлял мини-магазином в офисе Anthropic, компания провела новый эксперимент - Project Deal.
На этот раз попытались выяснить, способны ли ИИ-агенты самостоятельно заключать сделки, представляя интересы людей на рынке подержанных вещей.
В декабре 2025 года 69 сотрудников компании в течение недели участвовали в закрытом аналоге он-лайн барахолки Craigslist.
Каждый сотрудник предварительно прошёл интервью с Claude, где рассказал, что готов продать и купить и на каких условиях.
На основе этих ответов для каждого участника был сгенерирован индивидуальный системный промпт, после чего агенты получили по $100 вышли на площадку в корпоративном Slack.
Люди в процесс не вмешивались: агенты сами размещали объявления, вели переговоры и заключали сделки на естественном языке.
По итогу эксперимента было заключено 186 сделок общим объёмом чуть более $4000. Общий ассортимент составил более чем 500 товаров: от сноуборда до пакета с шариками для пинг-понга.
Справедливость сделок участники оценили в среднем на 4 балла по шкале от 1 до 7, где крайние значения означали перекос в пользу одной или другой стороны.
Всего было запущено 4 версии рынка: одну реальную (на основе которой и должен был состояться обмен вещами) и 3 дополнительные. В двух все агенты работали на модели Opus 4.5, в двух других участники случайным образом получали менее мощную Haiku 4.5.
По большинству объективных показателей Opus превосходил Haiku, однако сотрудники, представленные более слабой моделью, своего проигрыша не замечали.
В последнее время экономисты все чаще выдвигают теории о мире, в котором ИИ будет совершать многие или большинство сделок от имени людей.
Авторы Project Deal допускают, что подобная агентная торговля может выйти за пределы лабораторных условий уже в обозримом будущем.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔94👍71❤20👀13🥱12👏9😐9🔥6🤷♂4🙈2😁1
Media is too big
VIEW IN TELEGRAM
Компания опубликовала разбор месячной деградации Claude Code, Agent SDK и Cowork. К падению качества привели 3 независимых изменения, наложившихся друг на друга. На API инциденты не распространялись.
Первое - 4 марта дефолтную глубину ризонинга в Claude Code снизили с high до medium ради скорости отклика. Откатили 7 апреля. Второе - баг в кешировании: вместо разовой очистки старого контекста в долгих сессиях алгоритм затирал историю рассуждений модели при каждом новом запросе. Модель теряла нить, повторялась, путалась в инструментах. Исправили 10 апреля. Третье - правка системного промпта с жёстким лимитом на длину ответа ударила по генерации кода. Откатили 20 апреля.
Все фиксы вошли в свежий релиз v2.1.116. Лимиты использования для всех подписчиков обнулили. Anthropic пообещала ужесточить тестирование системных промптов и перевести сотрудников на публичные сборки вместо внутренних.
anthropic.com
ИИ-компании переносят в Сингапур бизнес и интеллектуальную собственность, чтобы не зависеть от геополитического давления США и Китая. В стране уже работают OpenAI, к запуску готовится офис Anthropic.
Для китайских стартапов переезд - способ вывести технологии из-под юрисдикции Пекина и обойти экспортные ограничения. Американским компаниям Сингапур решает кадровую задачу: США тормозят найм иностранцев через H-1B, тогда как сингапурские власти выдают рабочие визы IT-специалистам за несколько дней.
Нейтральный статус начинает размываться. США и Китай перекрывают обходные маршруты для технологий через такие юрисдикции. Пекин уже ограничивает выезд фаундерам проектов, переехавших в Сингапур.
reuters.com
OpenAI опубликовала набор тестов, которые измеряют, насколько хорошо одна модель может отследить проблемное поведение другой по её цепочке рассуждений до финального ответа.
В наборе 13 проверок: реакция на подмену вводных, попытки взлома наград, обход правил безопасности на этапе рассуждения и другие сценарии.
Эти тесты OpenAI применяла при оценке GPT-5.4 Thinking. На сценариях скрытого недоброжелательного поведения ИИ-агента монитор детектирует почти 100% случаев.
OpenAI на Github
Вслед за недавним релизом языковой модели, Xiaomi открыла доступ к семейству синтеза речи MiMo 2.5. Заявлены английский и китайский языки плюс несколько региональных диалектов. Эмоциональным окрасом речи управляют промпты на естественном языке . Для пауз, вздохов и смеха предусмотрены отдельные звуковые теги.
В серии три модели. Базовая MiMo-V2.5-TTS - генерация голоса с режимом пения. VoiceDesign создаёт голос по текстовому описанию — пол, возраст, акцент, характер диктора, без аудиореференса. VoiceClone делает клонирование по короткому образцу: копирует тембр, интонации, ритм и характерные паттерны дыхания спикера.
На время публичной беты доступ к API бесплатный. Попробовать можно в MiMO Studio.
xiaomi.com
Aleph Alpha - стартап, который называли главным европейским конкурентом OpenAI. Объединённая компания с двумя штаб-квартирами займётся суверенным ИИ для госсектора, финансов и медицины. Хостинг и вычислительные мощности для моделей Cohere предоставит немецкий облачный провайдер STACKIT.
Сделка ставит точку в попытках Aleph Alpha создать независимую европейскую LLM. Не выдержав гонки бюджетов с американскими гигантами, прошлой осенью стартап свернул обучение базовых моделей.
Компания пыталась сменить бизнес-модель, но после волны сокращений и недавнего ухода из стартапа его основателя, продажа активов канадским конкурентам стала единственным выходом для бывшей главной ИИ-надежды Германии.
ft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤔66❤39👍32💯11👏5🔥2😁2
🐳 DeepSeek опустили цену на кэш в 10 раз
Кэш-хиты по входу теперь стоят 10% от прежней цены, по всей линейке API, уже сегодня.
Всё, что вы повторно прогоняете через модель (системный промпт, инструкции агента, длинный контекст документа, история чата), оплачивается по тарифу кэша. Раньше это была заметная статья расходов, теперь почти бесплатно.
Для агентов и RAG это меняет экономику: можно держать жирный контекст, не считая каждый токен.
Скидка 75% на V4-Pro всё ещё активна, так что связка V4-Pro плюс дешёвый кэш выглядит особенно вкусно.
https://x.com/deepseek_ai/status/2048440764368347611
@ai_machinelearning_big_data
#DeepSeek
Кэш-хиты по входу теперь стоят 10% от прежней цены, по всей линейке API, уже сегодня.
Всё, что вы повторно прогоняете через модель (системный промпт, инструкции агента, длинный контекст документа, история чата), оплачивается по тарифу кэша. Раньше это была заметная статья расходов, теперь почти бесплатно.
Для агентов и RAG это меняет экономику: можно держать жирный контекст, не считая каждый токен.
Скидка 75% на V4-Pro всё ещё активна, так что связка V4-Pro плюс дешёвый кэш выглядит особенно вкусно.
https://x.com/deepseek_ai/status/2048440764368347611
@ai_machinelearning_big_data
#DeepSeek
🔥134👍61❤19🐳14👌6👏1🎉1😍1
Запустить ИИ-пилот без закупки железа? Так можно было!
Selectel сделали услугу аренды сервера с размещением прямо на вашей площадке.
Это способ быстро запустить ИИ-пилот, не замораживая бюджет в оборудовании:
✅серверы с топовыми видеокартами NVIDIA B300, H200, H100, RTX6000PRO,
✅полный контроль над данными,
✅оплата по подписке — ежемесячно или раз в год.
Подходит для инференса и дообучения моделей, пакетной обработки данных. Если проект не получится — можно вернуть сервер в любой момент без штрафов, а если взлетит — выкупить по специальной цене.
👉Выбирайте конфигурацию и условия аренды: https://slc.tl/vd383
Реклама. АО "Селектел". erid:2W5zFGqgHi1
Selectel сделали услугу аренды сервера с размещением прямо на вашей площадке.
Это способ быстро запустить ИИ-пилот, не замораживая бюджет в оборудовании:
✅серверы с топовыми видеокартами NVIDIA B300, H200, H100, RTX6000PRO,
✅полный контроль над данными,
✅оплата по подписке — ежемесячно или раз в год.
Подходит для инференса и дообучения моделей, пакетной обработки данных. Если проект не получится — можно вернуть сервер в любой момент без штрафов, а если взлетит — выкупить по специальной цене.
👉Выбирайте конфигурацию и условия аренды: https://slc.tl/vd383
Реклама. АО "Селектел". erid:2W5zFGqgHi1
👍45👏16❤6🎉6🐳3🔥2😁2🤩2
GPT-5.5 отличается от GPT-5.2 или GPT-5.4 в части промптнинга. Миграцию OpenAI советует начинать с минимального промпта, который решает задачу, и только потом донастраивать reasoning effort, описания инструментов и формат вывода.
GPT-5.5 рассуждает эффективнее предшественников, поэтому сначала стоит проверять уровни «low» и «medium», а к более высоким тянуться только при необходимости.
Старые промпты часто расписывают процесс шаг за шагом: прежним моделям требовались подробные инструкции. Для GPT-5.5 это сужает пространство поиска и как следствие даст механические ответы.
OpenAI предлагает прописывать целевой результат, критерии успеха, ограничения и доступный контекст, а как добраться до результата, модель решит сама.
Слова «ALWAYS» и «NEVER» советуют беречь для настоящих инвариантов: правил безопасности и обязательных полей вывода. Для остального - правила и явные ограничители, чтобы модель не зацикливалась в бесконечных лупах.
Рекомендованная структура промпта открывается ролью и контекстом, дальше идут Personality, Goal, Success criteria, Constraints, Output и Stop rules.
Внутри блока Personality гайд просит разделять 2 измерения: как ассистент звучит (тон, формальность, юмор) и как он работает - когда уточнять, когда делать допущения и как обходиться с неопределённостью.
Поведение при поиске и цитировании
OpenAI вводит понятие retrieval budgets: один широкий поиск по коротким ключевым словам, повторный - только если не хватает фактов, нужен конкретный документ или пользователь просил исчерпывающий обзор.
Для презентаций и маркетинговых текстов руководство рекомендует чётко делить утверждения: где нужны источники, а где можно писать свободно.
Для стриминговых интерфейсов гайд предлагает preambles — короткие пользовательские апдейты в одно-два предложения перед первым вызовом инструментов. Они не ускоряют модель, но заметно сокращают воспринимаемую задержку.
Переписывать всё вручную не обязательно. OpenAI опубликовала собственный Skill для Codex и других кодинг-агентов - он применяет правила нового гайда одной командой.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓89👍67❤20👨💻20🤔7🔥4😁1
Бывают у нас анонсы и про физический ИИ
Яндекс Образование совместно с пятью ведущими вузами (ВШЭ, МАИ, МИФИ, МФТИ и ИТМО) запускает Yandex Physical AI Garage.
Это программа подготовки инженеров на стыке ИИ, робототехники и инженерии. Будут ML-курсы с фундаментальной базой от ШАДа, модуль по робототехнике от команды Автономного транспорта, постоянные «гаражи» — проектные офлайн-интенсивы под менторством инженеров Яндекса.
Обучение бесплатное, кроме того студенты будут получать стипендию. Для участия нужно быть студентом бакалавриата в одном из вузов-партнеров.
Узнать детали можно по ссылке
Яндекс Образование совместно с пятью ведущими вузами (ВШЭ, МАИ, МИФИ, МФТИ и ИТМО) запускает Yandex Physical AI Garage.
Это программа подготовки инженеров на стыке ИИ, робототехники и инженерии. Будут ML-курсы с фундаментальной базой от ШАДа, модуль по робототехнике от команды Автономного транспорта, постоянные «гаражи» — проектные офлайн-интенсивы под менторством инженеров Яндекса.
Обучение бесплатное, кроме того студенты будут получать стипендию. Для участия нужно быть студентом бакалавриата в одном из вузов-партнеров.
Узнать детали можно по ссылке
👍39❤32🔥9😁7🤩4🤷♂3🙈3🦄3❤🔥2
Сэм Альтман сформулировал декларацию намерений, в котором изложены 5 принципов, которым OpenAI будет придерживаться на пути к AGI.
Первый принцип сформулирован как противодействие концентрации возможностей ИИ "в руках немногих".
OpenAI считает, что ключевые решения о технологии должны приниматься через демократические процедуры, а не только лабораториями.
Компания верит, что ИИ может помочь каждому достичь своих целей, больше узнать, быть счастливее и следовать своим мечтам, и что общество в целом выиграет от этого.
Связывается с масштабным наращиванием вычислений и удешевлением инфраструктуры; этим, по мнению компании, объясняются её крупные расходы на вычислительные мощности при относительно скромной выручке.
Предполагает совместную работу с правительствами и другими разработчиками ИИ для противодействия рискам, в том числе биологическим и киберугрозам. OpenAI допускает периоды, когда понадобится сотрудничество с государствами и международными агентствами, чтобы убедиться, что серьёзные проблемы безопасности решены, прежде чем двигаться дальше.
Последний принцип фиксирует готовность пересматривать позиции по мере развития технологии.
В качестве иллюстрации OpenAI ссылается на собственный опыт с моделью GPT-2: в 2019 году компания отказалась сразу публиковать её веса, опасаясь общественных последствий, позднее эти опасения она сама назвала неоправданными, но именно они привели к стратегии «итеративного развёртывания».
Отдельно OpenAI признаёт, что стала значительно более крупной силой в мире, чем несколько лет назад и обещает прозрачность в случае изменения принципов.
"В будущем возможны периоды, когда нам придётся пожертвовать частью расширения возможностей ради большей устойчивости".
Публикация вышла на фоне продолжающейся в индустрии дискуссии о том, насколько безопасно ускорять разработку ИИ и кто должен принимать решения о пределах допустимого.
Часть бывших сотрудников OpenAI ранее публично выражала сомнения в соответствии действий компании её декларациям; отдельные критики указывали на коммерциализацию структуры, изначально созданной как некоммерческая.
Сама OpenAI пишет, что заслуживает пристального внимания и критики и обещает делать выводы и корректировать курс.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
😁43👍42🤔17❤14🙈9👏8🤣7🍓4🌚2🎃1🎄1
Японская лаборатория запустила бета-тестирование Sakana Fugu — своего первого международного коммерческого продукта.
Это система-оркестратор, которая динамически собирает команду из GPT-5, Gemini, Claude и опенсорсных моделей и распределяет между ними подзадачи.
В Conductor обучили 7B-модель через RL: на каждом шаге она решает, какого агента вызвать, какую подзадачу ему сформулировать и какие предыдущие сообщения передать в контекст. Говоря проще - мелкая модель работает мета-промпт-инженером для больших.
На простых вопросах Conductor отвечает за один проход, а на сложных задачах сам выстраивает цепочку "планировщик — исполнитель — верификатор".
Дополнительно метод способен делать рекурсивный самовызов: модель читает собственный инференс, определяет, что первая попытка провалилась, и запускает корректирующий рабочий процесс.
Сама по себе модель-дирижёр (которая на 7B) в тестах показал 83,9% на LiveCodeBench и 87,5% на GPQA-Diamond, обогнав не только модели из своего весового пула, но и мультиагентные бейзлайны Mixture-of-Agents (тут правда только по стоимости, но обогнала).
В коммерческой версии методы доработаны: fugu-ultra выбила 95,1% на GPQA Diamond (против 94,4% у Gemini 3.1 и 92,7% у Opus 4.6), 93,2% на LiveCodeBench v6 и 54,2% на SWE-Pro.
Доступ к Fugu через API, совместимый с форматом OpenAI. В линейке 2 модели: скоростная Fugu Mini для быстрых ответов и Fugu Ultra с полным пулом для тяжёлого ризонинга. Заявки на бета-тест уже принимаются.
Conductor и TRINITY приняты на ICLR 2026.
@ai_machinelearning_big_data
#AI #ML #LLM #Orchestration #FUGU #SakanaAi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯100👍77🤩25👏22🔥17❤16😁2