Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Компания объявила о покупке Statsig - платформы, специализирующейся на продуктовой аналитике и A/B-тестировании. Ее основатель и CEO Statsig, Виджая Раджи, будет назначен на пост технического директора по приложениям (CTO of Applications) в OpenAI. Он возглавит продуктовую инженерию для ChatGPT и Codex. Вся команда Statsig присоединится к OpenAI, однако сама платформа продолжит работать независимо и обслуживать текущих клиентов.
openai.com
OpenAI анонсировала новые функции безопасности для ChatGPT для на защиты молодых пользователей и помощи в кризисных ситуациях. Первая новинка - система автоматической маршрутизации: при обнаружении признаков острого психологического стресса разговор будет передаваться "думающим" моделям. Они обучены с помощью метода Deliberative Alignment и дают более медленные и взвешенные ответы. Обновление планируется выпустить в течение 120 дней.
В ближайший месяц также появятся функции родительского контроля. Родители смогут связывать свои аккаунты с аккаунтами подростков от 13 лет, чтобы устанавливать ограничения и получать оповещения, если система зафиксирует у ребенка признаки кризисного состояния.
openai.com
В Швейцарии состоялся запуск Apertus — национальной LLM с открытым исходным кодом. Проект, разработанный консорциумом государственных институтов, позиционируется как альтернатива коммерческим моделям. Apertus полностью прозрачен: разработчики опубликовали не только саму модель, но и исходный код процесса обучения, документацию и использованные наборы данных.
Модель обучена на 15 трлн. токенов и поддерживает более 1000 языков, 40% данных - не на английском. Apertus создавалась с учетом швейцарских и европейских законов о защите данных и авторском праве, что делает ее привлекательной для местного бизнеса. Модель доступна на Hugging Face в 2 версиях: 8 и 70 млрд. параметров.
swissinfo.ch
Dolby Vision 2 - следующее поколение формата HDR, который постепенно заменит Dolby Vision и Dolby Vision IQ. Особенность новой технологии - использование ИИ для динамической подстройки качества изображения в реальном времени.
Система Content Intelligence будет анализировать сцены, учитывать условия освещения в комнате и с помощью машинного обучения корректировать картинку "на лету". Например, функция Precision Black улучшит детализацию в темных сценах, а Light Sense адаптирует изображение под окружающую среду.
Первым производителем, который внедрит Dolby Vision 2, станет Hisense, а первым чипом со встроенной поддержкой нового стандарта будет MediaTek Pentonic 800.
dolby.com
ЦЕРН применила методы машинного обучения для поиска редких событий - распада бозона Хиггса на два charm-кварка. Эта задача критически важна для проверки Стандартной модели, так как взаимодействие бозона с легкими кварками, из которых состоит обычная материя, до сих пор экспериментально не подтверждено.
Основная сложность заключалась в идентификации так называемых «джетов», порожденных именно charm-кварками. Для этого исследователи использовали графовую нейронную сеть, обученную на сотнях миллионов симуляций, а для отделения реальных событий от фонового шума была задействована сеть, архитектурно схожая с ChatGPT.
В результате анализа данных, собранных на БАК, удалось установить самые строгие на сегодняшний день ограничения на силу взаимодействия бозона Хиггса с charm-кварком. Это значительный шаг в понимании механизма, который придает массу фундаментальным частицам.
scitechdaily.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4
🤯 Apple и Оксфорд сделали ИИ умнее в 6,5 раза
Вместо того чтобы просто "угадывать ответ", агент теперь сам задаёт правильные вопросы.
Успешность выросла с 14% до 91%, и это работает на уже существующих моделях — без дообучения.
🔄 Принцип:
1. Агент придумывает возможные решения.
2. Считает, какой вопрос сузит список максимально.
3. Задаёт только один лучший вопрос.
4. Фильтрует варианты и повторяет цикл, пока не найдёт ответ.
⚡ Зачем это нужно:
- Бизнесу → меньше ошибок, быстрее диагностика, точнее персонализация.
- Разработчикам → фреймворк можно использовать уже сегодня.
- Учёным → победа информационной теории: точные вопросы эффективнее любых эвристик.
#AI #Apple #Oxford #LLM #Agents
https://arxiv.org/pdf/2508.21184
Вместо того чтобы просто "угадывать ответ", агент теперь сам задаёт правильные вопросы.
Успешность выросла с 14% до 91%, и это работает на уже существующих моделях — без дообучения.
🔄 Принцип:
1. Агент придумывает возможные решения.
2. Считает, какой вопрос сузит список максимально.
3. Задаёт только один лучший вопрос.
4. Фильтрует варианты и повторяет цикл, пока не найдёт ответ.
⚡ Зачем это нужно:
- Бизнесу → меньше ошибок, быстрее диагностика, точнее персонализация.
- Разработчикам → фреймворк можно использовать уже сегодня.
- Учёным → победа информационной теории: точные вопросы эффективнее любых эвристик.
#AI #Apple #Oxford #LLM #Agents
https://arxiv.org/pdf/2508.21184
👍6🔥3💩2😁1
Forwarded from Machinelearning
400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.
📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом
⚡ По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.
@ai_machinelearning_big_data
#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2💩2🔥1
Forwarded from Machinelearning
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие
singleton rate
— доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты:
03-07
, 15-06
и 01-01
. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв
D
в слове DEEPSEEK
, та же DeepSeek-V3 выдавала 2
или 3
, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6
и 7
. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний.
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ
я не знаю
- 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата
я не знаю
. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг
singleton-rate
на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю
не штрафовались автоматически.@ai_machinelearning_big_data
#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🤔1