📌Приглашаем вас на три бесплатных вебинара курса «MLOps»
💎Вебинар №1: «MLFlow - контроль над ML-экспериментами»
⏰ 4 сентября в 20:00 мск
🔹На вебинаре:
• Узнаете как проводить ML эксперименты и главное как их контролировать;
• Поймете что такое MLFlow и какие компоненты он содержит;
• Разберём основные возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость;
• Проведём живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект.
💎Вебинар №2: «Вывод ML моделей в промышленную среду на примере онлайн-скоринга»
⏰ 11 сентября в 20:00 мск
🔹На вебинаре:
• Направления развития в DataScience
• Построение модели машинного обучения на примере скоринга
• Интеграция модели в промышленную среду на примере API на Flas
💎Вебинар №3: «Serverless подход в MLOps для небольших ML-проектов»
⏰ 18 сентября в 18:00 мск
🔹На вебинаре:
• Преимущества serverless подхода для развертывания ML-моделей и когда его стоит использовать.
• Развертывание ML-модели с помощью Yandex Cloud: Object Storage и Cloud Functions.
• Создание и тестирование API для инференса модели.
🎁Участники вебинаров получат подарки на почту🎁
Регистрация на вебинары ➡️ OTUS.RU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
💎Вебинар №1: «MLFlow - контроль над ML-экспериментами»
⏰ 4 сентября в 20:00 мск
🔹На вебинаре:
• Узнаете как проводить ML эксперименты и главное как их контролировать;
• Поймете что такое MLFlow и какие компоненты он содержит;
• Разберём основные возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость;
• Проведём живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект.
💎Вебинар №2: «Вывод ML моделей в промышленную среду на примере онлайн-скоринга»
⏰ 11 сентября в 20:00 мск
🔹На вебинаре:
• Направления развития в DataScience
• Построение модели машинного обучения на примере скоринга
• Интеграция модели в промышленную среду на примере API на Flas
💎Вебинар №3: «Serverless подход в MLOps для небольших ML-проектов»
⏰ 18 сентября в 18:00 мск
🔹На вебинаре:
• Преимущества serverless подхода для развертывания ML-моделей и когда его стоит использовать.
• Развертывание ML-модели с помощью Yandex Cloud: Object Storage и Cloud Functions.
• Создание и тестирование API для инференса модели.
🎁Участники вебинаров получат подарки на почту🎁
Регистрация на вебинары ➡️ OTUS.RU
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963
❤3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Компания объявила о покупке Statsig - платформы, специализирующейся на продуктовой аналитике и A/B-тестировании. Ее основатель и CEO Statsig, Виджая Раджи, будет назначен на пост технического директора по приложениям (CTO of Applications) в OpenAI. Он возглавит продуктовую инженерию для ChatGPT и Codex. Вся команда Statsig присоединится к OpenAI, однако сама платформа продолжит работать независимо и обслуживать текущих клиентов.
openai.com
OpenAI анонсировала новые функции безопасности для ChatGPT для на защиты молодых пользователей и помощи в кризисных ситуациях. Первая новинка - система автоматической маршрутизации: при обнаружении признаков острого психологического стресса разговор будет передаваться "думающим" моделям. Они обучены с помощью метода Deliberative Alignment и дают более медленные и взвешенные ответы. Обновление планируется выпустить в течение 120 дней.
В ближайший месяц также появятся функции родительского контроля. Родители смогут связывать свои аккаунты с аккаунтами подростков от 13 лет, чтобы устанавливать ограничения и получать оповещения, если система зафиксирует у ребенка признаки кризисного состояния.
openai.com
В Швейцарии состоялся запуск Apertus — национальной LLM с открытым исходным кодом. Проект, разработанный консорциумом государственных институтов, позиционируется как альтернатива коммерческим моделям. Apertus полностью прозрачен: разработчики опубликовали не только саму модель, но и исходный код процесса обучения, документацию и использованные наборы данных.
Модель обучена на 15 трлн. токенов и поддерживает более 1000 языков, 40% данных - не на английском. Apertus создавалась с учетом швейцарских и европейских законов о защите данных и авторском праве, что делает ее привлекательной для местного бизнеса. Модель доступна на Hugging Face в 2 версиях: 8 и 70 млрд. параметров.
swissinfo.ch
Dolby Vision 2 - следующее поколение формата HDR, который постепенно заменит Dolby Vision и Dolby Vision IQ. Особенность новой технологии - использование ИИ для динамической подстройки качества изображения в реальном времени.
Система Content Intelligence будет анализировать сцены, учитывать условия освещения в комнате и с помощью машинного обучения корректировать картинку "на лету". Например, функция Precision Black улучшит детализацию в темных сценах, а Light Sense адаптирует изображение под окружающую среду.
Первым производителем, который внедрит Dolby Vision 2, станет Hisense, а первым чипом со встроенной поддержкой нового стандарта будет MediaTek Pentonic 800.
dolby.com
ЦЕРН применила методы машинного обучения для поиска редких событий - распада бозона Хиггса на два charm-кварка. Эта задача критически важна для проверки Стандартной модели, так как взаимодействие бозона с легкими кварками, из которых состоит обычная материя, до сих пор экспериментально не подтверждено.
Основная сложность заключалась в идентификации так называемых «джетов», порожденных именно charm-кварками. Для этого исследователи использовали графовую нейронную сеть, обученную на сотнях миллионов симуляций, а для отделения реальных событий от фонового шума была задействована сеть, архитектурно схожая с ChatGPT.
В результате анализа данных, собранных на БАК, удалось установить самые строгие на сегодняшний день ограничения на силу взаимодействия бозона Хиггса с charm-кварком. Это значительный шаг в понимании механизма, который придает массу фундаментальным частицам.
scitechdaily.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4
🤯 Apple и Оксфорд сделали ИИ умнее в 6,5 раза
Вместо того чтобы просто "угадывать ответ", агент теперь сам задаёт правильные вопросы.
Успешность выросла с 14% до 91%, и это работает на уже существующих моделях — без дообучения.
🔄 Принцип:
1. Агент придумывает возможные решения.
2. Считает, какой вопрос сузит список максимально.
3. Задаёт только один лучший вопрос.
4. Фильтрует варианты и повторяет цикл, пока не найдёт ответ.
⚡ Зачем это нужно:
- Бизнесу → меньше ошибок, быстрее диагностика, точнее персонализация.
- Разработчикам → фреймворк можно использовать уже сегодня.
- Учёным → победа информационной теории: точные вопросы эффективнее любых эвристик.
#AI #Apple #Oxford #LLM #Agents
https://arxiv.org/pdf/2508.21184
Вместо того чтобы просто "угадывать ответ", агент теперь сам задаёт правильные вопросы.
Успешность выросла с 14% до 91%, и это работает на уже существующих моделях — без дообучения.
🔄 Принцип:
1. Агент придумывает возможные решения.
2. Считает, какой вопрос сузит список максимально.
3. Задаёт только один лучший вопрос.
4. Фильтрует варианты и повторяет цикл, пока не найдёт ответ.
⚡ Зачем это нужно:
- Бизнесу → меньше ошибок, быстрее диагностика, точнее персонализация.
- Разработчикам → фреймворк можно использовать уже сегодня.
- Учёным → победа информационной теории: точные вопросы эффективнее любых эвристик.
#AI #Apple #Oxford #LLM #Agents
https://arxiv.org/pdf/2508.21184
👍6🔥3💩2😁1
Forwarded from Machinelearning
400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.
📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом
⚡ По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.
@ai_machinelearning_big_data
#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3💩2🔥1
Forwarded from Machinelearning
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие
singleton rate
— доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты:
03-07
, 15-06
и 01-01
. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв
D
в слове DEEPSEEK
, та же DeepSeek-V3 выдавала 2
или 3
, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6
и 7
. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний.
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ
я не знаю
- 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата
я не знаю
. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг
singleton-rate
на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю
не штрафовались автоматически.@ai_machinelearning_big_data
#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🤔1
📊 Новое поколение баз данных для ИИ-агентов
Когда LLM-агенты работают с БД, они не делают один большой запрос. Вместо этого они засыпают систему тысячами мелких пробных запросов: проверяют структуру, ищут связи, тестируют планы. Это явление получило название agentic speculation. Итог — колоссальный перерасход ресурсов.
🆕 Исследователи предлагают «agent-first database» — базу, спроектированную с учётом поведения агентов.
🔑 Как это работает:
- Агент отправляет не просто SQL-запрос, а пробу с брифом: какая цель, на каком этапе он сейчас, какая нужна точность и что в приоритете.
- База может дать приближённый ответ, если данных уже достаточно, вместо того чтобы тратить ресурсы на полный расчёт.
- Запросы поддерживают семантический поиск по таблицам и строкам, что в SQL выразить сложно.
⚙️ Внутренние механизмы:
- Sleeper agents подсказывают лучшие join’ы, объясняют пустые результаты и оценивают стоимость запросов.
- Оптимизатор проб объединяет похожие запросы, кэширует частичные результаты и выдаёт быстрые ответы, когда «достаточно сигнала».
- Agentic memory хранит знания, которые можно переиспользовать в будущем.
- Общий менеджер транзакций позволяет быстро пробовать разные сценарии («what-if») без лишних затрат.
📌 Вывод: традиционный SQL не подходит для эпохи LLM. Нужны базы, которые понимают стратегию агента, сокращают лишние шаги и экономят ресурсы.
🔗 Paper: arxiv.org/abs/2509.00997
#AI #Databases #LLM #Agents
Когда LLM-агенты работают с БД, они не делают один большой запрос. Вместо этого они засыпают систему тысячами мелких пробных запросов: проверяют структуру, ищут связи, тестируют планы. Это явление получило название agentic speculation. Итог — колоссальный перерасход ресурсов.
🆕 Исследователи предлагают «agent-first database» — базу, спроектированную с учётом поведения агентов.
🔑 Как это работает:
- Агент отправляет не просто SQL-запрос, а пробу с брифом: какая цель, на каком этапе он сейчас, какая нужна точность и что в приоритете.
- База может дать приближённый ответ, если данных уже достаточно, вместо того чтобы тратить ресурсы на полный расчёт.
- Запросы поддерживают семантический поиск по таблицам и строкам, что в SQL выразить сложно.
⚙️ Внутренние механизмы:
- Sleeper agents подсказывают лучшие join’ы, объясняют пустые результаты и оценивают стоимость запросов.
- Оптимизатор проб объединяет похожие запросы, кэширует частичные результаты и выдаёт быстрые ответы, когда «достаточно сигнала».
- Agentic memory хранит знания, которые можно переиспользовать в будущем.
- Общий менеджер транзакций позволяет быстро пробовать разные сценарии («what-if») без лишних затрат.
📌 Вывод: традиционный SQL не подходит для эпохи LLM. Нужны базы, которые понимают стратегию агента, сокращают лишние шаги и экономят ресурсы.
🔗 Paper: arxiv.org/abs/2509.00997
#AI #Databases #LLM #Agents
👍4🤔2