OpenAI открывают направление OpenAI for Science
Об этом сообщил CTO стартапа Кевин Вейл. Цель: создать научный инструмент, который сможет ускорять научные открытия. Специально под направление OpenAI нанимает небольшую группу ученых мирового уровня из разных областей (имена пока не раскрывают).
Альтман и остальные руководители стартапа уже кучу раз говорили о том, что их ИИ будет катализировать прогресс, и вот, видимо, момент заняться этим всерьез настал. Какие-то предпосылки уже есть – вспоминаем недавние новости:
– Буквально пару недель назад OpenAI объявили, что совместно с биотехнологическим стартапом Retro Biosciences разработали модель, которая смогла в 50 раз ускорить генерацию стволовых клеток (подробности)
– В другой раз GPT-5 решила открытую математическую задачу (подробности)
– Сам Кевин в своем анонсе еще приводит в пример случай, когда ученые использовали GPT-5 для доказательства некоторых теорем по квантовой теории поля (статья)
В общем, подразделение появляется вполне своевременно. На доказательство Теории струн не надеемся, но к чему-то полезному прийти, вполне вероятно, можно. К тому же, они в своей инициативе не первые: Google вон уже 10+ лет занимаются моделями Alpha серии, и идея там вполне близкая к тому, что будет происходить в OpenAI for Science.
Об этом сообщил CTO стартапа Кевин Вейл. Цель: создать научный инструмент, который сможет ускорять научные открытия. Специально под направление OpenAI нанимает небольшую группу ученых мирового уровня из разных областей (имена пока не раскрывают).
Альтман и остальные руководители стартапа уже кучу раз говорили о том, что их ИИ будет катализировать прогресс, и вот, видимо, момент заняться этим всерьез настал. Какие-то предпосылки уже есть – вспоминаем недавние новости:
– Буквально пару недель назад OpenAI объявили, что совместно с биотехнологическим стартапом Retro Biosciences разработали модель, которая смогла в 50 раз ускорить генерацию стволовых клеток (подробности)
– В другой раз GPT-5 решила открытую математическую задачу (подробности)
– Сам Кевин в своем анонсе еще приводит в пример случай, когда ученые использовали GPT-5 для доказательства некоторых теорем по квантовой теории поля (статья)
В общем, подразделение появляется вполне своевременно. На доказательство Теории струн не надеемся, но к чему-то полезному прийти, вполне вероятно, можно. К тому же, они в своей инициативе не первые: Google вон уже 10+ лет занимаются моделями Alpha серии, и идея там вполне близкая к тому, что будет происходить в OpenAI for Science.
🔥80👍32❤17 8 7🤨3🦄2😎2😁1
Облачный и AI-провайдер Cloud.ru на конференции GoCloud Tech удивил всех сразу несколькими крутыми обновлениями. Делимся:
Первое и самое важное: объявление цен на открытые LLM! С 1 ноября на платформе Evolution AI Factory языковые модели будут стоить в среднем 35 рублей за миллион входных токенов и 70 рублей за выходной. Это почти мировая планка, так что теперь пробовать и внедрять AI смогут не только корпорации, но и компании поменьше. Например, цена на Qwen3-235B – 17 и 50 рублей соответственно.
Второе: появились первые результаты работы AI-помощника Клаудии на платформе Cloud.ru Evolution, которого представили в конце июня. Два месяца работы, и статистика говорит, что в среднем агент ускоряет рутинные операции DevOps-инженеров в 15 раз. Например, если раньше создание виртуалки занимало у пользователей от пяти до тридцати минут, то с Клаудией время сократилось до одной-двух. Агентом активно пользуется каждый четвертый юзер сервиса.
И видимо, классные метрики вдохновили компанию на обновления, потому что теперь помощник будет работать еще в двух новых сценариях:
– Как SRE-агент для мониторинга и алертов.
– Как FinOps-помощник, который автоматически выявляет лишние траты и подсказывает оптимизацию. Приятно.
Ну и еще несколько инженерных обновлений, которые стоит оценить:
1. Ребята расширили возможности сервиса для создания и управления сетевыми связями Magic Router. Теперь в нем появился Magic Link, которая организует сетевую связность между облачными ресурсами под использования интернета.
2. Релизнули Evolution VPN – облачный сервис, который даёт защищённый доступ к корпоративным и облачным ресурсам.
3. Evolution Data Platform наконец-то вышла из превью и теперь в коммерции. Система поддерживает полный цикл работы с данными и может срезать до 40% затрат на инфраструктуру.
Все новинки тестируем тут
Первое и самое важное: объявление цен на открытые LLM! С 1 ноября на платформе Evolution AI Factory языковые модели будут стоить в среднем 35 рублей за миллион входных токенов и 70 рублей за выходной. Это почти мировая планка, так что теперь пробовать и внедрять AI смогут не только корпорации, но и компании поменьше. Например, цена на Qwen3-235B – 17 и 50 рублей соответственно.
Второе: появились первые результаты работы AI-помощника Клаудии на платформе Cloud.ru Evolution, которого представили в конце июня. Два месяца работы, и статистика говорит, что в среднем агент ускоряет рутинные операции DevOps-инженеров в 15 раз. Например, если раньше создание виртуалки занимало у пользователей от пяти до тридцати минут, то с Клаудией время сократилось до одной-двух. Агентом активно пользуется каждый четвертый юзер сервиса.
И видимо, классные метрики вдохновили компанию на обновления, потому что теперь помощник будет работать еще в двух новых сценариях:
– Как SRE-агент для мониторинга и алертов.
– Как FinOps-помощник, который автоматически выявляет лишние траты и подсказывает оптимизацию. Приятно.
Ну и еще несколько инженерных обновлений, которые стоит оценить:
1. Ребята расширили возможности сервиса для создания и управления сетевыми связями Magic Router. Теперь в нем появился Magic Link, которая организует сетевую связность между облачными ресурсами под использования интернета.
2. Релизнули Evolution VPN – облачный сервис, который даёт защищённый доступ к корпоративным и облачным ресурсам.
3. Evolution Data Platform наконец-то вышла из превью и теперь в коммерции. Система поддерживает полный цикл работы с данными и может срезать до 40% затрат на инфраструктуру.
Все новинки тестируем тут
🤨42🔥21🗿15👍7😁5❤4 2🤯1 1
Nvidia выложили в опенсорс универсальный Deep Research, который можно обернуть вокруг любой LLM
Он так и называется: Universal Deep Research (UDR). Фактически, это готовый конструктор для построения системы поиска или анализа.
Пользователь просто задает стратегию работы на уровне сценариев: правила сбора и анализа данных, последовательность действий, критерии отбора источников и формат результата. А дальше агент все делает сам: ищет источники, обрабатывает их, верифицирует и синтезирует. Движок под капотом может быть абсолютно любой, то есть модель можно взять какую угодно.
Почему это круто? Тут все просто: демократизация. Нет привязки к конкретной платформе, и обертку можно делать даже над чайником.
Почему это не панацея? Тут не предполагается никакого рода файнтюнинга. А значит, итоговые метрики могут страдать, даже если в основе у вас отличная базовая модель. Поэтому – доверяем, но всегда проверяем.
Статья | Страница проекта | Гитхаб | Лаб
Он так и называется: Universal Deep Research (UDR). Фактически, это готовый конструктор для построения системы поиска или анализа.
Пользователь просто задает стратегию работы на уровне сценариев: правила сбора и анализа данных, последовательность действий, критерии отбора источников и формат результата. А дальше агент все делает сам: ищет источники, обрабатывает их, верифицирует и синтезирует. Движок под капотом может быть абсолютно любой, то есть модель можно взять какую угодно.
Почему это круто? Тут все просто: демократизация. Нет привязки к конкретной платформе, и обертку можно делать даже над чайником.
Почему это не панацея? Тут не предполагается никакого рода файнтюнинга. А значит, итоговые метрики могут страдать, даже если в основе у вас отличная базовая модель. Поэтому – доверяем, но всегда проверяем.
Статья | Страница проекта | Гитхаб | Лаб
❤🔥88🎉28❤27👍20🔥5🤔2⚡1😁1
У OpenAI появятся собственные чипы. Первые поставки ожидаются уже в 2026.
Чипы под названием XPU разрабатываются совместно с Broadcom (они же помогали Google с TPU). Железо будет предназначено только для внутреннего использования и только для инференса. Цель – снизить зависимость от Хуанга.
Сумма договора официально не сообщается, НО буквально пару дней назад директор Broadcom Хок Тан сообщил о сделке с загадочным новым крупным клиентом на сумму около $10 млрд😏
Кстати, после новостей акции Broadcom подскочили уже на 4,5%. А аналитики говорят, что к 2026 году бизнес Broadcom по разработке кастомных чипов и вовсе будет расти быстрее, чем производство GPU у Nvidia.
Новость на FT без пэйвола
UPD: еще выяснилось, что команду XPU в OpenAI возглавляет сам Ричард Хо – бывший главный инженер TPU в Google
Чипы под названием XPU разрабатываются совместно с Broadcom (они же помогали Google с TPU). Железо будет предназначено только для внутреннего использования и только для инференса. Цель – снизить зависимость от Хуанга.
Сумма договора официально не сообщается, НО буквально пару дней назад директор Broadcom Хок Тан сообщил о сделке с загадочным новым крупным клиентом на сумму около $10 млрд
Кстати, после новостей акции Broadcom подскочили уже на 4,5%. А аналитики говорят, что к 2026 году бизнес Broadcom по разработке кастомных чипов и вовсе будет расти быстрее, чем производство GPU у Nvidia.
Новость на FT без пэйвола
UPD: еще выяснилось, что команду XPU в OpenAI возглавляет сам Ричард Хо – бывший главный инженер TPU в Google
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84 21👍17 10❤4🕊2😁1
На Hugging Face вышел обзор мировых ML-датасетов, недавно выложенных в опенсорс. Среди них крупнейший рекомендательный датасет Yambda-5B от Яндекса.
Самое главное из статьи:
– Открытые датасеты двигают вперед исследования в ML-индустрии, на многие из них стоит обратить внимание
– Мировые эксперты отметили значимость датасета Яндекса для развития рекомендательных систем и науки в целом
Самое главное из статьи:
– Открытые датасеты двигают вперед исследования в ML-индустрии, на многие из них стоит обратить внимание
– Мировые эксперты отметили значимость датасета Яндекса для развития рекомендательных систем и науки в целом
Один из экспертов, Аман Чадха (AWS GenAI, ранее Stanford AI и Apple), отметил, что «такие датасеты, как Yambda-5B, сокращают разрыв между академическим сообществом и реальной индустрией»
🤯70👍63❤24🤨12😁6🗿3🔥2
Это открытая модель для эмбеддингов, основанная на Gemma 3. Ее основная фишка – размер. Крошка имеет всего 308M параметров и показывает SOTA метрики в весе до 500М. Работает более чем на 100 языках.
А еще модель специально оптимизирована для использования on-device, то есть локально без Интернета. С квантизацией требует всего 200MB оперативки.
Зачем нам эмбеддинг-модель в режиме on-device? Например, для приватного RAG или semantic search. Модель работает локально, то есть и генерация векторов для поиска, и сам поиск проходят прямо на устройстве. Это быстрее, дешевле и без риска утечки данных.
Кстати, эмббединги на выходе могут быть разных размерностей, от 768 до 128. Это прикольная особенность. Работает такое за счет Matryoshka Representation Learning, мы об этом методе вот тут и вот здесь подробно рассказывали. Если кратко, модель эластична, то есть внутри нее есть полностью самодостаточные модели поменьше. Переключение между ними и позволяет на лету менять размерности выходных векторов.
Потыкать модельку уже можно в sentence-transformers, llama.cpp, MLX, Ollama, LiteRT, transformers.js, LMStudio, Weaviate, Cloudflare, LlamaIndex и LangChain. Как видите, с интеграциями у Google все в порядке 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯62❤60🔥34👍11 5👏2😁1
Знакомьтесь, это Гвидо Райхштедтер, и он устроил голодовку около офиса Anthropic
Его требование – прекратить гонку ИИ.
Сегодня уже третий день его голодного бунта.
Anthropic отдуваются за всех 🫡
Его требование – прекратить гонку ИИ.
Anthropic и другие компании, занимающиеся разработкой искусственного интеллекта, стремятся создать всё более мощные системы. Эти системы используются для нанесения серьёзного вреда нашему обществу сегодня и грозят нанести ещё больший ущерб завтра. Эксперты предупреждают нас, что эта гонка за всё более мощным ИИ ставит под угрозу нашу жизнь и благополучие, а также жизнь и благополучие наших близких. Они предупреждают нас, что создание чрезвычайно мощного ИИ грозит уничтожить жизнь на Земле. Давайте отнесёмся к этим предупреждениям серьёзно. Гонка компаний стремительно ведёт нас к точке невозврата. Эта гонка должна прекратиться сейчас.
Сегодня уже третий день его голодного бунта.
Anthropic отдуваются за всех 🫡
😁243🗿64🫡45 21 21❤🔥12⚡9👏4🐳3 3🤔1
Яндекс Лицей приглашает на интенсив по IT: осенний набор для школьников и студентов колледжей, техникумов!
Учитесь основам и промышленному программированию на Python на разных курсах:
— «Основы программирования на Python» для начинающих: изучите синтаксис, данные, графики и создание простых программ.
— «Промышленное программирование на Python» для знающих Python: разработка веб-приложения на Flask, создание навыков для Алисы, чат-ботов и тесты программы с unittest/pytest.
👉 Участие бесплатное, но требуется подать заявку и пройти отбор до 10 сентября на сайте Яндекс Лицея.
А сертификат после курсов поможет при поступлении в вузы-партнёры.
Учитесь основам и промышленному программированию на Python на разных курсах:
— «Основы программирования на Python» для начинающих: изучите синтаксис, данные, графики и создание простых программ.
— «Промышленное программирование на Python» для знающих Python: разработка веб-приложения на Flask, создание навыков для Алисы, чат-ботов и тесты программы с unittest/pytest.
👉 Участие бесплатное, но требуется подать заявку и пройти отбор до 10 сентября на сайте Яндекс Лицея.
А сертификат после курсов поможет при поступлении в вузы-партнёры.
2🗿29❤6🤨5😁4👍3🤯2
Новый день – новое подразделение OpenAI
Напоминаем, что вчера они объявили об открытии OpenAI for Science, а уже сегодня анонсируют OpenAI Jobs Platform – систему для поиска работы и подбора сотрудников с помощью ИИ (RIP тысяча и один стартап).
Основная цель: максимально точные и эффективные мэтчи работодателей и специалистов, особенно в сфере IT. В общем, конкурент LinkedIn, только OpenAI настаивают, что будут делать упор именно на кадрах, обладающих AI-компетенциями. Отсюда – еще одна деталь.
Платформа будет интегрирована с OpenAI Academy и программами сертификации. И эти самые программы сертификации будут встроены прямо в ChatGPT. Это буквально будут экзамены на проверку навыков владения ИИ.
К 2030 году OpenAI намерена сертифицировать 10 миллионов американцев. И в первых партнерах уже Walmart, John Deere, Boston Consulting Group, Accenture, Indeed и другие крупняки.
Курсы по промптингу все-таки станут востребованы, получается
openai.com/index/expanding-economic-opportunity-with-ai/
Напоминаем, что вчера они объявили об открытии OpenAI for Science, а уже сегодня анонсируют OpenAI Jobs Platform – систему для поиска работы и подбора сотрудников с помощью ИИ (RIP тысяча и один стартап).
Основная цель: максимально точные и эффективные мэтчи работодателей и специалистов, особенно в сфере IT. В общем, конкурент LinkedIn, только OpenAI настаивают, что будут делать упор именно на кадрах, обладающих AI-компетенциями. Отсюда – еще одна деталь.
Платформа будет интегрирована с OpenAI Academy и программами сертификации. И эти самые программы сертификации будут встроены прямо в ChatGPT. Это буквально будут экзамены на проверку навыков владения ИИ.
К 2030 году OpenAI намерена сертифицировать 10 миллионов американцев. И в первых партнерах уже Walmart, John Deere, Boston Consulting Group, Accenture, Indeed и другие крупняки.
Курсы по промптингу все-таки станут востребованы, получается
openai.com/index/expanding-economic-opportunity-with-ai/
😎44😁23❤13🔥8 6🗿4👍1
Наш сосед по телеграму, Артем, автор @ai_newz, ушел из Meta GenAI (Superintelligence Lab), того самого элитного AI-подразделения Meta, куда Цукерберг переманивает таланты за десятки миллионов $, чтобы основать собственную GenAI ресерч лабу в Цюрихе!
Вчера они вышли из стелса.
GenPeach.AI 🍑 (это имя лабы) обучает свои собственные мультимодальные foundation модели (с нуля, не файнтюны).
Цель их моделей - дать юзерам безграничную творческую свободу и реализм в генерациях, который сейчас недоступен в других продуктах.
Но и для application слоя есть свои планы - ждем апдейтов!
Модельки еще готовятся, но ребята уже открыли Waitlist для тех, кто хочет получить доступ раньше других и поучаствовать в бета-тесте!
🚩 Чтобы записаться в Waitlist откройте бота: @genpeach_ai_bot
Вчера они вышли из стелса.
GenPeach.AI 🍑 (это имя лабы) обучает свои собственные мультимодальные foundation модели (с нуля, не файнтюны).
Цель их моделей - дать юзерам безграничную творческую свободу и реализм в генерациях, который сейчас недоступен в других продуктах.
Но и для application слоя есть свои планы - ждем апдейтов!
"Сейчас у нас фокус на том, чтобы добиться максимального реализма, контроля и эффективности в генерации фото- и видео-сцен с людьми".
Модельки еще готовятся, но ребята уже открыли Waitlist для тех, кто хочет получить доступ раньше других и поучаствовать в бета-тесте!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38 24🔥10🗿10👍6😁6🤨5🤔3🤯2
Думали в пятницу вечером релизов уже не будет? А вот и нет, вышел Qwen3-Max-Preview 😎
В модели аж 1 триллион параметров – это самый крупный экземпляр стартапа на данный момент. При этом модель без ризонинга.
По бенчмаркам бьет их предыдущего лидера Qwen3-235B-A22B-2507, а также Claude Opus 4 Non-Thinking и DeepSeek V3.1. На AIME25 показывают 80.6% – это примерно уровень o3-mini, даже на пару процентов лучше.
Говорят, что сейчас продолжают скейлить модель, и официальный релиз будет еще лучше. Ждем.
Попробовать превью уже можно в Qwen Chat или через Alibaba Cloud API.
В модели аж 1 триллион параметров – это самый крупный экземпляр стартапа на данный момент. При этом модель без ризонинга.
По бенчмаркам бьет их предыдущего лидера Qwen3-235B-A22B-2507, а также Claude Opus 4 Non-Thinking и DeepSeek V3.1. На AIME25 показывают 80.6% – это примерно уровень o3-mini, даже на пару процентов лучше.
Говорят, что сейчас продолжают скейлить модель, и официальный релиз будет еще лучше. Ждем.
Попробовать превью уже можно в Qwen Chat или через Alibaba Cloud API.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87❤24🔥21🗿4🤯3😁2
Data Secrets
Знакомьтесь, это Гвидо Райхштедтер, и он устроил голодовку около офиса Anthropic Его требование – прекратить гонку ИИ. Anthropic и другие компании, занимающиеся разработкой искусственного интеллекта, стремятся создать всё более мощные системы. Эти системы…
Волна голодовок тем временем пошла дальше: теперь голодают и около офиса DeepMind
Требования у протестующих все те же: прекратить гонку ИИ.
Требования у протестующих все те же: прекратить гонку ИИ.
Я призываю руководство, директоров и сотрудников DeepMind сделать все возможное, чтобы остановить гонку за все более мощным AGI, которая угрожает вымиранием человечества.
Более конкретно, я прошу Демиса Хассабиса публично заявить, что DeepMind прекратит разработку передовых моделей ИИ, если все остальные крупные компании в области ИИ согласятся сделать это.
Основы эффективно работающих ML-систем и тренды рынка
⌚️ 📱 💻 ⌨️ 🖥 🖨 🕹 🎙
📡 🔋 💡 ⚙️ 🎁 🎊
✉️ 📨 🗒 📈 📕
24 сентября в Москве пройдёт Yandex Neuro Scale 2025 — одним из треков представят практическое применение машинного обучения.
Участников ждёт целый трек по работе с данными. Дополнительно можно погрузиться в другие треки о технологиях: Infrastructure, DevOps, AI Studio, AI in action, Security и Cases. У каждого трека — своё наполнение и доклады с общим фокусом на применении искусственного интеллекта.
Ознакомиться с докладами и другими активностями конференции можно на сайте:
Короче, надо бы зарегистрироваться👆
24 сентября в Москве пройдёт Yandex Neuro Scale 2025 — одним из треков представят практическое применение машинного обучения.
Участников ждёт целый трек по работе с данными. Дополнительно можно погрузиться в другие треки о технологиях: Infrastructure, DevOps, AI Studio, AI in action, Security и Cases. У каждого трека — своё наполнение и доклады с общим фокусом на применении искусственного интеллекта.
Ознакомиться с докладами и другими активностями конференции можно на сайте:
Короче, надо бы зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯12🗿7😁6❤5👍4🤓3 1
Почему LLM галлюцинируют: новая статья от OpenAI
Да-да, вы не ослышались. Раз в годи палка стреляет и OpenAI выпускают интересные рисерчи.
Пишут о том, почему возникают галлюцинации, и как с ними бороться. Главная идея – галлюцинации не являются чем-то загадочным или уникальным, а естественно возникают как ошибки в статистической системе. Причина в том, как мы сами обучаем и оцениваем модели:
– На этапе предобучения задача модели – всегда предложить вероятное продолжение текста. У нее нет варианта сказать "я не знаю". Пустой ответ не существует как вариант + мы никогда не вводим никаких штрафов за выдумку.
– Причем даже если данные, на которых обучилась модель, идеальны (а такого не бывает), галлюцинации все равно будут. Многие факты в мире просто-напросто случайны (дни рождения, серийные номера, уникальные события). Для них нет закономерностей, и модель не может их выучить. Да и мы не учим модель определять, что ложь, а что нет. Ее задача – генерировать наиболее статистически вероятный текст.
– Почему же после пост-обучения модели не перестают врать? Да потому что так устроены бенчмарки. Большинство из них оценивают модели бинарно: 1 балл за правильный ответ, 0 за неправильный или отсутствие ответа. А любой, кто учился в школе, понимает: выгоднее тыкнуть наугад, чем пропустить вопрос. Так будет хоть какая-то веротяность успеха. Вот и LLM поступают так же.
Ну и не забываем про принцип GIGO – Garbage In, Garbage Out. В данных так или иначе есть ошибки, и это еще один источник галлюцинаций.
Как итог из всего этого мы получаем кучу чуши, которую модельки вещают вполне уверенно.
OpenAI предлагают вариант, как это можно начать исправлять. Они пишут, что начинать надо с бенчмарков. И нет, не надо плодить отдельные анти-галлюцинационные тесты, как это сейчас модно. Это не поможет. Надо менять основные метрики, добавив IDK («Не знаю») как валидный ответ во все тесты и перестав приравнивать такой ответ к ошибке. То есть честность и признание неуверенности для модели должны быть выгоднее выдумки.
Технически, мы вводим так называемые confidence targets: то есть прямо в инструкции к задаче прописывается порог уверенности, выше которого модель должна отвечать. Например: "Отвечай только если уверен более чем на 75%". И при этом за неверный ответ −2 балла, за правильный +1, за “Не знаю” = 0.
Получается, статистически, если модель оценит вероятность правильности своего ответа в < 75%, ей выгоднее сказать «Не знаю», чем выдумывать. Она при этом не обязана сообщать пользователю точные проценты своей уверенности, достаточно, чтобы она об этом "думала", принимая решение.
В целом, звучит вполне реально. Если те же HF выдвинут на своей платформе такой регламент для тестов, перейти на подобный эвал можно буквально за несколько месяцев.
В общем, интересно, продвинется ли идея дальше статьи.
cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
Да-да, вы не ослышались. Раз в год
Пишут о том, почему возникают галлюцинации, и как с ними бороться. Главная идея – галлюцинации не являются чем-то загадочным или уникальным, а естественно возникают как ошибки в статистической системе. Причина в том, как мы сами обучаем и оцениваем модели:
– На этапе предобучения задача модели – всегда предложить вероятное продолжение текста. У нее нет варианта сказать "я не знаю". Пустой ответ не существует как вариант + мы никогда не вводим никаких штрафов за выдумку.
– Причем даже если данные, на которых обучилась модель, идеальны (а такого не бывает), галлюцинации все равно будут. Многие факты в мире просто-напросто случайны (дни рождения, серийные номера, уникальные события). Для них нет закономерностей, и модель не может их выучить. Да и мы не учим модель определять, что ложь, а что нет. Ее задача – генерировать наиболее статистически вероятный текст.
– Почему же после пост-обучения модели не перестают врать? Да потому что так устроены бенчмарки. Большинство из них оценивают модели бинарно: 1 балл за правильный ответ, 0 за неправильный или отсутствие ответа. А любой, кто учился в школе, понимает: выгоднее тыкнуть наугад, чем пропустить вопрос. Так будет хоть какая-то веротяность успеха. Вот и LLM поступают так же.
Ну и не забываем про принцип GIGO – Garbage In, Garbage Out. В данных так или иначе есть ошибки, и это еще один источник галлюцинаций.
Как итог из всего этого мы получаем кучу чуши, которую модельки вещают вполне уверенно.
OpenAI предлагают вариант, как это можно начать исправлять. Они пишут, что начинать надо с бенчмарков. И нет, не надо плодить отдельные анти-галлюцинационные тесты, как это сейчас модно. Это не поможет. Надо менять основные метрики, добавив IDK («Не знаю») как валидный ответ во все тесты и перестав приравнивать такой ответ к ошибке. То есть честность и признание неуверенности для модели должны быть выгоднее выдумки.
Технически, мы вводим так называемые confidence targets: то есть прямо в инструкции к задаче прописывается порог уверенности, выше которого модель должна отвечать. Например: "Отвечай только если уверен более чем на 75%". И при этом за неверный ответ −2 балла, за правильный +1, за “Не знаю” = 0.
Получается, статистически, если модель оценит вероятность правильности своего ответа в < 75%, ей выгоднее сказать «Не знаю», чем выдумывать. Она при этом не обязана сообщать пользователю точные проценты своей уверенности, достаточно, чтобы она об этом "думала", принимая решение.
В целом, звучит вполне реально. Если те же HF выдвинут на своей платформе такой регламент для тестов, перейти на подобный эвал можно буквально за несколько месяцев.
В общем, интересно, продвинется ли идея дальше статьи.
cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
❤143👍55🔥14😁5😎2❤🔥1🗿1
Альтман заявил инвесторам, что к 2029 расходы компании вырастут до 115 миллиардов долларов
Это на 80 миллиардов больше, чем он обещал ранее. Внезапно оказалось, что стоимость разработки более совершенных моделей выше, чем ожидалось, и OpenAI нужно ГОРАЗДО больше денег на вычисления.
В этом году, кстати, расходы тоже больше прогнозируемых. Примерно на 1.5 миллиарда (аналитики – молодцы!).
Выучиваем новую лексику для созвонов. Не «убыточный», а «капиталоемкий»👆
Это на 80 миллиардов больше, чем он обещал ранее. Внезапно оказалось, что стоимость разработки более совершенных моделей выше, чем ожидалось, и OpenAI нужно ГОРАЗДО больше денег на вычисления.
В этом году, кстати, расходы тоже больше прогнозируемых. Примерно на 1.5 миллиарда (аналитики – молодцы!).
Сэм Альтман: «OAI, возможно, самый капиталоёмкий некоммерческий стартап в истории»
Выучиваем новую лексику для созвонов. Не «убыточный», а «капиталоемкий»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁95👍15❤6🔥4