Forwarded from Профессорский кот (Yulia Vymyatnina)
Появление LLM (больших языковых моделей) привело к самым разнообразным новым вариантам исследований. Например, исследователи из университета Вашингтона решили посмотреть, может ли ChatGPT воспроизвести предпочтения людей. Проверяли они это на примере выявления терпеливости людей – насколько они готовы подождать и получить награду чуть побольше. (Если интересно, как такие вещи вообще делаются, расскажу отдельно).
Исследователи сравнивали ответы ChatGPT-3.5 и ChatGPT-4 на разных языках. Всего было 22 языка, русский среди них тоже был.
Выяснилось, что у ChatGPT-3.5 очень простой принцип – он в ситуациях выбора упорядочивает лексикографически сначала во времени, потом награды. Поэтому если ему начинать предлагать более высокую награду в будущем (увеличивать ставку процента на языке экономистов), он ее никогда не выберет, потом что начинает выбор по дате и берет ближайшую.
Чат GPT 4.0 более терпелив, особенно если его попросить объяснить его выбор. Но все равно существенно менее терпелив, чем люди. Хотя, заметим, люди сами не слишком терпеливы во многих случаях. Так что пока эти прекрасные инструменты, как отмечают исследователи, не могут нам помочь моделировать ответы людей в ситуациях выбора (а как бы это удешевило разные эксперименты для экономистов!!!).
Но что интересно, обе модели, как и люди, при использовании языков со слабым будущим временем оказываются более терпеливыми, чем в случае языков с сильным будущим временем. К языкам со слабым будущим временем относятся, например, китайский и немецкий – там будущее действие можно выразить настоящим временем, обозначив время контекстом. К языкам с сильным будущим временем относятся, например, русский и английский – для выражения будущего используется отдельное время. Эта связь между силой выражения будущего времени в языке и терпением не всеми принимается, но корреляции, безусловно, есть.
#язык #LLM #emcr
Исследователи сравнивали ответы ChatGPT-3.5 и ChatGPT-4 на разных языках. Всего было 22 языка, русский среди них тоже был.
Выяснилось, что у ChatGPT-3.5 очень простой принцип – он в ситуациях выбора упорядочивает лексикографически сначала во времени, потом награды. Поэтому если ему начинать предлагать более высокую награду в будущем (увеличивать ставку процента на языке экономистов), он ее никогда не выберет, потом что начинает выбор по дате и берет ближайшую.
Чат GPT 4.0 более терпелив, особенно если его попросить объяснить его выбор. Но все равно существенно менее терпелив, чем люди. Хотя, заметим, люди сами не слишком терпеливы во многих случаях. Так что пока эти прекрасные инструменты, как отмечают исследователи, не могут нам помочь моделировать ответы людей в ситуациях выбора (а как бы это удешевило разные эксперименты для экономистов!!!).
Но что интересно, обе модели, как и люди, при использовании языков со слабым будущим временем оказываются более терпеливыми, чем в случае языков с сильным будущим временем. К языкам со слабым будущим временем относятся, например, китайский и немецкий – там будущее действие можно выразить настоящим временем, обозначив время контекстом. К языкам с сильным будущим временем относятся, например, русский и английский – для выражения будущего используется отдельное время. Эта связь между силой выражения будущего времени в языке и терпением не всеми принимается, но корреляции, безусловно, есть.
#язык #LLM #emcr
Ssrn
Can LLMs Capture Human Preferences?
We explore the viability of Large Language Models (LLMs), specifically OpenAI's GPT-3.5 and GPT-4, in emulating human survey respondents and eliciting preferenc
❤1
Forwarded from Путь ИИ
xAI вступил в ИИ-гонку
В прямом эфире от xAI Илона Маска презентовали новую модель Grok 3. По отчету в ряде задач модель превосходит своих основных конкурентов GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro и DeepSeek-V3 (а судя по llmarena.ai обходит всех, включая DeepSeek-R1, o1, o3-mini)
Более продвинутая модель чат-бота использует ресурсы xAI Colossus (мегакомпьютер с 200 тыс. чипов H100), а обучали модель с использованием расширенного набора данных, в том числе документы судебных дел.
xAI отметили, что их новая модель превосходит аналоги по бенчмаркам в математике (AIME) и науке (QPQA) о которых мы говорили ранее, а также по программированию (Coding LCB).
Заметно также, что Grok-3-Reasoning отстаёт от Grok-3-Mini-Reasoning, по словам xAI из-за того что Mini модель тренировали значительно дольше.
Стоит отметить еще то, что в рассуждающей версии скрыли некоторую часть рассуждений, чтобы предотвратить метод дистилляции, используя который другие разработчики могут извлекать знания для других моделей.
⚡️UPDATE: Модель grok 3 c DeepSearch сейчас доступна бесплатно на https://x.com/i/grok (нужно залогинитья в x, нужен VPN)
#LLM #grok3 #AI
Путь ИИ
В прямом эфире от xAI Илона Маска презентовали новую модель Grok 3. По отчету в ряде задач модель превосходит своих основных конкурентов GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro и DeepSeek-V3 (а судя по llmarena.ai обходит всех, включая DeepSeek-R1, o1, o3-mini)
Более продвинутая модель чат-бота использует ресурсы xAI Colossus (мегакомпьютер с 200 тыс. чипов H100), а обучали модель с использованием расширенного набора данных, в том числе документы судебных дел.
xAI отметили, что их новая модель превосходит аналоги по бенчмаркам в математике (AIME) и науке (QPQA) о которых мы говорили ранее, а также по программированию (Coding LCB).
Заметно также, что Grok-3-Reasoning отстаёт от Grok-3-Mini-Reasoning, по словам xAI из-за того что Mini модель тренировали значительно дольше.
Стоит отметить еще то, что в рассуждающей версии скрыли некоторую часть рассуждений, чтобы предотвратить метод дистилляции, используя который другие разработчики могут извлекать знания для других моделей.
⚡️UPDATE: Модель grok 3 c DeepSearch сейчас доступна бесплатно на https://x.com/i/grok (нужно залогинитья в x, нужен VPN)
#LLM #grok3 #AI
Путь ИИ
Forwarded from Путь ИИ
🤖 Путь ИИ // Дайджест №4
🔸 Google представила ИИ-агента для учёных.
ИИ-агент на базе Gemini 2.0 создан для того, чтобы помогать исследователям в формулировке вектора научных исследований и анализе существующей литературы по определенной тематике.
Среди основных функций: генерация проверяемых гипотез, интеграция научной литературы по общедоступным наборам данных, механизм обратной связи для уточнения гипотез.
Эта инновационная система позволяет исследователям формулировать научные цели на естественном языке, используя возможности ИИ для ускорения ранних стадий исследований и потенциального сокращения сроков разработки гипотез с недель до дней в некоторых случаях
🔗 Ссылка на материал
🔸 Sufe Superintelligence привлек более $1 млрд в ходе очередного раунда финансирования.
ИИ-стартап сооснователя OpenAI Ильи Суцкевера при оценки своего проекта свыше $30 млрд привлек новые ресурсы для разработок. Ранее компанию оценивали в $20 млрд, новая оценка будет означать 6-кратное увеличение стоимости компании с момента ее первой оценки в сентябре.
SSI намерена использовать полученные средства для создания безопасного искусственного интеллекта, который будет превосходить человеческий. Компания планирует увеличить свои вычислительные мощности и привлечь лучших специалистов для исследований и разработки ИИ.
🔗 Ссылка
🔸 OpenAI обновила правила по модерации контента.
Компания OpenAI представила новое обновление под названием Model Spec — это 187-страничный документ, в котором объясняется, как ИИ обучается и формирует свое поведение. Согласно новым руководствам, ChatGPT больше не будет занимать определенную редакционную позицию, даже если некоторые пользователи считают это «морально неправильным».
В новом руководстве OpenAI заявила, что ChatGPT должен оставаться нейтральным и не скрывать важную информацию, даже если она кому-то не нравится. Теперь ИИ не будет избегать острых тем и станет предлагать разные точки зрения.
Некоторые наблюдатели, что OpenAI таким образом налаживает отношения с администрацией Трампа, которая ранее критиковала компанию за цензуру.
🔗 Ссылка на материал
🔸Компания Figure представила человекоподобных роботов-помощников.
Новая модель роботов AI Helix особенна тем, что ее не нужно программировать и обучать, он сам догадается, что нужно сделать на основе запроса пользователя.
🔗 Ссылка на материал
🔸Релиз Claude 3.7 Sonnet.
Новая версия модели хорошо показала себя на тестах, а бенчмарки лучше, чем у прошлых версий и сравнимы с OpenAI o1.
Включает в себя обычную LLM и режим рассуждения.
Сейчас модель доступна всем пользователям, но для платных подписчиков Claude доступен дополнительный функционал и доступ к рассуждающей модели.
🔗 Ссылка на материал
🔸Релиз YandexGPT 5 с открытым исходным кодом.
Новое поколение моделей, по словам компании, превосходит прошлые и по решению типовых задач на тексты, показывает себя не хуже западных аналогов.
Модель доступна пользователям через чат с «Алисой», а бизнес может взаимодействовать через «Yandex Cloud AI Studio”.
YandexGPT 5 Lite выложили в открытый доступ на платформе Hugging Face.
🔗 Попробовать
🔸DeepSeek возобновляет прием платежей за API.
Компания DeepSeek спустя почти 3 недели перерыва из-за пробоем с обслуживанием снова стала принимать платежи за пользование API, однако в дневное время сервера остаются перегруженными, о чем представители компании предупредили в соцсети WeChat.
🔗 Ссылка
#LLM #AI #Gemini #chatGPT #SSI #YandexGPT
Путь ИИ
🔸 Google представила ИИ-агента для учёных.
ИИ-агент на базе Gemini 2.0 создан для того, чтобы помогать исследователям в формулировке вектора научных исследований и анализе существующей литературы по определенной тематике.
Среди основных функций: генерация проверяемых гипотез, интеграция научной литературы по общедоступным наборам данных, механизм обратной связи для уточнения гипотез.
Эта инновационная система позволяет исследователям формулировать научные цели на естественном языке, используя возможности ИИ для ускорения ранних стадий исследований и потенциального сокращения сроков разработки гипотез с недель до дней в некоторых случаях
🔗 Ссылка на материал
🔸 Sufe Superintelligence привлек более $1 млрд в ходе очередного раунда финансирования.
ИИ-стартап сооснователя OpenAI Ильи Суцкевера при оценки своего проекта свыше $30 млрд привлек новые ресурсы для разработок. Ранее компанию оценивали в $20 млрд, новая оценка будет означать 6-кратное увеличение стоимости компании с момента ее первой оценки в сентябре.
SSI намерена использовать полученные средства для создания безопасного искусственного интеллекта, который будет превосходить человеческий. Компания планирует увеличить свои вычислительные мощности и привлечь лучших специалистов для исследований и разработки ИИ.
🔗 Ссылка
🔸 OpenAI обновила правила по модерации контента.
Компания OpenAI представила новое обновление под названием Model Spec — это 187-страничный документ, в котором объясняется, как ИИ обучается и формирует свое поведение. Согласно новым руководствам, ChatGPT больше не будет занимать определенную редакционную позицию, даже если некоторые пользователи считают это «морально неправильным».
В новом руководстве OpenAI заявила, что ChatGPT должен оставаться нейтральным и не скрывать важную информацию, даже если она кому-то не нравится. Теперь ИИ не будет избегать острых тем и станет предлагать разные точки зрения.
Некоторые наблюдатели, что OpenAI таким образом налаживает отношения с администрацией Трампа, которая ранее критиковала компанию за цензуру.
🔗 Ссылка на материал
🔸Компания Figure представила человекоподобных роботов-помощников.
Новая модель роботов AI Helix особенна тем, что ее не нужно программировать и обучать, он сам догадается, что нужно сделать на основе запроса пользователя.
🔗 Ссылка на материал
🔸Релиз Claude 3.7 Sonnet.
Новая версия модели хорошо показала себя на тестах, а бенчмарки лучше, чем у прошлых версий и сравнимы с OpenAI o1.
Включает в себя обычную LLM и режим рассуждения.
Сейчас модель доступна всем пользователям, но для платных подписчиков Claude доступен дополнительный функционал и доступ к рассуждающей модели.
🔗 Ссылка на материал
🔸Релиз YandexGPT 5 с открытым исходным кодом.
Новое поколение моделей, по словам компании, превосходит прошлые и по решению типовых задач на тексты, показывает себя не хуже западных аналогов.
Модель доступна пользователям через чат с «Алисой», а бизнес может взаимодействовать через «Yandex Cloud AI Studio”.
YandexGPT 5 Lite выложили в открытый доступ на платформе Hugging Face.
🔗 Попробовать
🔸DeepSeek возобновляет прием платежей за API.
Компания DeepSeek спустя почти 3 недели перерыва из-за пробоем с обслуживанием снова стала принимать платежи за пользование API, однако в дневное время сервера остаются перегруженными, о чем представители компании предупредили в соцсети WeChat.
🔗 Ссылка
#LLM #AI #Gemini #chatGPT #SSI #YandexGPT
Путь ИИ
Telegram
Путь ИИ
Я Алексей Белкин и этот канал о моем пути в ИИ, о моей компании Belkin.digital, о новых технологиях и трендах и стремлении их осмыслить.