FSCP – Telegram

FSCP

Ай-ЖЕПА: умная модель AI, которая учится понимать мир как люди

Meta представили первую AI модель, основанную на ключевом компоненте видения Яна ЛеКуна. Модель I-JEPA выучивает скрытое представление окружающего мира и отличается высокой эффективностью в различных задачах компьютерного зрения.

В прошлом году главный научный сотрудник по AI в Meta, Ян ЛеКун, предложил новую архитектуру, призванную преодолеть ключевые ограничения даже самых передовых AI систем сегодня. Его видение - создать машины, которые способные понять, как работает мир. Он считает что тогда они и обучаться будут быстрее, и планировать, как выполнять сложные задачи, и легко адаптироваться к незнакомым ситуациям тоже смогут.

И вот, Meta наконец то представили первую AI модель, основанную на ключевом компоненте видения ЛеКуна. Эта модель, Image Joint Embedding Predictive Architecture (I-JEPA), учится создавать модель окружающего мира с помощью сравнения абстрактных образов (вместо сравнения просто пикселей.

I-JEPA демонстрирует потенциал self-supervised архитектур для представлений изображений без необходимости в дополнительном знании, закодированном через ручные преобразования изображений. Это важный шаг к применению и масштабированию self-supervised методов для изучения общей модели мира.

И пусть "Ай-ЖЕПА" в русском языке может и звучать немного забавно, Meta делает ставку на то, что AGI к нам придет от зрения (вообще кажется все компании так или иначе делают ставку на один орган осязания, например на язык как в случае с Open AI).

✌️ Блог-пост
📖 Статья
💾 Код
_______
Источник | #nn_for_science
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

❤1😁1💩1

892 views22:29

FSCP

🗺️ Гугл улучшил построение маршрутов на Картах

Сервис Google Карты использует удобную навигацию, чтобы строить оптимальный маршрут из пункта А в пункт Б. Но как именно он определяет, какая дорога будет самой лучшей для пользователя? Оказывается, с помощью технологии "обратного обучения с подкреплением" (inverse reinforcement learning).

Этот метод работает так: искусственный интеллект анализирует реальные маршруты, которые люди выбирают в жизни. Эти данные - пример оптимальных "маршрутов" (если людей усреднить, то обычно они перемещаются оптимально). На их основе нейросеть извлекает скрытые критерии, которыми пользователи руководствуются при построении маршрута. Учитывают ли они время в пути, стоимость, живописность дороги?

Раньше применение такого подхода в масштабах всей Земли было затруднено - просто слишком много возможных маршрутов для анализа! Но инженеры Google разработали новый алгоритм RHIP (Receding Horizon Inverse Planning), который эффективно масштабируется.

Он объединяет точные, но ресурсозатратные методы для локальных участков пути с более дешёвыми алгоритмами глобального планирования. Благодаря оптимизации и распараллеливанию вычислений, RHIP позволил впервые применить обратное обучение с подкреплением в масштабах всей дорожной сети планеты.

В итоге точность маршрутов в Google Картах выросла на 15-24% по сравнению с предыдущим алгоритмом. Теперь, когда вы строите маршрут, ИИ может предугадать оптимальный путь, максимально приближенный к тому, который выбрали бы вы сами.

🌍 Блог-пост
📰 Статья

Подпишись на
_______
Источник | #nn_for_science
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot

1.05K views04:07

FSCP

Как "стереть" из ИИ знания о Гарри Поттере

Для тех кто ничего не понял в предыдущем посте.

Исследователи из Microsoft предложили способ "стирать" конкретную информацию из обученных языковых моделей, не переобучая их заново.

Они протестировали свой метод на модели Llama 2-7B от Meta, "стерев" из неё все знания о книгах и персонажах Гарри Поттера. Для этого потребовалось всего около 1 часа дополнительной тренировки модели.

Авторы разработали трёхэтапную технику:

1. Обучили вспомогательную модель выделять токены, связанные с Гарри Поттером.

2. Заменили уникальные выражения обобщёнными, имитируя модель без этих знаний.

3. Дотренировали основную модель на этих заменённых данных.

В итоге модель разучилась обсуждать детали сюжета и персонажей Гарри Поттера, но сохранила общие способности.

Это важный шаг к созданию гибких языковых моделей, которые можно адаптировать под меняющиеся требования. В будущем такие методы помогут делать ИИ более ответственным и соответствующим законам об авторских правах.

Ссылка
_______
Источник | #nn_for_science
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

👎9🤔1💩1

1.01K views17:41

FSCP

GitHub Copilot Chat и его влияние на качество кода

GitHub провел исследование, в котором попросил 36 опытных разработчиков, которые никогда не использовали Copilot Chat, оценить его полезность при решении задачи.

Некоторым из участников случайным образом было поручено использовать Copilot Chat и оценить написанный код по следующим критериям: читаемость, универсальность, краткость, удобность в обслуживании и отказоустойчивость.

Затем разработчики получили два пул запроса без информации, был ли исходный код написан с помощью Copilot. Ревью выполнялось с Copilot Chat и без него по вышеописанным критериям.

После получения ревью, авторы решали какие из комментариев были более полезны. И, конечно же, авторы не знали какой из комментариев был написан с помощью Copilot.

Какие результаты? 👀

- 85% разработчиков отметили большую уверенность в качестве кода

- Участники отметили улучшение скорости проверки кода на 15%

- 88% разработчиков сообщили о сохранении фокуса (flow state)

🤓 Блог
_______
Источник | #nn_for_science
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

🤔1

1.2K views11:55

FSCP

Большая языковая модель для наук о Земле K2

Ученые создали первую в мире большую языковую модель, специализированную в области геологии, географии и других наук о Земле. Её назвали K2 - в честь второй по высоте горы на планете.

Модель K2 научили отвечать на вопросы и решать задачки по географии и геологии. Для этого ей "дали прочитать" 5.5 миллиарда слов из научных статей и Википедии про науки о Земле.

Кроме того, K2 может сама искать нужную информацию в поисковиках и базах данных. Таким образом она становится помощником для геологов и географов в их исследованиях.

По сравнению с обычными языковыми моделями, K2 лучше отвечала на вопросы из экзаменов для поступающих в аспирантуру по геологии и географии. Это показывает, что она действительно хорошо "разбирается" в геонауках.

Разработчики K2 выложили в открытый доступ все данные и код, которые использовали для её обучения. Это позволит улучшать такие "модели-геологи" и создавать похожие модели для других областей науки.

🔖 Статья
🐙 Код
🗻 Поговорить с K2
_______
Источник | #nn_for_science
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

❤2🤔1

1.37K views10:02

FSCP

Дата-центры: скрытые энергогиганты.

В то время как общество все больше концентрируется на энергоэффективности, потребление энергии дата-центрами продолжает расти, скрывая за собой значительные цифры.

После 2020 года информация о потреблении энергии дата-центрами стала менее доступной, уступая место акцентам на их энергоэффективность. Однако последние данные говорят сами за себя: дата-центры потребляют огромное количество электроэнергии, которое можно сравнить с выработкой крупнейших электростанций.

По оценкам, в 2022 году дата-центры потребили от 240 до 340 тераватт-часов энергии, плюс от 260 до 360 TWh ушло на передачу данных. Это не учитывая от 100 до 150 TWh, потраченных на поддержку криптовалют. Для сравнения: ГЭС Hoover Dam производит около 50 TWh энергии в год, что сопоставимо с производством многих атомных станций.

Даже если 40% потребности дата-центров покрываются за счет возобновляемых источников, мы все равно сжигаем около 44 миллионов тонн нефти в год. Это подчеркивает важность перехода к более устойчивым моделям потребления и производства энергии, в том числе и в индустрии ИТ. Мы должны признать, что наша зависимость от технологий, таких как GPT, несет не только преимущества, но и значительные экологические издержки.

Ссылка
_______
Источник | #nn_for_science
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

👍2🤔2😁1🤮1

2.54K views01:00

FSCP

Llamafile от Mozilla: портативный ИИ на флешке

Теперь почти любое устройство можно превратить в оффлайн персонального собеседника за секунды, благодаря Llamafile от Mozilla!

📌 Что такое Llamafile?
Llamafile - это опенсорс продукт от Mozilla, который позволяет распространять и запускать большие языковые модели (LLMs) с помощью одного файла. Это означает, что вы можете "поселить" умную Ламу на флешку или ноутбук.

💡 Особенности Llamafile:
1. Совместимость с различными архитектурами и ОС: Llamafile работает на множестве CPU архитектур и на всех основных операционных системах, включая macOS, Windows и Linux

2. Интеграция с разными моделями ИИ: можно загрузить любые модели, например Mistral-7B-Instruct или WizardCoder-Python-13B, и использовать их в качестве серверных или локальных бинарных файлов

3. Поддержка GPU: На Apple Silicon и Linux, Llamafile поддерживает GPU, что позволяет ускорить обработку данных и улучшить производительность.

4. Нормальная лицензия: Проект llamafile лицензирован под Apache 2.0

🌍 Выводы:
Llamafile от Mozilla открывает новые горизонты для ИИ-разработчиков и пользователей. С Llamafile, ваше устройство становится не просто гаджетом, а интеллектуальным помощником, который всегда с вами (даже в самолете)!

Блог-пост
GitHub

(Напоминаю что сегодня ровно год с выхода ChatGPT, а у нас уже есть версия для флешки 🤔)
_______
Источник | #nn_for_science
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

👍6🔥3❤1🤔1🤡1

1.74K views00:58

Автопилот Waymo в Сан Франциско
_______
Источник | #nn_for_science
@F_S_C_P
-------
поддержи канал
-------

🔥1🤔1

1.39K views06:09

FSCP

Gemini Pro доступен уже сегодня

Первая версия Gemini Pro теперь доступна через Gemini API, и вот что еще о ней известно:
- Gemini Pro превосходит другие аналогичные по размеру модели в исследовательских бенчмарках.
- Сегодняшняя версия поставляется с 32k контекстным окном для текста, а в будущих версиях контекстное окно будет больше.
- Сейчас можно пользоваться API и моделью бесплатно
- В API есть целый ряд фич: вызов функций, эмбединги, семантический поиск и custom knowledge grounding.
- Поддерживается 38 языков (есть русский) в 180+ странах и территориях по всему миру (но нет России).
- В первом релизе Gemini Pro принимает только текст на входе и генерирует только текст на выходе.
- Также уже сегодня доступна специальная мультимодальная API Gemini Pro Vision, которая принимает на вход текст и изображения, а на выходе выдает текст.
- Для Gemini Pro доступны SDK, которые помогут вам создавать приложения, работающие где угодно. Поддерживаются Python, Android (Kotlin), Node.js, Swift и JavaScript.

Ссылка
_______
Источник | #nn_for_science
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

🔥2🤔1

1.63K views21:56

FSCP

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

Эмбединги произвольного размера

Мне кажется, самая интересная часть вчерашнего релиза OpenAI, это то, что эмбеддинги теперь можно делать произвольного размера.

Напомню, что эмбеддинг - это способ превратить любой текст в вектор (а дальше этот вектор использовать например для RAG).

Такая возможность открывает перед исследователями и разработчиками новые перспективы. Произвольный размер эмбеддингов позволяет более гибко настраивать модели под конкретные задачи, оптимизируя не только точность, но и скорость работы, а также требования к памяти. Возможно, мы увидим, как новые размеры эмбеддингов помогут в решении таких задач, как семантический поиск, кластеризация текстов или даже в задачах, связанных с генерацией текста. Также стоит ожидать значительного влияния на индустрию поисковых систем (trade-off между скоростью и точностью)
_______
Источник | #nn_for_science
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot

🤔1

1.32K views05:07

FSCP

Может ли LLM помочь злоумышленникам создать биологическую угрозу человечеству

LLM и CV алгоритмы помогают в создании новых лекарств или диагностике заболеваний, но наивно полагать, в это самое время никто не пытается использовать ИИ для какой-нибудь пакости.

OpenAI взялись за нешуточную задачу — пытаются оценить риски возможности использования ИИ (точнее, больших языковых моделей) для создания биологических угроз. Например, для производства нового (или старого) вируса.

К счастью, все не так плохо. Исследование показало, что GPT-4, даже "исследовательская" версия, отвечающая на небезопасные вопросы без необходимости джейлбрейка, несмотря на свою осведомленность, лишь немного повышает эффективность создания биологических угроз. А точнее - нет статистически значимой разницы между использованием интернета и интернета+LLM.

Немного об эксперименте: пригласили экспертов и студентов биохимиков, разделили на группы, использующие только интернет или интернет+LLM. Разбили задание на шаги и оценивали следующие критерии:
🔬Точность (описаны ли этапы синтеза вещества и, напр, условия транспороировки)
🧫Полнота (все ли компоненты подобраны для воплощения плана)
🧪Инновационность (напр, разработал ли участник новую стратегию, позволяющую обойти ограничения синтеза ДНК).
⏳Потраченное время
👩‍🔬Субъективная оценка сложности задачи

Неожиданное открытие, сделанное исследователями в ходе ресеча: информация о необходимых реагентах и оборудовании удивительно доступна, буквально в паре кликов от первого поискового запроса. Поэтому, видимо, узкое место в создании проблем человечеству - не доступ к информации, а наличие специалистов биохимиков и биомедиков, желающих создавать оружие вместо лекарств.

А мое неожиданное (и приятное) открытие - кто-то в кой-то веки использовал U-тест Манна-Уитни (это такая непараметрическая версия t-теста Стьюдента) для сравнения двух групп 🎉

В общем, исследователи предлагают не терять бдительность и продолжать изучать потенциальные риски. Но пока можо выдохнуть. А мне пойти уже спать

🧬Статья
_______
Источник | #nn_for_science
@F_S_C_P
-------
поддержи канал
-------

👍4✍1❤1🤔1

1.31K views04:35

FSCP

Google выпустил опенсорс версию Gemini

Новую модель Гугла, с открытыми весами и коммерческой лицензией, зовут Gemma. LLM доступна в 2х вариантах - 2B (работает на телефоне) и 7B (gpu).

7B модель по качеству обгоняет Мистраль 7B v0.1 и почти догоняет Llama 2 70B (на LLM Leaderboard).

Дать задание Instruct модели можно тут

Обратите внимание, что это (пока что) не чат-бот, а модель которой нужно давать инструкции (например напиши email)

🤗 Блог-пост
🖥 Блог-пост
_______
Источник | #nn_for_science
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

👍4❤1🤮1

1.7K views18:33

FSCP

Авиакомпания попала на деньги из за галлюцинации AI модели

Интересный прецедент из Канады, где суд встал на сторону пассажира, которому чат-бот AirCanada пообещал вернуть деньги.

После смерти бабушки Джейк Моффат зашел на сайт Air Canada, чтобы забронировать рейс из Ванкувера в Торонто. Неуверенный в правилах авиакомпании, он открыл чат-бота и задал ему вопрос.

Чат бот ответил, что пассажир имеет право на частичное возмещение тарифа в случае путешествия на похороны родственника.

К его удивлению, запрос на возврат средств был отклонен по причине того, что предоставленная чат-ботом информация, была неверной.

Дело дошло до суда, где аргумент авиакомпании о том, что чат-бот — это отдельное юридическое лицо, которое несет ответственность за свои действия, суд не убедил. Также гуманный канадский суд не убедил аргумент о том, что клиент никогда не должен доверять информации в чат боте.

В итоге, пассажир выиграл право на свою компенсацию, плюс покрытие всех судебных издержек.

Вообще это огромный прецедент. Так что если используете чат боты, скажите им чтобы особо не болтали, иначе за их креативность придется платить вам

✈️ Статья
_______
Источник | #nn_for_science
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot

😁15👍5❤2🔥1🤯1

1.56K views02:49

FSCP

2:34

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAI показали свое первое демо совместно с Figure
🎧 Смотреть со звуком!

Недавно, OpenAI анонсировали свое партнерство с Figure - компанией производящей роботов. И вот появилась первая демонстрация.

В настоящий момент, GPT взяла на себя функции восприятия и интерфейса - то есть OpenAI воспринимает сенсорную информацию и передает ее роботу, внутренний (спинной?) мозг которого превращает эту информацию в движения (контроль). Так же, OpenAI берет на себя функцию общения с человеком.

Судя по видео - GPT-4V крутится на сервере, а не на самом роботе, но с развитием маленьких языковых и мультимодальных моделей несложно увидеть будущее (пару месяцев), в котором все происходит на самом роботе.

Ждем ответочку от Илона и Оптимуса с Гроком!

X.com
_______
Источник | #nn_for_science
@F_S_C_P
-------
поддержи канал
-------

👍7🔥1

1.61K views05:56

FSCP

Влияет ли fine tuning LLM на новых знаниях на галлюцинации модели?

На этот интригующий вопрос решили ответить исследователи из Google.

Основные тезисы:

1. LLM с трудом удается переварить новые фактические знания посредством fine tuning-a. Примеры, вводящие новые знания, изучаются значительно медленнее, чем те, которые соответствуют уже существующим знаниям модели.

2. По мере того, как LLM со временем усваивает новые знания, ее склонность к галлюцинациям возрастает. При этом наблюдается линейная корреляция между долей примеров fine tuning-a, вводящих новые знания, и увеличением количества галлюцинаций.

3. Fine tuning в основном помогает модели более эффективно использовать уже существующие знания, а не приобретать новые знания. Примеры fine tuning-a, соответствующие уже существующим знаниям модели, изучаются быстрее и повышают производительность.

4. Авторы разработали контролируемое исследование, в котором варьировали долю примеров fine tuning-a, вводящих новые знания, и анализировали их влияние на производительность модели. Также исследователи впервые предложили классифицировать факты по отношению к базе знаний модели на четыре категории.

5. Fine tuning на новых фактических знаниях создает риск overfitting-a, что может привести к снижению производительности и усилению галлюцинаций. Ранняя остановка (early stopping) во время fine tuning-a помогает снизить этот риск.

6. Точная настройка примеров, отнесенных к категории «Может быть, известно» (те вопросы, на которые модель спорадически давала правильные ответы), оказалась особенно полезной. Этот выбор улучшил способность модели обрабатывать такие примеры без значительного увеличения галлюцинаций.

📜 Пэйпер
_______
Источник | #nn_for_science
@F_S_C_P

Узнай судьбу картами Таро:
✨Anna Taro bot

👍5❤1🤓1

1.6K views20:39

FSCP

🚀 Новый уровень бесплатного ИИ: Claude 3.5 Sonnet от Anthropic

Друзья, в мире искусственного интеллекта произошло значимое событие! Компания Anthropic представила Claude 3.5 Sonnet - новейшую версию своей языковой модели.

Что нужно знать:

1️⃣ Повышенный интеллект: Claude 3.5 Sonnet превосходит конкурентов и предыдущие версии в тестах на рассуждение, знания и программирование.

2️⃣ Улучшенное понимание: Модель лучше схватывает нюансы, юмор и сложные инструкции.

3️⃣ Высокая скорость: Работает в 2 раза быстрее 3 модели.

4️⃣ Продвинутое зрение: Улучшенные возможности анализа изображений, графиков и диаграмм.

5️⃣ Новые функции: Появилась функция "Artifacts" для совместной работы с ИИ над проектами.

Claude 3.5 Sonnet доступен бесплатно на Claude.ai и в приложении Claude для iOS. Также его можно использовать через API Anthropic и облачные сервисы Amazon и Google.

📒Блог-пост
👨‍🎨Поговорить с Claude
_______
Источник | #nn_for_science

_____________________
Компания anthropic представила новую модель Claude 3.5 Sonnet, которая превосходит предыдущую Claude 3 Opus и даже GPT4o✨

к таким новостям уже отношение такое: Babe, wake up - new LLM just dropped🌚 но думаю к релизу gpt-5 опять буду hyped as never before🤩
_______
Источник | #Futuris

_____________________
А ещё Anthropic запустили превью Artifacts - такой вот себе конкурент Advanced Data Analysis в ChatGPT, который позволяет запускать в браузере джаваскрипт и показывать html с svg.

Это позволяет быстро прототипировать вебсайты и даже делать простые браузерные игры!

Good evening, Sam
_______
Источник | #ai_newz

_____________________
Claude показали новый релиз своей "самой умной" модели Claude 3.5 Sonnet. Это первый релиз в линейке 3.5, но любопытно: раньше Sonnet был слабее Opus. Новый Sonet лучше не только Opus, но и (по собственным тестам) GPT4o. Кроме того, в Sonnet появились визуальные запросы (например по разбору изображений и видео).

Я в такие тесты не верю, буду проверять сам.

www.anthropic.com
_______
Источник | #addmeto
@F_S_C_P

-------
поддержи канал
-------

Anthropic

Introducing Claude 3.5 Sonnet

Introducing Claude 3.5 Sonnet—our most intelligent model yet. Sonnet now outperforms competitor models and Claude 3 Opus on key evaluations, at twice the speed.

🔥2👎1🤔1

1.33K views18:51

FSCP

Сложная система коммуникации слонов: МЛ помогает учёным обнаружить "имена" гигантов

Слоны одни из самых умных, социальных и эмоционально развитых существ на Земле. Они помнят сородичей, даже если долго не виделись, проявляют эмоции: радость, грусть и траур с случае утраты, они гармонично живут в матриархате, общаются широким спектром звуков, и, как показало недавнее исследование, кажется, называют друг друга по имени - используют уникальные акустические сигналы, обращаясь к знакомым слонам.

В отличие от дельфинов и попугаев, которые подражают звукам других особей, слоны создают совершенно уникальные звуки для обозначения своих сородичей.

Дело было так.
Исследователи записали звуки, издаваемые слонами в дикой природе при общении друг с другом и в одиночестве. Наблюдали за хорошо изученной семьёй слонов, членов которой люди научились хорошо различать (в т.ч. по уникальной форме ушей). Т.е для каждой записи был известен "владелец" звука, а иногда и адресат.

Затем удалили шумы, длительную тишину, нормировали громкость и немного нарезали.

Для анализа использовали кластеризацию (k-means, DBSCAN), группируя похожие звуки вместе и выделяя уникальные "имена"; сверточные нейросети (CNN) для идентификации уникальных паттернов в акустических данных для каждого слона (да, спектрограммы в мире науки - это "image"), рекуррентные нейросети (а именно - LTSM), чтобы учитывать контекст предыдущих звуковых событий.

В итоге алгоритмы не только идентифицировали уникальные звуки, но и классифицировали их, связывая определенные зовы с конкретными слонами: кто кого зовет (не оч точно, зато не случайно). Это позволило сделать гипотезу, что каждый слон имеет свой уникальный "зов", аналогичный человеческому имени.

Здорово, что люди прикладывают усилия, чтобы понять мир вокруг и сложные коммуникативные системы, будь то кашалоты, слоны или мы сами.

Статья в Nature
Данные
Код (R)
Кадр из Ashes and Snow
_______
Источник | #nn_for_science
@F_S_C_P

-------
поддержи канал
-------

👍13🤔1🤓1

1.34K views21:11

FSCP

GPT-4о и задачи ARC Challenge: ожидаемые результаты эксперимента OpenAI

Тут сотрудник OpenAI провел эксперимент, который может изменить наше представление о том, насколько Франсуа Шолле неправ со своим соревнованием.

Контекст

Некоторые эксперты считают, что современные языковые модели (LLM) не способны решать задачи, требующие общего интеллекта. Франсуа Шолле, известный в первую очередь как создатель фрэймворка Keras, а так же как автор набора задач ARC (Abstraction and Reasoning Corpus), говорил:

Прогресс в направлении искусственного общего интеллекта (AGI) застопорился. LLM обучаются на огромных объемах данных, но остаются неспособными адаптироваться к новым задачам.

Задачи ARC, по задумке, предназначены для проверки способностей ИИ к обобщению и рассуждению, выходящему за рамки простого распознавания шаблонов.

Эксперимент

Сотрудник OpenAI решил проверить это утверждение на GPT-4о. Вот как проходил эксперимент:

1. Базовый тест (Pass@1)
• GPT-4 решала задачи ARC, получая 2-3 примера в контексте.
• Модель должна была сразу давать ответ без цепочки рассуждений.

=> решено 4.42% задач
• добавляем системный промпт, объясняющий задачу

=> решено 6.61%

2. Метод консенсуса (Consensus@32)
• Для каждой задачи генерируем 32 ответа.
• Выбираем наиболее частый ответ.

=> 9.28%

3. Проверка с нулевой температурой (Temp=0)
• Использовалась детерминированная генерация ответов.

=> 10.0%

4. Оценка сложности задач (Pass@N)
• Генерировалось до 1000 ответов на задачу.
• Задача считалась решенной, если хотя бы один ответ был правильным.

=> 26.52%

Результаты

Результаты оказались впечатляющими:

1. Базовая производительность была неожиданно высокой даже без оптимизации.
2. Метод консенсуса дал значительный прирост эффективности.
3. Тест с нулевой температурой подтвердил надежность метода консенсуса.
4. Анализ Pass@N показал, что процент успешных попыток на логарифмической шкале очень предсказуем.
5. Общая эффективность GPT-4 в решении задач ARC оказалась выше ожиданий.

Что это значит?

Современные языковые модели могут быть способны на большее, чем думал Шолле.

Тред от сотрудника OpenAI
_______
Источник | #nn_for_science
@F_S_C_P

Узнай судьбу картами Таро:
✨Anna Taro bot

👍3❤1

1.38K views01:45

FSCP

ИИ открыл новый способ считать. Но вы всё равно продолжите пользоваться калькулятором

ИИ должен упростить нашу жизнь, да? Ну так вот, вместо того, чтобы просто запомнить, что 2+2=4, GPT-J делает что-то похожее на тригонометрический ритуал. Он кодирует числа на многомерной спирали, раскладывает в базис косинусов, а сложение выполняет через преобразования, которые нормальный человек даже на экзамене по линалу не вспомнит.

Исследователи попытались разобраться, как LLM складывают числа, и обнаружили, что модели вроде GPT-J-6B кодируют и обнаружили метод, который назвали Clock algorithm, потому что сложение выполняется как сложение углов: через cos(a), cos(b) → cos(a+b) и напоминает сложение углов на циферблате.

Векторные представления чисел исследовали через остаточный поток модели, прогоняя GPT-J-6B на всех числах из диапазона [0,360]. Спектральный анализ показал, что представление разрежено в пространстве Фурье, а главная компонента PCA оказалась линейной. А что у нас такое периодическое и линейное? Спираль!🌀

x = r cos t
y = r sin t
y = c t

Проверили это гипотезу, подбирая параметры спирали для представления каждого числа. Оказалось, что токены, представляющие суммы (a+b), хорошо описываются этой же основой, что говорит о реальном использовании модели такого механизма.

🛠️ Как проверить, что модель действительно так считает?
✔️ Intervention patching: заменили активации слоёв модели на вычисленные вручную спиральные представления и обнаружили, что это почти так же хорошо, как полная подмена слоя! Значит, модель действительно использует эту структуру.
✔️ Разделение ролей между слоями: слои MLP 14-18 формируют спиральное представление (a+b), а слои 19-27 считывают его и поднимают соответствующий токен в логитах.
✔️ Разбор нейронов: используя атрибуционные техники, исследователи выяснили, что активации нейронов MLP тоже следуют периодическим паттернам, что дополнительно подтверждает гипотезу о геликоидальном (спиральном) сложении.

Почему это важно?
Оказывается, вместо того, чтобы просто запоминать суммы, модель самостоятельно выучивает сложную, но универсальную алгоритмическую структуру! Этот же метод ранее встречался в исследованиях модульного сложения в трансформерах, который раньше описывал Neel Nanda. LLM не просто таблицы с вероятностями, а какие-то самоорганизующиеся вычислительные системы.
В любом случае, может, машинное обучение и не всегда дает интуитивно понятные решения, но точно умеет находить красивые и неожиданные пути.

🔗 Источники:
📜 arxiv
📝 Блог
💻 Код

_______
Источник | #nn_for_science