Даже самые передовые LLM могут отвечать без галлюцинаций только в 35% случаев 😯
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
⚪️ Оказалось, что от количества параметров доля галлюцинаций в ответах не зависит. Например, Claude 3 Haiku валял дурака так же часто, как Claude 3 Opus.
⚪️ Меньше всех галлюцинировали модели от OpenAI. На втором месте Google, а на третьем Anthropic.
⚪️ При этом Claude попал в лидеры, возможно, незаслуженно. Дело в том, что он просто отказывался отвечать на кучу вопросов (ответил всего на 72%).
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍70🔥16😁4🤯3
Data Secrets
А тем временем бывшие сотрудники Stability (судя по всему вовремя ушедшие из компании) основали собственный стартап/лабораторию и сделали модель, которая порвала рейтинг text2image
Кстати, вместе с новым Grok 2 премиум юзерам в X доступна та самая новая громкая FLUX.1. Black Forest Lab (неясно, на каких условиях) предоставил свою модель для пользования бывшему твиттеру и, говорят, там она без цензуры.
UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.
UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.
🤯34😁20❤12☃3
В тему сегодняшнего поста про галлюцинации и фактологию: новая модель Sonar Huge от Perplexity оснащена возможностью искать информацию в Твиттере
Модель вышла буквально на днях, она основана на Llama 3.1 405B и оптимизирована под поисковые запросы. А сегодня вот выяснилось, что Sonar Huge оснащена возможностью серчить по Х.
Интересно, не станет ли от этого у нее еще больше ошибок в ответах?🤔
У предыдущих моделей Sonar, что интересно, процент галлюцинаций (см. таблицу здесь) не сильно ниже обычных LLM без доступа к Интернету. Загадочно.
Модель вышла буквально на днях, она основана на Llama 3.1 405B и оптимизирована под поисковые запросы. А сегодня вот выяснилось, что Sonar Huge оснащена возможностью серчить по Х.
Интересно, не станет ли от этого у нее еще больше ошибок в ответах?
У предыдущих моделей Sonar, что интересно, процент галлюцинаций (см. таблицу здесь) не сильно ниже обычных LLM без доступа к Интернету. Загадочно.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍12😁10
Please open Telegram to view this post
VIEW IN TELEGRAM
😁53🍓14🤔6
Google DeepMind на одном из своих выступлений показали график, на котором отражается внимание, уделяемое обучению с подкреплением в моделях ИИ с течением времени.
Судя по графику, сейчас мы в локальном минимуме, а ключ к AGI – это RL🤷♂️
Судя по графику, сейчас мы в локальном минимуме, а ключ к AGI – это RL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🤔23😁12🌭3🤯1
Forwarded from XOR
В Wall Street Journal назвали самый короткий и привлекательный путь в IT — стать специалистом по обслуживанию датацентров. Смотрите сами:
🟢 Для большинства должностей не нужна вышка.
🟢 При этом средняя зп в год составляет $75к, но доходит и до шестизначной суммы.
🟢 Еще и зарплаты растут. За 3 года на 43%.
🟢 Количество рабочих мест только увеличивается. За последние 4 года на 18%.
🟢 Нужно много ходить. Героиня статьи «легко делает 10000 шагов за ночь, устраняя различные неполадки». + к здоровью
@xor_journal
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁52❤16🔥13👍3
На ACL показали новую архитектуру быстрых языковых моделей
Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира.
Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро.
Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%.
Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира.
Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро.
Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%.
Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
39👍59🔥23❤11🤯5👀2🤝2
Новая линейка продуктов Apple возможно будет… руками робота
Компания решила зайти на рынок домашних роботов. Говорят, проект разрабатывается уже два года, но в последнее время команда активизировалась. Теперь «несколько сотен» человек по слухам работают над рукой робота, к которой будет прикреплено нечто вроде iPad.
Как это будет работать, пока неясно. Зато ясно, что, учитывая историю Apple с self-driving cars, с робототехникой у них тоже могут возникнуть трудности…
Компания решила зайти на рынок домашних роботов. Говорят, проект разрабатывается уже два года, но в последнее время команда активизировалась. Теперь «несколько сотен» человек по слухам работают над рукой робота, к которой будет прикреплено нечто вроде iPad.
Как это будет работать, пока неясно. Зато ясно, что, учитывая историю Apple с self-driving cars, с робототехникой у них тоже могут возникнуть трудности…
Выходные – самое время почитать и посмотреть что-нибудь полезное. На этот раз составили вам ресурс-лист на тему GPU и CUDA. Ловите:
⚙️ Легендарная книжка Programming Massively Parallel Processors (PMPP). Классика классик. Скачать можно тут.
⚙️ Фундаментально про GPU: видео, чтобы разобраться в базе.
⚙️ Любое видео с YouTube канала CUDA MODE (свежее).
⚙️ Документация Nvidia, куда же без нее.
⚙️ Для продвинутых: CUDA C++ Programming Guide.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥33❤8 5👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁125❤11🔥6🙈1
А вы знаете, как разрабатывалась PyTorch?
Нет? А документалку от основателей видели? Она длится всего пол часа: создатели сами рассказывают про то, как росла легендарная библиотека.
Идеально на вечер воскресенья😇
Нет? А документалку от основателей видели? Она длится всего пол часа: создатели сами рассказывают про то, как росла легендарная библиотека.
Идеально на вечер воскресенья
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤45🔥24👍13
Forwarded from Data Secrets | Карьера
Рабочие созвоны близко...
Команда специалистов из "Игры престолов" переместилась в мир data science, чтобы завоевать Железный Трон Данных, используя вместо мечей и драконов - ноутбуки и алгоритмы.
Команда специалистов из "Игры престолов" переместилась в мир data science, чтобы завоевать Железный Трон Данных, используя вместо мечей и драконов - ноутбуки и алгоритмы.
1👍42🔥18🦄13🗿6🤯1👌1💘1
This media is not supported in your browser
VIEW IN TELEGRAM
Со всеми этими Strawberry и Grok Google совсем ушли на второй план со своей новой Gemini Live
Презентация продукта прошла на прошлой неделе в четверг, вместе с моделькой показывали новые смартфоны. Правда, на этой презентации у них что-то не работало прямо на сцене, но для Google фейлы не в новинку.
Gemini Live – это ИИ-ассистент, который в теории должен будет быть «живым» и поддерживать прямые трансляции видео и аудио (aka Apple Intelligence). Ну а пока что это просто тул для взаимодействия с приложениями.
Ждем Apple, может они покажут что-то более захватывающее
Презентация продукта прошла на прошлой неделе в четверг, вместе с моделькой показывали новые смартфоны. Правда, на этой презентации у них что-то не работало прямо на сцене, но для Google фейлы не в новинку.
Gemini Live – это ИИ-ассистент, который в теории должен будет быть «живым» и поддерживать прямые трансляции видео и аудио (aka Apple Intelligence). Ну а пока что это просто тул для взаимодействия с приложениями.
Ждем Apple, может они покажут что-то более захватывающее
1❤22👍10🔥5
Media is too big
VIEW IN TELEGRAM
Робототехники из Hugging Face только что выпустили супер подробный туториал о том, как построить и обучить себе робота
Вот репозиторий. Для начала предлагается обучить сетку предсказывать следующее движение робота по данным с камеры. Трейн можете собрать сами, в репе есть туториал.
По этой же ссылке есть информация, откуда заказать детали и как их собрать. Есть даже руководство по тому, как распечатать все необходимое на 3D-принтере.
Также приложены скрипты для визуализации движений двигателя вашего робота. А самое интересное, что код уже адаптирован для того, чтобы собирать все данные для будущего обучения во время непосредственной работы железного.
Домашнего оптимуса прайма заказывали?
Вот репозиторий. Для начала предлагается обучить сетку предсказывать следующее движение робота по данным с камеры. Трейн можете собрать сами, в репе есть туториал.
По этой же ссылке есть информация, откуда заказать детали и как их собрать. Есть даже руководство по тому, как распечатать все необходимое на 3D-принтере.
Также приложены скрипты для визуализации движений двигателя вашего робота. А самое интересное, что код уже адаптирован для того, чтобы собирать все данные для будущего обучения во время непосредственной работы железного.
Домашнего оптимуса прайма заказывали?
1🔥77🤗13❤8👍4👾1 1