Клуб дебатов для вашей LLM.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать тут.
Исследователи из MIT и Google Brain предлагают новый подход к улучшению качества рассуждений и итоговых генераций LLM путём дополнения Chain of Thoughts взаимным общением между моделями.
Они были вдохновлены одним из адептов агентного ИИ Марвином Мински и его работой Society of Mind, также в интернете есть книжка воть.
Немного предыстории:
Мински, основатель лаборатории искусственного интеллекта Массачусетского технологического института, представил свою теорию о том, как работает разум.
Он предположил, что это не единое целое, а скорее сложная система, состоящая из множества более мелких и простых процессов, которые Мински назвал “агентами”.
Эти агенты, каждый из которых прост сам по себе, работают вместе, создавая разумное поведение, то поведение, которое ИИ каждый день пытается имитировать у нас, людей.
Я и сам грешен, признаюсь, защищал магистерскую работу по роевому интеллекту и был адептом агентного ИИ. Поэтому данный подход очень близок мне.
А теперь к делу.
Основная идея состоит в том, чтобы собрать агентов на некоторой дебат-арене. В этой среде запрос/промт кормят каждому из агентов-LLM , а их ответы перекрестно выдают всем остальным агентам. При этом, контекст который на каждом шаге принимает конкретная LLM состоит из его рассуждения и рассуждения соседей. Через 3-4 итерации таких дебатов, модели сходятся к одной стабильной генерации. Т.е. подобно людям во время дискуссии они приходят к общим выводам.
Если более внятно алго такой:
1.
При этом данный процесс побуждает модели строить ответы, которые согласуются как с их внутренней критикой, так и разумны в свете ответов других агентов.
Полученный кворум моделей может одновременно поддерживать несколько цепочек рассуждений и возможных ответов, прежде чем предлагать окончательный ответ.
Т. е. CoT можно и нужно комбинировать с Society of Mind.
В конце хочу рассказать немного про эксперименты лаборатории ИИ MIT.
Методика была оценена в трех тестах:
1. Правильное изложение фактов о биографии известного ученого-компьютерщика.
2. Проверка достоверности в вопросах о фактических знаниях
3. Предсказание следующего наилучшего хода в шахматной партии.
В итоге Society of Mind превзошел другие варианты во всех категориях, как показано в таблице 1. под постом.
У меня остаётся только один вопрос конечно - это критерий останова этих дебатов. Где он? Это замер перплексии или BLEU генерации, или что? Жду ваши варианты ответа в комментариях.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать тут.
Исследователи из MIT и Google Brain предлагают новый подход к улучшению качества рассуждений и итоговых генераций LLM путём дополнения Chain of Thoughts взаимным общением между моделями.
Они были вдохновлены одним из адептов агентного ИИ Марвином Мински и его работой Society of Mind, также в интернете есть книжка воть.
Немного предыстории:
Мински, основатель лаборатории искусственного интеллекта Массачусетского технологического института, представил свою теорию о том, как работает разум.
Он предположил, что это не единое целое, а скорее сложная система, состоящая из множества более мелких и простых процессов, которые Мински назвал “агентами”.
Эти агенты, каждый из которых прост сам по себе, работают вместе, создавая разумное поведение, то поведение, которое ИИ каждый день пытается имитировать у нас, людей.
Я и сам грешен, признаюсь, защищал магистерскую работу по роевому интеллекту и был адептом агентного ИИ. Поэтому данный подход очень близок мне.
А теперь к делу.
Основная идея состоит в том, чтобы собрать агентов на некоторой дебат-арене. В этой среде запрос/промт кормят каждому из агентов-LLM , а их ответы перекрестно выдают всем остальным агентам. При этом, контекст который на каждом шаге принимает конкретная LLM состоит из его рассуждения и рассуждения соседей. Через 3-4 итерации таких дебатов, модели сходятся к одной стабильной генерации. Т.е. подобно людям во время дискуссии они приходят к общим выводам.
Если более внятно алго такой:
1.
Для заданного запроса несколько экземпляров языковой модели сначала генерируют отдельные ответы-кандидаты.
2.Каждый отдельный экземпляр модели читает и критикует ответы всех других моделей и использует этот контент для обновления своего собственного ответа.
3.Затем этот шаг повторяется в течение нескольких раундов, пока мы не получим окончательный ответ.При этом данный процесс побуждает модели строить ответы, которые согласуются как с их внутренней критикой, так и разумны в свете ответов других агентов.
Полученный кворум моделей может одновременно поддерживать несколько цепочек рассуждений и возможных ответов, прежде чем предлагать окончательный ответ.
Т. е. CoT можно и нужно комбинировать с Society of Mind.
В конце хочу рассказать немного про эксперименты лаборатории ИИ MIT.
Методика была оценена в трех тестах:
1. Правильное изложение фактов о биографии известного ученого-компьютерщика.
2. Проверка достоверности в вопросах о фактических знаниях
3. Предсказание следующего наилучшего хода в шахматной партии.
В итоге Society of Mind превзошел другие варианты во всех категориях, как показано в таблице 1. под постом.
У меня остаётся только один вопрос конечно - это критерий останова этих дебатов. Где он? Это замер перплексии или BLEU генерации, или что? Жду ваши варианты ответа в комментариях.
YouTube
1. Introduction to 'The Society of Mind'
MIT 6.868J The Society of Mind, Fall 2011
View the complete course: https://ocw.mit.edu/6-868JF11
Instructor: Marvin Minsky
In this lecture, students discuss the introduction to The Emotion Machine, expectations and overview of the class, and general understanding…
View the complete course: https://ocw.mit.edu/6-868JF11
Instructor: Marvin Minsky
In this lecture, students discuss the introduction to The Emotion Machine, expectations and overview of the class, and general understanding…
🔥18
Таблица 2.
В этом примере исследователи берут пробы как ChatGPT, так и Bard, чтобы ответить на сложный вопрос на который они оба отвечают неправильно.
Однако затем мы передаем ответы каждого агента другому, и происходит волшебство; ChatGPT, используя свой предыдущий ответ и первый ответ Bard в качестве контекста, теперь способен дать верный.
В этом примере исследователи берут пробы как ChatGPT, так и Bard, чтобы ответить на сложный вопрос на который они оба отвечают неправильно.
Однако затем мы передаем ответы каждого агента другому, и происходит волшебство; ChatGPT, используя свой предыдущий ответ и первый ответ Bard в качестве контекста, теперь способен дать верный.
❤9👍4🔥4
А вот тут можно послушать про нашу self-chat арену для болтания наших диалоговых моделек.
Спасибо за доклад и работу @d_voo.
Да, да именно кусочек её доклада я вставил и в свой про Retrieval NLP+RLHF.
Спасибо за доклад и работу @d_voo.
Да, да именно кусочек её доклада я вставил и в свой про Retrieval NLP+RLHF.
YouTube
Data Fest 2023, день 7: оффлайн в Москве 26 мая (+онлайн доклады)
Data Fest 2023 набирает обороты!
Сегодня стрим устроен так:
С 11 до 12 - NLP доклады в spatial.chat
...перерыв...
С 15 до 17:30 - DS/ML Open Source доклады в spatial.,chat
С 17:30 - трансляция докладов в гостях у Яндекса
Информация мероприятие доступна…
Сегодня стрим устроен так:
С 11 до 12 - NLP доклады в spatial.chat
...перерыв...
С 15 до 17:30 - DS/ML Open Source доклады в spatial.,chat
С 17:30 - трансляция докладов в гостях у Яндекса
Информация мероприятие доступна…
❤9👍3
Личное мнение, как старого ML' щика, в отрыве того, где я работаю и что делаю. Для меня самый рок-н-ролл в RL у нас делают эти ребята.
Заходите, лайкате решения и конечно наслаждайтесь использованием.
Заходите, лайкате решения и конечно наслаждайтесь использованием.
Telegram
Жёлтый AI
Парни вы издеваетесь??? Мы вам дали четкий план, как развиваться в offline RL, а вы так и сидите без аксептов.
Ещё раз, мы выпустили новый релиз CORL, в котором добавили больше датасетов, а также добавили offline-to-online RL.
Помимо этого, мы пошли дальше…
Ещё раз, мы выпустили новый релиз CORL, в котором добавили больше датасетов, а также добавили offline-to-online RL.
Помимо этого, мы пошли дальше…
👍5❤2🥴2🔥1💯1
Сейчас по чатам расходится эта ссылка. GPT-4 это ансамбль.
https://twitter.com/soumithchintala/status/1671267150101721090
Все хлопают в ладоши и ставят огоньки и лайки. Но лишь в паре люди задались вопросами:
1. Эксперты это что? Если МоЕ оно так не работает оно внутри одной модельки, следует что-то своё подразумевается.
2. Далее 8 копий на разных данных и тасках. Сколько тасок на копию 2? Раз 16 вызовов на 8. Или это двушаговый CoT ?
Предлагаю обсудить в комментариях данный пост.
https://twitter.com/soumithchintala/status/1671267150101721090
Все хлопают в ладоши и ставят огоньки и лайки. Но лишь в паре люди задались вопросами:
1. Эксперты это что? Если МоЕ оно так не работает оно внутри одной модельки, следует что-то своё подразумевается.
2. Далее 8 копий на разных данных и тасках. Сколько тасок на копию 2? Раз 16 вызовов на 8. Или это двушаговый CoT ?
Предлагаю обсудить в комментариях данный пост.
X (formerly Twitter)
Soumith Chintala (@soumithchintala) on X
i might have heard the same 😃 -- I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this…
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this…
🤔1
Завезли блендер на максималках с LLM и FLAN-T5.
Чтобы не плодить обзоров см. у корешей тут:
https://t.iss.one/lovedeathtransformers/6023
От себя добавлю:
Мы в своей работе уже давно используем классик схему: encoder RoSBERTa +Faiss-KNN + reranker. В качестве реранкера используем или lgbm или cross-encoder.
С появлением у нас GPTlike моделей мы перешли к блендер схеме (где-то в q2-3 2022г.): LLM+retrieval cands + reranker. Это позволило нам добавить интересности от GPT генераций и релевантности/фактологичности от retrieval.
Поэтому если хочется улучшить свои метрики а-ля SSA: специфичность и релевантность. Советую блендер схему. Ну и конечно рад, что мы смотрим в одном направлении с индустрией.
Чтобы не плодить обзоров см. у корешей тут:
https://t.iss.one/lovedeathtransformers/6023
От себя добавлю:
Мы в своей работе уже давно используем классик схему: encoder RoSBERTa +Faiss-KNN + reranker. В качестве реранкера используем или lgbm или cross-encoder.
С появлением у нас GPTlike моделей мы перешли к блендер схеме (где-то в q2-3 2022г.): LLM+retrieval cands + reranker. Это позволило нам добавить интересности от GPT генераций и релевантности/фактологичности от retrieval.
Поэтому если хочется улучшить свои метрики а-ля SSA: специфичность и релевантность. Советую блендер схему. Ну и конечно рад, что мы смотрим в одном направлении с индустрией.
Telegram
Love. Death. Transformers.
#чтивонаночь
LLM-Blender
OpenAi знаете? есть слухи что gpt4 это MoE модель, те 4 модели по 220б параметров, которые переключаются каким то образом, решают разные задачи и вот это все, но при этом одна модель.
Собственно идея такая: давайте возьмем несколько…
LLM-Blender
OpenAi знаете? есть слухи что gpt4 это MoE модель, те 4 модели по 220б параметров, которые переключаются каким то образом, решают разные задачи и вот это все, но при этом одна модель.
Собственно идея такая: давайте возьмем несколько…
👍14
Впереди выходные, а значит время посмотреть что-то интересное.
Мой падаван @qwertysobaka составил лист выступлений нашей большой команды #SaluteDevices на #DataFest2023.
Надеюсь в нём вы найдете доклады по интересам.
https://t.iss.one/kaggle_fucker/77
Мой падаван @qwertysobaka составил лист выступлений нашей большой команды #SaluteDevices на #DataFest2023.
Надеюсь в нём вы найдете доклады по интересам.
https://t.iss.one/kaggle_fucker/77
Telegram
Ремарки Марка
Всем привет! Немного запоздалый пост, но не менее информативный. Как вы знаете недавно прошел DataFest 2023 🦜 и я был удивлен сколько моих коллег из SberDevices👋 там выступало. Поэтому решил сделать полный список их выступлений и поделиться им с вами.
1️⃣…
1️⃣…
🔥7👍3🤩1
Пошёл новый урожай картохи либ для inference and serving LLM - vllm
Много знакомых приходит с вопросом, какие либы посоветуешь для инференса LLM. Обычно сношаются с этим: text-generation-inference; FasterTransformer. Понятно ещё докучи + accelerate и bits and bytes. Вот вам в копилочку ещё VLLM.
VLLM это либа, которая даёт возможность удобного сервинга/инференса с использованием:
- Поддержка оптимизаций с CUDA
- Интеграция с моделями HF (gpt-neo, LLAMA like, opt, gpt2 like etc.)
- Динамический батчинг для входящих запросов, beam search, parallel sampling etc.
- TensorParallelism для multigpu inference.
- Оптимизация attention inference с Paged attention.
И др.
Дока и блогпост тут.
Попробуйте сами и делитесь в комментариях как оно.
Много знакомых приходит с вопросом, какие либы посоветуешь для инференса LLM. Обычно сношаются с этим: text-generation-inference; FasterTransformer. Понятно ещё докучи + accelerate и bits and bytes. Вот вам в копилочку ещё VLLM.
VLLM это либа, которая даёт возможность удобного сервинга/инференса с использованием:
- Поддержка оптимизаций с CUDA
- Интеграция с моделями HF (gpt-neo, LLAMA like, opt, gpt2 like etc.)
- Динамический батчинг для входящих запросов, beam search, parallel sampling etc.
- TensorParallelism для multigpu inference.
- Оптимизация attention inference с Paged attention.
И др.
Дока и блогпост тут.
Попробуйте сами и делитесь в комментариях как оно.
GitHub
GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs
A high-throughput and memory-efficient inference and serving engine for LLMs - vllm-project/vllm
👍16🔥2
Steam (не)против нейросетей.
Что мы любим делать в свободное от работы время, а лучше в выходные? Конечно зайти в любимую игру и пройти очередной уровень или затащить катку.
Причём тут на канале про ML игры?- спросите вы. Ответ прост - нейросети уже давно влились в gamedev, а с появлением генеративных сеток возможности разработчиков возросли. Это касается не только оптимизации алгоритмов и поведения ИИ персонажей, но и контента, дизайна и др.
Но не всё в последнее время так гладко. И вот уже Valve отказывает разработчикам в выпуске игр на своей платформе, если при её создании использовались нейросети.
В чем соль? Да в том же, что и рассказывал ранее, тк нейросети для обучения используют данные из различных источников,то компания Valve запросила подтверждения отсутствия нарушения авторских прав в разрезе этих данных. Поэтому выход игры не может быть одобрен до предоставления доказательств.
Самое интересное, что и после удаления билдов, созданных нейросетями и обновлению их на ручные, Valve также отказала в выпуске.
При этом, например, уже в Steam есть несколько игр с прямым указанием, что при создании использовался ИИ. Даже авторы, ожидаемого ремейка 2023г, System shock не скрывают этого и будут далее юзать генеративки для создания игр (а именно MidJourney).
Вот так регулирование AI просачивается и в мой любимый мир игр.. (
Что мы любим делать в свободное от работы время, а лучше в выходные? Конечно зайти в любимую игру и пройти очередной уровень или затащить катку.
Причём тут на канале про ML игры?- спросите вы. Ответ прост - нейросети уже давно влились в gamedev, а с появлением генеративных сеток возможности разработчиков возросли. Это касается не только оптимизации алгоритмов и поведения ИИ персонажей, но и контента, дизайна и др.
Но не всё в последнее время так гладко. И вот уже Valve отказывает разработчикам в выпуске игр на своей платформе, если при её создании использовались нейросети.
В чем соль? Да в том же, что и рассказывал ранее, тк нейросети для обучения используют данные из различных источников,то компания Valve запросила подтверждения отсутствия нарушения авторских прав в разрезе этих данных. Поэтому выход игры не может быть одобрен до предоставления доказательств.
Самое интересное, что и после удаления билдов, созданных нейросетями и обновлению их на ручные, Valve также отказала в выпуске.
При этом, например, уже в Steam есть несколько игр с прямым указанием, что при создании использовался ИИ. Даже авторы, ожидаемого ремейка 2023г, System shock не скрывают этого и будут далее юзать генеративки для создания игр (а именно MidJourney).
Вот так регулирование AI просачивается и в мой любимый мир игр.. (
Reddit
From the aigamedev community on Reddit: Valve is not willing to publish games with AI generated content anymore
Explore this post and more from the aigamedev community
👍5🔥2😢1
Машинное отучение.
Нет, автор не ошибся. Да он в своём уме, если че это всё Google - они анонсировали на платформе kaggle новое соревнование. Оно станет частью соревновательного трека NeurIPS2023.
Вообще интересная идея. На мой взгляд, машинное отучение может стать прекрасным дополнением для выравнивания обучения (alignment).
Есть мнение, что RL PPO нужен в тч для указания что НЕ надо делать модели при генерации, помимо, того чтобы отранжировать лучшие. Кто-то из моих коллег по цеху даже считает это первостепенной задачей.
Так вот. Результаты соревнования: новые методы и эвристики - уверен помогут на этапе SFT модели выполнить роль регулирования забываемости. Ведь помимо того, что нужно не забыть после pretrain ( см. катострофическое забывание), нам нужно и исключить влияние тех плохих источников данных, что мы упустили в сет обучения.
В общем участвуем и/или ждём обзоров решения победителей к концу года.
Подробнее тут:
https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html?m=1
И тут: https://unlearning-challenge.github.io/
Нет, автор не ошибся. Да он в своём уме, если че это всё Google - они анонсировали на платформе kaggle новое соревнование. Оно станет частью соревновательного трека NeurIPS2023.
Вообще интересная идея. На мой взгляд, машинное отучение может стать прекрасным дополнением для выравнивания обучения (alignment).
Есть мнение, что RL PPO нужен в тч для указания что НЕ надо делать модели при генерации, помимо, того чтобы отранжировать лучшие. Кто-то из моих коллег по цеху даже считает это первостепенной задачей.
Так вот. Результаты соревнования: новые методы и эвристики - уверен помогут на этапе SFT модели выполнить роль регулирования забываемости. Ведь помимо того, что нужно не забыть после pretrain ( см. катострофическое забывание), нам нужно и исключить влияние тех плохих источников данных, что мы упустили в сет обучения.
В общем участвуем и/или ждём обзоров решения победителей к концу года.
Подробнее тут:
https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html?m=1
И тут: https://unlearning-challenge.github.io/
research.google
Announcing the first Machine Unlearning Challenge
Posted by Fabian Pedregosa and Eleni Triantafillou, Research Scientists, Google Deep learning has recently driven tremendous progress in a wide arr...
👍11👌1
Неплохая демонстрация простыми словами, что происходит в потрошках трансформера. Да ещё и с гифоном.
https://prvnsmpth.github.io/animated-transformer/
https://prvnsmpth.github.io/animated-transformer/
prvnsmpth.github.io
The Animated Transformer
An intuitive explanation of the Transformer model architecture.
👍12🤯1
Forwarded from Knowledge Accumulator
Tree of Thoughts [2023] - заставляем GPT исследовать чертоги своего разума
Поговорим о разных видах взаимодействия с LLM.
1) Базовый - составляем запрос с задачей в модель, получаем ответ на выходе
2) Chain of Thoughts - просим модель описывать пошагово ход решения задачи и рассуждения, и в конце ответ.
3) Iterative refinement - В течение нескольких запросов, просим модель критиковать и улучшать решение.
4) В случае, если нам нужен ответ на задачу, в которой применимо ансамблирование ответов, можно запускать предыдущие методы несколько раз и потом комбинировать их ответы в один финальный
В статье авторы изобретают ещё более хитрый способ заставить модель анализировать. Мы генерируем дерево мыслей. Корень - это изначальная задача, а дети любой вершины - это добавление к рассуждению какой-то мысли. Данное дерево можно растить, посылая в LLM запрос вида "придумай следующий шаг к решению", и подавая текущее состояние на вход.
Как оценивать качество вершины? Используем саму же LLM, веря, что модель с оценкой мыслей справляется лучше, чем с их генерацией. Таким образом, мы можем каким-нибудь алгоритмом обхода дерева с эвристиками искать в нём решение, в котором шаги решения будут высоко оценены моделью. Я думаю, что детали тут слишком быстро устареют и конкретный алгоритм нам не важен.
Что по результатам? Они не радикально выше, но, видимо, схема помогает решать некоторые задачи, в которых такое "поисковое мышление" уместно. Например, большой буст наблюдается в решении мини-кроссвордов, т.е. заполнении буквами сетку 5 на 5 согласно вопросам. Классический способ решения подразумевает как раз поиск по дереву, так что прирост от подхода ожидаем.
Возможно, что со временем мы придём к какой-то black-box абстракции над LLM, где схема промптинга станет частью скрытой от пользователя реализации, и подобные алгоритмы конструирования ответа станут весьма сложными. А вы как думали, сверхсильный-ИИ-GPT возьмёт и расскажет всё просто так?
Получасовой обзор статьи
@knowledge_accumulator
Поговорим о разных видах взаимодействия с LLM.
1) Базовый - составляем запрос с задачей в модель, получаем ответ на выходе
2) Chain of Thoughts - просим модель описывать пошагово ход решения задачи и рассуждения, и в конце ответ.
3) Iterative refinement - В течение нескольких запросов, просим модель критиковать и улучшать решение.
4) В случае, если нам нужен ответ на задачу, в которой применимо ансамблирование ответов, можно запускать предыдущие методы несколько раз и потом комбинировать их ответы в один финальный
В статье авторы изобретают ещё более хитрый способ заставить модель анализировать. Мы генерируем дерево мыслей. Корень - это изначальная задача, а дети любой вершины - это добавление к рассуждению какой-то мысли. Данное дерево можно растить, посылая в LLM запрос вида "придумай следующий шаг к решению", и подавая текущее состояние на вход.
Как оценивать качество вершины? Используем саму же LLM, веря, что модель с оценкой мыслей справляется лучше, чем с их генерацией. Таким образом, мы можем каким-нибудь алгоритмом обхода дерева с эвристиками искать в нём решение, в котором шаги решения будут высоко оценены моделью. Я думаю, что детали тут слишком быстро устареют и конкретный алгоритм нам не важен.
Что по результатам? Они не радикально выше, но, видимо, схема помогает решать некоторые задачи, в которых такое "поисковое мышление" уместно. Например, большой буст наблюдается в решении мини-кроссвордов, т.е. заполнении буквами сетку 5 на 5 согласно вопросам. Классический способ решения подразумевает как раз поиск по дереву, так что прирост от подхода ожидаем.
Возможно, что со временем мы придём к какой-то black-box абстракции над LLM, где схема промптинга станет частью скрытой от пользователя реализации, и подобные алгоритмы конструирования ответа станут весьма сложными. А вы как думали, сверхсильный-ИИ-GPT возьмёт и расскажет всё просто так?
Получасовой обзор статьи
@knowledge_accumulator
👍5👌1
Помоги LLM выбрать лучшие ответы.
На kaggle завезли соревку по задаче реранкинга генераций GPT-3.5. Нужно из топ-5 генераций выбрать топ-3 лучших в ранжированном виде. Метрика MAP@3, что логично. Домен "сложный научный". В обучении 200 пар)
В общем расчехляйте свои пайпы по созданию reward моделек. И вперёд за медальками.
На kaggle завезли соревку по задаче реранкинга генераций GPT-3.5. Нужно из топ-5 генераций выбрать топ-3 лучших в ранжированном виде. Метрика MAP@3, что логично. Домен "сложный научный". В обучении 200 пар)
В общем расчехляйте свои пайпы по созданию reward моделек. И вперёд за медальками.
Kaggle
Kaggle - LLM Science Exam
Use LLMs to answer difficult science questions
🔥13🏆2
Heroes of NLP and Magic... Или объявлена неделя NLP соревнований...
Теперь придётся дублировать себя почкованием и тп, что успеть в две соревки...
CommonLit Challenge уже был когда-то на просторах kaggle, нужно оценивать работы студентов по некоторой шкале оценок, выделяя детали, идею и беглость языка.
Оценка естественно раз по баллам, то и метрика MCRMSE (среднее корней MSE по шкалам) уже предвкушаю биас на редкие оценки)
Обязательно советую посмотреть лучшие решения прошлого соревнования:
-сперва конечно мастера необычных и простых решений https://youtu.be/nof28KMutAk,
-потом уже более привычный космолет https://www.kaggle.com/competitions/commonlitreadabilityprize/discussion/258554
Удачи!
Теперь придётся дублировать себя почкованием и тп, что успеть в две соревки...
CommonLit Challenge уже был когда-то на просторах kaggle, нужно оценивать работы студентов по некоторой шкале оценок, выделяя детали, идею и беглость языка.
Оценка естественно раз по баллам, то и метрика MCRMSE (среднее корней MSE по шкалам) уже предвкушаю биас на редкие оценки)
Обязательно советую посмотреть лучшие решения прошлого соревнования:
-сперва конечно мастера необычных и простых решений https://youtu.be/nof28KMutAk,
-потом уже более привычный космолет https://www.kaggle.com/competitions/commonlitreadabilityprize/discussion/258554
Удачи!
Kaggle
CommonLit - Evaluate Student Summaries
Automatically assess summaries written by students in grades 3-12
👍8
Мы строили, строили и наконец построили.
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера
Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!
🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.
🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.
🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.
Написали небольшой пост про это, прошу поддержать, кому интересно.
👉 Хабр | Hugging Face
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера
Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!
🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.
🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.
🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.
Написали небольшой пост про это, прошу поддержать, кому интересно.
👉 Хабр | Hugging Face
Хабр
Сбер открывает доступ к нейросетевой модели ruGPT-3.5
? Upd. Добавили пример запуска в Colab'е. Друзья, свершилось. Сегодня мы рады сообщить вам о релизе в открытый доступ нейросетевой модели, которая лежит в основе сервиса GigaChat. Про то, что такое...
🔥57👍8❤5