Forwarded from Сиолошная
Когда-то давно OpenAI занимались направлением Robotics, но его пришлось закрыть. Ilya Sutskever говорил, что основной преградой были данные — реальные или синтетические — для обучения роботов. В последнее время всё больше и больше прорывов случается именно в этой области — я уже писал и про RT-X, и про работу из Berkeley, и вот даже вчерашний пост был про обучение навыкам из 50 демонстраций.
Вчера DeepMind дропнули блогпост «Shaping the future of advanced robotics», где описывают сразу 3 (!) работы, которые лягут в основу следующей Foundational Model. Мне захотелось поделиться с вами одной очень интересной.
AutoRT: Harnessing large models to better train robots
AutoRT — система, использующая существующие модели для масштабируемого развертывания флота роботов в совершенно новых сценариях с минимальным контролем человека (💀 может не надо?). Давайте по порядку:
1. Робот катается по месту и снимает окружение на камеру
2. Vision-Language-Model (VLM) делает описание пространства
3. LLM генерирует текстовое описание задачи, с которой роботу нужно справиться
4. LLM описывает пошаговый процесс выполнения задачи
5. Описание подвергаются критике со стороны другой LLM, использующей — ВНИМАНИЕ — конституцию, обеспечивающую более безопасное поведение. И да, часть конституции — это пересказывание Законов Азимова (но также добавляется и описание робота, что у него одна рука — поэтому критик будет убирать задачи, требующие двух робо-кутяп)
6. Прошедшие критику и автоматически отобранные задачи передаются роботу на исполнение
7. Данные собираются в общий пул, который может использоваться для дообучения роботов (а пока просто оценивается разнообразие датасета)
Система предусматривает, что для малой части задач может вмешаться человек (скажем, отсматривать 10% задач), но это необязательный компонент.
Как вы понимаете, система не зависит от количества роботов, и может запускаться параллельно на огромном флоте — в случае DeepMind это было всего лишь 20 машинок. Можно оставить 100500 роботов на складе на полгода — и появятся и грузчики, и прорабы, и (наверное) халтурщики, коротающую смену в кафе.
Очень жду RT-3, обученную на десятках тысяч разных задач — ведь из прошлых работ мы знаем, что это существенно увеличивает качество и поднимает планку «понимания» роботом ситуаций и инструкций. Ну и ждём симметричного ответа от Tesla до конца. 2024 🙂
Вчера DeepMind дропнули блогпост «Shaping the future of advanced robotics», где описывают сразу 3 (!) работы, которые лягут в основу следующей Foundational Model. Мне захотелось поделиться с вами одной очень интересной.
AutoRT: Harnessing large models to better train robots
AutoRT — система, использующая существующие модели для масштабируемого развертывания флота роботов в совершенно новых сценариях с минимальным контролем человека (
1. Робот катается по месту и снимает окружение на камеру
2. Vision-Language-Model (VLM) делает описание пространства
3. LLM генерирует текстовое описание задачи, с которой роботу нужно справиться
4. LLM описывает пошаговый процесс выполнения задачи
5. Описание подвергаются критике со стороны другой LLM, использующей — ВНИМАНИЕ — конституцию, обеспечивающую более безопасное поведение. И да, часть конституции — это пересказывание Законов Азимова (но также добавляется и описание робота, что у него одна рука — поэтому критик будет убирать задачи, требующие двух робо-кутяп)
6. Прошедшие критику и автоматически отобранные задачи передаются роботу на исполнение
7. Данные собираются в общий пул, который может использоваться для дообучения роботов (а пока просто оценивается разнообразие датасета)
Система предусматривает, что для малой части задач может вмешаться человек (скажем, отсматривать 10% задач), но это необязательный компонент.
Как вы понимаете, система не зависит от количества роботов, и может запускаться параллельно на огромном флоте — в случае DeepMind это было всего лишь 20 машинок. Можно оставить 100500 роботов на складе на полгода — и появятся и грузчики, и прорабы, и (наверное) халтурщики, коротающую смену в кафе.
Очень жду RT-3, обученную на десятках тысяч разных задач — ведь из прошлых работ мы знаем, что это существенно увеличивает качество и поднимает планку «понимания» роботом ситуаций и инструкций. Ну и ждём симметричного ответа от Tesla до конца. 2024 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥14❤5🕊1
Чисто личные новости, но раз в несколько лет можно
1. В этот понедельник я защитился и получил степень PhD. Теперь можете звать меня доктором 😅
1. Сегодня я перехал в Сан Франциско 🌉
1. Начиная со следующей недели я начинаю работу в 1X Technologies и буду работать над гуманоидными роботами общего пользования🤖
Мы видели как трансформеры, скейлинг и self-supervised learning изменили NLP, CV, мультимодальные модели и то что мы подразумеваем под агентами. Я думаю что робототехника может быть следующей задачей которая полностью изменится под влиянием этих подходов буквально в следующие пару лет и поэтому очень рад что скоро стану частью 1X
Напоследок я хотел бы сказать большое спасибо всем подписчикам этого канала. PhD был невероятно тяжёлым опытом и ведение канала и лично вы меня очень поддержали и помогли сохранить кукуху (насколько возможно). Думаю сейчас у меня появится чуть больше времени на посты в канал и несмотря на то что теперь возможно я буду чаще обозревать статьи по роботам, мы всё ещё будем фокусироваться на том как развиваются NLP и LLM
Я очень рад началу новой главы в своей жизни и ещё раз спасибо вам всем что были со мной на протяжении PhD
😘 😘 😘
1. В этот понедельник я защитился и получил степень PhD. Теперь можете звать меня доктором 😅
1. Сегодня я перехал в Сан Франциско 🌉
1. Начиная со следующей недели я начинаю работу в 1X Technologies и буду работать над гуманоидными роботами общего пользования
Мы видели как трансформеры, скейлинг и self-supervised learning изменили NLP, CV, мультимодальные модели и то что мы подразумеваем под агентами. Я думаю что робототехника может быть следующей задачей которая полностью изменится под влиянием этих подходов буквально в следующие пару лет и поэтому очень рад что скоро стану частью 1X
Напоследок я хотел бы сказать большое спасибо всем подписчикам этого канала. PhD был невероятно тяжёлым опытом и ведение канала и лично вы меня очень поддержали и помогли сохранить кукуху (насколько возможно). Думаю сейчас у меня появится чуть больше времени на посты в канал и несмотря на то что теперь возможно я буду чаще обозревать статьи по роботам, мы всё ещё будем фокусироваться на том как развиваются NLP и LLM
Я очень рад началу новой главы в своей жизни и ещё раз спасибо вам всем что были со мной на протяжении PhD
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥382🎉109👏63❤30🍾21👍14💩4🤡4😁1🤔1😎1
Вот и первые плоды переезда в СФ
За первые три дня уже встретил кучу очень классных людей. Один из них — Артемий @nn_for_science из Стенфорда
У него классный канал который обозревает кучу классных вещей от 3D CV до опыта использования Azure и просто классных историй из жизни и работы в SF Bay Area
За первые три дня уже встретил кучу очень классных людей. Один из них — Артемий @nn_for_science из Стенфорда
У него классный канал который обозревает кучу классных вещей от 3D CV до опыта использования Azure и просто классных историй из жизни и работы в SF Bay Area
👍76🤮28❤13💩6🤩2
Подборка топовых NLP статей от Sasha Runsh
twitter.com/srush_nlp/status/1747673238434365805
После истории с тем насколько "anonymity" period в ACL конференциях вредит NLP-сообществу Sasha Rush, Yejin Choi и ещё несколько рисёчеров основали новую конференцию Conference on Language Modeling (CoLM). Первый call for papers на CoLM уже идёт и дедлайн будет в конце марта. И сегодня Саша написал несколько примеров статей чтобы показать топики которые хотят видеть на CoLM:
1. Alignment — DPO paper
1. Pre-training data — mT5
1. Evals — MT-Bench
1. Societal implications — Disability-Centered Perspectives on LLM
1. Safety, sequrity, misinformaiton — A Universal Attack on LLMs
1. LM Science (scaling laws, interpretability, ...) — Transformer Interpretability Beyond Attention Visualization
1. Compute efficient LMs — MegaBlocks (метод тренировки MoE за Mixtral)
1. Engineering for large LMs — PyTorch FSDP
1. Learning algorithms for LMs — Model Soups
1. Inference algorithms — Diverse Beam Search
1. Cognitive science/neuroscience/legal/... — What language reveals about perception
1. LMs for everyone (low-resource LMs) — Quality at a Glance
1. LLMs as world models — Generative Evidence Retrieval for Fact Verification
1. LMs and embodiment 🤖 — ProgPrompt
1. LMs and interactions — Plug-and-Play Theory of Mind
1. LMs on diverse applications — Exploring LLMs for Medical QA*
*Заменил статью на другую, тк публиковаться за пейволом неправильно
Подборка очень классная, те статьи из неё которые я читал реально были очень важны для своих областей. Если хотите чтобы я разобрал какую-то из них - пишите в комментарии.
twitter.com/srush_nlp/status/1747673238434365805
После истории с тем насколько "anonymity" period в ACL конференциях вредит NLP-сообществу Sasha Rush, Yejin Choi и ещё несколько рисёчеров основали новую конференцию Conference on Language Modeling (CoLM). Первый call for papers на CoLM уже идёт и дедлайн будет в конце марта. И сегодня Саша написал несколько примеров статей чтобы показать топики которые хотят видеть на CoLM:
1. Alignment — DPO paper
1. Pre-training data — mT5
1. Evals — MT-Bench
1. Societal implications — Disability-Centered Perspectives on LLM
1. Safety, sequrity, misinformaiton — A Universal Attack on LLMs
1. LM Science (scaling laws, interpretability, ...) — Transformer Interpretability Beyond Attention Visualization
1. Compute efficient LMs — MegaBlocks (метод тренировки MoE за Mixtral)
1. Engineering for large LMs — PyTorch FSDP
1. Learning algorithms for LMs — Model Soups
1. Inference algorithms — Diverse Beam Search
1. Cognitive science/neuroscience/legal/... — What language reveals about perception
1. LMs for everyone (low-resource LMs) — Quality at a Glance
1. LLMs as world models — Generative Evidence Retrieval for Fact Verification
1. LMs and embodiment 🤖 — ProgPrompt
1. LMs and interactions — Plug-and-Play Theory of Mind
1. LMs on diverse applications — Exploring LLMs for Medical QA*
*Заменил статью на другую, тк публиковаться за пейволом неправильно
Подборка очень классная, те статьи из неё которые я читал реально были очень важны для своих областей. Если хотите чтобы я разобрал какую-то из них - пишите в комментарии.
X (formerly Twitter)
Sasha Rush (@srush_nlp) on X
The Conference on Language Modeling 🦙 (https://t.co/7T42bAAQa4) has the mission of "creating a community of researchers with expertise in different disciplines, focused on understanding, improving, and critiquing the development of LM technology." 🧵
Here…
Here…
👍35❤10
Self-rewarding Language Models
Yuan et al., Meta AI
arxiv.org/abs/2401.10020
Кликбейтная версия заголовка: LLAMA2 обошла GPT4 🔥🔥
Зачем делать отдельную модель реворда если можно обучать реворду вашу языковую модель? Так по-видимому подумали в FAIR и придумали новый метод: Iterative DPO
1. Файнтюните вашу модель на начальном (чат-)датасете
2. Опционально тюните эту модель на данных которые оценивают качество генерации числом от 1 до 5 с помощью chain of thought
3. Используете few-shot prompting чтобы сгенерировать новые промпты
4. Генерируете N ответов на каждый промпт и оцениваете их этой же моделью
5. Goto 1
Интересным получается то что от числа итераций растет не только качество генерации ответов но и и качество оценки ответов.
После трех таких итераций LLAMA2-70B на бенчмарке AlpacaEval обходит ChatGPT3.5, Claude и даже GPT4 (версия 13 июня 2023). конечно верить только одному бенчмарку не стоит, но к сожалению других в статье нет, даже MMLU.
В любом случае очень классный и простой подход, к сожалению подходящий только GPU-богатым, но зато не требующий огромного количества пользовательских данных
Yuan et al., Meta AI
arxiv.org/abs/2401.10020
Кликбейтная версия заголовка: LLAMA2 обошла GPT4 🔥🔥
Зачем делать отдельную модель реворда если можно обучать реворду вашу языковую модель? Так по-видимому подумали в FAIR и придумали новый метод: Iterative DPO
1. Файнтюните вашу модель на начальном (чат-)датасете
2. Опционально тюните эту модель на данных которые оценивают качество генерации числом от 1 до 5 с помощью chain of thought
3. Используете few-shot prompting чтобы сгенерировать новые промпты
4. Генерируете N ответов на каждый промпт и оцениваете их этой же моделью
5. Goto 1
Интересным получается то что от числа итераций растет не только качество генерации ответов но и и качество оценки ответов.
После трех таких итераций LLAMA2-70B на бенчмарке AlpacaEval обходит ChatGPT3.5, Claude и даже GPT4 (версия 13 июня 2023). конечно верить только одному бенчмарку не стоит, но к сожалению других в статье нет, даже MMLU.
В любом случае очень классный и простой подход, к сожалению подходящий только GPU-богатым, но зато не требующий огромного количества пользовательских данных
🔥49👍9
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Бесплатные курсы по LLM🌸
#nlp #про_nlp
Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.
🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.
🟣 CS224N: Natural Language Processing with Deep Learning
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.
🟣 Chris Manning — конспекты
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/
🟣 Dan Jurafsky — Speech and Language Processing (3rd ed. draft)
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/
🟣 Transformers United
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.
🌸Курсы попроще
Требуется только английский и Python
🟣 HuggingFace NLP Course
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.
🟣 Cohere LLM University
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.
🟣 Learn Prompting
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.
#nlp #про_nlp
Небольшое обновление поста про бесплатные курсы NLP/LLM, на этот раз добавлю англоязычных материалов. Всё разбила на две группы: посложнее и поприкладнее-попроще.
🌸Для MLE:
Для курсов требуется английский, требуется Python, основы машинного обучения, базовая теория вероятности и статистика, линейная алгебра.
https://web.stanford.edu/class/cs224n/
Крутой стэнфордский курс, идет каждый год с обновлениями. В этом году впервые лекции решили не выкладывать на youtube, хотя остались в публичном доступе все лекции 2023 — их очень советую.
https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf
Преподаватель курса выше и один из самых успешных ученых, авторов исследовательских работ без большого компьюта (DPO, Backpack language models), Крис Маннинг все материалы лекций выкладывает в открытый доступ. По датам обновлений видно, что обновленные материалы -- для курса 2024 года, пользуйтесь! https://web.stanford.edu/class/cs224n/readings/
Автор основного за последние 20 лет учебника по NLP, и тоже из Стэнфорда, Дэн Журафски продолжает выкладывать в открытый доступ новые главы учебника, постоянно обновляя старые. Это вообще практически единственная книга, которую можно прочитать целиком и уже иметь ключи к пониманию 80% происходящего в индустрии.
Последнее обновление учебника – 5 января 2024:
https://web.stanford.edu/~jurafsky/slpdraft/
https://web.stanford.edu/class/cs25/prev_years/2023_winter/index.html
Второй по важности курс, чтобы понимать, что происходит — с общей направленностью на NLP, CV и мультимодальные модели.
🌸Курсы попроще
Требуется только английский и Python
https://huggingface.co/learn/nlp-course/
Верхнеуровневый курс прикладной направленности, научит запускать инференс и тюнинг основных моделей, позволит примерно понять, что происходит внутри и какие параметры ставить для каких задач.
https://docs.cohere.com/docs/llmu
Все настроено, конечно, чтобы вас научить работать именно с продуктами Cohere, но сами по себе обзорные материалы неплохие. Из плюсов — есть Discord сообщество курса.
https://learnprompting.org/docs/intro
Хороший дополняемый сборник лучших практик по промпт-инжинирингу, построению chain-of-thought, reasoning, построению ансамблей и систем проверки пайплайнов с промптами.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤54🔥22👍11🥰3
Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241
Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.
Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем
3. Продолжаем тренироваться
Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.
Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥
В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241
Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.
Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем
update_step % N == 0
, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели3. Продолжаем тренироваться
Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.
Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥
В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.
👍43🔥16🤔5❤3🤯2🗿1
Наткнулся на сайт который кажется как толока но для профессионалов в программировании, математике, физике и других дисциплинах. Очень забавная ниша которой кажется не существовало ещё год назад.
Вообще очень интересно докуда это дойдёт через пару лет когда выйдет GPT6. Многие из тех вещей которые мы сейчас делаем каждый день в GPT4 я лично вообще не мог себе представить всего 2 года назад. Что если реально уже скоро будут какие-то нетривиальные результаты LLM в том чтобы автономно заниматься физикой или математикой?
Я хоть серьёзными науками и не занимаюсь (практический DL на науку не тянет), но впервые подумал что и нас можно будет со временем заменить. Надо поставить себе напоминалку сделать ретроспективу этого поста в январе 2026 😅
https://tryoutlier.com
Вообще очень интересно докуда это дойдёт через пару лет когда выйдет GPT6. Многие из тех вещей которые мы сейчас делаем каждый день в GPT4 я лично вообще не мог себе представить всего 2 года назад. Что если реально уже скоро будут какие-то нетривиальные результаты LLM в том чтобы автономно заниматься физикой или математикой?
Я хоть серьёзными науками и не занимаюсь (практический DL на науку не тянет), но впервые подумал что и нас можно будет со временем заменить. Надо поставить себе напоминалку сделать ретроспективу этого поста в январе 2026 😅
https://tryoutlier.com
👍39🔥7😱2💊2
Апдейт того что умеют делать наши роботы в 1X Technologies
Видео: тык
Блог: тык
Полностью автономно, видео не ускорено (1X speed), все действия контролирует нейросетка end2end
И это самое начало. В этом году будет много интересного в робототехнике
Видео: тык
Блог: тык
Полностью автономно, видео не ускорено (1X speed), все действия контролирует нейросетка end2end
И это самое начало. В этом году будет много интересного в робототехнике
YouTube
All Neural Networks. All Autonomous. All 1X speed | 1X AI Update
#1X #humanoid #EmbodiedAI
All Neural Networks. All Autonomous. All 1X speed. This video contains no teleoperation, no computer graphics, no cuts, no video speedups, no scripted trajectory playback. It's all controlled via neural networks. Learn more on…
All Neural Networks. All Autonomous. All 1X speed. This video contains no teleoperation, no computer graphics, no cuts, no video speedups, no scripted trajectory playback. It's all controlled via neural networks. Learn more on…
👍33🔥28❤8🤡4🤯1
Forwarded from AI для Всех (Artemii)
Вышел официальный курс от OpenAI: как пользоваться ChatGPT
Уникальный курс от OpenAI, раскрывающий все секреты работы с ChatGPT, от регистрации до разработки сложных запросов.
В эпоху цифровых технологий знание того, как эффективно использовать инструменты искусственного интеллекта, становится не просто преимуществом, а необходимостью. OpenAI выпустили курс, который станет вашим надежным помощником в освоении ChatGPT – от создания аккаунта до написания первого запроса.
В курсе вы научитесь:
- Использованию ChatGPT в качестве персонального ассистента: Узнайте, как максимально повысить свою продуктивность, используя ChatGPT для выполнения повседневных задач.
- Разработка запросов и Prompt Engineering: Освоите искусство формулирования запросов, чтобы получать максимально точные и полезные ответы.
- Введение в DALLE-3, GPT 3.5 и GPT 4: Погрузитесь в возможности последних версий GPT и научитесь создавать уникальный контент.
Не упустите возможность усилить свои навыки и расширить границы возможного с помощью последних технологий от OpenAI (а еще получить сертификат).
Смотреть курс
Уникальный курс от OpenAI, раскрывающий все секреты работы с ChatGPT, от регистрации до разработки сложных запросов.
В эпоху цифровых технологий знание того, как эффективно использовать инструменты искусственного интеллекта, становится не просто преимуществом, а необходимостью. OpenAI выпустили курс, который станет вашим надежным помощником в освоении ChatGPT – от создания аккаунта до написания первого запроса.
В курсе вы научитесь:
- Использованию ChatGPT в качестве персонального ассистента: Узнайте, как максимально повысить свою продуктивность, используя ChatGPT для выполнения повседневных задач.
- Разработка запросов и Prompt Engineering: Освоите искусство формулирования запросов, чтобы получать максимально точные и полезные ответы.
- Введение в DALLE-3, GPT 3.5 и GPT 4: Погрузитесь в возможности последних версий GPT и научитесь создавать уникальный контент.
Не упустите возможность усилить свои навыки и расширить границы возможного с помощью последних технологий от OpenAI (а еще получить сертификат).
Смотреть курс
💩71👍17😁5❤3🤡2👎1
Humanoid Locomotion as Next Token Prediction
arxiv.org/abs/2402.19469
В этом году с гуманоидными роботами будет жара. Авторы предлагают обучать языковую модель на сенсомоторных траекториях с роботов или из YouTube видео людей где траектории получены с помощью обратной кинематики (использовали PHALP)
Обучались на:
1. Траекториях робота который управляется классическим алгоритмом
1. Траекториях из симуляции с RL-policy
1. Человеческих motion-capture
1. YouTube видео с людьми к которым применяли обратную кинематику чтобы получить траекторию
Плюсы подхода к этому через языковое моделирование: можно обучаться на данных у которых отсутствуют некоторые модальности. Например на YouTube видосах у вас нету actions, есть только траектория. Вы просто маскируете эти отсутствующие токены и языковая модель просто делает своё дело.
Модель обученная всего на 27 часах данных может управлять роботом в городе без какого-либо дообучения 🔥
Также показали наметки scaling law, но самая большая моделька (всего 8M параметров lol) уже отходит от scaling law, так что возможно данных надо сильно больше.
arxiv.org/abs/2402.19469
В этом году с гуманоидными роботами будет жара. Авторы предлагают обучать языковую модель на сенсомоторных траекториях с роботов или из YouTube видео людей где траектории получены с помощью обратной кинематики (использовали PHALP)
Обучались на:
1. Траекториях робота который управляется классическим алгоритмом
1. Траекториях из симуляции с RL-policy
1. Человеческих motion-capture
1. YouTube видео с людьми к которым применяли обратную кинематику чтобы получить траекторию
Плюсы подхода к этому через языковое моделирование: можно обучаться на данных у которых отсутствуют некоторые модальности. Например на YouTube видосах у вас нету actions, есть только траектория. Вы просто маскируете эти отсутствующие токены и языковая модель просто делает своё дело.
Модель обученная всего на 27 часах данных может управлять роботом в городе без какого-либо дообучения 🔥
Также показали наметки scaling law, но самая большая моделька (всего 8M параметров lol) уже отходит от scaling law, так что возможно данных надо сильно больше.
🔥51👍9❤6🦄1
openai.com/blog/openai-elon-musk
Почитайте блогпост и прикреплённые к нему имеилы. Кажется это довольно сильный ответ на иск Маска, но посмотрим куда это зайдёт. Из имеилов я немного удивился что уже в 2016 Сацкевер верил в скейлинг
Почитайте блогпост и прикреплённые к нему имеилы. Кажется это довольно сильный ответ на иск Маска, но посмотрим куда это зайдёт. Из имеилов я немного удивился что уже в 2016 Сацкевер верил в скейлинг
😁13👍1
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611
Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1
Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:
Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных
Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).
При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.
Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1
Код и веса к сожалению не опубликованы 😓
McKinzie et al., [Apple]
arxiv.org/abs/2403.09611
Apple взяла себя в руки и последнее время от них прямо пошли хорошие статье. В этой статье представляют семейство мультимодальных языковых моделей MM1
Научная ценность статьи в большом числе абляционных исследованиях. Авторы приходят к следующим выводам:
Для качества моделей более всего важны следующие вещи (от более важных к менее важным):
1. Разрешение изображений
2. Выбор лосса
3. Размер модели
4. Размер данных
Также выясняют что для few-shot лучше всего моделировать image-text interleave (как Flamingo), а для zero-shot лучше всего image-capiton pairs (как CLIP).
При этом архитектура нейросети минимально влияет на качество. Просто кидайте в трансформер которых подходит вам больше всего. Например когда у вас достаточно хорошая модель с достаточно высоким разрешением изображений не важно как именно вы пулите изображения для передачи в LLM: среднее, attention, или convolusion дают примерно один и тот же результат.
Интересно, что тренировка на тексте (без изображений) значительно улучшает few-shot. Кастательно соотношения данных, из того с чем эксперимертировали в статье лучше всего работает соотношение caption:interleaved:text 5:5:1
Код и веса к сожалению не опубликованы 😓
👍31❤7🔥2👏1
Очень классное интервью с Андреем
https://twitter.com/stephzhan/status/1773027310587056433
Обсудили немного истории OAI и самого Андрея, насколько scale всё важен (всё ещё #1) какие другие вещи важны. Кажется это первое интервью за долгое время от которого я услышал интересные ответы на тему того куда мы двигаемся в ближайший год
Для себя всё больше понимаю насколько работа над инфраструктрой более важна чем над самими моделями/лоссами/прочим обучением и если раньше видел это как 90% инфра 10% модели кажется сейчас кажется что 99.9% инфра 0.1% модели (но обучать модели всё ещё веселее что проблема 😅)
https://twitter.com/stephzhan/status/1773027310587056433
Обсудили немного истории OAI и самого Андрея, насколько scale всё важен (всё ещё #1) какие другие вещи важны. Кажется это первое интервью за долгое время от которого я услышал интересные ответы на тему того куда мы двигаемся в ближайший год
Для себя всё больше понимаю насколько работа над инфраструктрой более важна чем над самими моделями/лоссами/прочим обучением и если раньше видел это как 90% инфра 10% модели кажется сейчас кажется что 99.9% инфра 0.1% модели (но обучать модели всё ещё веселее что проблема 😅)
X (formerly Twitter)
Stephanie Zhan (@stephzhan) on X
Major highlight hosting @Sequoia AI Ascent was chatting with my friend @Karpathy. We chat about his future predictions for the ecosystem (an LLM OS!), elephant in the room questions (Is scale all that matters? How to compete as a young startup against OpenAI…
🤗25👍4🔥4❤1🥰1
Forwarded from эйай ньюз
Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого
Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.
А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели - dense.
Зачем так - сделали - непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.
В целом ничего не понятно, но очень интересно.😊
Веса
Блогпост
@ai_newz
Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.
А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели - dense.
Зачем так - сделали - непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.
В целом ничего не понятно, но очень интересно.
Веса
Блогпост
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤1🔥1
Forwarded from Сиолошная
У Dwarkesh новый выпуск подкаста с двумя LLM-щиками. Именно из превью этой беседы я вчера узнал про статью о генерализации и интерпретируемости, детали которой расписал в канале.
Один из гостей — нейробиолог, переключившийся в интерпретируемость моделей (и проводящий аналогии с мозгом) и работающий в Anthropic.
Второй — исследователь в DeepMind. Он молодой, работает буквально 2 года в индустрии, но один из создателей трансформера говорил, что без этого парня Gemini могла бы не состояться, и вообще он один из лучших и недооцененных спецов в области.
Должно быть очень интересно, го смотреть: https://www.youtube.com/watch?v=UTuuTTnjxMQ
Затрагивают следующие топики:
— Long contexts
— Intelligence is just associations
— Intelligence explosion & great researchers
— Superposition & secret communication
— Agents & true reasoning
— How Sholto & Trenton got into AI research
— Are feature spaces the wrong way to think about intelligence?
— Will interp actually work on superhuman models
Один из гостей — нейробиолог, переключившийся в интерпретируемость моделей (и проводящий аналогии с мозгом) и работающий в Anthropic.
Второй — исследователь в DeepMind. Он молодой, работает буквально 2 года в индустрии, но один из создателей трансформера говорил, что без этого парня Gemini могла бы не состояться, и вообще он один из лучших и недооцененных спецов в области.
Должно быть очень интересно, го смотреть: https://www.youtube.com/watch?v=UTuuTTnjxMQ
Затрагивают следующие топики:
— Long contexts
— Intelligence is just associations
— Intelligence explosion & great researchers
— Superposition & secret communication
— Agents & true reasoning
— How Sholto & Trenton got into AI research
— Are feature spaces the wrong way to think about intelligence?
— Will interp actually work on superhuman models
🔥21❤5👍4🥴1
Llama 3
llama.meta.com/llama3/
Немного странный анонс моделей с приговоркой "статья будет чуть позже", meta раньше так не делали, но всё равно модели очень крутые и уже доступны
Детали:
1. 16K GPU 🤯
1. 15T токенов 🤯🤯
1. Веса моделей на 8B и 70B параметров уже доступны 🎉
1. Тренируют модель на 405B параметров (без MoE) 🤯
1. 8K длина контекста
1. Архиткетурно самые большие отличия: Grouped Query Attention и 128K vocab size
1. Для тренировки оценивали scaling laws на разных доменах датасета (и на downstream задачах) после чего из них высчитывали оптимальное взвешивание
Бенчмарки:
1. На MMLU, Llama 3 8B работает на уровне PALM-540B и Chinchilla 70B
1. Там же Llama 70B обходит Claude 3 Sonnet и Mistral Large
llama.meta.com/llama3/
Немного странный анонс моделей с приговоркой "статья будет чуть позже", meta раньше так не делали, но всё равно модели очень крутые и уже доступны
Детали:
1. 16K GPU 🤯
1. 15T токенов 🤯🤯
1. Веса моделей на 8B и 70B параметров уже доступны 🎉
1. Тренируют модель на 405B параметров (без MoE) 🤯
1. 8K длина контекста
1. Архиткетурно самые большие отличия: Grouped Query Attention и 128K vocab size
1. Для тренировки оценивали scaling laws на разных доменах датасета (и на downstream задачах) после чего из них высчитывали оптимальное взвешивание
Бенчмарки:
1. На MMLU, Llama 3 8B работает на уровне PALM-540B и Chinchilla 70B
1. Там же Llama 70B обходит Claude 3 Sonnet и Mistral Large
👍57🔥3