When a distinguished but elderly scientist states that something is possible, he is almost certainly right. When he states that something is impossible, he is very probably wrong.
en.wikipedia.org/wiki/Clarke%27s_three_laws
Кажется ЛеКун переметнулся из первой команды во вторую 🤷♂️
en.wikipedia.org/wiki/Clarke%27s_three_laws
Кажется ЛеКун переметнулся из первой команды во вторую 🤷♂️
Wikipedia
Clarke's three laws
three adages proposed by British science fiction writer Arthur C. Clarke about science and technology
👍7🔥2
Forwarded from AI для Всех
Андрей Карпати анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.
🤔22🔥10👍5❤1🤨1
Со мной тут внезапно связались организаторы Field Matters Workshop на EACL 2023
Вот что они про себя говорят
Field Matters — воркшоп об NLP в полевой лингвистике: уменьшаем количество рутины и снижаем порог вхождения в полевые исследования; ведём прикладные разработки, осенью провели секцию на COLING2022 в Южной Корее, а весной будем её проводить на EACL2023 в Хорватии. Но в первую очередь мы формируем сообщество — инженеров, полевых лингвистов и носителей языков, которые понимают ограничения и перспективы технологий, разделяют стремление к доступности исследовательских данных.
И мы очень ищем статьи!
Если у вас есть работы про:
- кросслингвальный трансфер лернинг
- мультилингвальные модели
- построение NLP-инструментов, аугментацию данных, создание датасетов для малых языков
- и вообще про все, что связывает NLP (в любом виде) и малоресурсные языки...
мы будем рады вашим работам. Дедлайн для отправки: 23 февраля 2023 года
(А еще у нас интересные панельные дискуссии, в прошлом году, например, выступал создатель NLTK)
Больше подробностей на сайте: bit.ly/fieldmatters2023
И еще можно следить за обновлениями в твиттере @field_matters
Вот что они про себя говорят
Field Matters — воркшоп об NLP в полевой лингвистике: уменьшаем количество рутины и снижаем порог вхождения в полевые исследования; ведём прикладные разработки, осенью провели секцию на COLING2022 в Южной Корее, а весной будем её проводить на EACL2023 в Хорватии. Но в первую очередь мы формируем сообщество — инженеров, полевых лингвистов и носителей языков, которые понимают ограничения и перспективы технологий, разделяют стремление к доступности исследовательских данных.
И мы очень ищем статьи!
Если у вас есть работы про:
- кросслингвальный трансфер лернинг
- мультилингвальные модели
- построение NLP-инструментов, аугментацию данных, создание датасетов для малых языков
- и вообще про все, что связывает NLP (в любом виде) и малоресурсные языки...
мы будем рады вашим работам. Дедлайн для отправки: 23 февраля 2023 года
(А еще у нас интересные панельные дискуссии, в прошлом году, например, выступал создатель NLTK)
Больше подробностей на сайте: bit.ly/fieldmatters2023
И еще можно следить за обновлениями в твиттере @field_matters
🔥13👍1
Toolformer: Language Models Can Teach Themselves to Use Tools
arxiv.org/abs/2302.04761
Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.
Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:
Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.
Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)
Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).
Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.
arxiv.org/abs/2302.04761
Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.
Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:
Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.
Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)
Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).
Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.
👍15
Large Transformer Model Inference Optimization
Lilian Weng, OpenAI
Тык
🔥 Огненный блогпост от Head of Applied Research из OpenAI
Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно
Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.
Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.
GPUs конечно go brr, но надо делать brr эффективно
Lilian Weng, OpenAI
Тык
Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно
Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.
Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.
GPUs конечно go brr, но надо делать brr эффективно
Please open Telegram to view this post
VIEW IN TELEGRAM
lilianweng.github.io
Large Transformer Model Inference Optimization
[Updated on 2023-01-24: add a small section on Distillation.]
Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both…
Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both…
👍27🔥13❤1
В Тинькофф классная финтех-команда, которая ведет свой телеграм-канал, в нем они пишут о:
— подкастах, кейсах и полезных статьях на Хабре;
— развитии ИТ-коммьюнити, а также проводят митапы и конференции;
— главном в еженедельный дайджест;
— лучших мемах индустрии.
Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.
#промо
— подкастах, кейсах и полезных статьях на Хабре;
— развитии ИТ-коммьюнити, а также проводят митапы и конференции;
— главном в еженедельный дайджест;
— лучших мемах индустрии.
Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.
#промо
🤮52👍11💩3👎2😁2
ChatGPT: Jack of all trades, master of none
Kocoń et al.
arxiv.org/abs/2302.10724
Очень подробная эвалюация ChatGPT на 25 NLP задачах. Сравнивают few-shot или zero-shot ChatGPT с fully-supervised моделями. Если коротко, в где-то пловине задач ChatGPT не очень далёк от supervised SOTA, что впечатляет. Например на SQuAD он показывет себя лучше BiDAF — соты 2018 года — без какого-либо обучения на данных SQuAD. В статье довольно неплохо описан сам ChatGPT (на основе публично доступной инфы, так что ничего нового). Но вообще очень много интеренсых результатов, рекомендую к прочтению.
Интересно что ChatGPT фейлится на задачах которые требуют понимания эмоций текста. Бездушная машина 🤖
Kocoń et al.
arxiv.org/abs/2302.10724
Очень подробная эвалюация ChatGPT на 25 NLP задачах. Сравнивают few-shot или zero-shot ChatGPT с fully-supervised моделями. Если коротко, в где-то пловине задач ChatGPT не очень далёк от supervised SOTA, что впечатляет. Например на SQuAD он показывет себя лучше BiDAF — соты 2018 года — без какого-либо обучения на данных SQuAD. В статье довольно неплохо описан сам ChatGPT (на основе публично доступной инфы, так что ничего нового). Но вообще очень много интеренсых результатов, рекомендую к прочтению.
Интересно что ChatGPT фейлится на задачах которые требуют понимания эмоций текста. Бездушная машина 🤖
👍39🤔1
🌆 Одно из первых государственных решений о копирайте AI-generated изображений
Новость, документ
United States Copyright Office отозвал копирайт на изображения из Zarya of the Dawn сгенерированные Kris Kashtanova с помощью Midjorney. Теперь копирайт распространяется только на текст в комиксе и с помощью которого были сгенерированы изображения.
We conclude that Ms. Kashtanova is the author of the Work’s text as well as the selection, coordination, and arrangement of the Work’s written and visual elements. That authorship is protected by copyright. However, as discussed below, the images in the Work that were generated by the Midjourney technology are not the product of human authorship.
Изначально копирайт был одобрен, но в заявлении автор не указал что изображения сгенерированы. Дальше идёт забавное "the Office became aware of statements on social media attributed to Ms. Kashtanova that she had created the comic book using Midjourney". То есть Copyright Office узнал об этом из твиттера 🤷♂️
В общем понятно следующее: роботов опять дискриминируют 🤖. Основы дискриминаци, как и всегда, построены на устаревших интерпретациях законов. Конкретно зацепились за “works of authorship” где утверждают что она относится только к работам авторов-людей. А автор определяется как "he to whom anything owes its origin; originator; maker; one who completes a work of science or literature" (Burrow-Giles Lithographic Co. v. Sarony, 1884). Если хочется чуть более современный прецедент то в Urantia Found. v. Kristen Maaherra, 1997 было постановлено что "some element of human creativity must have occurred in order for the Book to be copyrightable".
Я жду развития этой истории, потому что на основе этих же законов фотография может покрываться копирайтом из-за "human selection and arrangement of the revelations". И тут есть шансы доказать что создание высококачественных изображений передающих то что автор хочет с помощью text2image — это процесс в котором человек как раз и занимается "selection and arrangement"
Новость, документ
United States Copyright Office отозвал копирайт на изображения из Zarya of the Dawn сгенерированные Kris Kashtanova с помощью Midjorney. Теперь копирайт распространяется только на текст в комиксе и с помощью которого были сгенерированы изображения.
We conclude that Ms. Kashtanova is the author of the Work’s text as well as the selection, coordination, and arrangement of the Work’s written and visual elements. That authorship is protected by copyright. However, as discussed below, the images in the Work that were generated by the Midjourney technology are not the product of human authorship.
Изначально копирайт был одобрен, но в заявлении автор не указал что изображения сгенерированы. Дальше идёт забавное "the Office became aware of statements on social media attributed to Ms. Kashtanova that she had created the comic book using Midjourney". То есть Copyright Office узнал об этом из твиттера 🤷♂️
В общем понятно следующее: роботов опять дискриминируют 🤖. Основы дискриминаци, как и всегда, построены на устаревших интерпретациях законов. Конкретно зацепились за “works of authorship” где утверждают что она относится только к работам авторов-людей. А автор определяется как "he to whom anything owes its origin; originator; maker; one who completes a work of science or literature" (Burrow-Giles Lithographic Co. v. Sarony, 1884). Если хочется чуть более современный прецедент то в Urantia Found. v. Kristen Maaherra, 1997 было постановлено что "some element of human creativity must have occurred in order for the Book to be copyrightable".
Я жду развития этой истории, потому что на основе этих же законов фотография может покрываться копирайтом из-за "human selection and arrangement of the revelations". И тут есть шансы доказать что создание высококачественных изображений передающих то что автор хочет с помощью text2image — это процесс в котором человек как раз и занимается "selection and arrangement"
👍16🤡7🔥2
Forwarded from DeepSchool
🎙Онлайн-подкаст с Владом Лялиным
Хотим попробовать новый формат контента в нашем канале! В четверг, 2 марта, в 18:00 МСК проведем прямой эфир.
Коротко о Владе:
- учится на PhD в Бостоне, США (примеры статей Влада: раз, два, три);
- автор канала DL in NLP с 5.7к подписчиками — там Влад делится опытом, освещает новости из мира ML и обозревает статьи;
- преподает NLP в UMass Lowel (в России преподавал NLP, работая в iPavlov);
- стажировался в Apple, Google и Amazon.
На подкасте мы поговорим про:
- нетворкинг для инженеров — почему это важно и как начать;
- переезд в штаты — как Влад поступил на PhD и его рекомендации;
- стажировки в FAANG — как попасть на стажировку в лучшие технические компании;
- быт ресерчера в Америке — какие задачи решают в корпорациях мирового масштаба прямо сейчас;
В конце встречи вы сможете задать Владу свои вопросы из онлайн-зала. Или оставляйте вопросы в гугл-форме – некоторые из них мы зададим во время подкаста.
Встречаемся здесь в четверг, 2 марта, в 18:00 МСК 🔔
Хотим попробовать новый формат контента в нашем канале! В четверг, 2 марта, в 18:00 МСК проведем прямой эфир.
Коротко о Владе:
- учится на PhD в Бостоне, США (примеры статей Влада: раз, два, три);
- автор канала DL in NLP с 5.7к подписчиками — там Влад делится опытом, освещает новости из мира ML и обозревает статьи;
- преподает NLP в UMass Lowel (в России преподавал NLP, работая в iPavlov);
- стажировался в Apple, Google и Amazon.
На подкасте мы поговорим про:
- нетворкинг для инженеров — почему это важно и как начать;
- переезд в штаты — как Влад поступил на PhD и его рекомендации;
- стажировки в FAANG — как попасть на стажировку в лучшие технические компании;
- быт ресерчера в Америке — какие задачи решают в корпорациях мирового масштаба прямо сейчас;
В конце встречи вы сможете задать Владу свои вопросы из онлайн-зала. Или оставляйте вопросы в гугл-форме – некоторые из них мы зададим во время подкаста.
Встречаемся здесь в четверг, 2 марта, в 18:00 МСК 🔔
👍21🔥6💩2
^^^ Прихожу в подкаст @deep_school в четверг. Заходите послушать если вдруг интересно.
👍31🤮8
Forwarded from Сиолошная
ChatGPT в массы!
OpenAI только что написали, что теперь ChatGPT доступна по API, то есть каждый разработчик может добавить её в своё приложение буквально за один вечер. Из интересного - пишут, что с декабря достигли 90% снижения трат через разные оптимизации.
Цена в 10 раз ниже самой мощной GPT-3.5, которая была доступна для этого. Вероятнее всего, модель уменьшили в размерах (то есть это может быть условно не 175B, а 6.7B модель, которая тоже очень неплоха).
Еще объявили о нескольких интеграциях, например, в Quizlet -сервис, способствующий обучению и изучению новых тем. Теперь будет доступен персональный AI-преподаватель, который подскажет и объяснит.
Instacart позволить покупателям задавать вопросы о еде («Как приготовить рыбные тако?» или «Предложи здоровый обед для моих детей») и получать вдохновляющие ответы, содержащие ссылки на товары, которые можно купить в один клик. Пока из того что видел - первая подобная интеграция, некоторого рода "продукт-плейсмент". Вижу применение этого и в поисковых чатботах - когда в выдачу подмешиваются ссылки, за которые заплатили.
Техническая инфа: теперь для запроса в модель нужно указывать не только текст для продолжения, но и дополнительные штучки - их перечень сведён в Chat Markup Language (“ChatML”). В частности, предполагаются "роли", так как модель была заточена под диалог - есть AI-ассистент, который пишет ответы, и есть "человек", пишущий сообщения с вашей стороны.
И напоследок важное:
> Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in
Теперь данные клиентов не будут использоваться для дообучения в будущем!
OpenAI только что написали, что теперь ChatGPT доступна по API, то есть каждый разработчик может добавить её в своё приложение буквально за один вечер. Из интересного - пишут, что с декабря достигли 90% снижения трат через разные оптимизации.
Цена в 10 раз ниже самой мощной GPT-3.5, которая была доступна для этого. Вероятнее всего, модель уменьшили в размерах (то есть это может быть условно не 175B, а 6.7B модель, которая тоже очень неплоха).
Еще объявили о нескольких интеграциях, например, в Quizlet -сервис, способствующий обучению и изучению новых тем. Теперь будет доступен персональный AI-преподаватель, который подскажет и объяснит.
Instacart позволить покупателям задавать вопросы о еде («Как приготовить рыбные тако?» или «Предложи здоровый обед для моих детей») и получать вдохновляющие ответы, содержащие ссылки на товары, которые можно купить в один клик. Пока из того что видел - первая подобная интеграция, некоторого рода "продукт-плейсмент". Вижу применение этого и в поисковых чатботах - когда в выдачу подмешиваются ссылки, за которые заплатили.
Техническая инфа: теперь для запроса в модель нужно указывать не только текст для продолжения, но и дополнительные штучки - их перечень сведён в Chat Markup Language (“ChatML”). В частности, предполагаются "роли", так как модель была заточена под диалог - есть AI-ассистент, который пишет ответы, и есть "человек", пишущий сообщения с вашей стороны.
И напоследок важное:
> Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in
Теперь данные клиентов не будут использоваться для дообучения в будущем!
🔥26👍9
О скором релизе GPT-4
Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:
1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность: протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов
Хайп по OpenAI лишь набирает обороты
Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:
1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность: протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов
Хайп по OpenAI лишь набирает обороты
Developer
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
The release of GPT-4 is imminent, as Microsoft Germany CTO Andreas Braun mentioned at an AI kickoff event on 9 March 2023.
🤯58🔥5👍3❤2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Ух, ребята подняли LLaMA 7B model на 4GB RAM Raspberry Pi 4.
Похоже скоро любая микроволновка или пылесос смогут бесконечно с вами разговаривать за жизнь.
Кроме шуток - это реально круто, автономные девайсы с мета-chatGPT на борту без подключения к интернету.
Ну и похоже большая языковая модель LLaMA от Меты, скоро будет играть роль Stable Diffusion в области генерации диалогов. Ее выпустили на свободу, а слово, как известно, не воробей, его уже не поймаешь (хотя тут напрашивается шутка про бота Google Sparrow).
Ждем Automatic1111 для LLaMA с возможность дообучения и запуска на ноутбуках.
https://twitter.com/miolini/status/1634982361757790209
Похоже скоро любая микроволновка или пылесос смогут бесконечно с вами разговаривать за жизнь.
Кроме шуток - это реально круто, автономные девайсы с мета-chatGPT на борту без подключения к интернету.
Ну и похоже большая языковая модель LLaMA от Меты, скоро будет играть роль Stable Diffusion в области генерации диалогов. Ее выпустили на свободу, а слово, как известно, не воробей, его уже не поймаешь (хотя тут напрашивается шутка про бота Google Sparrow).
Ждем Automatic1111 для LLaMA с возможность дообучения и запуска на ноутбуках.
https://twitter.com/miolini/status/1634982361757790209
X (formerly Twitter)
Artem Andreenko (@miolini) on X
I've sucefully runned LLaMA 7B model on my 4GB RAM Raspberry Pi 4. It's super slow about 10sec/token. But it looks we can run powerful cognitive pipelines on a cheap hardware.
👍23🔥3❤2