Попробовал AI Test Kitchen от Google в котором можно пообщаться с Lambda
Сам факт существования этого приложения и того что гугл даёт ознакомиться с их внутренними нейросетками очень классный. Рисёч команда гугла одна из самых крутых в мире. Вспомните те же самые T5, PALM, CoCa, и Imagen. Думаю могу спокойно назвать ещё десяток.
Но дальше вступает продуктовая сторона гугла и тут уже такое. Lambda пока что доступна только в виде демок, где часть самого первого промпта уже задана "Imagine I'm at" и вы можете только дописать где-то 100 символов. После этого всё что модель позволяет это выбирать предзаготовленные фразы.
Местами генерации очень хороши, пообщался с Lambda в ресторане на краю вселенной Дугласа Адамса. Lambda правильно вспомнила про робота Марвина страдающего депрессией и Pan Galactic Gargle Blaster. Но из-за restrictive интерфейса ничего полезного пока что сделать нельзя 😞
В моём воображении в гугле сейчас происходит борьба тех кто понимает насколько генеративные модели революционны и их продуктологов которые считают что им нельзя рисковать тем чтобы давать неправдоподобную информацию, а также не могут придумать как это монетизировать.
Сам факт существования этого приложения и того что гугл даёт ознакомиться с их внутренними нейросетками очень классный. Рисёч команда гугла одна из самых крутых в мире. Вспомните те же самые T5, PALM, CoCa, и Imagen. Думаю могу спокойно назвать ещё десяток.
Но дальше вступает продуктовая сторона гугла и тут уже такое. Lambda пока что доступна только в виде демок, где часть самого первого промпта уже задана "Imagine I'm at" и вы можете только дописать где-то 100 символов. После этого всё что модель позволяет это выбирать предзаготовленные фразы.
Местами генерации очень хороши, пообщался с Lambda в ресторане на краю вселенной Дугласа Адамса. Lambda правильно вспомнила про робота Марвина страдающего депрессией и Pan Galactic Gargle Blaster. Но из-за restrictive интерфейса ничего полезного пока что сделать нельзя 😞
В моём воображении в гугле сейчас происходит борьба тех кто понимает насколько генеративные модели революционны и их продуктологов которые считают что им нельзя рисковать тем чтобы давать неправдоподобную информацию, а также не могут придумать как это монетизировать.
👍6🔥1
Nothing, Forever
twitch.tv/watchmeforever
What is this?
Nothing, Forever is a show about nothing, that happens forever. Kinda like popular sitcoms of the past, except that it never stops.
@oi_marina скинула мне просто порясающий проект — бесконечный нерогенерируемый Сейнфилд. Судя по тому что я вижу, там языковая модель на тексте, и видео в каком-то 3D движке, пока не понял насколько оно меняется в зависимости от текста, но как правило люди двигаются во время их реплик.
В общем восхитительный арт-проект, может быть для тех кто смотрит сериалы в фоне даже зайдёт 😅
twitch.tv/watchmeforever
What is this?
Nothing, Forever is a show about nothing, that happens forever. Kinda like popular sitcoms of the past, except that it never stops.
@oi_marina скинула мне просто порясающий проект — бесконечный нерогенерируемый Сейнфилд. Судя по тому что я вижу, там языковая модель на тексте, и видео в каком-то 3D движке, пока не понял насколько оно меняется в зависимости от текста, но как правило люди двигаются во время их реплик.
В общем восхитительный арт-проект, может быть для тех кто смотрит сериалы в фоне даже зайдёт 😅
❤14❤🔥1
Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
Тык
Как-то без помпы(либо я не заметил из-за того что твиттер читать без Tweetbot стало гораздо сложнее) Tim Dettmers обновил свой легендарный пост по выбору GPU. Теперь в него добавились Ampere (30XX) и Ada (40XX) GPUs и есть отличное описание того почему tensor cores крутые и почему теперь надо беспокоиться о скорости памяти, а не о числе ядер. Также Ada поддерживает FP8 (!=int8, который поддерживается и Ampere) который может привести к новому 2x скачку производительности в диплёрнинге. Также обновлены главы о sparse matrix multiplication, добавлены бенчмарки int8 и обновлены ответы на PCIe v4/5 и Infiniband.
Тык
Как-то без помпы
🔥38👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Aim — опенсорсный wandb
github.com/aimhubio/aim
Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.
1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю приветTrains ClearML)
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе
Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.
В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.
github.com/aimhubio/aim
Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.
1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю привет
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе
Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.
В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.
🔥33👍9❤1
⚡️Andrej Karpathy присоединяется к OpenAI
twitter.com/karpathy/status/1623476659369443328
Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.
twitter.com/karpathy/status/1623476659369443328
Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.
Twitter
Some personal news: I am joining OpenAI (again :)). Like many others both in/out of AI, I am very inspired by the impact of their work and I have personally benefited greatly from it. The future potential is especially exciting; it is a great pleasure to…
🔥63👍5
Forwarded from Neural Shit
Интересная статья для тех, кто ковыряется с языковыми модельками, особенно с gpt2 и gpt3.
Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.
Там же в статье список этих токенов и возможное объяснение, почему так происходит.
Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.
Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.
Там же в статье список этих токенов и возможное объяснение, почему так происходит.
Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.
Lesswrong
SolidGoldMagikarp (plus, prompt generation) — LessWrong
Researchers have discovered a set of "glitch tokens" that cause ChatGPT and other language models to produce bizarre, erratic, and sometimes inapprop…
😁42👍11🔥9
Forwarded from Hacker News
Bing ChatGTP demands an apology from user for claiming it's 2023 (🔥 Score: 151+ in 3 hours)
Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3
Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3
Reddit
From the bing community on Reddit: the customer service of the new bing chat is amazing
Explore this post and more from the bing community
👍3💩2🥰1
DeepSchool
У нас сегодня немного необычное #промо
Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:
1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.
Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.
А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.
У нас сегодня немного необычное #промо
Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:
1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.
Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.
А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.
👍21❤4🖕3⚡1
When a distinguished but elderly scientist states that something is possible, he is almost certainly right. When he states that something is impossible, he is very probably wrong.
en.wikipedia.org/wiki/Clarke%27s_three_laws
Кажется ЛеКун переметнулся из первой команды во вторую 🤷♂️
en.wikipedia.org/wiki/Clarke%27s_three_laws
Кажется ЛеКун переметнулся из первой команды во вторую 🤷♂️
Wikipedia
Clarke's three laws
three adages proposed by British science fiction writer Arthur C. Clarke about science and technology
👍7🔥2
Forwarded from AI для Всех
Андрей Карпати анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.
🤔22🔥10👍5❤1🤨1
Со мной тут внезапно связались организаторы Field Matters Workshop на EACL 2023
Вот что они про себя говорят
Field Matters — воркшоп об NLP в полевой лингвистике: уменьшаем количество рутины и снижаем порог вхождения в полевые исследования; ведём прикладные разработки, осенью провели секцию на COLING2022 в Южной Корее, а весной будем её проводить на EACL2023 в Хорватии. Но в первую очередь мы формируем сообщество — инженеров, полевых лингвистов и носителей языков, которые понимают ограничения и перспективы технологий, разделяют стремление к доступности исследовательских данных.
И мы очень ищем статьи!
Если у вас есть работы про:
- кросслингвальный трансфер лернинг
- мультилингвальные модели
- построение NLP-инструментов, аугментацию данных, создание датасетов для малых языков
- и вообще про все, что связывает NLP (в любом виде) и малоресурсные языки...
мы будем рады вашим работам. Дедлайн для отправки: 23 февраля 2023 года
(А еще у нас интересные панельные дискуссии, в прошлом году, например, выступал создатель NLTK)
Больше подробностей на сайте: bit.ly/fieldmatters2023
И еще можно следить за обновлениями в твиттере @field_matters
Вот что они про себя говорят
Field Matters — воркшоп об NLP в полевой лингвистике: уменьшаем количество рутины и снижаем порог вхождения в полевые исследования; ведём прикладные разработки, осенью провели секцию на COLING2022 в Южной Корее, а весной будем её проводить на EACL2023 в Хорватии. Но в первую очередь мы формируем сообщество — инженеров, полевых лингвистов и носителей языков, которые понимают ограничения и перспективы технологий, разделяют стремление к доступности исследовательских данных.
И мы очень ищем статьи!
Если у вас есть работы про:
- кросслингвальный трансфер лернинг
- мультилингвальные модели
- построение NLP-инструментов, аугментацию данных, создание датасетов для малых языков
- и вообще про все, что связывает NLP (в любом виде) и малоресурсные языки...
мы будем рады вашим работам. Дедлайн для отправки: 23 февраля 2023 года
(А еще у нас интересные панельные дискуссии, в прошлом году, например, выступал создатель NLTK)
Больше подробностей на сайте: bit.ly/fieldmatters2023
И еще можно следить за обновлениями в твиттере @field_matters
🔥13👍1
Toolformer: Language Models Can Teach Themselves to Use Tools
arxiv.org/abs/2302.04761
Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.
Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:
Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.
Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)
Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).
Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.
arxiv.org/abs/2302.04761
Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.
Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:
Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.
Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)
Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).
Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.
👍15
Large Transformer Model Inference Optimization
Lilian Weng, OpenAI
Тык
🔥 Огненный блогпост от Head of Applied Research из OpenAI
Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно
Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.
Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.
GPUs конечно go brr, но надо делать brr эффективно
Lilian Weng, OpenAI
Тык
Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно
Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.
Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.
GPUs конечно go brr, но надо делать brr эффективно
Please open Telegram to view this post
VIEW IN TELEGRAM
lilianweng.github.io
Large Transformer Model Inference Optimization
[Updated on 2023-01-24: add a small section on Distillation.]
Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both…
Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both…
👍27🔥13❤1
В Тинькофф классная финтех-команда, которая ведет свой телеграм-канал, в нем они пишут о:
— подкастах, кейсах и полезных статьях на Хабре;
— развитии ИТ-коммьюнити, а также проводят митапы и конференции;
— главном в еженедельный дайджест;
— лучших мемах индустрии.
Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.
#промо
— подкастах, кейсах и полезных статьях на Хабре;
— развитии ИТ-коммьюнити, а также проводят митапы и конференции;
— главном в еженедельный дайджест;
— лучших мемах индустрии.
Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.
#промо
🤮52👍11💩3👎2😁2