DL in NLP

Какую жесть я обнаружил. 3/5 top-selling books about AI о том как "ChatGPT заработать деньги легко бесплатно и без смс"

Кажется нельзя переоценить уровня хайпа вокруг ChatGPT

💯31😁14😱10👍1

4.72K viewsVlad Lialin, 00:05

DL in NLP

Nothing, Forever
twitch.tv/watchmeforever

What is this?
Nothing, Forever is a show about nothing, that happens forever. Kinda like popular sitcoms of the past, except that it never stops.

@oi_marina скинула мне просто порясающий проект — бесконечный нерогенерируемый Сейнфилд. Судя по тому что я вижу, там языковая модель на тексте, и видео в каком-то 3D движке, пока не понял насколько оно меняется в зависимости от текста, но как правило люди двигаются во время их реплик.

В общем восхитительный арт-проект, может быть для тех кто смотрит сериалы в фоне даже зайдёт 😅

❤14❤‍🔥1

4.84K viewsVlad Lialin, 17:00

DL in NLP

Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
Тык

Как-то без помпы (либо я не заметил из-за того что твиттер читать без Tweetbot стало гораздо сложнее) Tim Dettmers обновил свой легендарный пост по выбору GPU. Теперь в него добавились Ampere (30XX) и Ada (40XX) GPUs и есть отличное описание того почему tensor cores крутые и почему теперь надо беспокоиться о скорости памяти, а не о числе ядер. Также Ada поддерживает FP8 (!=int8, который поддерживается и Ampere) который может привести к новому 2x скачку производительности в диплёрнинге. Также обновлены главы о sparse matrix multiplication, добавлены бенчмарки int8 и обновлены ответы на PCIe v4/5 и Infiniband.

🔥38👍2👏1

4.9K viewsVlad Lialin, 21:52

DL in NLP

🔥74👀18😁12👍4😱3

4.68K viewsVlad Lialin, 04:20

DL in NLP

This media is not supported in your browser

VIEW IN TELEGRAM

Aim — опенсорсный wandb
github.com/aimhubio/aim

Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.

1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю привет ~~Trains~~ ClearML)
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе

Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.

В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.

🔥33👍9❤1

5.22K viewsVlad Lialin, edited 17:23

DL in NLP

https://www.theverge.com/2023/2/7/23588249/microsoft-event-ai-live-blog-openai-chatgpt-bing-announcements-news

The Verge

Microsoft’s ChatGPT event live blog

Microsoft is holding a surprise in-person event where it’s likely to demo a version of Bing with ChatGPT integrated and much more.

🔥4

4.38K viewsVlad Lialin, 18:34

DL in NLP

⚡️Andrej Karpathy присоединяется к OpenAI
twitter.com/karpathy/status/1623476659369443328

Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.

Twitter

Some personal news: I am joining OpenAI (again :)). Like many others both in/out of AI, I am very inspired by the impact of their work and I have personally benefited greatly from it. The future potential is especially exciting; it is a great pleasure to…

🔥63👍5

4.67K viewsVlad Lialin, 00:39

DL in NLP

Forwarded from Neural Shit

Интересная статья для тех, кто ковыряется с языковыми модельками, особенно с gpt2 и gpt3.

Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.

Там же в статье список этих токенов и возможное объяснение, почему так происходит.

Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.

Lesswrong

SolidGoldMagikarp (plus, prompt generation) — LessWrong

Researchers have discovered a set of "glitch tokens" that cause ChatGPT and other language models to produce bizarre, erratic, and sometimes inapprop…

😁42👍11🔥9

4.27K viewsVlad Lialin, 07:03

DL in NLP

Forwarded from Hacker News

Bing ChatGTP demands an apology from user for claiming it's 2023 (🔥 Score: 151+ in 3 hours)

Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3

From the bing community on Reddit: the customer service of the new bing chat is amazing

Explore this post and more from the bing community

👍3💩2🥰1

3.16K viewsVlad Lialin, 14:25

Read 57+ Comments

DL in NLP

DeepSchool

У нас сегодня немного необычное #промо

Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:

1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.

Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.

А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.

👍21❤4🖕3⚡1

3.74K viewsVlad Lialin, 09:01

DL in NLP

When a distinguished but elderly scientist states that something is possible, he is almost certainly right. When he states that something is impossible, he is very probably wrong.

en.wikipedia.org/wiki/Clarke%27s_three_laws

Кажется ЛеКун переметнулся из первой команды во вторую 🤷‍♂️

Wikipedia

Clarke's three laws

three adages proposed by British science fiction writer Arthur C. Clarke about science and technology

👍7🔥2

3.83K viewsVlad Lialin, 14:50

DL in NLP

Forwarded from эйай ньюз

Красиво сказал.

Ещё Лекун верит, что появятся новые более умные системы, и они не будут основаны на авторегрессионных LLM, как сейчас. Очень жду!

@ai_newz

👍26🤔3⚡1

3.25K viewsVlad Lialin, 14:50

DL in NLP

Forwarded from AI для Всех

Андрей Карпати анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.

🤔22🔥10👍5❤1🤨1

3.26K viewsVlad Lialin, 23:31

DL in NLP

Со мной тут внезапно связались организаторы Field Matters Workshop на EACL 2023

Вот что они про себя говорят
Field Matters — воркшоп об NLP в полевой лингвистике: уменьшаем количество рутины и снижаем порог вхождения в полевые исследования; ведём прикладные разработки, осенью провели секцию на COLING2022 в Южной Корее, а весной будем её проводить на EACL2023 в Хорватии. Но в первую очередь мы формируем сообщество — инженеров, полевых лингвистов и носителей языков, которые понимают ограничения и перспективы технологий, разделяют стремление к доступности исследовательских данных.

И мы очень ищем статьи!

Если у вас есть работы про:
- кросслингвальный трансфер лернинг
- мультилингвальные модели
- построение NLP-инструментов, аугментацию данных, создание датасетов для малых языков
- и вообще про все, что связывает NLP (в любом виде) и малоресурсные языки...

мы будем рады вашим работам. Дедлайн для отправки: 23 февраля 2023 года

(А еще у нас интересные панельные дискуссии, в прошлом году, например, выступал создатель NLTK)

Больше подробностей на сайте: bit.ly/fieldmatters2023
И еще можно следить за обновлениями в твиттере @field_matters

🔥13👍1

3.48K viewsVlad Lialin, 16:15

DL in NLP

Toolformer: Language Models Can Teach Themselves to Use Tools
arxiv.org/abs/2302.04761

Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.

Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:

Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.

Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)

Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).

Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.

👍15

3.79K viewsVlad Lialin, edited 16:31

DL in NLP

Forwarded from gonzo-обзоры ML статей

https://time.com/6255952/ai-impact-chatgpt-microsoft-google/

https://time.com/magazine/

👍3

3.41K viewsVlad Lialin, 17:04

DL in NLP

Large Transformer Model Inference Optimization
Lilian Weng, OpenAI
Тык

🔥 Огненный блогпост от Head of Applied Research из OpenAI

Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно

Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.

Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.

GPUs конечно go brr, но надо делать brr эффективно

Please open Telegram to view this post

VIEW IN TELEGRAM

lilianweng.github.io

Large Transformer Model Inference Optimization

[Updated on 2023-01-24: add a small section on Distillation.]
Large transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both…

👍27🔥13❤1

7.56K viewsVlad Lialin, edited 15:55

DL in NLP

В Тинькофф классная финтех-команда, которая ведет свой телеграм-канал, в нем они пишут о:

— подкастах, кейсах и полезных статьях на Хабре;
— развитии ИТ-коммьюнити, а также проводят митапы и конференции;
— главном в еженедельный дайджест;
— лучших мемах индустрии.

Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.

#промо

🤮52👍11💩3👎2😁2

4.17K viewsVlad Lialin, 14:08

DL in NLP

ChatGPT: Jack of all trades, master of none
Kocoń et al.
arxiv.org/abs/2302.10724

Очень подробная эвалюация ChatGPT на 25 NLP задачах. Сравнивают few-shot или zero-shot ChatGPT с fully-supervised моделями. Если коротко, в где-то пловине задач ChatGPT не очень далёк от supervised SOTA, что впечатляет. Например на SQuAD он показывет себя лучше BiDAF — соты 2018 года — без какого-либо обучения на данных SQuAD. В статье довольно неплохо описан сам ChatGPT (на основе публично доступной инфы, так что ничего нового). Но вообще очень много интеренсых результатов, рекомендую к прочтению.

Интересно что ChatGPT фейлится на задачах которые требуют понимания эмоций текста. Бездушная машина 🤖

👍39🤔1

4.86K viewsVlad Lialin, 20:06

DL in NLP

🌆 Одно из первых государственных решений о копирайте AI-generated изображений
Новость, документ

United States Copyright Office отозвал копирайт на изображения из Zarya of the Dawn сгенерированные Kris Kashtanova с помощью Midjorney. Теперь копирайт распространяется только на текст в комиксе и с помощью которого были сгенерированы изображения.

We conclude that Ms. Kashtanova is the author of the Work’s text as well as the selection, coordination, and arrangement of the Work’s written and visual elements. That authorship is protected by copyright. However, as discussed below, the images in the Work that were generated by the Midjourney technology are not the product of human authorship.

Изначально копирайт был одобрен, но в заявлении автор не указал что изображения сгенерированы. Дальше идёт забавное "the Office became aware of statements on social media attributed to Ms. Kashtanova that she had created the comic book using Midjourney". То есть Copyright Office узнал об этом из твиттера 🤷‍♂️

В общем понятно следующее: роботов опять дискриминируют 🤖. Основы дискриминаци, как и всегда, построены на устаревших интерпретациях законов. Конкретно зацепились за “works of authorship” где утверждают что она относится только к работам авторов-людей. А автор определяется как "he to whom anything owes its origin; originator; maker; one who completes a work of science or literature" (Burrow-Giles Lithographic Co. v. Sarony, 1884). Если хочется чуть более современный прецедент то в Urantia Found. v. Kristen Maaherra, 1997 было постановлено что "some element of human creativity must have occurred in order for the Book to be copyrightable".

Я жду развития этой истории, потому что на основе этих же законов фотография может покрываться копирайтом из-за "human selection and arrangement of the revelations". И тут есть шансы доказать что создание высококачественных изображений передающих то что автор хочет с помощью text2image — это процесс в котором человек как раз и занимается "selection and arrangement"

👍16🤡7🔥2

5.97K viewsVlad Lialin, edited 16:23

DL in NLP

Forwarded from DeepSchool

🎙Онлайн-подкаст с Владом Лялиным

Хотим попробовать новый формат контента в нашем канале! В четверг, 2 марта, в 18:00 МСК проведем прямой эфир.

Коротко о Владе:
- учится на PhD в Бостоне, США (примеры статей Влада: раз, два, три);
- автор канала DL in NLP с 5.7к подписчиками — там Влад делится опытом, освещает новости из мира ML и обозревает статьи;
- преподает NLP в UMass Lowel (в России преподавал NLP, работая в iPavlov);
- стажировался в Apple, Google и Amazon.

На подкасте мы поговорим про:
- нетворкинг для инженеров — почему это важно и как начать;
- переезд в штаты — как Влад поступил на PhD и его рекомендации;
- стажировки в FAANG — как попасть на стажировку в лучшие технические компании;
- быт ресерчера в Америке — какие задачи решают в корпорациях мирового масштаба прямо сейчас;

В конце встречи вы сможете задать Владу свои вопросы из онлайн-зала. Или оставляйте вопросы в гугл-форме – некоторые из них мы зададим во время подкаста.

Встречаемся здесь в четверг, 2 марта, в 18:00 МСК 🔔

👍21🔥6💩2

3.3K viewsVlad Lialin, 22:34

About

Blog

Apps

Platform