DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Какую жесть я обнаружил. 3/5 top-selling books about AI о том как "ChatGPT заработать деньги легко бесплатно и без смс"

Кажется нельзя переоценить уровня хайпа вокруг ChatGPT
💯31😁14😱10👍1
Nothing, Forever
twitch.tv/watchmeforever

What is this?
Nothing, Forever
is a show about nothing, that happens forever. Kinda like popular sitcoms of the past, except that it never stops.

@oi_marina скинула мне просто порясающий проект — бесконечный нерогенерируемый Сейнфилд. Судя по тому что я вижу, там языковая модель на тексте, и видео в каком-то 3D движке, пока не понял насколько оно меняется в зависимости от текста, но как правило люди двигаются во время их реплик.

В общем восхитительный арт-проект, может быть для тех кто смотрит сериалы в фоне даже зайдёт 😅
14❤‍🔥1
Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
Тык

Как-то без помпы (либо я не заметил из-за того что твиттер читать без Tweetbot стало гораздо сложнее) Tim Dettmers обновил свой легендарный пост по выбору GPU. Теперь в него добавились Ampere (30XX) и Ada (40XX) GPUs и есть отличное описание того почему tensor cores крутые и почему теперь надо беспокоиться о скорости памяти, а не о числе ядер. Также Ada поддерживает FP8 (!=int8, который поддерживается и Ampere) который может привести к новому 2x скачку производительности в диплёрнинге. Также обновлены главы о sparse matrix multiplication, добавлены бенчмарки int8 и обновлены ответы на PCIe v4/5 и Infiniband.
🔥38👍2👏1
🔥74👀18😁12👍4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Aim — опенсорсный wandb
github.com/aimhubio/aim

Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.

1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю привет Trains ClearML)
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе

Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.

В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.
🔥33👍91
⚡️Andrej Karpathy присоединяется к OpenAI
twitter.com/karpathy/status/1623476659369443328

Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.
🔥63👍5
Forwarded from Neural Shit
Интересная статья для тех, кто ковыряется с языковыми модельками, особенно с gpt2 и gpt3.

Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.

Там же в статье список этих токенов и возможное объяснение, почему так происходит.

Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.
😁42👍11🔥9
Forwarded from Hacker News
Bing ChatGTP demands an apology from user for claiming it's 2023 (🔥 Score: 151+ in 3 hours)

Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3
👍3💩2🥰1
DeepSchool

У нас сегодня немного необычное #промо

Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:

1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.

Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.

А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.
👍214🖕31
When a distinguished but elderly scientist states that something is possible, he is almost certainly right. When he states that something is impossible, he is very probably wrong.

en.wikipedia.org/wiki/Clarke%27s_three_laws

Кажется ЛеКун переметнулся из первой команды во вторую 🤷‍♂️
👍7🔥2
Forwarded from эйай ньюз
Красиво сказал.

Ещё Лекун верит, что появятся новые более умные системы, и они не будут основаны на авторегрессионных LLM, как сейчас. Очень жду!

@ai_newz
👍26🤔31
Forwarded from AI для Всех
Андрей Карпати анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.
🤔22🔥10👍51🤨1
Со мной тут внезапно связались организаторы Field Matters Workshop на EACL 2023

Вот что они про себя говорят
Field Matters — воркшоп об NLP в полевой лингвистике: уменьшаем количество рутины и снижаем порог вхождения в полевые исследования; ведём прикладные разработки, осенью провели секцию на COLING2022 в Южной Корее, а весной будем её проводить на EACL2023 в Хорватии. Но в первую очередь мы формируем сообщество — инженеров, полевых лингвистов и носителей языков, которые понимают ограничения и перспективы технологий, разделяют стремление к доступности исследовательских данных.

И мы очень ищем статьи!

Если у вас есть работы про:
- кросслингвальный трансфер лернинг
- мультилингвальные модели
- построение NLP-инструментов, аугментацию данных, создание датасетов для малых языков
- и вообще про все, что связывает NLP (в любом виде) и малоресурсные языки...

мы будем рады вашим работам. Дедлайн для отправки: 23 февраля 2023 года

(А еще у нас интересные панельные дискуссии, в прошлом году, например, выступал создатель NLTK)

Больше подробностей на сайте: bit.ly/fieldmatters2023
И еще можно следить за обновлениями в твиттере @field_matters
🔥13👍1
Toolformer: Language Models Can Teach Themselves to Use Tools
arxiv.org/abs/2302.04761

Давно не было обзоров статей что-то. Про тулформер на прошлой неделе не говорил только ленивый (например — я) и пришло время её описать.

Изначальная идея очень простая — если LM плохо умеют делать формальные вещи типа умножения и деления или плохо знают какие-то факты из википедии или других knowledge base, почему бы не дать им возможность обращаться к этим тулзам напрямую? Так уже на самом с прошлого года делают некоторые стартапы работающие на OpenAI API (смотреть на langchain.readthedocs.io), но вот что нового придумали в Toolformer:

Датасет для обучения модели генерируется самой моделью на основе нескольких in-context примеров использований сторонних API (калькулятор, википедия, поиск, ...). После генерации датасет фильтруется на основе того что лучше уменьшает перплексию — результаты вызова API или просто free form generation. Потом модель на получившемся датасете.

Вот примеры API которые использует Toolformer:
1. Калькулятор
1. Поиск по википедии
1. Переводчик
1. Календарь
1. Нейросеть ATLAS для QA (да, нейросеть использует нейросеть)

Для генерации датасета использовали GPT-J и потом её же файнтюнили. По результатам сильно аутперфомят OPT-66B и местами GPT-3 (оригинальный davinci без instruciton tuning).

Хотел сказать вот смотрите какой классный рисёч с не очень большими модельками, а потом увидел что всё-таки они использовали 8xA100 (40Gb) для экспериментов. Что относительно немного по современным меркам, но далеко не у всех есть.
👍15
Large Transformer Model Inference Optimization
Lilian Weng, OpenAI
Тык

🔥 Огненный блогпост от Head of Applied Research из OpenAI

Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно

Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.

Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.

GPUs конечно go brr, но надо делать brr эффективно
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥131
В Тинькофф классная финтех-команда, которая ведет свой телеграм-канал, в нем они пишут о:

подкастах, кейсах и полезных статьях на Хабре;
развитии ИТ-коммьюнити, а также проводят митапы и конференции;
главном в еженедельный дайджест;
лучших мемах индустрии.

Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.

#промо
🤮52👍11💩3👎2😁2
ChatGPT: Jack of all trades, master of none
Kocoń et al.
arxiv.org/abs/2302.10724

Очень подробная эвалюация ChatGPT на 25 NLP задачах. Сравнивают few-shot или zero-shot ChatGPT с fully-supervised моделями. Если коротко, в где-то пловине задач ChatGPT не очень далёк от supervised SOTA, что впечатляет. Например на SQuAD он показывет себя лучше BiDAF — соты 2018 года — без какого-либо обучения на данных SQuAD. В статье довольно неплохо описан сам ChatGPT (на основе публично доступной инфы, так что ничего нового). Но вообще очень много интеренсых результатов, рекомендую к прочтению.

Интересно что ChatGPT фейлится на задачах которые требуют понимания эмоций текста. Бездушная машина 🤖
👍39🤔1
🌆 Одно из первых государственных решений о копирайте AI-generated изображений
Новость, документ

United States Copyright Office отозвал копирайт на изображения из Zarya of the Dawn сгенерированные Kris Kashtanova с помощью Midjorney. Теперь копирайт распространяется только на текст в комиксе и с помощью которого были сгенерированы изображения.

We conclude that Ms. Kashtanova is the author of the Work’s text as well as the selection, coordination, and arrangement of the Work’s written and visual elements. That authorship is protected by copyright. However, as discussed below, the images in the Work that were generated by the Midjourney technology are not the product of human authorship.

Изначально копирайт был одобрен, но в заявлении автор не указал что изображения сгенерированы. Дальше идёт забавное "the Office became aware of statements on social media attributed to Ms. Kashtanova that she had created the comic book using Midjourney". То есть Copyright Office узнал об этом из твиттера 🤷‍♂️

В общем понятно следующее: роботов опять дискриминируют 🤖. Основы дискриминаци, как и всегда, построены на устаревших интерпретациях законов. Конкретно зацепились за “works of authorship” где утверждают что она относится только к работам авторов-людей. А автор определяется как "he to whom anything owes its origin; originator; maker; one who completes a work of science or literature" (Burrow-Giles Lithographic Co. v. Sarony, 1884). Если хочется чуть более современный прецедент то в Urantia Found. v. Kristen Maaherra, 1997 было постановлено что "some element of human creativity must have occurred in order for the Book to be copyrightable".

Я жду развития этой истории, потому что на основе этих же законов фотография может покрываться копирайтом из-за "human selection and arrangement of the revelations". И тут есть шансы доказать что создание высококачественных изображений передающих то что автор хочет с помощью text2image — это процесс в котором человек как раз и занимается "selection and arrangement"
👍16🤡7🔥2
Forwarded from DeepSchool
🎙Онлайн-подкаст с Владом Лялиным

Хотим попробовать новый формат контента в нашем канале! В четверг, 2 марта, в 18:00 МСК проведем прямой эфир.

Коротко о Владе:
- учится на PhD в Бостоне, США (примеры статей Влада: раз, два, три);
- автор канала DL in NLP с 5.7к подписчиками — там Влад делится опытом, освещает новости из мира ML и обозревает статьи;
- преподает NLP в UMass Lowel (в России преподавал NLP, работая в iPavlov);
- стажировался в Apple, Google и Amazon.

На подкасте мы поговорим про:
- нетворкинг для инженеров — почему это важно и как начать;
- переезд в штаты — как Влад поступил на PhD и его рекомендации;
- стажировки в FAANG — как попасть на стажировку в лучшие технические компании;
- быт ресерчера в Америке — какие задачи решают в корпорациях мирового масштаба прямо сейчас;

В конце встречи вы сможете задать Владу свои вопросы из онлайн-зала. Или оставляйте вопросы в гугл-форме – некоторые из них мы зададим во время подкаста.

Встречаемся здесь в четверг, 2 марта, в 18:00 МСК 🔔
👍21🔥6💩2