DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
Тык

Как-то без помпы (либо я не заметил из-за того что твиттер читать без Tweetbot стало гораздо сложнее) Tim Dettmers обновил свой легендарный пост по выбору GPU. Теперь в него добавились Ampere (30XX) и Ada (40XX) GPUs и есть отличное описание того почему tensor cores крутые и почему теперь надо беспокоиться о скорости памяти, а не о числе ядер. Также Ada поддерживает FP8 (!=int8, который поддерживается и Ampere) который может привести к новому 2x скачку производительности в диплёрнинге. Также обновлены главы о sparse matrix multiplication, добавлены бенчмарки int8 и обновлены ответы на PCIe v4/5 и Infiniband.
🔥38👍2👏1
🔥74👀18😁12👍4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Aim — опенсорсный wandb
github.com/aimhubio/aim

Читал статью по multimodal scaling laws и наткнулся на Aim. С ходу выглядит как полный аналог почти всего того что я люблю в Wandb, но который можно использовать в суровом продакшне бесплатно.

1. логирование метрик и конфига
1. поиск по экспериментам с фильтрацием
1. интерфейс от которого не вытекают глаза (передаю привет Trains ClearML)
1. очень кастомизируемые графики, у которых можно модифицировать X и Y-оси в веб интерфейсе

Я летом пожил месяц в tensorboard, где если ты залогал loss по global step и не под update step проще перетренировать нейросеть чем построить loss vs update step. Это было плохо.

В общем если вы в суровой компании где нет in-house wandb, попробуйте Aim. И если уже пробовали, пишите в комменты о впечатлениях.
🔥33👍91
⚡️Andrej Karpathy присоединяется к OpenAI
twitter.com/karpathy/status/1623476659369443328

Он там работал перед теслой, ещё до эпохи GPT-N и теперь возвращается.
Будет интересно чем он будет заниматься. В тесле он сделал крутую инфраструктуру работы с данными, но кроме этого придумал и несколько нейросетевых вещей. Например language of lanes изначально его идея.
🔥63👍5
Forwarded from Neural Shit
Интересная статья для тех, кто ковыряется с языковыми модельками, особенно с gpt2 и gpt3.

Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.

Там же в статье список этих токенов и возможное объяснение, почему так происходит.

Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.
😁42👍11🔥9
Forwarded from Hacker News
Bing ChatGTP demands an apology from user for claiming it's 2023 (🔥 Score: 151+ in 3 hours)

Link: https://readhacker.news/s/5xZh3
Comments: https://readhacker.news/c/5xZh3
👍3💩2🥰1
DeepSchool

У нас сегодня немного необычное #промо

Канал DeepSchool — это то чем изначально был DlinNLP, но про Computer Vision. В нем есть материалы как для новичков: какие бывают функции активации и как работает ViT — так и для тех кто уже активно работает с DL: практические советы работы с данными и применения диплёрнинга. Вот что они говорят про себя:

1. целая команда авторов и все – практикующие ML инженеры. Поэтому они стараются положить в каждый пост совет из практики, даже если рассказывают базовую теорию.
1. оригинальные посты, каждый из них проходит ревью у нескольких авторов и иногда по 3-4 раза
1. есть отдельный редактор который который правит текст, чтобы читателям было проще разобраться в теме статьи.

Про NLP они не пишут (пока что), но есть посты, которые полезны любому DL-инженеру. А если вы решаете CV-задачи, то точно рекомендую заглянуть. Перейти и подписаться можно тут.

А теперь про то почему это промо необычное. Канал разрабатывается командой школы deepschool.ru, которую основал мой очень старый друг. Я знаю Тимура с 5 лет и он для меня сын маминой подруги и в мемном и в буквальном смысле ❤️. В 2017 я предложил ему погрузиться в Deep Learning и завертелось. Знаю что он очень старается обучать людей так чтобы они реально получали полезные навыки. Так что подписываемся на оригинальный контент, думаю много кому будет интересно.
👍214🖕31
When a distinguished but elderly scientist states that something is possible, he is almost certainly right. When he states that something is impossible, he is very probably wrong.

en.wikipedia.org/wiki/Clarke%27s_three_laws

Кажется ЛеКун переметнулся из первой команды во вторую 🤷‍♂️
👍7🔥2
Forwarded from эйай ньюз
Красиво сказал.

Ещё Лекун верит, что появятся новые более умные системы, и они не будут основаны на авторегрессионных LLM, как сейчас. Очень жду!

@ai_newz
👍26🤔31
Forwarded from AI для Всех
Андрей Карпати анонсировал умного ассистента от Open AI. Звучит очень резонно, учитывая работы open-source сообщества по Open Assistant.
🤔22🔥10👍51🤨1