Small Data Science for Russian Adventurers
11.2K subscribers
296 photos
3 videos
13 files
699 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#мысли
Одно из недооценённых направлений в ML (на мой взгляд) - это резервуарные вычисления. Подобные архитектуры упоминаются, например, в книге Гудфелло, но совсем мельком, занимались ими лишь несколько исследователей. С точки зрения современных архитектур, это RNN в которых специальным образом выбраны и зафиксированы веса, соответствующие рекуррентным связям, а обучаются все остальные. Это позволяет избежать проблемы взрыва и затухания градиента. Есть много (не обнародованных) хаков, как эффективно такие сети применять на практике, но вот хайпа вокруг них никогда не было. Для тех, кто хочет погрузиться в теорию резервуарных вычислений, есть, например такое видео:
https://www.youtube.com/watch?v=HfltqZa2Fco
#мысли
Понятно, когда в статье много соавторов и их долго перечислять, то выделяют основного и пишут "Хинтон и соавторы". Понятно, когда в разговоре забывается "кто ещё придумал". Но вот в научной статье так пренебрежительно... великий Хинтон и никому неизвестный чувак, имя которого даже не стоит упоминания.

Помню на одной конференции говорили VC-размерность - это размерность Вапника и его коллеги, т.к. "C" сокращение от colleague. А забытый Червоненкис, кстати, был очень скромным человеком:(
#мысли
У меня есть приятель, который получил такое же образование как я и даже работает формально DS-ом (точнее научным сотрудником в одном институте, но его отдел решает релевантные задачи), но совершенно не держит руку на пульсе современного машинного обучения. В частности, весь DL прошёл мимо нет - по работе это ему не нужно. Но иногда он всё-таки натыкается на какую-нибудь современную статью. Иногда он мне звонит и консультируется. И в принципе, задаёт вполне логичные вопросы для математика. Например, "слушай, тут написано CrossEntropyLoss, но это же вообще не похоже на перекрёстную энтропию, походу они ошиблись?" Кстати, хороший вопрос для экзамена/собеса, а почему не похоже;) Я тут решил подумать, а есть ли какой-то лёгкий путь "из математики в DS". Обнаружил, что создатели англоязычной Wiki (на русском этого нет) уже позаботились о людях. Например, в статье Cross Entropy есть специальный раздел про применение в машинном обучении (а ведь не так давно не было).
#мысли

В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.

GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
- Вы любите кофе?
Ответ "зелёный" - неадекватный, а "Да" - адекватный, но он всё равно плохой, т.к. не учитывает контекст.
Ответ "Нет, от него чернеют зубы" - учитывает, но и он может быть не очень хорошим, т.к. довольно банальный.
А вот ответ "Только африканский, он более полезен, как выяснили учёные из Калифорнии" небанальный, т.к. параллельно сообщает интересный факт.

Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...

Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)

П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.