#мысли
Одно из недооценённых направлений в ML (на мой взгляд) - это резервуарные вычисления. Подобные архитектуры упоминаются, например, в книге Гудфелло, но совсем мельком, занимались ими лишь несколько исследователей. С точки зрения современных архитектур, это RNN в которых специальным образом выбраны и зафиксированы веса, соответствующие рекуррентным связям, а обучаются все остальные. Это позволяет избежать проблемы взрыва и затухания градиента. Есть много (не обнародованных) хаков, как эффективно такие сети применять на практике, но вот хайпа вокруг них никогда не было. Для тех, кто хочет погрузиться в теорию резервуарных вычислений, есть, например такое видео:
https://www.youtube.com/watch?v=HfltqZa2Fco
Одно из недооценённых направлений в ML (на мой взгляд) - это резервуарные вычисления. Подобные архитектуры упоминаются, например, в книге Гудфелло, но совсем мельком, занимались ими лишь несколько исследователей. С точки зрения современных архитектур, это RNN в которых специальным образом выбраны и зафиксированы веса, соответствующие рекуррентным связям, а обучаются все остальные. Это позволяет избежать проблемы взрыва и затухания градиента. Есть много (не обнародованных) хаков, как эффективно такие сети применять на практике, но вот хайпа вокруг них никогда не было. Для тех, кто хочет погрузиться в теорию резервуарных вычислений, есть, например такое видео:
https://www.youtube.com/watch?v=HfltqZa2Fco
YouTube
Explaining the reservoir computing phenomenon using randomized discrete-time signatures
Speaker: Juan-Pablo Ortega
Event: Second Symposium on Machine Learning and Dynamical Systems
https://www.fields.utoronto.ca/activities/20-21/dynamical
Title: Explaining the reservoir computing phenomenon using randomized discrete-time signatures
Event: Second Symposium on Machine Learning and Dynamical Systems
https://www.fields.utoronto.ca/activities/20-21/dynamical
Title: Explaining the reservoir computing phenomenon using randomized discrete-time signatures
#мысли
Понятно, когда в статье много соавторов и их долго перечислять, то выделяют основного и пишут "Хинтон и соавторы". Понятно, когда в разговоре забывается "кто ещё придумал". Но вот в научной статье так пренебрежительно... великий Хинтон и никому неизвестный чувак, имя которого даже не стоит упоминания.
Помню на одной конференции говорили VC-размерность - это размерность Вапника и его коллеги, т.к. "C" сокращение от colleague. А забытый Червоненкис, кстати, был очень скромным человеком:(
Понятно, когда в статье много соавторов и их долго перечислять, то выделяют основного и пишут "Хинтон и соавторы". Понятно, когда в разговоре забывается "кто ещё придумал". Но вот в научной статье так пренебрежительно... великий Хинтон и никому неизвестный чувак, имя которого даже не стоит упоминания.
Помню на одной конференции говорили VC-размерность - это размерность Вапника и его коллеги, т.к. "C" сокращение от colleague. А забытый Червоненкис, кстати, был очень скромным человеком:(
#мысли
У меня есть приятель, который получил такое же образование как я и даже работает формально DS-ом (точнее научным сотрудником в одном институте, но его отдел решает релевантные задачи), но совершенно не держит руку на пульсе современного машинного обучения. В частности, весь DL прошёл мимо нет - по работе это ему не нужно. Но иногда он всё-таки натыкается на какую-нибудь современную статью. Иногда он мне звонит и консультируется. И в принципе, задаёт вполне логичные вопросы для математика. Например, "слушай, тут написано CrossEntropyLoss, но это же вообще не похоже на перекрёстную энтропию, походу они ошиблись?" Кстати, хороший вопрос для экзамена/собеса, а почему не похоже;) Я тут решил подумать, а есть ли какой-то лёгкий путь "из математики в DS". Обнаружил, что создатели англоязычной Wiki (на русском этого нет) уже позаботились о людях. Например, в статье Cross Entropy есть специальный раздел про применение в машинном обучении (а ведь не так давно не было).
У меня есть приятель, который получил такое же образование как я и даже работает формально DS-ом (точнее научным сотрудником в одном институте, но его отдел решает релевантные задачи), но совершенно не держит руку на пульсе современного машинного обучения. В частности, весь DL прошёл мимо нет - по работе это ему не нужно. Но иногда он всё-таки натыкается на какую-нибудь современную статью. Иногда он мне звонит и консультируется. И в принципе, задаёт вполне логичные вопросы для математика. Например, "слушай, тут написано CrossEntropyLoss, но это же вообще не похоже на перекрёстную энтропию, походу они ошиблись?" Кстати, хороший вопрос для экзамена/собеса, а почему не похоже;) Я тут решил подумать, а есть ли какой-то лёгкий путь "из математики в DS". Обнаружил, что создатели англоязычной Wiki (на русском этого нет) уже позаботились о людях. Например, в статье Cross Entropy есть специальный раздел про применение в машинном обучении (а ведь не так давно не было).
Wikipedia
Cross-entropy
in information theory, given two probability distributions, the average number of bits needed to identify an event if the coding scheme is optimized for the ‘wrong’ probability distribution rather than the true distribution
#мысли
В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.
GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
Ответ "
А вот ответ "
Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...
Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)
П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.
В этом году Гугл выпустил свою "болталку" LaMDA, которая уже стала притяжением внимания: история об увольнении тестировщика, который стал утверждать, что модель обладает сознанием. Про это многие писали, но почему-то часто в стиле "да он ничего не понимает, это же обычный трансформер, какое ещё сознание". А между тем есть много любопытных моментов. Я напишу только про один из них - почему это "сумасшедший" появился именно сейчас.
GPT-подобные модели просто грамотно продолжали текст - и это вполне себе впечатляет, т.к. такой чёрный ящик может, например, генерировать рассказ. Диалоговые трансформеры ещё дообучают на корпусах диалогов и они вполне адекватно отвечают. Но вот в последних поколениях диалоговых систем пошли дальше.
Вот Вам вопрос:
- Вы любите кофе?Ответ "
зелёный
" - неадекватный, а "Да
" - адекватный, но он всё равно плохой, т.к. не учитывает контекст.Ответ "
Нет, от него чернеют зубы
" - учитывает, но и он может быть не очень хорошим, т.к. довольно банальный.А вот ответ "
Только африканский, он более полезен, как выяснили учёные из Калифорнии
" небанальный, т.к. параллельно сообщает интересный факт.Так вот, разработчики из гугла придумали меру качества SSI = sensibleness + specificity + interestingness (это как раз оценка "адекватность + контекст + интересность"), набрали выборку с помощь асессоров с SSI-метками и дотьюнили языковую модель оценивать SSI (и не только её). Дальше оценку SSI (и другие) можно использовать при генерации...
Короче, LaMDA не просто продолжает диалог, а "старается" делать это правильно, контекстно и интересно (а ещё не грубит и использует факты из внешних источников - и это всё "хорошая выборка" + учёт человеческого восприятия + finetuning). Конечно тут появятся мысли о сознании - не каждый человек так отвечает;)
П.С. Некоторые тьюнинги немного всё портят и выдают робота, например тьюнинг на т.н. Groundedness - подтверждение из авторитетных источников, т.к. бот начинает кидать ссылки на Wiki в свои сообщения:) Но, думаю, это легко исправить.
Хабр
Мечтает ли нейросеть LaMDA об отмене законов робототехники?
В конце июля 2022 года из Google был уволен инженер Блэйк Лемойн (Blake Lemoine) из Сан-Франциско, известный в Твиттере как CajunDiscordian . Корпорация официально заявила, что его утверждения о...