#computervision #cases
Tumblr учит ИИ банить порно –– пока получается плохо.
В конце прошлого года Tumblr запретил взрослый контент в микроблогах. 17 декабря, после того, как новые правила вступили в силу, стало очевидно, что искоренить порно –– задача непростая, и сделать это с помощью одних модераторов не получится. Специально обученный ИИ ошибочно удалил миллионы невинных картинок (досталось рыбкам, цветам, котятам), а, к примеру, хентай, не пострадал.
Почему важно: Удивительно, что Tumblr наступил на грабли новичка в области машинного обучения. В подобных задачах классификации самый важный шаг –– сбор не порноконтента, а данных, которые не являются NSFW (Not Safe For Work, другими словами –– nudity). Попытка обучить нейросеть на материале с Pornhub, очевидно провалилась. Без дополнительной фильтрации это бесполезно. Возьмем куриное яйцо –– ИИ будет упорно отправлять его в запрещенный контент, потому что для него все цвета человеческой кожи –– nudity.
Tumblr, скорее всего, уже осознал ошибку –– пока не сбалансируется обучающая выборка, котята будут улетать в бан. Как это сделать? #Active_learning хорошо справляется с подобными задачами: надо обучить нейросеть по обширной базе случайных картинок, допустим, с Flickr, где нет nudity, и отправить результаты разметчикам –– они отметят, где модель допустила ошибку. Таким образом обучающая выборка расширится максимально полезными данными, и хентай будет побежден. Учитесь на чужих ошибках, и не переживайте –– их допускает даже Tumblr.
Tumblr учит ИИ банить порно –– пока получается плохо.
В конце прошлого года Tumblr запретил взрослый контент в микроблогах. 17 декабря, после того, как новые правила вступили в силу, стало очевидно, что искоренить порно –– задача непростая, и сделать это с помощью одних модераторов не получится. Специально обученный ИИ ошибочно удалил миллионы невинных картинок (досталось рыбкам, цветам, котятам), а, к примеру, хентай, не пострадал.
Почему важно: Удивительно, что Tumblr наступил на грабли новичка в области машинного обучения. В подобных задачах классификации самый важный шаг –– сбор не порноконтента, а данных, которые не являются NSFW (Not Safe For Work, другими словами –– nudity). Попытка обучить нейросеть на материале с Pornhub, очевидно провалилась. Без дополнительной фильтрации это бесполезно. Возьмем куриное яйцо –– ИИ будет упорно отправлять его в запрещенный контент, потому что для него все цвета человеческой кожи –– nudity.
Tumblr, скорее всего, уже осознал ошибку –– пока не сбалансируется обучающая выборка, котята будут улетать в бан. Как это сделать? #Active_learning хорошо справляется с подобными задачами: надо обучить нейросеть по обширной базе случайных картинок, допустим, с Flickr, где нет nudity, и отправить результаты разметчикам –– они отметят, где модель допустила ошибку. Таким образом обучающая выборка расширится максимально полезными данными, и хентай будет побежден. Учитесь на чужих ошибках, и не переживайте –– их допускает даже Tumblr.
WIRED
Tumblr's Porn-Detecting AI Has One Job—and It's Bad at It
The blogging platform has a new policy forbidding "adult content"—but lots of innocuous posts are getting caught in the fray.