Small Data Science for Russian Adventurers

#приёмы
В гарвардском курсе продвинутого DS иногда попадаются забавные приёмы. Например, при изучении RNN их необходимость объясняется тем, что свёрточные сети на последовательностях используют ограниченный контекст - для чего используют задачу "угадай следующий кадр" и рисуют сценки с заходом в помещение и выходом. Очень неплохо и запоминается, а главное - сразу показывают, что обрабатывается произвольная последовательность (обычно RNN привязывают к текстам и всё). Ещё интересный пример - показывается длинное письмо, написанное студентом, и подсвечиваются основные конструкции в нём - намекая, что нейронная сеть тоже должна реализовывать подобный механизм, иначе "запутается" в тексте. Кстати, текст с пометками реально проще читать;)

П.С. Но такие интересности только в отдельных лекциях (зависит от того, кто готовил материалы).

👍55🔥15

8.35K viewsedited 12:04

#приёмы
В старом посте я описывал приём AV: решение задачи разделения обучения и теста позволяет понять
1) какие признаки стабильны,
2) как отобрать обучающую подвыборку максимально похожую на тест.

Из того, что я тогда не сказал, но это полезно:
1) логично встроить AV в процедуру отбора признаков (чтобы отбиралось не просто подпространство с высоким качеством решения, но и стабильное),
2) когда нет теста (а его на практике часто и нет) можно разбить объекты по времени (странно, но при решении прикладных задач это делают очень редко),
3) из нестабильных признаков часто получаются хорошие стабильные, причём с помощью простых приёмов (например, доход клиента делим на медианных доход в этом месяце). Поэтому AV можно встроить и в генератор признаков;)

👍49🔥8

8.27K views10:04

Small Data Science for Russian Adventurers

#приёмы
На своих курсах я часто сообщаю такой приём: не выбрасывать плохие данные, а примерить их пусть не для моделирования, но для служебных задач. Например, у Вас есть кусок данных, где много неизвестных значений, а в целевых значениях много выбросов. Можно изъять его из обучения (допустим это повышает качество), но использовать, например, для mean target encoding категориальных признаков (и утечки не будет и кодирование будет вполне нормальным).

👍50🤔14🤯4👎1

10.3K views14:25

About

Blog

Apps

Platform