Главная мысль — отождествив множество наблюдений с ними мы лишаем себя многих проблем:
- седых волос от случая “выборка не может отражать генеральную совокупность” (линейные комбинации в пространстве описывают координаты любого вектора)
- какого-то нового, не ухваченного нами супер-наблюдения, вроде клиента в день рождения (по той же причине, что и выше)
- необходимости скурпулезно смотреть на каждый вектор вручную (потому что мы отождествляем их с точками и отсюда можем, например, группировать)
- необходимости изучать дубликаты (поскольку упорядоченный набор координат соответствует одному вектору и обратно)
- перебирать признаки на удачу (вместо этого сначала проверяйте признаки на линейную зависимость. Это можно сделать при помощи корреляции Пирсона (для непрерывных признаков), корреляций Спирмена и Кендалла (для признаков ранговых) и таблиц сопряженности (для признаков номинальных). А потом уже можно и удачу подключать...)
На этом конец поста.
Остаемся на связи, друзья! Пишите вопросы и всегда рада конструктивной обратной связи.
В следующую субботу вернусь с теорией вероятностей или интегралами — подумаю, как будет логичнее и легче 🙂
И вас уже так много!!! Радуюсь, и стараюсь для каждого!)🧡
Ваш дата-автор.
- седых волос от случая “выборка не может отражать генеральную совокупность” (линейные комбинации в пространстве описывают координаты любого вектора)
- какого-то нового, не ухваченного нами супер-наблюдения, вроде клиента в день рождения (по той же причине, что и выше)
- необходимости скурпулезно смотреть на каждый вектор вручную (потому что мы отождествляем их с точками и отсюда можем, например, группировать)
- необходимости изучать дубликаты (поскольку упорядоченный набор координат соответствует одному вектору и обратно)
- перебирать признаки на удачу (вместо этого сначала проверяйте признаки на линейную зависимость. Это можно сделать при помощи корреляции Пирсона (для непрерывных признаков), корреляций Спирмена и Кендалла (для признаков ранговых) и таблиц сопряженности (для признаков номинальных). А потом уже можно и удачу подключать...)
На этом конец поста.
Остаемся на связи, друзья! Пишите вопросы и всегда рада конструктивной обратной связи.
В следующую субботу вернусь с теорией вероятностей или интегралами — подумаю, как будет логичнее и легче 🙂
И вас уже так много!!! Радуюсь, и стараюсь для каждого!)🧡
Ваш дата-автор.
❤4👍1🔥1
UPD: Я прочитаю "Пиши, сокращай", друзья, если это действительно поможет...🙈
Простите) Просто математика — это очень литературно, а ещё я несколько лет в гуманитарном классе училась 😁😅
Простите) Просто математика — это очень литературно, а ещё я несколько лет в гуманитарном классе училась 😁😅
Привет, друзья!
#Математика Томас Байес.
Думаю, трудясь или отдыхая, вы часто встречали его фамилию. Байесовские модели, байесовская статистика, байесовский вывод и, если вы читатель портала lessWrong, даже “байесианство”.
Помню, когда только-только начала изучать машинное обучение, летом 20го года, мой хороший знакомый написал мне:
“Пока что оставь Байеса, надо изучить основы моделей. ..”
А потом, в диалоге, добавил:
“Но байесовская статистика самая крутая и могучая”
Вспоминая это сейчас, пока пишу вам пост, я улыбаюсь, шлю Жене, “привет” и весело объявляю:
Сегодня говорим о формуле Байеса.
Вперёд!
Для начала нам с вами нужно вспомнить правила сложения и умножения вероятностей, пару приемов из школьной математики, определения (не)совместности и (не)зависимости событий, условную вероятность, а также вооружиться набором слов — гипотеза, априори и апостериори.
Начнем с сложения и умножения.
Сложение.
Вероятность наступления одного из двух событий А, B, равна:
P(A) + P(B) - P(AB)
сумме вероятностей этих событий, из которой вычтена вероятность совместного наступления этих событий.
В случае, когда события несовместны — то есть не могу произойти одновременно (что в самом деле значит, что Р(АВ) = 0), она равна P(A) + P(B).
Это фундаментальное правило теории вероятностей известно как “правило сложения”.
Умножение.
Вероятность наступления обоих событий А, В одновременно, равна:
P(A)*P(B|A)
если события А и В независимы — то есть наступление одного не влияет на наступление другого, то формула обращается в Р(А)*Р(В) (потому что вероятность В, в зависимости от А, равна просто вероятности В).
Это фундаментальное правило теории вероятностей известно как “правило умножения” — мы берем вероятность одного события и умножаем на вероятность второго, при условии, что первое произошло.
Условную вероятность мы с вами ещё не разбирали. Однако всё о ней я уже загрузила в пост выше! : )
Дальше вооружимся словами — гипотеза, априори и апостериори.
Гипотеза — это предположение или допущение. В отличие от аксиом, гипотеза требует доказательства.
Априори — знание, полученное до эксперимента и независимо от него.
Апостериори — значение, полученное в результате проведения эксперимента.
Зачем нам вдруг этимология и перевод слов?
Ради моделирования эксперимента, конечно! Надеюсь, вам идея сколь угодно моделировать происходящее нравится также, как и мне, несмотря на её некоторую утопичность!)
Вернемся к делу. Пусть у нас есть событие А и с ним связана некоторая совокупность Hi — взаимоисключающих друг друга гипотез. Объект, который мы с вами определили этими строгими словами смотрите на картинке ниже:
#Математика Томас Байес.
Думаю, трудясь или отдыхая, вы часто встречали его фамилию. Байесовские модели, байесовская статистика, байесовский вывод и, если вы читатель портала lessWrong, даже “байесианство”.
Помню, когда только-только начала изучать машинное обучение, летом 20го года, мой хороший знакомый написал мне:
“Пока что оставь Байеса, надо изучить основы моделей. ..”
А потом, в диалоге, добавил:
“Но байесовская статистика самая крутая и могучая”
Вспоминая это сейчас, пока пишу вам пост, я улыбаюсь, шлю Жене, “привет” и весело объявляю:
Сегодня говорим о формуле Байеса.
Вперёд!
Для начала нам с вами нужно вспомнить правила сложения и умножения вероятностей, пару приемов из школьной математики, определения (не)совместности и (не)зависимости событий, условную вероятность, а также вооружиться набором слов — гипотеза, априори и апостериори.
Начнем с сложения и умножения.
Сложение.
Вероятность наступления одного из двух событий А, B, равна:
P(A) + P(B) - P(AB)
сумме вероятностей этих событий, из которой вычтена вероятность совместного наступления этих событий.
В случае, когда события несовместны — то есть не могу произойти одновременно (что в самом деле значит, что Р(АВ) = 0), она равна P(A) + P(B).
Это фундаментальное правило теории вероятностей известно как “правило сложения”.
Умножение.
Вероятность наступления обоих событий А, В одновременно, равна:
P(A)*P(B|A)
если события А и В независимы — то есть наступление одного не влияет на наступление другого, то формула обращается в Р(А)*Р(В) (потому что вероятность В, в зависимости от А, равна просто вероятности В).
Это фундаментальное правило теории вероятностей известно как “правило умножения” — мы берем вероятность одного события и умножаем на вероятность второго, при условии, что первое произошло.
Условную вероятность мы с вами ещё не разбирали. Однако всё о ней я уже загрузила в пост выше! : )
Дальше вооружимся словами — гипотеза, априори и апостериори.
Гипотеза — это предположение или допущение. В отличие от аксиом, гипотеза требует доказательства.
Априори — знание, полученное до эксперимента и независимо от него.
Апостериори — значение, полученное в результате проведения эксперимента.
Зачем нам вдруг этимология и перевод слов?
Ради моделирования эксперимента, конечно! Надеюсь, вам идея сколь угодно моделировать происходящее нравится также, как и мне, несмотря на её некоторую утопичность!)
Вернемся к делу. Пусть у нас есть событие А и с ним связана некоторая совокупность Hi — взаимоисключающих друг друга гипотез. Объект, который мы с вами определили этими строгими словами смотрите на картинке ниже:
❤1🔥1
Пусть также вероятности каждой из гипотез в голом виде мы знаем, потому что мы их априорно (до опыта) предположили.
Справедливо, что только априорное знание вероятностей гипотез нас не устраивает (иначе можно было бы жонглировать вероятностями, как мячами или мандаринами и жить в мире, который подчинен воле предположений), и мы хотим знать вероятность апостериорную:
какова вероятность того, что при исполнении именно гипотезы Hj (уж очень она нам понравилась, в шляпке), А произойдет?
Ответом на этот вопрос занялся Томас Байес, и теперь, благодаря ему, мы можем сколь угодно ближе к реальности вычислять апостериорные вероятности через априорные.
Разбираемся как:
Поскольку определенные выше гипотезы Hi связаны с А, то есть образовывают его, то полная вероятность события А, на самом деле это вероятность наступления одного из множества-событий “гипотеза с H номером i и само А”. На языке теории вероятностей это есть правило сложения:
А = Р(АН1) + Р(АН2) + Р(АН3) + ….. +Р(АНn) =1
где P(АНi) — обозначение вероятности события “гипотеза с номером i и само А”. Единица справа потому что само А точно происходит.
Выделим, с событием А, интересующую нас гипотезу Hj, то есть слагаемое Р(АНj). По, так сказать, факту нас интересует вероятность того, что все другие гипотезы не произошли, или:
Р(АНj) = 1 - (неР(АН1) + неР(АН2) ….. +неР(АНn)).
Теперь вспомним наше чудесное правило умножения и посчитаем-таки, как выглядит событие Р(АНj). Не ошибемся, что так:
Р(АНj) = P(A)*P(Hj|A) =Р(Hj)*P(A|Hj)
Немножко перевода с математического.
P(Hj|A)
Вероятность исполнения гипотезы Hj при условии, что А произошло, то есть апостериорная вероятность.
P(A|Hj)
Вероятность исполнения события А при условии, что гипотеза Нj верна.
Сделав пару нехитрых математических приемов мы берем интересующую нас вероятность и получаем заключения на картинке:
Справедливо, что только априорное знание вероятностей гипотез нас не устраивает (иначе можно было бы жонглировать вероятностями, как мячами или мандаринами и жить в мире, который подчинен воле предположений), и мы хотим знать вероятность апостериорную:
какова вероятность того, что при исполнении именно гипотезы Hj (уж очень она нам понравилась, в шляпке), А произойдет?
Ответом на этот вопрос занялся Томас Байес, и теперь, благодаря ему, мы можем сколь угодно ближе к реальности вычислять апостериорные вероятности через априорные.
Разбираемся как:
Поскольку определенные выше гипотезы Hi связаны с А, то есть образовывают его, то полная вероятность события А, на самом деле это вероятность наступления одного из множества-событий “гипотеза с H номером i и само А”. На языке теории вероятностей это есть правило сложения:
А = Р(АН1) + Р(АН2) + Р(АН3) + ….. +Р(АНn) =1
где P(АНi) — обозначение вероятности события “гипотеза с номером i и само А”. Единица справа потому что само А точно происходит.
Выделим, с событием А, интересующую нас гипотезу Hj, то есть слагаемое Р(АНj). По, так сказать, факту нас интересует вероятность того, что все другие гипотезы не произошли, или:
Р(АНj) = 1 - (неР(АН1) + неР(АН2) ….. +неР(АНn)).
Теперь вспомним наше чудесное правило умножения и посчитаем-таки, как выглядит событие Р(АНj). Не ошибемся, что так:
Р(АНj) = P(A)*P(Hj|A) =Р(Hj)*P(A|Hj)
Немножко перевода с математического.
P(Hj|A)
Вероятность исполнения гипотезы Hj при условии, что А произошло, то есть апостериорная вероятность.
P(A|Hj)
Вероятность исполнения события А при условии, что гипотеза Нj верна.
Сделав пару нехитрых математических приемов мы берем интересующую нас вероятность и получаем заключения на картинке:
👍2
Всё кажется супер-простым. И это так : ) А теперь…
Байес в машинном обучении. Наивный Байесовский классификатор.
Если вы чуть устали к этому моменту — не переживайте. Буквально 5 минут и совсем знакомые вам вещи.
На чём основан наивный Байес?
Пусть у нас есть целевая переменная С, и вектор признаков Fi. Дружной гурьбой они образовывают одно большое событие (CF1F2F3…Fn).
Какова вероятность С, при условии, что вектор признаков F1F2F3…Fn определился определенным образом?) (надеюсь здесь вы улыбаетесь)
Байес в машинном обучении. Наивный Байесовский классификатор.
Если вы чуть устали к этому моменту — не переживайте. Буквально 5 минут и совсем знакомые вам вещи.
На чём основан наивный Байес?
Пусть у нас есть целевая переменная С, и вектор признаков Fi. Дружной гурьбой они образовывают одно большое событие (CF1F2F3…Fn).
Какова вероятность С, при условии, что вектор признаков F1F2F3…Fn определился определенным образом?) (надеюсь здесь вы улыбаетесь)
В чём наивность наивного Байеса?
В предположении о независимости, не влиянии друг на друга признаков. Это в свою очередь, не учитывает вероятность каждой фичи, при условии, что другие выглядят каким-то образом и предполагает зависимости Fi для любой i только от класса С.
Так ли работают Байесовские модели?
Нет. Они в том числе, как минимум, учитывают и влияние признаков друг на друга, как максимум — иные параметры. Отсюда мы получаем приближения поразительно близкие к реальным.
А вот какие — как только буду компетентна, напишу обязательно!
Такой воскресный дата-пост, друзья! С опозданием, зато большущий и богатый на информацию (надеюсь)!
Точных вам классификаций,
Ваш дата-автор! : )
В предположении о независимости, не влиянии друг на друга признаков. Это в свою очередь, не учитывает вероятность каждой фичи, при условии, что другие выглядят каким-то образом и предполагает зависимости Fi для любой i только от класса С.
Так ли работают Байесовские модели?
Нет. Они в том числе, как минимум, учитывают и влияние признаков друг на друга, как максимум — иные параметры. Отсюда мы получаем приближения поразительно близкие к реальным.
А вот какие — как только буду компетентна, напишу обязательно!
Такой воскресный дата-пост, друзья! С опозданием, зато большущий и богатый на информацию (надеюсь)!
Точных вам классификаций,
Ваш дата-автор! : )
🔥6
Привет, друзья!
Поговорим о матрицах?
и я завела тэг #Математика
Задумавшись, с чем ассоциировать матрицы я почему-то вспомнила не фильм, а свою бабушку, которая в поезда часто берет судоку.
Что интересно, потом меня чуть-чуть унесло в википедию, и я обнаружила, что игра судоку вдохновлена структурой, внесенной математиком Леонард Эйлером. Называлась эта структура латинский квадрат.
И улыбнул меня не просто факт привязанности судоку, таблицы чисел, к миру математиков. История матриц гласит, что по некоторым данным, первые из них упоминались ещё в древнем Китае и назывались квадратом волшебным.
Вот так. Латинский и волшебный квадраты.
Похоже история структуры, которую мы называем матрицей, началась с тяги людей к идеально-ровной фигуре, с идеальным рядом чисел, а сейчас, в 21 веке, матрица, совершенно не ровная, с численно-хаотичным заполнением, и даже далеко не квадратная, не менее прекрасна и волшебна, чем древний магический квадрат.
Матрицей А размерности m строк на n столбцов называется таблица, в которой на пересечении каждой строки и каждого столбца стоят в частном случае числа, а в общем случае элементы (смотрите картинку 1).
Это определение никогда не приводило меня в восторг. Хоть и формально всё в нём верно, оно как будто обижает матрицы. Поэтому я сходу предлагаю вам другое. Как обезумевший математик, залетевший в аудиторию с ноги и со стопкой листов А4.
Линейным отображением векторного пространства V над полем чисел в векторное пространство W над тем же полем чисел называется отображение, f: V -> W.
Запись действия линейного отображения на объект векторного пространства W выражается матрицей линейного отображения (смотрите картинку 2).
Много линейности, правда? Но я-то знаю, что мы с вами хороши и мощны, ведь с одним из героев этого определения мы уже знакомы. Это вектор. И значат все эти “слова на математическом” ровно то, что:
1. У нас есть два векторных пространства;
2. Мы переходим из одного в другое или исследуем как это сделать;
На картинке это выглядит так (картинка 3).
Поговорим о матрицах?
и я завела тэг #Математика
Задумавшись, с чем ассоциировать матрицы я почему-то вспомнила не фильм, а свою бабушку, которая в поезда часто берет судоку.
Что интересно, потом меня чуть-чуть унесло в википедию, и я обнаружила, что игра судоку вдохновлена структурой, внесенной математиком Леонард Эйлером. Называлась эта структура латинский квадрат.
И улыбнул меня не просто факт привязанности судоку, таблицы чисел, к миру математиков. История матриц гласит, что по некоторым данным, первые из них упоминались ещё в древнем Китае и назывались квадратом волшебным.
Вот так. Латинский и волшебный квадраты.
Похоже история структуры, которую мы называем матрицей, началась с тяги людей к идеально-ровной фигуре, с идеальным рядом чисел, а сейчас, в 21 веке, матрица, совершенно не ровная, с численно-хаотичным заполнением, и даже далеко не квадратная, не менее прекрасна и волшебна, чем древний магический квадрат.
Матрицей А размерности m строк на n столбцов называется таблица, в которой на пересечении каждой строки и каждого столбца стоят в частном случае числа, а в общем случае элементы (смотрите картинку 1).
Это определение никогда не приводило меня в восторг. Хоть и формально всё в нём верно, оно как будто обижает матрицы. Поэтому я сходу предлагаю вам другое. Как обезумевший математик, залетевший в аудиторию с ноги и со стопкой листов А4.
Линейным отображением векторного пространства V над полем чисел в векторное пространство W над тем же полем чисел называется отображение, f: V -> W.
Запись действия линейного отображения на объект векторного пространства W выражается матрицей линейного отображения (смотрите картинку 2).
Много линейности, правда? Но я-то знаю, что мы с вами хороши и мощны, ведь с одним из героев этого определения мы уже знакомы. Это вектор. И значат все эти “слова на математическом” ровно то, что:
1. У нас есть два векторных пространства;
2. Мы переходим из одного в другое или исследуем как это сделать;
На картинке это выглядит так (картинка 3).
❤4
Что ж. Я обещала сделать дата-пост с привязкой с машинному обучению и слово держу. Перейдем от абстракции к делу и представим, что у нас есть набор данных из 6 наблюдений, по каждому из которых известны 2 параметра и целевой признак.
Поставщик данных (пусть он будет нашим китайским товарищем) убежден, что признаки связаны с целевой переменной как-то линейно, но как — он не знает и предлагает нам решить задачу.
Представим также, что доступ к sklearn нам заблокирован (не дай Боже), а задачу надо решить здесь и сейчас.
Вздохнем, возьмем бумажку и перепишем ситуацию (картинка).
Поставщик данных (пусть он будет нашим китайским товарищем) убежден, что признаки связаны с целевой переменной как-то линейно, но как — он не знает и предлагает нам решить задачу.
Представим также, что доступ к sklearn нам заблокирован (не дай Боже), а задачу надо решить здесь и сейчас.
Вздохнем, возьмем бумажку и перепишем ситуацию (картинка).
❤2
Обратите внимание в правый верхний угол картинки..: ) Систему уравнений, которую дал нам товарищ и задачу, которую он поставил, можно переформулировать так:
В результате действия линейного отображения А на каждый объект пространства X, измеренный по двум координатам, получаются значения из пространства Y.
Необходимо: найти правило, которое определяет действие линейного отображения.
Что также эквивалентно системе уравнений: X*x = y.
Во избежание дублирования, изменим обозначение x малое, на малое w. Получается такая задача:
X*w = y
где найти необходимо в точности вектор w.
Теперь перейдем к языку классического алгоритма машинного обучения — линейной регрессии и заметим, что задача обращается в
найти вектор весов w, который для каждого наблюдения X обеспечит его сопоставление с целевой координатой y.
Чувствуете? Только что, бодро и весело, мы перешли с вами к системе линейных уравнений в матричном виде.
Как её решить?
Ответ: Избавиться от X справа равным соотношением, иначе говоря, получить перед w единицу. Сделать это можно при помощи обратного элемента. Не пугайтесь, обратные ребята знакомы нам из школы, например обратный к 5 — это 1/5, обратный к 1/7 — 7. Иными словами, обратными друг к другу называются элементы, дающие в произведении единицу.
В случае матриц единицей считается матрица единичная — матрица, у которой на главной диагонали стоят единицы, а все остальные элементы равны 0.
И так, нам нужно найти такую матрицу, которая в произведении с исходной даст единицу, то есть матрицу, обратную к данной.
Обратные матрицы существуют только у квадратных матриц. Но это не проблема, поскольку при помощи операций умножения матриц и транспонирования мы можем преобразовать нашу матрицу к квадратной и уже к этой квадратной отыскать обратную. Тогда наше решение будет выглядеть так:
В результате действия линейного отображения А на каждый объект пространства X, измеренный по двум координатам, получаются значения из пространства Y.
Необходимо: найти правило, которое определяет действие линейного отображения.
Что также эквивалентно системе уравнений: X*x = y.
Во избежание дублирования, изменим обозначение x малое, на малое w. Получается такая задача:
X*w = y
где найти необходимо в точности вектор w.
Теперь перейдем к языку классического алгоритма машинного обучения — линейной регрессии и заметим, что задача обращается в
найти вектор весов w, который для каждого наблюдения X обеспечит его сопоставление с целевой координатой y.
Чувствуете? Только что, бодро и весело, мы перешли с вами к системе линейных уравнений в матричном виде.
Как её решить?
Ответ: Избавиться от X справа равным соотношением, иначе говоря, получить перед w единицу. Сделать это можно при помощи обратного элемента. Не пугайтесь, обратные ребята знакомы нам из школы, например обратный к 5 — это 1/5, обратный к 1/7 — 7. Иными словами, обратными друг к другу называются элементы, дающие в произведении единицу.
В случае матриц единицей считается матрица единичная — матрица, у которой на главной диагонали стоят единицы, а все остальные элементы равны 0.
И так, нам нужно найти такую матрицу, которая в произведении с исходной даст единицу, то есть матрицу, обратную к данной.
Обратные матрицы существуют только у квадратных матриц. Но это не проблема, поскольку при помощи операций умножения матриц и транспонирования мы можем преобразовать нашу матрицу к квадратной и уже к этой квадратной отыскать обратную. Тогда наше решение будет выглядеть так:
❤1
Решив всё численно найдем зависимость и, умножив всё это дело для новых точек, визуально получим следующее: