Hello World

Градиентный спуск.

Градиентный спуск — самый используемый алгоритм обучения, он применяется почти в каждой модели машинного обучения. Градиентный спуск — это, по сути, и есть то, как обучаются модели. Без ГС машинное обучение не было бы там, где сейчас. Метод градиентного спуска с некоторой модификацией широко используется для обучения персептрона и глубоких нейронных сетей, и известен как метод обратного распространения ошибки.

Что такое градиентный спуск.

Градиентный спуск — метод нахождения минимального значения функции многих переменных. Минимизация любой такой функции означает поиск самой глубокой впадины в этой функции. Поиск минимума в машинном обучении означает получение наименьшей возможной ошибки или повышение точности модели. Мы увеличиваем точность, перебирая набор учебных данных при настройке параметров нашей модели (весов и смещений).

Суть алгоритма – процесс получения наименьшего значения ошибки. Аналогично это можно рассматривать как спуск во впадину в попытке найти золото на дне ущелья (самое низкое значение ошибки).

Перейдем к практике.

Рассмотрим самый простейший случай применения градиентного спуска, а именно, поиск минимума заданной функции.
В одномерном случае, градиент функции (в проекции на выбранную ось) представяет собой обычную одномерную производную.

Возьмем функцию f(x) = x^4 - 3x^3 + 1, с производной f’(x) = 4x^3 - 9x^2.
Выберем начальную точку x0 = 6 (начальная точка может быть практически любой, за исключением концов отрезка, если мы рассматриваем нашу функцию на отрезке). Выберем размер шага gamma = 0.01 (шаг, с которым мы будем “скатываться” в ямку минимума). Если выбрать слишком большой шаг, можно проскочить минимум, а если слишком маленький, то в случае сложной функции с несколькими минимумами, можно оказаться в локальном минимуме вместо глобального.
Попробуйте поиграть с этими двумя параметрами.

Где же код?

А вот он.

def get_min(x, df, gamma):
    eps = 1e-6
    max_iters = 10000
    for _ in range(max_iters):
        curr_x = x
        x = curr_x - gamma * df(curr_x)
        if abs(x - curr_x) < eps:
            break

    return x

df = lambda x: 4 * x**3 - 9 * x**2
res = get_min(6, df, 0.01)
print(f’Minimum at {res:.2f}’)

Out[1]: Minimum at 2.25

#NN #gradient

2.35K viewsedited 12:24

About

Blog

Apps

Platform