Вспомним математический анализ
Непрерывность функции и производная
Пусть
,
— предельная точка множества
(т.е.
),
.
Определение 1 (предел функции по Коши):
Функция
стремится к
при
, стремящемся к
, если
Обозначение:
.
Определение 2:
- Интервалом называется множество ;
- Интервал, содержащий точку , называется окрестностью этой точки.
- Проколотой окрестностью точки называется окрестность точки, из которой исключена сама эта точка.
Обозначение:
- или — окрестность точки ;
- — проколотая окрестность точки ;
Определение 3 (предел функции через окрестности):
Определения 1 и 3 равносильны.
Определение 4 (непрерывность функции в точке):
- непрерывна в
- непрерывна в
Из определений 3 и 4 видно, что
(
непрерывна в
, где
— предельная точка
)
Определение 5:
Функция
называется
непрерывной на множестве , если она непрерывна в каждой точке множества
.
Определение 6:
- Функция , определённая на множестве , называется дифференцируемой в точке , предельной для множества , если существует такая линейная относительно приращения аргумента функция [дифференциал функции в точке ], что приращение функции представляется в виде
- Величина
называется производной функции в точке .
Также
Определение 7:
- Точка называется точкой локального максимума (минимума), а значение функции в ней — локальным максимумом (минимумом) функции , если :
- Точки локального максимума и минимума называются точками локального экстремума, а значения функции в них — локальными экстремумами функции.
- Точка экстремума функции называется точкой внутреннего экстремума, если является предельной точкой как для множества , так и для множества .
Лемма 1 (Ферма):
Если функция
дифференцируема в точке внутреннего экстремума
, то её производная в этой точке равна нулю:
.
Утверждение 1 (теорема Ролля):
Если функция
непрерывна на отрезке
, дифференцируема в интервале
и
, то найдётся точка
такая, что
.
Теорема 1 (теорема Лагранжа о конечном приращении):
Если функция
непрерывна на отрезке
и дифференцируема в интервале
, то найдётся точка
такая, что
Следствие 1 (признак монотонности функции):
Если в любой точке некоторого интервала производная функции неотрицательная (положительная), то функция не убывает (возрастает) на этом интервале.
Следствие 2 (критерий постоянства функции):
Непрерывная на отрезке
функция постоянна не нём тогда и только тогда, когда её производная равна нулю в любой точке отрезка
(или хотя бы интервала
).
Частная производная функции многих переменных
Через
обозначают множество:
Определение 8:
Функция
, определённая на множестве
, называется
дифференцируемой в точке , предельной для множества
, если
где
— линейная относительно
функция [
дифференциал функции
в точке
(обозн.
или
)], а
при
.
Соотношение (1) можно переписать в следующем виде:
или
Если перейти к координатной записи точки
, вектора
и линейной функции
, то равенство (1) выглядит так
где
— связанные с точкой
вещественные числа. Необходимо найти эти числа.
Обозначим
где
— базис в
.
При
из (2) получаем
Из (3) получаем
Определение 9:
Предел (4) называется
частной производной функции
в точке
по переменной
. Обозначается:
Пример 1:
Градиентный спуск
Пусть
, где
.
Определение 10:
Градиентом функции
называется вектор,
-й элемент которого равен
:
Градиент — это то направление, в котором функция быстрее всего возрастает. А значит, направление, в котором она быстрее всего убывает, — это и есть направление, обратное градиенту, то есть
.
Целью метода градиентного спуска является поиск точки
экстремума (минимума) функции.
Обозначим через
вектор параметров функции на шаге
. Вектор обновления параметров на шаге
:
В формуле выше параметр
— это
скорость обучения, которая регулирует размер шага, который мы делаем в направлении склона-градиента. В частности, могут возникать две противоположные друг другу проблемы:
- если шаги будут слишком маленькими, то обучение будет слишком долгим, и повышается вероятность застрять в небольшом неудачном локальном минимуме по дороге (первое изображение на картинке ниже);
- если слишком большие, можно бесконечно прыгать через искомый минимум взад-вперёд, но так и не прийти в самую нижнюю точку (третье изображение на картинке ниже).
Список используемой литературы:
- «Математический анализ. Часть 1», В.А. Зорич, Москва, 1997;
- «Глубокое обучение. Погружение в мир нейронных сетей», С. Никуленко, А. Кадурин, Е. Архангельская, ПИТЕР, 2018.