Градиентные методы спуска
Определение минимального значения многопараметрической функции Q (х), заданной в n-мерном евклидовом пространстве связано с решением задачи безусловной оптимизации:
min Q(x1, х2,…, xn). (5.1)
Здесь каждая переменная xi, i= 1, 2, …, n, может принимать значения от —? до +?. Предположим, что функция Q (х) является унимодальной функцией, для которой в каждой точке х может быть получено с помощью градиента ?Q(х)= {?Q/?x1, …, ?Q/?xn), а при необходимости и гессиана (матрицы вторых производных)
G(х) = {?2Q/dxidxj}.
Рассмотрим класс алгоритмов, осуществляющих последовательный поиск точки минимума х* функции Q (х) из заданного начального приближения х° по итерационной формуле
xr+1 = xr + ?r = xr + ?rSr, r = 0,1,… (5.2)
где xr — приближенное решение задачи (5.1), полученное на r-й итерации; ?r= (хr+1 — хr) — приращение варьируемых параметров на r-й итерации; Sr — единичное направление, ведущее к уменьшению функции Q (х); ?r — длина шага вдоль направления Sr. Последовательность точек испытаний {хr}, полученная по формуле (5,2) и удовлетворяющая цепочке неравенств
Q(х0) > Q(x1) > … > Q (xk). (5.3)
называется релаксационной последовательностью.
Разложим функцию Q (х) относительно точки хr в ряд Тейлора, ограничиваясь членами первого порядка
Q(xr+1) ? Q(xr) + (?QT(xr), ?r). (5.4)
Из условия (5.3) следует, что на каждой итерации приращение А’ должно выбираться таким образом, чтобы выполнялось неравенство: Q (хr+1) — Q (хr) < 0. Учитывая соотношение (5.4), получаем, что
(?QT(xr), ?r) = ?r(?QT(xr), Sr) < 0. (5.5)
Для обеспечения наибольшей скорости уменьшения функции Q (х) вдоль единичного направления последнее должно совпадать с нормализованным значением антиградиента:
Sr = -?Q(xr)/||?Q(xr||. (5.6)
Из (5.4) с учетом неравенства (5.5) следует, что единичное направление Sr, обеспечивающее наибольшую скорость уменьшения функции Q (х), является решением экстремальной задачи
min (?QT(xr), S) при условии что (ST‘, S)= 1.
Методы построения релаксационной последовательности (5.3) с помощью итерационной формулы (5.2), в которой направление поиска Sr зависит от значения антиградиента, называются градиентными методами спуска. При заданном направлении поиска Sr выбор точки очередного испытания согласно (5.2) сводится к определению положительного значения шага ?r вдоль этого направления. Реализация градиентного метода спуска, в которой оптимальная длина шага ?r вдоль направления антиградиента (5.6) является решением одномерной задачи минимизации:
Q{xr + ?rSr) = min Q(xr + ?Sr), (6.10)
называется методом наискорейшего спуска.
Алгоритмы, реализующие метод наискорейшего спуска, отличаются друг от друга способом. решения экстремальной задачи (5.10). Если функция Q (х) является дважды дифференцируемой (Q(х)?С2), то ее можно аппроксимировать в точке (r + 1)-го приближения полиномом второй степени
Q(xr+1) ? Q (хr) + ?r(?QT(хr), Sr) + ?r2(Sr)TG(хr)Sr.
Отсюда получаем, что оптимальным решением задачи (5.10) является выражение
?r = —(?QT(хr), Sr)/(Sr)TG(хr)Sr. (5.13)
Достоинством метода наискорейшего спуска является его простота. Однако он имеет ряд существенных недостатков, среди которых необходимо отметить следующие. Во-первых, это — одношаговый метод, в котором при выборе точки очередного испытания хr+1 не используется информация о предыдущих испытаниях, кроме испытания в точке xr. Во-вторых, если гессиан G (х) минимизируемой функции Q (х) является плохо обусловленной матрицей, наименьшее и наибольшее собственные значения которой сильно отличаются друг от друга, то процесс поиска замедляется в связи с зигзагообразностью траектории проводимых испытаний х0, х1,…,хk (рис. 5.1).
Рис. 5.1. Зигзагообразная траектория приближения к точке минимума x* квадратичной функции с помощью метода наискорейшего спуска
При этом может потребоваться недопустимо большое число итераций, прежде чем будет получена требуемая точность локализации точки локального минимума х*.
Q(x) = x»^x+b^x + a
Рассмотренное свойство метода привод к тому, что он позволяет получить оптимальное решение х* задачи безусловной минимизаций (5.1) за конечное число итераций и в качестве условия окончания поиска обычно используется неравенство
||?Q(xr)|| ? ?.
Для устранения недостатка метода F22, связанного с игнорированием информации о предыдущих испытаниях, рассмотрим алгоритм, реализующий градиентный метод с памятью, в котором при выборе очередного приращения ?r учитывается инфор¬мация о приращении ?r-1 на предыдущем шаге. Для этого потребуем, чтобы на каждой итерации приращение ?r выбиралось таким образом, чтобы обеспечивалась наибольшая скорость уменьшения функции Q (х) при условии, что квадрат модуля разности приращения ?r и взвешенного приращения ??r-1 оставался равным постоянной величине К:
min (?QT(xr), ?). (5.17)
Оптимальным решением задачи (5.17) является линейная комбинация антиградиента функции Q (х), вычисленного в точке хr и приращения, полученного на предыдущей итерации:
?r = – ?r?Q(xr) + ?r?r-1. (5.18)
Значения коэффициентов ?r и ?r в формуле (5.18), полученной для построения очередного приращения ?r, могут быть выбраны из условия обеспечения минимального значения функцир Q (х) вдоль направления ?r:
Q(xr – ?r?Q(xr) + ?r?r-1) = min Q (r – ?r?Q(xr) + ?r?r-1). (5.21)
Алгоритмы, реализующие градиентный метод в памятью, отличаются друг от друга способом решения экстремальной задачи (5.21). В качестве одного из подходов к численному решению задачи (5.21) рассмотрим метод квазилинеризации решения эквивалентной ей системы нелинейных уравнений.
О градиентных методах спуска, которые позволяют найтаточку минимума x* = (х1, …, x1) квадратичной функции (5.14) не больше, чем за n итераций, говорят, что они обладают квадратичной скоростью сходимости. Более подробно методы локальной оптимизации, обладающие квадратичной скоростью сходимости, будут рассмотрены в следующем посте.
- Квазиньютоновские методы минимизации
- Задачи и методы оптимизации в системах имитационного моделирования
- Минимизация функций без вычисления производных
- Методы полиномиальной интерполяции
- Виртуальные и динамические методы, замещающие методы
- Параллельные методы, комбинирующие пассивные и последовательные стратегии поиска
- Многомерный случай для задач безусловной минимизации
- Методы-функции и методы-процедуры – синтаксис объявления, реализация методов и варианты вызова методов
- Численные методы интегрирования
- Условия оптимальности для задачи условной оптимизации
- Позитивизм. Общенаучные методы познания
- Условия оптимальности для некоторых классов моделей принятия решений
- Аналитические методы расчета надежности ТЭС и АЭС
- Абстрактные методы – объявление, наследование, полиморфизм
- Рассылки сообщений, методы: Dispatch, Perform, Broadcast, NotifyControls, функции Windows API
- Алгоритм, реализующий метод внутренних точек
- Использование коллектива независимых стохастических автоматов как некоторой системы поисковой оптимизации