Градиентные методы спуска

Определение минимального значения многопараметрической функции Q (х), заданной в n-мерном евклидовом пространстве связано с решением задачи безусловной оптимизации:

min Q(x1, х2,…, xn). (5.1)

Здесь каждая переменная xi, i= 1, 2, …, n, может принимать значения от —? до +?. Предположим, что функция Q (х) является унимодальной функцией, для которой в каждой точке х может быть получено с помощью градиента ?Q(х)= {?Q/?x1, …, ?Q/?xn), а при необходимости и гессиана (матрицы вторых производных)

G(х) = {?2Q/dxidxj}.

Рассмотрим класс алгоритмов, осуществляющих последовательный поиск точки минимума х* функции Q (х) из заданного начального приближения х° по итерационной формуле

xr+1 = xr + ?r = xr + ?rSr, r = 0,1,… (5.2)

где xr — приближенное решение задачи (5.1), полученное на r-й итерации; ?r= (хr+1 — хr) — приращение варьируемых параметров на r-й итерации; Sr — единичное направление, ведущее к уменьшению функции Q (х); ?r — длина шага вдоль направления Sr. Последовательность точек испытаний {хr}, полученная по формуле (5,2) и удовлетворяющая цепочке неравенств

Q(х0) > Q(x1) > … > Q (xk). (5.3)

называется релаксационной последовательностью.

Разложим функцию Q (х) относительно точки хr в ряд Тейлора, ограничиваясь членами первого порядка

Q(xr+1) ? Q(xr) + (?QT(xr), ?r). (5.4)

Из условия (5.3) следует, что на каждой итерации приращение А’ должно выбираться таким образом, чтобы выполнялось неравенство: Q (хr+1) — Q (хr) < 0. Учитывая соотношение (5.4), получаем, что

(?QT(xr), ?r) = ?r(?QT(xr), Sr) < 0. (5.5)

Для обеспечения наибольшей скорости уменьшения функции Q (х) вдоль единичного направления последнее должно совпадать с нормализованным значением антиградиента:

Sr = -?Q(xr)/||?Q(xr||. (5.6)

Из (5.4) с учетом неравенства (5.5) следует, что единичное направление Sr, обеспечивающее наибольшую скорость уменьшения функции Q (х), является решением экстремальной задачи

min (?QT(xr), S) при условии что (ST‘, S)= 1.

Методы построения релаксационной последовательности (5.3) с помощью итерационной формулы (5.2), в которой направление поиска Sr зависит от значения антиградиента, называются градиентными методами спуска. При заданном направлении поиска Sr выбор точки очередного испытания согласно (5.2) сводится к определению положительного значения шага ?r вдоль этого направления. Реализация градиентного метода спуска, в которой оптимальная длина шага ?r вдоль направления антиградиента (5.6) является решением одномерной задачи минимизации:

Q{xr + ?rSr) = min Q(xr + ?Sr), (6.10)

называется методом наискорейшего спуска.

Алгоритмы, реализующие метод наискорейшего спуска, отличаются друг от друга способом. решения экстремальной задачи (5.10). Если функция Q (х) является дважды дифференцируемой (Q(х)?С2), то ее можно аппроксимировать в точке (r + 1)-го приближения полиномом второй степени

Q(xr+1) ? Q (хr) + ?r(?QTr), Sr) + ?r2(Sr)TG(хr)Sr.

Отсюда получаем, что оптимальным решением задачи (5.10) является выражение

?r = —(?QTr), Sr)/(Sr)TG(хr)Sr. (5.13)

Достоинством метода наискорейшего спуска является его простота. Однако он имеет ряд существенных недостатков, среди которых необходимо отметить следующие. Во-первых, это — одношаговый метод, в котором при выборе точки очередного испытания хr+1 не используется информация о предыдущих испытаниях, кроме испытания в точке xr. Во-вторых, если гессиан G (х) минимизируемой функции Q (х) является плохо обусловленной матрицей, наименьшее и наибольшее собственные значения которой сильно отличаются друг от друга, то процесс поиска замедляется в связи с зигзагообразностью траектории проводимых испытаний х0, х1,…,хk (рис. 5.1).



Рис. 5.1. Зигзагообразная траектория приближения к точке минимума x* квадратичной функции с помощью метода наискорейшего спуска

При этом может потребоваться недопустимо большое число итераций, прежде чем будет получена требуемая точность локализации точки локального минимума х*.
Q(x) = x»^x+b^x + a

Рассмотренное свойство метода привод к тому, что он позволяет получить оптимальное решение х* задачи безусловной минимизаций (5.1) за конечное число итераций и в качестве условия окончания поиска обычно используется неравенство

||?Q(xr)|| ? ?.

Для устранения недостатка метода F22, связанного с игнорированием информации о предыдущих испытаниях, рассмотрим алгоритм, реализующий градиентный метод с памятью, в котором при выборе очередного приращения ?r учитывается инфор¬мация о приращении ?r-1 на предыдущем шаге. Для этого потребуем, чтобы на каждой итерации приращение ?r выбиралось таким образом, чтобы обеспечивалась наибольшая скорость уменьшения функции Q (х) при условии, что квадрат модуля разности приращения ?r и взвешенного приращения ??r-1 оставался равным постоянной величине К:

min (?QT(xr), ?). (5.17)

Оптимальным решением задачи (5.17) является линейная комбинация антиградиента функции Q (х), вычисленного в точке хr и приращения, полученного на предыдущей итерации:

?r = – ?r?Q(xr) + ?r?r-1. (5.18)

Значения коэффициентов ?r и ?r в формуле (5.18), полученной для построения очередного приращения ?r, могут быть выбраны из условия обеспечения минимального значения функцир Q (х) вдоль направления ?r:

Q(xr – ?r?Q(xr) + ?r?r-1) = min Q (r – ?r?Q(xr) + ?r?r-1). (5.21)

Алгоритмы, реализующие градиентный метод в памятью, отличаются друг от друга способом решения экстремальной задачи (5.21). В качестве одного из подходов к численному решению задачи (5.21) рассмотрим метод квазилинеризации решения эквивалентной ей системы нелинейных уравнений.

О градиентных методах спуска, которые позволяют найтаточку минимума x* = (х1, …, x1) квадратичной функции (5.14) не больше, чем за n итераций, говорят, что они обладают квадратичной скоростью сходимости. Более подробно методы локальной оптимизации, обладающие квадратичной скоростью сходимости, будут рассмотрены в следующем посте.

Похожие записи
  1. Квазиньютоновские методы минимизации
  2. Задачи и методы оптимизации в системах имитационного моделирования
  3. Минимизация функций без вычисления производных
  4. Методы полиномиальной интерполяции
  5. Виртуальные и динамические методы, замещающие методы
  6. Параллельные методы, комбинирующие пассивные и последовательные стратегии поиска
  7. Многомерный случай для задач безусловной минимизации
  8. Методы-функции и методы-процедуры – синтаксис объявления, реализация методов и варианты вызова методов
  9. Численные методы интегрирования
  10. Условия оптимальности для задачи условной оптимизации
  11. Позитивизм. Общенаучные методы познания
  12. Условия оптимальности для некоторых классов моделей принятия решений
  13. Аналитические методы расчета надежности ТЭС и АЭС
  14. Абстрактные методы – объявление, наследование, полиморфизм
  15. Рассылки сообщений, методы: Dispatch, Perform, Broadcast, NotifyControls, функции Windows API
  16. Алгоритм, реализующий метод внутренних точек
  17. Использование коллектива независимых стохастических автоматов как некоторой системы поисковой оптимизации

Оставить комментарий


Закажи работу СЕЙЧАС



Статистика

Рейтинг@Mail.ru