Ekstremum funkcji

Ekstremum funkcji (l. mn. ekstrema; z łac. extrēmus – najdalszy, ostatni) – maksymalna lub minimalna wartość funkcji^[1].

Funkcja $f(x)$ przyjmuje w punkcie $x_{0}$ maksimum lokalne (odpowiednio: minimum lokalne), jeśli w pewnym otwartym^[a] otoczeniu tego punktu (np. w pewnym przedziale otwartym) funkcja nigdzie nie ma wartości większych (odpowiednio: mniejszych).
Jeśli dodatkowo w pewnym otwartym sąsiedztwie punktu $x_{0}$ funkcja nie ma również wartości równych $f(x_{0}),$ to jest to maksimum (odpowiednio: minimum) lokalne właściwe.
Minima i maksima lokalne są zbiorczo nazywane ekstremami lokalnymi.
Największa i najmniejsza wartość funkcji w całej dziedzinie nazywane są odpowiednio maksimum i minimum globalnym, a zbiorczo ekstremami globalnymi.

Thumb — Ekstrema lokalne funkcji $f(x)=2x^{3}-9x^{2}+12x-3$ zaznaczone kolorem niebieskim (właściwe maksimum lokalne) i czerwonym (właściwe minimum lokalne)

Ten artykuł od 2022-01 wymaga zweryfikowania podanych informacji.

Obrazowo: Na powierzchni Ziemi maksimum globalne wysokości nad poziomem morza występuje na szczycie Mount Everestu, maksimum lokalnym jest szczyt każdego pagórka. Jeśli szczyt pagórka jest poziomy i płaski (a także niekiedy w innych przypadkach^[b]), nie będzie to maksimum lokalne właściwe.

Istnieją funkcje nieposiadające ekstremów lokalnych ani globalnych, np. funkcja $f(x)=x.$

Poszukiwanie ekstremów jest ważne w praktycznych zastosowaniach matematyki, na przykład w technice i statystyce. Wiele zagadnień optymalizacyjnych sprowadza się do poszukiwania ekstremów odpowiednich funkcji, jak na przykład funkcji kosztu, albo miary jakości dla różnych parametrów danego urządzenia.

Teoria ekstremów w naturalny sposób ma silny związek z teorią nierówności: wiele problemów i twierdzeń można formułować równoważnie zarówno w języku ekstremów, jak i nierówności, co rzuca światło na obie te dziedziny.

Remove ads

Funkcje, dla których można rozważać ekstrema

Podsumowanie

Perspektywa

W matematyce wartością funkcji nie musi być koniecznie liczba – funkcją jest dowolne przyporządkowanie każdemu elementowi zbioru zwanego dziedziną po jednym elemencie zbioru zwanego przeciwdziedziną. Funkcją jest więc również przyporządkowanie każdemu łysemu aktorowi Teatru Wielkiego koloru włosów jego ulubionej peruki.

Pojęcie ekstremum wymaga, by wartości funkcji dało się ze sobą porównywać – w przeciwdziedzinie funkcji powinien być zatem zdefiniowany jakiś porządek. Zbiór uporządkowany, i to liniowo, tworzą np. liczby rzeczywiste. Nie ma natomiast powszechnie przyjętego uporządkowania kolorów, zwłaszcza porządku liniowego.

W przypadku ekstremum lokalnego konieczne jest ponadto sprecyzowanie pojęcia „lokalności”. Dokonuje się to przez określenie dla każdego argumentu funkcji, które punkty z jej dziedziny są mu „bliskie”. Formalizując to podejście, określamy w każdym punkcie dziedziny funkcji tak zwaną bazę otoczeń punktu. Dla liczby rzeczywistej otoczeniem jest np. przedział otwarty, zawierający tę liczbę. Ogólnie, zbiór z systemem otoczeń, spełniającym pewne naturalne warunki tworzy tzw. przestrzeń topologiczną.

O ekstremach lokalnych można zatem mówić w przypadku dowolnej funkcji, której dziedzina jest przestrzenią topologiczną, a przeciwdziedzina zbiorem częściowo uporządkowanym. Ze względu na zastosowania najczęściej rozważa się szczególny przypadek – funkcje rzeczywiste, czyli funkcje o wartościach w liczbach rzeczywistych, których dziedzina jest podzbiorem skończenie wymiarowej przestrzeni euklidesowej.

Remove ads

Definicje ekstremów dla dowolnych funkcji

Podsumowanie

Perspektywa

Funkcja $f$ o wartościach w zbiorze uporządkowanym określona na przestrzeni topologicznej ma w punkcie $x_{0}$ tej przestrzeni:

minimum lokalne, jeśli istnieje otoczenie otwarte $U$ punktu $x_{0}$ takie, że dla każdego $x\in U,$

f(x)\geqslant f(x_{0}),

więc nie występują w okolicy punktu

x_{0}

wartości funkcji mniejsze od

f(x_{0})

(ani nieporównywalne), choć mogą występować wartości równe,

maksimum lokalne, gdy istnieje otoczenie otwarte $U$ punktu $x_{0}$ takie, że dla każdego $x\in U,$

f(x)\leqslant f(x_{0}),

więc nie występują w okolicy punktu

x_{0}

wartości funkcji większe od

f(x_{0})

(ani nieporównywalne), choć mogą występować wartości równe,

właściwe minimum lokalne, jeśli w pewnym otoczeniu otwartym $U$ punktu $x_{0}$ funkcja przyjmuje wszędzie, z wyjątkiem tego punktu, wartości większe od $f(x_{0}),$ czyli nie ma wartości równych dla $x\neq x_{0},$ formalnie:

x=x_{0}\vee f(x)>f(x_{0})

dla każdego

x\in U,

właściwe maksimum lokalne, jeśli w pewnym otoczeniu otwartym $U$ punktu $x_{0}$ funkcja przyjmuje wszędzie, z wyjątkiem tego punktu, wartości mniejsze od $f(x_{0}),$ formalnie:

x=x_{0}\vee f(x)<f(x_{0})

dla każdego

x\in U.

Funkcja $f$ o wartościach w zbiorze uporządkowanym^[c] ma w punkcie $x_{0}$ swojej dziedziny:

minimum globalne, jeśli dla każdego $x$ należącego do jej dziedziny:

f(x)\geqslant f(x_{0}),

maksimum globalne, jeśli dla każdego $x$ należącego do jej dziedziny:

f(x)\leqslant f(x_{0}),

właściwe minimum globalne, jeśli dla każdego $x$ należącego do jej dziedziny:

x=x_{0}\vee f(x)>f(x_{0}),

czyli funkcja przyjmuje wszędzie z wyjątkiem punktu

x_{0}

wartości większe od

f(x_{0})

właściwe maksimum globalne, jeśli dla każdego $x$ należącego do jej dziedziny:

x=x_{0}\vee f(x)<f(x_{0}),

czyli funkcja przyjmuje wszędzie z wyjątkiem punktu

x_{0}

wartości mniejsze od

f(x_{0}).

Nie każda funkcja posiada ekstrema. Jeśli funkcja nie jest ograniczona (np. $f(x)=x$ ), to nie ma maksimum ani minimum globalnego – jeżeli nie jest ograniczona od góry, to nie ma maksimum globalnego; a jeżeli od dołu, to nie ma minimum globalnego.

Można też mówić o maksimach i minimach w podzbiorze dziedziny – są to wówczas największe lub najmniejsze wartości funkcji dla argumentów z tego podzbioru.

Remove ads

Ekstrema funkcji jednej zmiennej

Podsumowanie

Perspektywa

Przykłady ekstremów

Funkcja cosinus osiąga maksimum dla każdej parzystej wielokrotności $\pi ,$ czyli $\dots ,-4\pi ,-2\pi ,0,2\pi ,4\pi ,\dots$ oraz minimum dla każdej nieparzystej wielokrotności $\pi ,$ czyli $\dots ,-5\pi ,-3\pi ,-\pi ,\pi ,3\pi ,5\pi ,\dots$ Są to lokalne ekstrema właściwe i jednocześnie ekstrema globalne (ale nie globalne ekstrema właściwe!).
Funkcja kwadratowa $f(x)=x^{2}$ osiąga właściwe minimum (lokalne i globalne) dla $x=0.$ Nie ma maksimum, nawet lokalnego. Dla każdego argumentu można w jego bezpośrednim sąsiedztwie wskazać punkt w którym funkcja przyjmuje większą wartość.
Funkcja entier osiąga w każdym punkcie maksimum lokalne niewłaściwe. Minimum lokalne występuje jednak tylko dla liczb niecałkowitych. W każdym otoczeniu liczby całkowitej z lewej strony występują mniejsze wartości funkcji. Nie ma ekstremów globalnych.
Funkcja $f(x)=\left\{{\begin{array}{l}{x^{2}(1+\sin {\frac {1}{x}}),\;x\neq 0}\\{0,\;x=0}\end{array}}\right.$ ma w punkcie $x_{0}=0$ minimum lokalne, jednak nie jest to minimum właściwe – w dowolnej bliskości tego punktu można znaleźć inne punkty, w których przyjmuje ona tę samą wartość (oprócz tego posiada nieskończoną liczbę minimów i maksimów właściwych).

cd. Przykłady: Właściwe minimum lokalne w każdym punkcie dziedziny

Niech funkcja $f$ przyporządkowuje każdej liczbie wymiernej wartość mianownika wyrażającego ją ułamka skróconego. Formalnie:

f\colon \mathbb {Q} \ni {\frac {p}{q}}\mapsto \left|{\frac {q}{\operatorname {NWD} (p,q)}}\right|,

gdzie NWD oznacza największy wspólny dzielnik.

Dla dowolnego wymiernego $x$ istnieje otoczenie otwarte, w którym wszystkie inne liczby wymierne mają większy mianownik, a więc większą wartość funkcji $f$ ^[d]. A zatem funkcja ta ma dla każdej liczby wymiernej (czyli dla każdego punktu swojej dziedziny) właściwe minimum lokalne.

Tw. Weierstrassa (warunek wystarczający ekstremum globalnego)

Twierdzenie Weierstrassa o kresach mówi, że funkcja ciągła o wartościach rzeczywistych, określona na przedziale domkniętym, osiąga ekstrema globalne. Twierdzenie to jest prawdziwe nie tylko dla funkcji liczbowych, a dla dowolnych funkcji ciągłych, określonych na zwartych podzbiorach dowolnych przestrzeni topologicznych.

Ekstrema funkcji różniczkowalnej jednej zmiennej

W dalszej części sekcji rozważane będą funkcje $f\colon [a,b]\to \mathbb {R}$ ciągłe oraz różniczkowalne w przedziale $(a,b).$ Geometrycznie oznacza to, że ich wykres jest „nieprzerwany” i „gładki”, czyli ma w każdym punkcie styczną. Nie zakładamy tu, dla ogólności rozważań, ciągłości funkcji pochodnej. Poniżej rozważymy warunki na istnienie ekstremów dla funkcji spełniających rosnące wymagania, tj. o ciągłych pochodnych pierwszego, drugiego i n-tego rzędu. W następnym rozdziale rozważymy zaś funkcje, które nie mają pochodnych w punktach, w których pomimo tego mają ekstrema.

Warunek konieczny istnienia ekstremum lokalnego (twierdzenie Fermata)

Tw. Warunkiem koniecznym istnienia ekstremów lokalnych funkcji różniczkowalnej $f$ w pewnym punkcie $x_{0}\in (a,b)$ jest

f'(x_{0})=0.

Geometrycznie oznacza to, że styczna do wykresu funkcji jest w tym punkcie prostą poziomą. Jest to tzw. twierdzenie Fermata.

Dowód:

Jeśli $f$ ma w punkcie $x_{0}$ ekstremum lokalne, to istnieje takie $\epsilon >0,$ że dla każdej liczby rzeczywistej $h,$ spełniającej $0<|h|<\epsilon ,$ zachodzi:

(f(x_{0}-h)-f(x_{0}))\cdot (f(x_{0}+h)-f(x_{0}))\geqslant 0,

a więc:

{\frac {f(x_{0}-h)-f(x_{0})}{-h}}\cdot {\frac {f(x_{0}+h)-f(x_{0})}{h}}\leqslant 0.

Po przejściu do granicy, dla $h\to 0,$ otrzymujemy:

(f'(x_{0}))^{2}\leqslant 0.

Zatem $f'(x_{0})=0,$ c.n.d.

Warunek Fermata nie jest jednak wystarczający.

Np. funkcja $g(x)=x^{3}$ nie ma ekstremum, chociaż jej pochodna $g'(x)=3x^{2}$ zeruje się dla $x_{0}=0.$

Warunek wystarczający istnienia ekstremum lokalnego funkcji klasy $C^{1}$

Jeżeli $f$ jest funkcją klasy $C^{1}$ jednej zmienne rzeczywistej $f\colon [a,b]\to \mathbb {R}$ (tj. funkcja jest ciągła i ma ciągłą pochodną w przedziale $(a,b)$ ) oraz ma skończoną liczbę punktów stacjonarnych (tj. takich, w których zeruje się jej pierwsza pochodna)^[e], to w punkcie $x_{0}\in (a,b)$ funkcja $f$ ma ekstremum, gdy w otoczeniu tego punktu pochodna zmienia znak, przy czym:

minimum lokalne wtedy i tylko wtedy, gdy istnieje takie $\delta >0,$ $\delta >0,$ że:
- $f'(x_{0})=0,$
- $f'(x)<0$ dla $x\in (x_{0}-\delta ,x_{0}),$
- $f'(x)>0$ dla $x\in (x_{0},x_{0}+\delta );$

maksimum lokalne wtedy i tylko wtedy, gdy istnieje takie $\delta >0,$ $\delta >0,$ że
- $f'(x_{0})=0,$
- $f'(x)>0$ dla $x\in (x_{0}-\delta ,x_{0}),$
- $f'(x)<0$ dla $x\in (x_{0},x_{0}+\delta ).$

Warunek wystarczający istnienia ekstremum lokalnego funkcji klasy $C^{2}$

Jeżeli $f$ jest funkcją klasy $C^{2}$ (tj. jest ciągła i ma ciągłe pierwszą i drugą pochodną w przedziale $(a,b)$ ) oraz spełnione są warunki

f'(x_{0})=0

f''(x_{0})\neq 0

to $f$ ma w punkcie $x_{0}$ ekstremum, przy czym:

gdy

f''(x_{0})<0,

to jest to maksimum lokalne

gdy

f''(x_{0})>0,

to minimum lokalne^[f].

2. Gdy zaś druga pochodna zmienia znak przechodząc przez punkt $x_{0}\in (a,b)$ .

Powyższe kryterium nie rozstrzyga przypadku, gdy druga pochodna jest równa zero.

Warunek wystarczający istnienia ekstremum lokalnego funkcji klasy $C^{n}$

Jeżeli $f$ jest funkcją klasy $C^{n}$ , tj. jest $n$ -krotnie razy różniczkowalna i ma ciągłe pochodne aż do $n$ -tej w $(a,b),$ oraz spełnione są warunki^[2]:

f'(x_{0})=f''(x_{0})=\ldots =f^{(n-1)}(x_{0})=0,

tj. wszystkie pochodne do

(n-1)

-ej zerują się w punkcie

x_{0},

f^{n}(x_{0})\neq 0

, tj. n-ta pochodna jest różna od zera w tym punkcie,

gdy $n$ jest liczbą parzystą, to $f$ ma ekstremum w punkcie $x_{0},$ przy czym jest to maksimum, gdy $f^{(n)}(x_{0})<0$ lub minimum, gdy $f^{(n)}(x_{0})>0,$
gdy $n$ jest liczbą nieparzystą, ekstremum nie istnieje.

Dowód

Z założenia zerowania się pochodnych do $(n-1),$ można wyprowadzić korzystając ze wzoru Taylora:

f(x_{0}+h)-f(x_{0})={\frac {h^{n}}{n!}}f^{(n)}(x_{0}+\theta h)

dla pewnego $0<\theta <1.$

Jeśli $n$ jest parzyste, rozumowanie przebiega jak poprzednio. Gdy $n$ jest nieparzyste, prawa strona równości zmienia znak, gdy $h$ zmienia znak, a funkcja $f^{(n)}$ zachowuje w pewnym otoczeniu punktu $x_{0}$ ten sam znak co $x_{0}.$ Czyli $f(x_{0}+h)-f(x_{0})$ ma dla $h<0$ inny znak niż dla $h>0,$ więc nie istnieje ekstremum w punkcie $x_{0}.$

Przykłady: Zagadnienia optymalizacyjne - funkcja jednej zmiennej

Zagadnienie wyznaczania ekstremów funkcji występuje często w fizyce i technice. Oto przykład:

Przykład 1: Pudełko o największej objętości

Problem:

Z kwadratowego arkusza blachy o boku

a

wycinane są przy wierzchołkach przystające kwadraty i po zagięciu brzegów tworzone jest prostopadłościenne pudełko. Jak otrzymać pudełko o największej objętości?

Rozwiązanie 1:

Jeśli przez

x

oznaczyć długość boku wyciętego kwadratu, to objętość

V

pudełka będzie równa

V(x)=x(a-2x)^{2},

przy czym

0\leqslant x\leqslant {\tfrac {1}{2}}a.

Zadanie sprowadza się do znalezienia ekstremum funkcji

V

w przedziale

[0,{\tfrac {1}{2}}a],

przy czym wartości krańcowe reprezentują pudełko odpowiednio bez ścianek oraz bez podstawki, a więc o zerowej (minimalnej) objętości. Pochodna

V'(x)=(a-2x)(a-6x)

zeruje się na tym przedziale w punktach

x_{0}={\tfrac {a}{6}}

oraz

x_{1}={\tfrac {a}{2}}

(w tym przypadku objętość jest zerowa). Ponieważ funkcja objętości jest dodatnia wewnątrz przedziału, 0 na jego końcach i ma we wnętrzu nie więcej niż jedno ekstremum lokalne, to ma ona dokładnie jedno maksimum, które jest zarazem lokalne i globalne (twierdzenie Rolle’a); osiągane jest ono w

x_{0}.

Dlatego największa objętość pudełka wynosi

V(x_{0})={\tfrac {2}{27}}a^{3}.

Rozwiązanie 2

Wielkość

W(x):=4V(x)=ABC

(gdzie

A:=4x

oraz

B:=C:=a-2x

są nieujemne) przyjmuje wartość maksymalną dla tego samego

x

V(x).

Ponieważ

A+B+C=2a

jest stałe i dodatnie, więc stała i dodatnia jest też średnia arytmetyczna nieujemnych liczb

A,B,C.

W(x)

jest natomiast sześcianem ich średniej geometrycznej. Wiadomo, że średnia geometryczna liczb nieujemnych jest zawsze mniejsza lub równa od arytmetycznej, przy czym równość między tymi średnimi zajdzie tylko, gdy

A=B=C

(zob. nierówności między średnimi potęgowymi), czyli gdy

4x=a-2x.

Stąd

x={\tfrac {a}{6}}.

Zatem dla tej właśnie wartości

x,

V(x)

przyjmuje wartość maksymalną

V\left({\tfrac {a}{6}}\right)={\tfrac {2}{27}}a^{3}.

Przykład 2: Koszt eksploatacji statku

Problem: Wiadomo, że koszt eksploatacji statku w ciągu godziny pływania wyraża się wzorem empirycznym $a+bv^{3},$ gdzie $v$ oznacza prędkość statku w węzłach (1 węzeł = 1 Mm/h ≈ 1,85 km/h), natomiast $a$ i $b$ są stałymi, które powinny być obliczone dla każdego statku z osobna (część stała kosztu $a$ pochodzi od amortyzacji i kosztów utrzymania załogi, a część $bv^{3}$ od kosztów paliwa). Przy jakiej prędkości statek przebędzie dowolną odległość z najmniejszymi kosztami?

Rozwiązanie

Przebycie 1 mili morskiej trwa 1/v godziny, więc kosztuje:

f(v):={\tfrac {1}{v}}(a+bv^{3})=bv^{2}+{\tfrac {a}{v}}.

Przyrównując pochodną

f'

do zera, mamy:

2bv-{\tfrac {a}{v^{2}}}=0,

skąd

v={\sqrt[{3}]{\tfrac {a}{2b}}}.

Ponieważ druga pochodna

f''(v)=2b+2{\tfrac {a}{v^{3}}}>0,

więc koszty rzeczywiście osiągną najmniejszą wartość dla znalezionej wartości

v.

Remove ads

Ekstrema w punktach, w których funkcja ciągła jest nieróżniczkowalna

Podsumowanie

Perspektywa

Ekstremum może istnieć w punktach, w których funkcja nie jest różniczkowalna, pomimo że jest ciągła. Przykładami są funkcje jednej zmiennej, które mają minima, ale pochodna prawostronna i lewostronna nie są sobie równe lub też rozbiegają się do nieskończoności. Np.

(1) Funkcja $f(x)=|x|$ , gdzie $|..|$ - wartość bezwzględna, ma minimum globalne w punkcie $x=0$ , ale jej pochodna nie istnieje w tym punkcie, bo pochodne lewostronna i prawostronna nie są sobie równe.

(2) Funkcja $f(x)=x^{\frac {2}{3}}$ ma minimum globalne w punkcie $x=0,$ ale jej pochodna nie istnieje w tym punkcie: pochodna lewostronna w $x=0$ rozbiega się do $-\infty ,$ a prawostronna do $+\infty .$

Dowód: Dla $x\neq 0$ stosujemy regułę ${\tfrac {d}{dx}}x^{n}=nx^{n-1},$ czyli

$f'(x)={\frac {d}{dx}}x^{2/3}={\frac {2}{3}}x^{2/3-1}={\frac {2}{3}}x^{-1/3}={\frac {2}{3}}{\frac {1}{x^{1/3}}},\quad x\neq 0.$

W punkcie $x=0$ granice jednostronne są nieskończone:

$f'_{-}(0)=\lim _{h\to 0^{-}}{\frac {(0+h)^{2/3}-0}{h}}=\lim _{h\to 0^{-}}{\frac {|h|^{2/3}}{h}}=-\infty ,$

$f'_{+}(0)=\lim _{h\to 0^{+}}{\frac {(0+h)^{2/3}-0}{h}}=\lim _{h\to 0^{+}}h^{-1/3}=+\infty .$

$\Rightarrow f'(0){\text{ nie istnieje.}}$

Analogiczna sytuacje mogą zachodzić dla funkcji ciągłych dwóch i większej liczby zmiennych - funkcje mogą mieć ekstrema w punktach, gdzie wykresy funkcji są ciągłe, ale mają ostre załamania, punkty stożkowe, itp., tj. w punktach, gdzie nie istnieją pochodne.

Remove ads

Ekstrema funkcji dwóch zmiennych

Podsumowanie

Perspektywa

Rozpatrzymy tu funkcje dwóch zmiennych określone na podzbiorach otwartych $D$ płaszczyzny $X=\mathbb {R} ^{2}$ . Funkcje tego typu często pojawiają się w zastosowaniach.

Zakładamy, że funkcja $f\colon D\to \mathbb {R}$ jest klasy $C^{2}$ (tj. jest dwukrotnie różniczkowalna oraz ciągła aż do drugiej pochodnej włącznie).

Metoda badania (algorytm) istnienia ekstremów funkcji jest następująca:

(1). Wyznaczamy wszystkie punkty krytyczne $(x_{0},y_{0})\in D$ , tj. takie, że pochodne cząstkowe zerują się w nich^[g]:

\left\{{\begin{matrix}f_{x}(x_{0},y_{0})=0\\f_{y}(x_{0},y_{0})=0\end{matrix}}\right.

(2). Dla każdego punktu krytycznego wyznaczamy macierz Hessego i obliczamy jej wyznacznik

\Delta _{H}(x_{0},y_{0})=\left|{\begin{array}{l}f_{xx}(x_{0},y_{0})&f_{xy}(x_{0},y_{0})\\f_{yx}(x_{0},y_{0})&f_{yy}(x_{0},y_{0})\end{array}}\right|=f_{xx}(x_{0},y_{0})f_{yy}(x_{0},y_{0})-[f_{xy}(x_{0},y_{0})]^{2}

Ostatnia równość wynika z założenia, że funkcja $f$ jest klasy $C^{2}$ - stąd mamy równość pochodnych mieszanych $f_{xy}(x_{0},y_{0})=f_{yx}(x_{0},y_{0})$ (por. Tw. Schwarza).

(3). Kryteria:

a) Jeżeli $\Delta _{H}(x_{0},y_{0})>0$ oraz $f_{xx}(x_{0},y_{0})>0$ , to w $(x_{0},y_{0})$ jest minimum lokalne

b) Jeżeli $\Delta _{H}(x_{0},y_{0})>0$ oraz $f_{xx}(x_{0},y_{0})<0$ , to w $(x_{0},y_{0})$ jest maksimum lokalne

c) Jeżeli $\Delta _{H}(x_{0},y_{0})<0,$ to w punkcie $(x_{0},y_{0})$ jest punkt siodłowy

d) Jeżeli $\Delta _{H}(x_{0},y_{0})=0$ , to potrzeba dalszego badania pochodnych wyższych rzędów^[3].

(por. Weisstein, Eric W. "Second Derivative Test." From MathWorld--A Wolfram Resource, https://mathworld.wolfram.com/SecondDerivativeTest.html)

Przykład

Znaleźć ekstrema funkcji

f(x,y)=2x^{3}-y^{3}+12x^{2}+27y.

Rozwiązanie:

Posługując się wyżej podaną metodą postępujemy następująco:

(1). Obliczamy pierwsze pochodne cząstkowe funkcji $f$

f_{x}(x,y)=6x^{2}+24x,

f_{y}(x,y)=-3y^{2}+27

i przyrównujemy je do zera, co prowadzi do układu równań:

\left\{{\begin{matrix}f_{x}(x,y)=0\\f_{y}(x,y)=0\end{matrix}}\right.\Leftrightarrow

\left\{{\begin{matrix}6x^{2}+24x=0\\-3y^{2}+27=0\end{matrix}}\right.

Układ ten ma 4 rozwiązania - punkty krytyczne:

(0,3),\ (0,-3),\ (-4,-3),\ (-4,3)

(2). Liczymy wyznacznik $\Delta _{H}(x,y)$ :

f_{xx}(x,y)=12x+24

f_{xy}(x,y)=0

f_{yy}(x,y)=-6y

Stąd:

\Delta _{H}(x,y)=f_{xx}(x,y)f_{yy}(x,y)-[f_{xy}(x,y)]^{2}=-72(x+2)y

Liczymy wyznacznik dla punktów krytycznych:

$\Delta _{H}(0,3)=-432<0$ oraz $\Delta _{H}(-4,-3)=-432<0$ - zatem punkty $(0,3),(-4,-3)$ są punktami siodłowymi funkcji $f$ (na wykresie zaznaczono je na pomarańczowo)
$\Delta _{H}(0,-3)=432>0$ oraz $f_{xx}(0,-3)=24>0$ – w tym punkcie jest minimum lokalne (zaznaczono na czerwono),
$\Delta _{H}(-4,3)=432>0$ oraz $f_{xx}(-4,3)=-24<0$ – w tym punkcie jest maksimum lokalne (zaznaczono na zielono).

Remove ads

Ekstrema funkcji wielu zmiennych

Analogicznie jak dla funkcji dwóch zmiennych określono metodę badania ekstremów funkcji wielu zmiennych $f\colon D\to \mathbb {R}$ , gdzie $D$ – podzbiór otwarty przestrzeni rzeczywistej $\mathbb {R} ^{n}$ . Metoda polega na wyznaczeniu macierzy drugich pochodnych i badania jej określoności, np. stosując kryterium Sylwestra lub (jeśli przypadek nie podpada pod to kryterium) poprzez obliczanie wartości własnych macierzy Hessego. Metodą dokładnie omówiono w artykule Macierz Hessego, ilustrując ją przykładami i wykresami.

Remove ads

Ekstrema funkcji uwikłanej dwóch zmiennych

Podsumowanie

Perspektywa

W tej sekcji rozważane będą ekstrema funkcji $y(x),$ dla której nie znamy jednak bezpośredniej zależności $y$ od $x,$ mając jedynie równanie postaci $F(x,y)=0.$

Podobnie jak w poprzednim przypadku, o funkcji $F$ zakładamy, że jest dwukrotnie różniczkowalna w pewnym otwartym podzbiorze $D\subset \mathbb {R} ^{2}$ oraz $E$ jest zbiorem punktów $(x,y)$ obszaru, w których

F(x,y)=0.

Na mocy twierdzenia o funkcji uwikłanej, wzór

y'(x)=-{\frac {F_{x}(x,y)}{F_{y}(x,y)}},

gdzie $y=y(x),$ a w konsekwencji także

y''=-{\frac {F_{xx}(F_{y})^{2}-2F_{xy}F_{x}F_{y}+F_{yy}(F_{x})^{2}}{(F_{y})^{3}}}

pozwala wyznaczyć ekstrema funkcji $y$ uwikłanej w równaniu $F(x,y)=0$ ^[h]. W tym celu należy wyznaczyć punkty, w których

F(x,y)=0,y'=0,y''\neq 0.

Dwa ostatnie warunki równoważne są poniższym, tj.

F'_{x}=0,-{\frac {F_{xx}}{F_{y}}}\neq 0.

Przykład

Znaleźć ekstrema funkcji $y,$ określonej równaniem

F(x,y)=x^{2}-2xy-3y^{2}+4=0.

Ponieważ

F_{x}(x,y)=2x-2y=0,

tylko gdy $x=y,$ więc wstawiając to do równania

F(x,y)=0

otrzymujemy jako jedyne rozwiązania punkty $(1,1),(-1,-1).$

Ponieważ

F_{y}(x,y)=-2x-6y

oraz

F_{xx}(x,y)=2,

zatem w punkcie $(1,1)$ druga pochodna

y''(-1)=-{\tfrac {2}{-8}}={\tfrac {1}{4}}>0,

czyli w tym punkcie jest minimum lokalne, natomiast w punkcie $(-1,-1),$

y''(-1)={\tfrac {-2}{8}}=-{\tfrac {1}{4}}<0,

czyli w tym punkcie jest maksimum lokalne funkcji $y.$

Remove ads

Rachunek wariacyjny

Podsumowanie

Perspektywa

Osobny artykuł: Rachunek wariacyjny.

Ważnymi obiektami matematycznymi są te funkcjonały, które danej funkcji przypisują liczbę rzeczywistą, np. długość łuku jej wykresu. Przestrzeń funkcyjna jest przestrzenią unormowaną, opisywaną w jednej z wcześniejszych sekcji, jednak badanie ekstremów tych funkcjonałów jest szczególnie istotne ze względu na zastosowania w fizyce i technice – przykładowo jeśli funkcja będąca argumentem funkcjonału opisuje kształt śmigła samolotu, a wartości funkcjonału opisują wydajność śmigła, to znalezienie globalnego maksimum jest równoważne wyliczeniu jaki kształt śmigła zapewni największą wydajność.

Badania funkcjonałów zapoczątkował Leonard Euler. Klasycznym problemem, prowadzącym do znalezienia ekstremów pewnego funkcjonału jest zagadnienie brachistochrony, postawione w 1696 przez Jana Bernoulliego w periodyku Acta Eroditorium. Sprowadza się ono do znalezienia takiej krzywej łączącej dwa punkty $A$ i $B,$ aby ciało staczające się po niej od punktu $A$ do $B$ pokonało tę drogę w najkrótszym czasie^[i].

Ekstrema mocne i słabe

Szukając lokalnych ekstremów funkcjonałów konieczne jest zdefiniowanie przestrzeni topologicznej. Najprościej zrobić to konstruując bazę coraz węższych otoczeń wokół każdego punktu dziedziny. Rozsądnie jest przyjąć, że ciąg funkcji należących do coraz węższych otoczeń powinien zbiegać do funkcji $f$ odpowiadającej otaczanemu punktowi, jednak nie jest oczywiste, czy także pochodne tych funkcji muszą zbiegać do pochodnej $f.$ Jeśli przyjmiemy, że tak, to mówimy o tzw. ekstremum mocnym, jeśli natomiast dopuszczamy dowolne wartości pochodnej, o ekstremum słabym. Każde ekstremum mocne jest szczególnym przypadkiem słabego, odwrotnie – niekoniecznie.

Przykład – równania Eulera-Lagrange’a

Osobne artykuły: Równania Eulera-Lagrange’a i Zasada minimum energii potencjalnej.

Rachunek wariacyjny bada ekstrema funkcjonałów, często zadanych w postaci całek. W mechanice klasycznej ważne są równania, pozwalające na znajdowanie torów cząstek $q_{k},$ jeśli znana jest funkcja $L$ (lagranżjan), opisująca ten układ. Równania te zostały wprowadzone w 1750 roku przez Leonharda Eulera oraz Josepha Louisa Lagrange’a i zwane są dziś nazwiskami ich odkrywców. Równania Eulera-Lagrange’a mają ścisły związek z metodami rachunku wariacyjnego.

Formalnie, o funkcji $L$ zakłada się, że jest określona na $\mathbb {R} ^{2n+1}$ oraz jest dwukrotnie różniczkowalna w sposób ciągły. Dalej, o funkcji

[a,b]\ni t\mapsto q(t)=(q_{1}(t),\dots ,q_{n}(t))\in \mathbb {R} ^{n}

zakłada się, że jest funkcją o wartościach wektorowych, dwukrotnie różniczkowalną w sposób ciągły. W celu wyznaczenia toru cząstki, określa się funkcjonał

F(q)=\int \limits _{a}^{b}L\left(t,q_{1}(t),\dots ,q_{n}(t),{\frac {dq_{1}}{dt}}(t),\dots ,{\frac {dq_{n}}{dt}}(t)\right)dt.

Ekstremów tego funkcjonału szuka się w klasie funkcji dwukrotnie różniczkowalnych, przyjmujących na końcach przedziału $[a,b]$ wartości

q_{1}(a),q_{1}(b),\dots ,q_{n}(a),q_{n}(b).

Jest to problem z tzw. ustalonym brzegiem. Okazuje się, że funkcje $q_{i},$ dla których funkcjonał $F$ przyjmuje ekstremum, spełniają układ równań różniczkowych cząstkowych, zwanych równaniami Eulera-Lagrange’a, postaci:

{\frac {\partial L}{\partial q_{k}}}-{\frac {d}{dt}}\left({\frac {\partial L}{\partial {\dot {q}}_{k}}}\right)=0,\quad 1\leqslant k\leqslant n,

gdzie:

{\dot {q}}_{k}={\frac {dq_{k}}{dt}}.

Remove ads

Ekstrema warunkowe

Podsumowanie

Perspektywa

W matematyce i fizyce zachodzi często potrzeba badania ekstremów funkcji przy pewnych dodatkowych warunkach. Chcąc np. znaleźć odległość punktu $(x_{0},y_{0},z_{0})\in \mathbb {R} ^{3}$ od hiperpowierzchni zadanej równaniem $g(x,y,z)=0$ należy zbadać minima funkcji

f(x,y,z)=(x-x_{0})^{2}+(y-y_{0})^{2}+(z-z_{0})^{2}

przy warunku dodatkowym

g(x,y,z)=0.

W paragrafie tym podamy ogólną definicję ekstremum warunkowego (inaczej: związanego^[4]) i ogólne wyniki tej teorii, badanie ekstremów warunkowych funkcji tylko dwóch zmiennych zostanie omówione w następnym ustępie.

Jeśli $X$ jest przestrzenią topologiczną, $Y$ przestrzenią liniową, $G\colon X\to Y$ oraz $M=\{x\in X\colon G(x)=0\},$ to mówimy, że funkcja $f\colon X\to \mathbb {R}$ ma w punkcie $x_{0}\in M$ minimum (maksimum) lokalne przy warunku $M$ (albo związane zbiorem $M$ ), jeśli istnieje otoczenie $U$ punktu $x_{0}$ takie, że $f(x_{0})\leqslant f(x),$ względnie $f(x_{0})\geqslant f(x)$ dla $x\in U\cap M.$

Warunek konieczny istnienia ekstremum warunkowego

W dalszym ciągu będziemy zakładali spełnienie założeń twierdzenia Lusternika, tj.

$X$ i $Y$ są przestrzeniami Banacha,
$G\colon X\to Y$ jest różniczkowalne w sposób ciągły w pewnym otoczeniu punktu $x_{0}\in X,$
$x_{0}\in X$ jest punktem regularnym zbioru $M=G^{-1}(\{0\}),$ tj. $G'(x_{0})$ jest suriekcją $X$ na $Y,$
$X_{1}:=(G'(x_{0}))^{-1}(\{0\}),$ to znaczy $X_{1}$ jest jądrem $G'(x_{0}),$
$X=X_{1}\oplus X_{2}$ (rozkład przestrzeni $X$ na topologiczną sumę prostą).

Niech $f$ będzie funkcją określoną na otwartym podzbiorze $U$ przestrzeni Banacha $X$ o wartościach w $\mathbb {R}$ oraz niech $x_{0}\in X$ będzie punktem regularnym zbioru $M=G^{-1}(0).$ Jeżeli funkcja $f$ jest różniczkowalna w punkcie $x_{0}$ i ma w tym punkcie ekstremum warunkowe, to

f'(x_{0})x_{1}=0

dla każdego

x_{1}\in X_{1}.

W praktyce, często wykorzystywanym faktem do badania ekstremów warunkowych jest tzw. drugie twierdzenie Lusternika, mówiące o tym, że jeżeli spełnione są założenia twierdzenia Lusternika i funkcja $f,$ określona jak wyżej, jest różniczkowalna w punkcie $x_{0}\in M$ i ma w tym punkcie ekstremum warunkowe (związane warunkiem $M$ ), to istnieje funkcjonał liniowy $\Lambda \in Y^{\star }$ taki, że

f'(x_{0})=\Lambda \circ G'(x_{0}).

Funkcjonał $\Lambda$ nazywany jest funkcjonałem Lagrange’a i ma ścisły związek z metodą szukania ekstremów warunkowych, zwaną metodą mnożników Lagrange’a, opisaną dalej.

Warunki wystarczające istnienia ekstremum warunkowego

Osobny artykuł: mnożniki Lagrange’a.

W dalszym ciągu, podtrzymując powyższe założenia i zakładając dodatkowo, że funkcje $f$ i $G$ są dwukrotnie różniczkowalne w sposób ciągły w pewnych otoczeniach punktu $x_{0},$ można sformułować warunek wystarczający istnienia ekstremum warunkowego. Mianowicie, jeżeli istnieje funkcjonał liniowy $\Lambda \in Y^{\star }$ taki, że

f'(x_{0})=\Lambda \circ G'(x_{0})

oraz

(f''(x_{0})-\Lambda \circ G''(x_{0}))(h)

jest dodatnio (ujemnie) określona dla $h\in X_{1}=\ker G'(x_{0}),$ to funkcja $f$ ma w punkcie $x_{0}$ minimum (maksimum) warunkowe.

Twierdzenie to można udowodnić korzystając z twierdzenia Lusternika i odpowiednio wykorzystując twierdzenia Taylora. Daje się ono łatwo uogólnić na przypadek pochodnych wyższych rzędów – w tym przypadku dodatkowo zakłada się, że odwzorowania $f$ i $G$ są różniczkowalne $2n$ razy w sposób ciągły w pewnym otoczeniu punktu $x_{0}.$ Wówczas, jeżeli istnieje funkcjonał $\Lambda \in Y^{\star }$ taki, że

f^{(k)}(x_{0})=\Lambda \circ G^{(k)}(x_{0})

dla $k=1,2,\dots ,2n-1$ oraz odwzorowanie

\left(f^{(2n)}(x_{0})-\Lambda \circ G^{(2n)}(x_{0})\right)(h)

jest dodatnio^[j] (ujemnie) określona dla $h\in X_{1},$ to funkcja $f$ ma w punkcie $x_{0}$ minimum (maksimum) warunkowe.

Ekstrema warunkowe w $\mathbb {R} ^{n}$

Badanie ekstremów warunkowych przekształceń dowolnych przestrzeni Banacha jest rzeczą trudną. Już samo spełnienie założeń twierdzenia Lusternika może okazać się niemożliwe, gdyż nie każdą przestrzeń unormowaną da się rozłożyć na topologiczną sumę prostą jej podprzestrzeni^[k]. Duża część zagadnień praktycznych sprowadza się do badania ekstremów warunkowych w przypadku gdy $X=\mathbb {R} ^{n},\;Y=\mathbb {R} ^{m},\;n\geqslant m,$ a odwzorowanie $G\colon \mathbb {R} ^{n}\to \mathbb {R} ^{m}$ reprezentowane jest przez układ $m$ funkcji o $n$ zmiennych, tj. $G=(G_{1},\dots ,G_{m}).$

Szukanie ekstremów warunkowych funkcji $f\colon \mathbb {R} ^{n}\to \mathbb {R} ,$ będących zarazem punktami regularnymi^[l], sprowadza się do rozwiązania układu równań operatorowych

\left\{{\begin{array}{l}f'(x)=\Lambda \circ G'(x)\\G(x)=0\end{array}}\right.

gdzie $\Lambda \in (\mathbb {R} ^{m})^{\star }.$ Wiadomo, że każdy taki funkcjonał $\Lambda$ jest reprezentowany przez układ $m$ liczb rzeczywistych $\lambda _{1},\dots ,\lambda _{m}$ a pochodna $G'(x)$ jest macierzą wymiaru $m\times n$ rzędu $m$ ^[l]. Układ równań operatorowych sprowadza się więc do układu $m+n$ równań skalarnych:

\left\{{\begin{array}{l}{\frac {\partial f(x)}{\partial x_{j}}}=\sum _{i=1}^{m}\lambda _{i}{\frac {\partial G_{i}(x)}{\partial x_{j}}},\;j=1,\dots ,n\\G_{k}(x_{1},\dots ,x_{n})=0,\;k=1,\dots ,m\end{array}}\right.

gdzie $x=(x_{1},\dots ,x_{n})$ o $n+m$ zmiennych $\lambda _{i},x_{k},\;i\leqslant m,k\leqslant n.$ Wszystkie punkty, w których funkcja może przyjmować ekstrema warunkowe, należą do zbioru rozwiązań tego układu równań. Liczby $\lambda _{i}$ spełniają tylko rolę pomocniczą i nazywane są często mnożnikami Lagrange’a. Po znalezieniu punktów spełniających warunek konieczny dla ekstremum, należy odwołać się do warunku wystarczającego, tj. zbadać dodatnią (ujemną określoność)

f''(x)-\Lambda \circ G''(x)

dla

h\in X_{1}=\ker G'(x_{0}),

co sprowadza się do badania formy kwadratowej

\sum _{i,j=1}^{n}\left({\frac {\partial ^{2}f(x)}{\partial x_{i}\partial x_{j}}}-\sum _{k=1}^{m}\lambda _{k}{\frac {\partial ^{2}G_{k}(x)}{\partial x_{j}\partial x_{j}}}\right)h_{i}h_{j},

gdzie:

h\in X_{1},h=(h_{1},\dots ,h_{n}).

Warunek $h\in X_{1}$ jest równoważny równaniu

G'(x)h=0,

które w postaci macierzowej przybiera formę

\sum _{i=1}^{n}{\frac {\partial G_{k}(x)}{\partial x_{i}}}h_{i}=0,\;k=1,2,\dots ,m.

Do badania określoności tej macierzy można stosować kryterium Sylvestera.

W praktyce, gdy $X=\mathbb {R} ^{2},Y=\mathbb {R}$ wprowadzamy funkcję pomocniczą

F(x,y)=f(x,y)+\lambda G(x,y)

i szukamy dla niej warunków koniecznych na istnienie jej ekstremów, jako funkcji dwóch zmiennych^[m], tj. rozwiązaniu układu równań $F'_{x}=0,F'_{y}=0,$ a następnie wyrugowaniu z tego układu równań czynnika nieoznaczonego $\lambda .$
Do otrzymanego warunku dołączamy warunek $G(x,y)=0.$ Równoważnie, wszystkie punkty, które mogą być ekstremami warunkowymi można wyznaczyć z układu równań

\left\{{\begin{array}{l}{\frac {D(f,G)}{D(x,y)}}=0\\G(x,y)=0\end{array}}\right.

gdzie ${\tfrac {D(f,G)}{D(x,y)}}$ oznacza jakobian funkcji $f$ i $G.$

Przykład – ekstrema funkcji na okręgu

Ilustracją zastosowania metody mnożników Lagrange’a jest problem wyznaczenia ekstremów funkcji:

f(x,y)=x+y

na kole jednostkowym, tj. przy warunku

x^{2}+y^{2}=1.

Zatem funkcja $G$ jest postaci

G(x,y)=x^{2}+y^{2}-1,

a więc funkcja $F$ wyraża się wzorem:

F(x,y)=f(x,y)+\lambda G(x,y)=x+y+\lambda (x^{2}+y^{2}-1).

Wszystkie punkty, które mogą być ekstremami warunkowymi są rozwiązaniami układu równań

\left\{{\begin{array}{l}F'_{x}(x,y)=1+2\lambda x&=0\\F'_{y}(x,y)=1+2\lambda y&=0\\G(x,y)=x^{2}+y^{2}-1&=0\end{array}}\right.

Podstawiając $x=y,x\neq 0$ do pierwszego równania uzyskujemy: $\lambda =-{\tfrac {1}{2x}}.$ Stosując podobne podstawienie do trzeciego równania, dostaje się warunek $2x^{2}=1,$ skąd wynika $x=\pm {\tfrac {\sqrt {2}}{2}}.$ Funkcja $f$ może zatem przyjmować ekstrema tylko w punktach $\left(-{\tfrac {\sqrt {2}}{2}},-{\tfrac {\sqrt {2}}{2}}\right),\left({\tfrac {\sqrt {2}}{2}},{\tfrac {\sqrt {2}}{2}}\right).$ Ponieważ okrąg jest zbiorem domkniętym i ograniczonym (czyli zwartym^[n]), więc na mocy twierdzenia Weierstrassa, funkcja $f$ osiąga w tych punktach ekstrema (warunkowe):

minimum warunkowe: $f\left(-{\tfrac {\sqrt {2}}{2}},-{\tfrac {\sqrt {2}}{2}}\right)=-{\sqrt {2}},$
maksimum warunkowe: $f\left({\tfrac {\sqrt {2}}{2}},{\tfrac {\sqrt {2}}{2}}\right)={\sqrt {2}}.$

Warto zauważyć, że funkcja $f,$ określona na całej płaszczyźnie (bez dodatkowego warunku) nie ma ekstremów.

Przykład – problem maksymalnej entropii

Problem polega na znalezieniu dyskretnego rozkładu zmiennej losowej maksymalizującego entropię. Funkcja entropii prawdopodobieństw $p_{1},\dots ,p_{n}$ wyraża się wzorem

f(p_{1},p_{2},\dots ,p_{n})=-\sum _{k=1}^{n}p_{k}\log _{2}p_{k}.

Oczywiście, suma prawdopodobieństw $p_{1},\dots ,p_{n}$ jest równa jeden, więc warunek na $G$ przyjmuje postać

G(p_{1},p_{2},\dots ,p_{n})=\sum _{k=1}^{n}p_{k}-1.

Stosując metodę mnożników Lagrange’a, dostajemy układ $n$ równań:

{\frac {\partial }{\partial p_{k}}}(f(p_{1},p_{2},\dots ,p_{n})+\lambda (G(p_{1},p_{2},\dots ,p_{n})-1))=0,\quad 1\leqslant k\leqslant n,

który sprowadza się do układu

{\frac {\partial }{\partial p_{k}}}\left(-\sum _{k=1}^{n}p_{k}\log _{2}p_{k}+\lambda \left(\sum _{k=1}^{n}p_{k}-1\right)\right)=0,\quad 1\leqslant k\leqslant n.

Różniczkując każde równanie $n$ -krotnie, powyższy układ sprowadza się do poniższego:

-\left({\frac {1}{\ln 2}}+\log _{2}p_{k}\right)+\lambda =0,\quad 1\leqslant k\leqslant n.

Z powyższego wynika, że wszystkie prawdopodobieństwa są równe, tj. $p_{1}=\ldots =p_{n},$ a ponieważ ich suma jest równa jeden, wynika stąd, że dla dowolnego $1\leqslant k\leqslant n{:}$

p_{k}={\frac {1}{n}}.

Remove ads

Ekstrema funkcji określonej w przestrzeni unormowanej

Podsumowanie

Perspektywa

Pewne wyniki związane z istnieniem ekstremów, otrzymane dla funkcji argumentów rzeczywistych, przenoszą się na funkcje określone na podzbiorach przestrzeni unormowanych.

W dalszej części tego paragrafu przez $X$ rozumiana jest dowolna przestrzeń unormowana, zaś przez $D$ pewien jej otwarty^[5] podzbiór. Funkcja $f\colon D\to \mathbb {R}$ musi być różniczkowalna (w sensie Frécheta) w zbiorze $D.$ Przez zapis $f'(x_{0})$ lub $df(x_{0})$ rozumie się pochodną (różniczkę zupełną) funkcji $f,$ która jest odwzorowaniem liniowym i ciągłym przestrzeni $X$ o wartościach w $\mathbb {R} .$ Pochodna $n$ -tego rzędu funkcji ( $n$ -krotnie różniczkowalnej) jest odwzorowaniem $n$ -liniowym przestrzeni $X\times \ldots \times X$ o wartościach rzeczywistych i oznaczana jest przez $f^{(n)}(x_{0})$ lub $df^{n}(x_{0}).$

Podobnie jak dla funkcji rzeczywistych, warunkiem koniecznym istnienia ekstremum w punkcie $x_{0}\in D$ jest, aby wartość pochodnej w $x_{0}\in D$ wynosiła zero dla wszystkich punktów w pewnym otoczeniu $x_{0}$ $(f'(x_{0})\equiv 0).$ Punkt, w którym pochodna funkcji zeruje się (jest tak, gdy pochodna jest równa zero w pewnym otoczeniu $x_{0}$ ), nazywany jest punktem stacjonarnym.

Tak jak w przypadku funkcji jednej zmiennej, w punkcie stacjonarnym wcale nie musi być ekstremum. Na przykład dla funkcji $g\colon \mathbb {R} ^{2}\to \mathbb {R}$ danej wzorem $g(x,y)=xy,$ której wykresem jest paraboloida hiperboliczna, pochodne cząstkowe $g'_{x}(x,y)=x,\;g'_{y}(x,y)=y$ są jednocześnie równe zeru^[6] tylko w punkcie $(0,0),$ w którym $f(x,y)=0.$ Jednocześnie widać (por. rysunek wyżej), że w dowolnym otoczeniu zera funkcja przybiera zarówno wartości dodanie, jak i ujemne, a więc nie może być w nim ekstremum.

Definicje pomocnicze

Na potrzeby dalszych twierdzeń, konieczne będzie wprowadzenie kilku definicji:

Funkcjonał dwuliniowy $\varphi \colon X\times X\to \mathbb {R}$ jest nieujemny, niedodatni, dodatni, ujemny jeśli odpowiednio $\varphi (h,h)\geqslant 0,\;\varphi (h,h)\leqslant 0,\;\varphi (h,h)>0,\;\varphi (h,h)<0$ dla wszelkich $0\neq h\in X.$

Funkcjonał dwuliniowy $\varphi \colon X\times X\to \mathbb {R}$ jest

dodatnio określony, jeśli

\bigvee _{c>0}\bigwedge _{h\in X}\varphi (h,h)\geqslant c\|h\|^{2},

ujemnie określony, jeśli

\bigvee _{c>0}\bigwedge _{h\in X}\varphi (h,h)\leqslant -c\|h\|^{2}.

W szczególności, każda macierz kwadratowa może być interpretowana jako macierz funkcjonału dwuliniowego przestrzeni $X=\mathbb {R} ^{m}$ (por. macierz dodatnio określona).

Tw. Każdy dodatni (lub ujemny) funkcjonał dwuliniowy przestrzeni jest dodatnio określony (ujemnie określony).

Do badania dodatniej (ujemnej) określoności macierzy służy np. kryterium Sylvestera.

Druga pochodna funkcji wielu zmiennych jako forma kwadratowa. Ekstrema

Druga pochodna funkcji $n$ zmiennych (różniczka zupełna drugiego rzędu funkcji $n$ zmiennych) jest formą kwadratową $n$ zmiennych. Badanie określoności formy kwadratowej pozwala badać ekstrema funkcji wielu zmiennych

Tw. Jeżeli funkcja $f$ jest dwukrotnie różniczkowalna w pewnym otoczeniu $E\subseteq D$ punktu $x_{0},$ przy czym $f'(x_{0})=0,$ a forma (druga pochodna funkcji) $f''$ jest ciągła w $x_{0},$ to

jeżeli $f$ ma w $x_{0}$ minimum lokalne, to forma $f''(x_{0})$ jest nieujemna,
jeżeli $f$ ma w $x_{0}$ maksimum lokalne, to forma $f''(x_{0})$ jest niedodatnia.

Warunek konieczny i wystarczający istnienia ekstremum

Niech, jak poprzednio, funkcja $f$ będzie dwukrotnie różniczkowalna w pewnym otoczeniu $U\subseteq D$ punktu $x_{0},$ przy czym $f'(x_{0})=0,$ a forma $f''$ jest ciągła w $x_{0}.$

Jeżeli forma $f''(x_{0})$ jest dodatnio określona, to funkcja $f$ ma minimum lokalne właściwe w punkcie $x_{0}.$
Jeżeli forma $f''(x_{0})$ jest ujemnie określona, to funkcja $f$ ma maksimum lokalne właściwe w punkcie $x_{0}.$

Macierz Hessego a druga forma kwadratowa

Macierz Hessego danej funkcji $f$ - to macierz drugich pochodnych cząstkowych funkcji $f$ ; macierz tę formalnie można traktować jako macierz formy kwadratowej $f''$ funkcji $f$ . Badanie określoności formy kwadratowej sprowadza się do badania określoności macierzy Hessego. Wprowadzenie pojęcia formy kwadratowej nie jest konieczne, by sformułować warunki badania ekstremów funkcji wielu zmiennych. Jest to jednak eleganckie uogólnienie.

Remove ads

Gradacyjna analiza odpowiedniości

Podsumowanie

Perspektywa

Ciekawym praktycznym zastosowaniem ekstremum lokalnego w przestrzeni par permutacji jest algorytm statystyczny, zwany gradacyjną analizą odpowiedniości (Grade Correspondence Analysis, GCA).

Algorytm ma na celu przekształcenie badanych nominalnych cech statystycznych w cechy porządkowe tak, aby korelacja rangowa pomiędzy nimi w zbiorze uczącym była maksymalna^[o].

Algorytm GCA był stosowany m.in. do tabeli, w której wiersze odpowiadają okręgom wyborczym, kolumny partiom politycznym, a liczby w komórkach macierzy liczbie głosów oddanych na poszczególne partie w poszczególnych okręgach^[p] GCA rozmieściło zarówno okręgi wyborcze, jak i partie na skali, która po zbadaniu okazała się odpowiadać continuum lewica-prawica.

Ściśle: danymi wejściowymi jest tzw. macierz kontyngencji, której wiersze odpowiadają możliwym wartościom (tzw. etykietom) pewnej nominalnej cechy statystycznej (zwanej zmienną wierszową), a kolumny możliwym wartościom innej cechy nominalnej (zwanej zmienną kolumnową). Wartości elementów macierzy reprezentują liczebność obserwacji w próbie, dla których rozważane dwie cechy mają wartości przypisane do danego wiersza i kolumny^[q].

Celem algorytmu jest znalezienie takiej permutacji wierszy i kolumn macierzy (czyli etykiet zmiennych wierszowej i kolumnowej), aby współczynnik rho Spearmana dla powstałego rozkładu dwuwymiarowego był największy. Odpowiada to znalezieniu takiego uszeregowania etykiet zmiennych nominalnych, aby powstałe w ten sposób zmienne porządkowe wykazywały możliwie dużą zależność statystyczną w sensie korelacji rangowej.

GCA jest algorytmem iteracyjnym, który wielokrotnie startując od losowych permutacji wierszy i kolumn macierzy, dochodzi do różnych lokalnych maksimów rho Spearmana. Maksima są lokalne w tym sensie, że aby uzyskać większą wartość trzeba zmienić jednocześnie kolejność wierszy i kolumn macierzy. Zmiana wyłącznie kolejności wierszy lub wyłącznie kolejności kolumn nie da wyższej wartości rho.

Remove ads

Zobacz też

funkcje minimum i maksimum
twierdzenie Lagrange’a
twierdzenie Rolle’a
macierz Hessego - podano tam przykłady obliczeń ekstremów funkcji wielu zmiennych

Uwagi

[a]
Czasem uogólnia się to na dowolne niepuste zbiory otwarte; Zbiór musi być otwarty, żeby wykluczyć patologiczny przypadek, gdy wybierzemy punkt $x_{0}$ na brzegu tego zbioru. Wówczas np. funkcja $f(x)=x$ mogłaby mieć minimum i maksimum właściwe w każdym swoim punkcie.
[b]
Ekstremum może nie być właściwe, nawet jeśli funkcja nie posiada odcinka stałego. Wystarczy, że w okolicach rozważanego ekstremum występuje nieskończona liczba ekstremów o tej samej wartości funkcji, tak że w każdym otoczeniu jest przynajmniej jedno. Zobacz sekcja #Proste przykłady ekstremów.
[c]
Dla ekstremów globalnych nie jest potrzebna definicja systemu otoczeń.
[d]
Stwierdzenie to wynika z następującej obserwacji: jeżeli ${\tfrac {p}{q}}$ jest ułamkiem nieskracalnym, to każdy ułamek ${\tfrac {a}{b}}\neq {\tfrac {p}{q}}$ różniący się od ${\tfrac {p}{q}}$ o mniej niż ${\tfrac {1}{q^{2}}},$ ma mianownik większy od q. Nierówność
$\left|{\frac {p}{q}}-{\frac {a}{b}}\right|<{\frac {1}{q^{2}}}$
prowadzi bowiem do
$\left|{\frac {pb-aq}{qb}}\right|={\frac {|pb-aq|}{qb}}<{\frac {1}{q^{2}}},$
a wobec $|pb-aq|\geqslant 1$ jest $b>q.$
[e]
Założenie o skończonej liczbie punktów stacjonarnych można zastąpić słabszym żądaniem, by każdy punkt stacjonarny był izolowany. Zobacz przykład funkcji $f(x)=\left\{{\begin{array}{l}{x^{2}(1+\sin {\frac {1}{x}}),\;x\neq 0}\\{0,\;x=0}\end{array}}\right.,$ której wykres pokazano w sekcji Proste przykłady ekstremów.
[f]
Dowód: Ze wzoru Taylora dla $n=2$ wynika:
$f(x_{0}+h)=f(x_{0})+hf'(x_{0})+{\frac {1}{2}}h^{2}f''(x_{0}+\theta h),$
gdzie:
$0<\theta <1,$
więc z:
$f'(x_{0})=0$
wynika:
$f(x_{0}+h)-f(x_{0})={\frac {1}{2}}h^{2}f''(x_{0}+\theta h).$
Dla $h\neq 0$ prawa strona ma ten sam znak, co $f''(x_{0}+\theta h).$ Gdy $f''(x_{0})<0,$ to z ciągłości $f''$ wynika $f''(x)<0$ w pewnym otoczeniu punktu $x_{0},$ więc w tym otoczeniu
$f(x_{0}+h)-f(x_{0})=f(x)-f(x_{0})<0$ dla $x\neq x_{0},$
zatem istnieje maksimum w punkcie $x_{0}.$ Analogicznie, istnieje minimum gdy $f''(x_{0})>0.$
[g]
W przypadku funkcji różniczkowalnej $z=f(x,y)$ równości te mają prosty sens geometryczny: płaszczyzna styczna do powierzchni $z=f(x,y)$ w jej punkcie odpowiadającym ekstremum powinna być równoległa do płaszczyzny $xy.$
[h]
Wzór ten można otrzymać różniczkując tożsamość $F'_{x}+F'_{y}y'(x)=0$ dla $x\in (x_{0}-\delta ,x_{0}+\delta ).$
[i]
Problem brachistochrony został rozwiązany przez Newtona, Leibniza, de l’Hospitala (ucznia Jana Bernoulliego) oraz Jakuba Bernoulliego.
[j]
Uwaga: w tym wypadku pojęcie dodatniej (ujemnej) określoności zostaje rozszerzone na funkcjonały n-liniowe, tj. powiemy że funkcjonał $n$ -liniowy $\varphi \colon X\times \ldots \times X\to \mathbb {R}$ jest dodatnio (ujemnie) określony, jeśli istnieje takie $c>0,$ że $\varphi (h,\dots ,h)\geqslant c\|h\|^{n}\;(\leqslant -c\|h\|^{n})$ dla wszelkich $h\in X.$
[k]
Da się to zrobić w przypadku przestrzeni Hilberta – Twierdzenie_o_rozkładzie_ortogonalnym mówi, że dla każdej domkniętej podprzestrzeni przestrzeni Hilberta istnieje Dopełnienie_ortogonalne. W szczególności, rozkład taki jest możliwy jeżeli $X$ jest przestrzenią skończenie wymiarową.
[l]
Por. punkt regularny (szczególne przypadki).
[m]
Por. ustęp Funkcje określone na podzbiorach płaszczyzny.
[n]
Na mocy twierdzenia Heinego-Borela.
[o]
Podobny problem ze zwykłą korelacją Pearsona rozwiązuje klasyczna analiza odpowiedniości.
[p]
W wyborach do Sejmu w 1997 roku.
[q]
Choć GCA można też stosować do innych zbiorów danych, np. takich gdzie każda kolumna reprezentuje inną zmienną.