最优控制 - Wikiwand

最佳控制理論是數學最佳化中的分支，要找到動力系統在特定一段時間的控制，可以使特定的損失函式最佳化^[1]。最佳控制在科學、工程及作業研究上都有很多應用，例如其控制的系統可能是太空飛行器，控制為其動力來源的火箭推進器，目標是在消耗最小燃料的情形下登陸月球^[2]，其系統也可能是國家的經濟，目標是使失業降到最低，控制是財政政策及貨幣政策^[3]。系統也可以是作業研究的運籌學，以最佳控制的框架來進行研究^[4]^[5]。

最佳控制理論是變分法的推廣，著重於研究使控制系統的指標達到最佳化的條件和方法^[6]。這門學科的開創性工作主要是由1950年代前蘇聯的列夫·龐特里亞金和美國的理察·貝爾曼所完成，這些是以愛德華J.麥克沙恩（英語：Edward J. McShane）所發展的變分法為其基礎^[7]。最佳控制可以視為是控制理論中的一種控制策略^[1]。

通用方法

最佳控制是要找到一系統的控制律，以滿足特定的最佳化準則。控制問題會包括費用泛函（cost functional），是狀態以及控制變數的泛函。最佳控制要將費用泛函最小化，會表示成一組描述控制變數路徑的微分方程。最佳控制可以用龐特里亞金最大化原理推導（這是必要條件）^[8]，或是求解哈密頓-雅可比-貝爾曼方程（充分條件）。

以一個簡單的例子來說明。考慮一部車開在山區的直線道路上。問題是，駕駛需如何駕駛才能最快到目的地？此例中的「控制律」是指控制油門、換檔或是剎車的方式。「系統」包括車輛以及道路，「最佳化準則」是指使駕駛時間最短。控制問題中一般也會有輔助的限制條件，例如車輛的油量有其限制、油門可提供的加速度及車速也都有限制。適當的費用函式會是數學表示式，將駕駛時間表示為速度、道路條件以及系統初始條件的函式。

另一個相關的最佳化問題是在車輛在一定時間抵達目標的前提下，讓油耗降到最低。

更通用的最佳控制問題架構如下^[1]：最小化以下的連續時間費用泛函

J[{\textbf {x}}(\cdot ),{\textbf {u}}(\cdot ),t_{0},t_{f}]:=E\,[\,{\textbf {x}}(t_{0}),t_{0},{\textbf {x}}(t_{f}),t_{f}\,]+\int \limits _{t_{0}}^{t_{f}}F\,[\,{\textbf {x}}(t),{\textbf {u}}(t),t\,]\,\operatorname {d} t

需符合以下的一階動態限制（狀態方程）

{\dot {\textbf {x}}}(t)={\textbf {f}}\,[\,{\textbf {x}}(t),{\textbf {u}}(t),t\,],

幾何的「路徑限制」

{\textbf {h}}\,[\,{\textbf {x}}(t),{\textbf {u}}(t),t\,]\leq {\textbf {0}},

以及終點條件

{\textbf {e}}\,[\,{\textbf {x}}(t_{0}),t_{0},{\textbf {x}}(t_{f}),t_{f}\,]=0

其中 ${\textbf {x}}(t)$ 是狀態， ${\textbf {u}}(t)$ 是控制， $t$ 是自變數（一般來說，是時間）， $t_{0}$ 是初始時間， $t_{f}$ 是結束時間。 $E$ 和 $F$ 稱為「結束點成本」及「運行成本」。在變分法中， $E$ 和 $F$ 會稱為Mayer項以及拉格朗日乘數。其中的路徑限制多半是不等式的限制，在最佳解時，該限制不等式多半不會在恰好為零的情形。以上的最佳控制問題也可能有多個解（其解不唯一），此時的解會稱為是「局部最小化」。

LQ控制器

在通用的最佳控制問題中，有一種特殊的問題是線性二次（linear quadratic, LQ）最佳控制問題，其解稱為LQR控制器。LQ問題可以表示為，將以下二次形式的連續時間費用泛函最小化

J={\tfrac {1}{2}}\mathbf {x} ^{\mathsf {T}}(t_{f})\mathbf {S} _{f}\mathbf {x} (t_{f})+{\tfrac {1}{2}}\int _{t_{0}}\limits ^{t_{f}}[\,\mathbf {x} ^{\mathsf {T}}(t)\mathbf {Q} (t)\mathbf {x} (t)+\mathbf {u} ^{\mathsf {T}}(t)\mathbf {R} (t)\mathbf {u} (t)\,]\,\operatorname {d} t

需符合以下的線性一階動態限制

{\dot {\mathbf {x} }}(t)=\mathbf {A} (t)\mathbf {x} (t)+\mathbf {B} (t)\mathbf {u} (t),

以及初始條件

\mathbf {x} (t_{0})=\mathbf {x} _{0}

在LQ問題中，有一種特殊型式的問題稱為LQR控制器，是指其中所有的矩陣（ $\mathbf {A}$ 、 $\mathbf {B}$ 、 $\mathbf {Q}$ 及 $\mathbf {R}$ ）都是常數，其初始時間為0，其結束時間設定為 $t_{f}\rightarrow \infty$ （最後一個假設稱為是無限時間長度）。LQR控制器如下，要針對無限時間的二次連續時間成本泛函進行最小化

J={\tfrac {1}{2}}\int \limits _{0}^{\infty }[\,\mathbf {x} ^{\mathsf {T}}(t)\mathbf {Q} \mathbf {x} (t)+\mathbf {u} ^{\mathsf {T}}(t)\mathbf {R} \mathbf {u} (t)\,]\,\operatorname {d} t

其限制條件是要滿足以下的線性非時變一階動態方程式

{\dot {\mathbf {x} }}(t)=\mathbf {A} \mathbf {x} (t)+\mathbf {B} \mathbf {u} (t),

以及初始條件

\mathbf {x} (t_{0})=\mathbf {x} _{0}

若是有限時間的例子，矩陣會有額外的限制， $\mathbf {Q}$ 及 $\mathbf {R}$ 需分別是半正定矩陣及正定矩陣。無限時間的情形下，矩陣無此限制，但需要常數矩陣。有關有限時間下，矩陣的額外限制 $\mathbf {Q}$ and $\mathbf {R}$ 可以確保成本泛函仍為正。而且，為了要確保成本泛函有界，會有一個額外條件，會要求系統 $(\mathbf {A} ,\mathbf {B} )$ 有可控制性。LQ或是LQR的成本泛函都可以視為是最小化「控制能量」（以二次式表示）的手段。

無限時間的問題（LQR問題）限制太多，而且假設系統運作在零狀態，因此也會使系統輸出維持在零狀態，在本質上用處不大。不過若要求解使系統運作在非零輸出準位下的問題，可以先求解零輸出準位的問題，再以此為基礎求解。實際上，可以證明非零輸出準位的問題可以用以下的直接方式求解。在經典最佳控制理論中可以證明LQ（或LQR）最佳控制可以表示為以下的回授型式

\mathbf {u} (t)=-\mathbf {K} (t)\mathbf {x} (t)

其中 $\mathbf {K} (t)$ 是適當維度的矩陣，定義如下

\mathbf {K} (t)=\mathbf {R} ^{-1}\mathbf {B} ^{\mathsf {T}}\mathbf {S} (t),

且 $\mathbf {S} (t)$ 是微分Riccati方程的解，微分Riccati方程如下：

{\dot {\mathbf {S} }}(t)=-\mathbf {S} (t)\mathbf {A} -\mathbf {A} ^{\mathsf {T}}\mathbf {S} (t)+\mathbf {S} (t)\mathbf {B} \mathbf {R} ^{-1}\mathbf {B} ^{\mathsf {T}}\mathbf {S} (t)-\mathbf {Q}

在有限時間的LQ問題中，Riccati方程會用終端邊界條件，以逆轉時間的方式積分

\mathbf {S} (t_{f})=\mathbf {S} _{f}

在無限時間的LQR問題中，微分Riccati方程會變成以下的代數Riccati方程（algebraic Riccati equation，ARE）：

\mathbf {0} =-\mathbf {S} \mathbf {A} -\mathbf {A} ^{\mathsf {T}}\mathbf {S} +\mathbf {S} \mathbf {B} \mathbf {R} ^{-1}\mathbf {B} ^{\mathsf {T}}\mathbf {S} -\mathbf {Q}

由於代數Riccati方程是由無限時間的LQR問題產生的，矩陣 $\mathbf {A}$ 、 $\mathbf {B}$ 、 $\mathbf {Q}$ 及 $\mathbf {R}$ 都是常數。代數Riccati方程一般會有很多個解，要用正定（或半正定）的解去計算回授增益。LQ（LQR）問題後來是由魯道夫·卡爾曼所解^[9]。

最佳控制的數值方法

最佳控制問題多半是非線性的，一般而言沒有解析解（例如LQ最佳控制問題）。因此，需要用數值方法來求解最佳控制問題。在最佳控制的初期（約1950年代到1980年代），常用來求解最佳控制問題的方式是「間接法」（indirect methods）。間接法會用變分法來求得一階的最佳化條件。條件會形成二點（或是複雜的問題，可能會是三點）的邊值問題。邊值問題有一種特殊的結構，因為是計算其哈密頓量微分而得的。因此，所得的動力系統是以下形式的哈密頓系統^[1]

{\begin{array}{lcl}{\dot {\textbf {x}}}&=&\partial H/\partial {\boldsymbol {\lambda }}\\{\dot {\boldsymbol {\lambda }}}&=&-\partial H/\partial {\textbf {x}}\end{array}}

其中

H=F+{\boldsymbol {\lambda }}^{\mathsf {T}}{\textbf {f}}-{\boldsymbol {\mu }}^{\mathsf {T}}{\textbf {h}}

是間接法的擴增哈密頓量（augmented Hamiltonian），在間接法中，用適當的邊值條件或橫截條件（ransversality conditions）可以求解邊值問題。其優點是可以求解狀態以及adjoint變數（ ${\boldsymbol {\lambda }}$ ），所得的解是極值軌跡，很容易驗證。缺點是所得的邊值問題多半不容易求解（特別是大時間範圍或是有內在點限制條件的問題）。像BNDSCO就是用間接法求解的著名軟體^[10]。

在1980年代之後，有另外一種數值求解最佳控制的方式，稱為直接法（direct methods）。在直接法中，會用適當的函式來近似狀態或是控制（也有可能兩者都有），近似用的函式可能是多項式近似或是片段常數的參數化近似。同時也會用費用函式來近似費用泛函。函式近似的係數視為是最佳化的變數，最佳控制問題則變成以下的非線性最佳化問題：

最小化

F(\mathbf {z} )\,

在以下的代數限制式下

{\begin{array}{lcl}\mathbf {g} (\mathbf {z} )&=&\mathbf {0} \\\mathbf {h} (\mathbf {z} )&\leq &\mathbf {0} \end{array}}

依使用的直接法不同，非線性最佳化問題的大小可能會很小（例如用直接射擊法或擬線性化方法），中等大小（例如用擬譜最佳控制^[11]），也有可能會非常大（例如用直接搭配方法（英語：collocation method）^[12]）。若是用直接搭配方法，非線性最佳化問題的變數及限制會從上千個到上萬個不等。由於許多非線性規劃（NLP）的大小是由直接法產生的，以直覺來看，直接求解一些非線性最佳化問題會比求解邊界值問題要簡單。不過，NLP的求解比求解邊界值問題要簡單。計算比較簡單的原因（特別是用直接搭配方法）是產生的NLP比較稀疏，而且已有許多著名的程式可以求解大型稀疏的NLP問題（例如SNOPT（英語：SNOPT）^[13]）。因此，用直接法可以求解問題的範圍（特別是近來很流行的直接搭配方法）比用間接法可以求解的問題範圍要大很多。事實上，近來直接法非常的流行，許多人已經撰寫程式用這種方式來求解最佳控制。有許多這類程式，例如DIRCOL^[14]、SOCS^[15]、OTIS^[16]、GESOP/ASTOS（英語：ASTOS）^[17]、DITAN^[18]及PyGMO/PyKEP等^[19]。近來因為MATLAB程式語言的盛行，MATLAB上的最佳控制軟體也越來越曾遍。學術界開發，直接法求解最佳控制的MATLAB軟體工具有 RIOTS^[20]、DIDO（英語：DIDO (optimal control)）^[21] DIRECT,^[22]、FALCON.m,^[23]、GPOPS^[24]，產業界開發的MATLAB工具有PROPT（英語：PROPT）^[25]。這些軟體工具提昇學術界以及產業界的人士處理複雜最佳控制問題的能力。透過近來泛用MATLAB最佳化的環境（例如TOMLAB（英語：TOMLAB）），要處理最佳控制問題已比早期用C語言或 FORTRAN程式來處理要簡單許多。

離散時間的最佳控制

以上的例子是連續時間（英語：Discrete time and continuous time）的系統以及最佳控制的解。最佳控制的解也可以用數位的方式來實現。當代的控制理論主要在關注離散時間的系統以及解。一致近似（Consistent Approximations）理論^[26]^[27]可以提供在什麼情形下，可以用一連串確準度逐漸提昇的離散最佳控制問題的解來收斂到原始的連續問題的解。不是所有的離散方式都有這種特性，就算是看似有此特質的都不一定有^[28]。例如，用變動步長的程式來積分問題的動態方程，會產生一個不會收斂到0的梯度。直接法RIOTS^[29]就是以一致近似理論為基礎。

參看

主動推理（英語：Active inference）
貝爾曼方程
貝爾曼擬譜法
最速降線問題
DIDO（英語：DIDO (optimal control)）
DNSS point（英語：DNSS point）
動態規劃
高斯擬譜法（英語：Gauss pseudospectral method）
廣義濾波（英語：Generalized filtering）
GPOPS-II（英語：GPOPS-II）
JModelica.org（英語：JModelica.org）
卡爾曼濾波
LQR控制器
模型預測控制
Overtaking criterion（英語：Overtaking criterion）
PID控制器
PROPT（英語：PROPT）
擬譜最佳控制
追逃（英語：Pursuit-evasion）對局
滑動模式控制
SNOPT（英語：SNOPT）
隨機控制
軌跡最佳化（英語：Trajectory optimization）
奇異控制
最小能量控制

參考資料

[1]
Ross, Isaac. A primer on Pontryagin's principle in optimal control. San Francisco: Collegiate Publishers. 2015. ISBN 978-0-9843571-0-9. OCLC 625106088.
[2]
Luenberger, David G. Optimal Control. Introduction to Dynamic Systems. New York: John Wiley & Sons. 1979: 393–435. ISBN 0-471-02594-1.
[3]
Kamien, Morton I. Dynamic Optimization : the Calculus of Variations and Optimal Control in Economics and Management.. Dover Publications. 2013 [2021-01-12]. ISBN 978-1-306-39299-0. OCLC 869522905. （原始內容存檔於2020-06-05）.
[4]
Ross, I. M.; Proulx, R. J.; Karpenko, M. An Optimal Control Theory for the Traveling Salesman Problem and Its Variants. 2020-05-06. arXiv:2005.03186  [math.OC].
[5]
Ross, Isaac M.; Karpenko, Mark; Proulx, Ronald J. A Nonsmooth Calculus for Solving Some Graph-Theoretic Control Problems**This research was sponsored by the U.S. Navy.. IFAC-PapersOnLine. 10th IFAC Symposium on Nonlinear Control Systems NOLCOS 2016. 2016-01-01, 49 (18): 462–467 [2021-01-12]. ISSN 2405-8963. doi:10.1016/j.ifacol.2016.10.208 . （原始內容存檔於2021-04-21）（英語）.
[6]
Sargent, R. W. H. Optimal Control. Journal of Computational and Applied Mathematics. 2000, 124 (1–2): 361–371. Bibcode:2000JCoAM.124..361S. doi:10.1016/S0377-0427(00)00418-0 .
[7]
Bryson, A. E. Optimal Control—1950 to 1985. IEEE Control Systems. 1996, 16 (3): 26–33. doi:10.1109/37.506395.
[8]
Ross, I. M. A Primer on Pontryagin's Principle in Optimal Control. Collegiate Publishers. 2009. ISBN 978-0-9843571-0-9.
[9]
Kalman, Rudolf. A new approach to linear filtering and prediction problems. Transactions of the ASME, Journal of Basic Engineering, 82:34–45, 1960
[10]
Oberle, H. J. and Grimm, W., "BNDSCO-A Program for the Numerical Solution of Optimal Control Problems," Institute for Flight Systems Dynamics, DLR, Oberpfaffenhofen, 1989
[11]
Ross, I. M.; Karpenko, M. A Review of Pseudospectral Optimal Control: From Theory to Flight. Annual Reviews in Control. 2012, 36 (2): 182–197. doi:10.1016/j.arcontrol.2012.09.002.
[12]
Betts, J. T. Practical Methods for Optimal Control Using Nonlinear Programming 2nd. Philadelphia, Pennsylvania: SIAM Press. 2010. ISBN 978-0-89871-688-7.
[13]
Gill, P. E., Murray, W. M., and Saunders, M. A., User's Manual for SNOPT Version 7: Software for Large-Scale Nonlinear Programming, University of California, San Diego Report, 24 April 2007
[14]
von Stryk, O., User's Guide for DIRCOL (version 2.1): A Direct Collocation Method for the Numerical Solution of Optimal Control Problems, Fachgebiet Simulation und Systemoptimierung (SIM), Technische Universität Darmstadt (2000, Version of November 1999).
[15]
Betts, J.T. and Huffman, W. P., Sparse Optimal Control Software, SOCS, Boeing Information and Support Services, Seattle, Washington, July 1997
[16]
Hargraves, C. R.; Paris, S. W. Direct Trajectory Optimization Using Nonlinear Programming and Collocation. Journal of Guidance, Control, and Dynamics. 1987, 10 (4): 338–342. Bibcode:1987JGCD...10..338H. doi:10.2514/3.20223.
[17]
Gath, P.F., Well, K.H., "Trajectory Optimization Using a Combination of Direct Multiple Shooting and Collocation", AIAA 2001–4047, AIAA Guidance, Navigation, and Control Conference, Montréal, Québec, Canada, 6–9 August 2001
[18]
Vasile M., Bernelli-Zazzera F., Fornasari N., Masarati P., "Design of Interplanetary and Lunar Missions Combining Low-Thrust and Gravity Assists", Final Report of the ESA/ESOC Study Contract No. 14126/00/D/CS, September 2002
[19]
Izzo, Dario. "PyGMO and PyKEP: open source tools for massively parallel optimization in astrodynamics (the case of interplanetary trajectory optimization)." Proceed. Fifth International Conf. Astrodynam. Tools and Techniques, ICATT. 2012.
[20]
RIOTS 網際網路檔案館的存檔，存檔日期16 July 2011., based on Schwartz, Adam. Theory and Implementation of Methods based on Runge–Kutta Integration for Solving Optimal Control Problems (學位論文). University of California at Berkeley. 1996. OCLC 35140322.
[21]
Ross, I. M., Enhancements to the DIDO Optimal Control Toolbox, arXiv 2020. https://arxiv.org/abs/2004.13112 （頁面存檔備份，存於網際網路檔案館）
[22]
Williams, P., User's Guide to DIRECT, Version 2.00, Melbourne, Australia, 2008
[23]
FALCON.m （頁面存檔備份，存於網際網路檔案館）, described in Rieck, M., Bittner, M., Grüter, B., Diepolder, J., and Piprek, P., FALCON.m - User Guide, Institute of Flight System Dynamics, Technical University of Munich, October 2019
[24]
GPOPS 網際網路檔案館的存檔，存檔日期24 July 2011., described in Rao, A. V., Benson, D. A., Huntington, G. T., Francolin, C., Darby, C. L., and Patterson, M. A., User's Manual for GPOPS: A MATLAB Package for Dynamic Optimization Using the Gauss Pseudospectral Method, University of Florida Report, August 2008.
[25]
Rutquist, P. and Edvall, M. M, PROPT – MATLAB Optimal Control Software," 1260 S.E. Bishop Blvd Ste E, Pullman, WA 99163, USA: Tomlab Optimization, Inc.
[26]
E. Polak, On the use of consistent approximations in the solution of semi-infinite optimization and optimal control problems Math. Prog. 62 pp. 385–415 (1993).
[27]
Ross, I M. A Roadmap for Optimal Control: The Right Way to Commute. Annals of the New York Academy of Sciences. 2005-12-01, 1065 (1): 210–231. Bibcode:2005NYASA1065..210R. ISSN 0077-8923. PMID 16510411. S2CID 7625851. doi:10.1196/annals.1370.015.
[28]
Fahroo, Fariba; Ross, I. Michael. Convergence of the Costates Does Not Imply Convergence of the Control. Journal of Guidance, Control, and Dynamics. September 2008, 31 (5): 1492–1497. Bibcode:2008JGCD...31.1492F. ISSN 0731-5090. doi:10.2514/1.37331.
[29]
RIOTS. [2021-01-13]. （原始內容存檔於2021-01-16）.

最佳控制

通用方法

LQ控制器

最佳控制的數值方法

離散時間的最佳控制

參看

參考資料

延伸閱讀

Wikiwand - on