From Wikipedia, the free encyclopedia
El mètode de mínims quadrats és el procediment matemàtic estàndard per a l'ajust de corbes. Donat un núvol de punts corresponent a les dades es busca una corba que passi tan a prop com sigui possible dels punts de les dades. Les dades poden representar mesures físiques, valors econòmics o similars, mentre que la corba pertany a una família de corbes paramètriques adequada al problema que es pretén modelitzar. El mètode dels mínims quadrats consisteix llavors a determinar els paràmetres de la corba de manera que sigui mínima la suma de les desviacions elevades al quadrat entre els valors de la corba i els dels punts observats. Les desviacions s'anomenen residus.
Al gràfic de l'exemple s'han representat els punts de les dades. En una primera etapa se selecciona una classe de funció que hauria de correspondre al problema i a les dades, aquí una funció logística. Llavors els seus paràmetres es determinen de tal manera que la suma dels quadrats de les desviacions e entre les observacions i els valors de la funció sigui mínima. Al gràfic es representa la desviació e al lloc t com la distància vertical entre l'observació y i el valor de la corba.
El mètode s'aplica sovint en estadística, en particular en anàlisi de regressions. El mètode és atribuït sovint a Carl Friedrich Gauss (1795),[1] encara va ser publicar per primer cop per Adrien-Marie Legendre.[2] El mínims quadrats corresponen al criteri de màxima versemblança si els errors experimentals tenen una distribució normal i també es pot obtenir com un estimador del mètode dels moments. L'anàlisi de regressió està disponible en molts paquets de programari estadístic.
El dia d'any nou de 1801 l'astrònom italià Giuseppe Piazzi va descobrir l'asteroides Ceres. Durant 40 dies li va poder seguir la trajectòria, llavors Ceres va desaparèixer darrere del sol. En el transcurs de l'any molts científics van intentar sense èxit calcular l'òrbita mitjançant les observacions de Piazzi - suposant una òrbita circular, ja que en aquella època només es podien determinar matemàticament els elements orbitals per aquest tipus d'òrbites a partir de les posicions observades al cel. En canvi Gauss que llavors tenia 24 anys també podia calcular òrbites el·líptiques a partir de tres observacions individuals. Com que tanmateix existien clarament més punts d'òrbita, va fer servir el seu mètode dels mínims quadrats per augmentar així l'exactitud. Quan Franz Xaver von Zach i Heinrich Wilhelm Olbers al desembre de 1801 retrobaven el petit planeta exactament al lloc predit per Gauss, no va ser només un èxit per a Gauss: També es va restaurar la reputació de Piazzi que havia quedat greument afectada en no trobar el planeta en els punts predits per l'ajust a l'òrbita circular.[3]
Gauss havia desenvolupat les bases del seu procediment ja el 1795 a l'edat de 18 anys. Es basava en una idea de Pierre-Simon Laplace de sumar les magnituds dels errors de manera que el total donés zero. Gauss, en comptes d'això, agafava els quadrats de l'error i podia ometre l'exigència addicional artificial que la suma d'errors fos zero. De forma independent el francès Adrien-Marie Legendre va desenvolupar el mateix mètode per primera vegada l'any 1806 al final d'una petita obra sobre el càlcul de les òrbites de cometes i va publicar-ne un segon tractat l'any 1810. D'aquí en ve el nom méthode des moindres carrés (Mètode dels mínims quadrats).
El 1809 Gauss va publicar la segona part de la seva obra Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium, incloent-hi el procediment i les equacions normals i el Mètode de reducció de Gauss.[4] Respecte a això mencionava, que ho havia descobert abans que Legendre i l'havia fet servir, això va conduir a un conflicte de prioritat entre els dos. El mètode dels mínims quadrats es convertia ràpidament en el procediment estàndard per al tractament de registres astronòmics o geodèsics.
Llavors Gauss va fer servir el procediment intensivament en el seu mesurament per triangulació del regne de Hannover. Entre 1821 i 1823 apareix la seva obra Theoria Combinationis, on Gauss va poder proporcionar una argumentació de per què el seu procediment tenia tant d'èxit en comparació amb els altres: El mètode dels mínims quadrats és òptim en un sentit ampli, per tant és millor que altres mètodes. L'afirmació exacta es coneix com a teorema de Gauss-Markow, ja que la feina de Gauss va trobar poca consideració i va ser redescoberta finalment al segle xx per Andrei Andrejewitsch Markow qui el va donar a conèixer. Theoria Combinationis també conté progressos substancials en la resolució eficient dels sistemes d'equació lineals que hi apareixen, com el mètode de Gauss-Seidel i la descomposició LR.[5]
L'oficial de mesurament francès André-Louis Cholesky va desenvolupar durant la Primera Guerra Mundial la factorització de Cholesky que va representar un altre augment considerable d'eficiència davant els procediments de solució de Gauss. En els anys 1960 Gene Golub va desenvolupar la idea de resoldre els sistemes d'equacions lineals que hi apareixen mitjançant la descomposició QR.
Es planteja que una variable dependent y sigui tal que el seu valor està determinat per una variable t o també per diverses variables. Per exemple, la dilatació d'una molla depèn només de la força aplicada, en canvi els beneficis d'una empresa depenen de diversos factors com el volum de vendes, les diferents despeses o el capital propi. Per simplificar la notació, en l'explicació que segueix, la representació es limita a una variable t. La relació entre y i les variables s'explica per una funció model f, per exemple una paràbola o una funció exponencial.
Per tant, l'allargament d'un ressort depèn només de la força aplicada, els beneficis d'una empresa, però, per diversos factors, com ara vendes, els costos de diversos o d'equitat. Per simplificar la notació es limitarà per sota de la pantalla en una variable t. La relació entre les variables y i f és una funció de model, per exemple, una paràbola o una exponencial
El valor de la funció depèn de t així com de m paràmetres de la funció xj. Aquesta funció model pot provenir del coneixement de l'usuari; en cas de la molla és aquest cas, per exemple la llei de Hooke i per tant una funció lineal amb la constant de la molla com a únic paràmetre. En casos més difícils, com el de l'empresa l'elecció del tipus de funció ve precedit per un procés de modelatge tan complex com es desitgi, també es poden fixar diferents funcions model i comparar els resultats.
Els paràmetres xj serveixen per adaptar el tipus de funció seleccionada als valors observats de yi. L'objectiu és escollir els paràmetres de tal manera que la funció model aproximi les dades el millor possible.
Per trobar informació sobre els paràmetres i per tant la naturalesa específica de la relació, es fan servir en cada cas n valors donats ti de la variable independent t i els corresponents valors observats yi (i = 1,..., n).
Gauss i Legendre varen tenir la idea de fer hipòtesis sobre la distribució de probabilitat dels errors de mesura de les observacions. Hauria de ser de mitjana zero, cada error en la mesura hauria de tenir la mateixa variància i ser estadísticament independent de qualsevol altre error de mesura. Exigint per tant, que en els errors de mesura no es trobi cap tipus d'informació sistemàtica i fluctuïn al voltant de zero per pur atzar. A més els errors de mesura haurien d'estar distribuïts normalment, això té avantatges d'una banda justificats en la teoria de la probabilitat i d'altra banda garanteix que els valors atípics de y queden pràcticament exclosos.
Per assolir aquest objectiu és completament necessari que hi hagi una quantitat de punts de dades significativament més gran que el nombre de paràmetres, per la qual cosa ha de ser n > m.
El criteri per determinar l'aproximació que s'ha d'acceptar s'ha d'elegir de forma que les desviacions grans de la funció model respecte de les dades es penalitzin més fort que les desviacions petites. S'han de seleccionar aquells paràmetres que facin que la suma dels residus elevats al quadrat sigui mínima entre els valors corresponents de la corba del model f (ti) i les dades yi (Suma del quadrat dels residus o també suma del quadrat de l'error) en comparació amb altres eleccions dels paràmetres, escrit de manera formal:
amb . O el que és equivalent, es tracta de minimitzar la norma euclidiana del vector diferència:
amb . Com es resol exactament aquest problema de minimització depèn del tipus de la funció de model. Sovint es pot resoldre amb l'ajuda d'un diagrama de dispersió entre i y.
Un cas especial de la funció de model és la funció lineal en què els paràmetres x són coeficients d'un polinomi de primer grau. El cas més simple és
En notació matricial s'escriu
Per la recta de regressió que resulta d'aquest exemple simple, però rellevant es poden expressar directament les solucions per als paràmetres com a
amb la mitjana aritmètica dels valors de , i el mateix per . La solució per a també es pot expressar amb l'ajuda de la variància com
El següent exemple mostra que l'aproximació de la funció lineal . Se seleccionen a l'atzar 10 vaixells de guerra i s'analitzen diverses característiques entre elles la longitud (m) i l'amplada (m). S'ha d'investigar si l'amplada d'un vaixell de guerra pot ser explicada per la longitud.
El diagrama de dispersió mostra que entre la longitud i l'amplada d'un vaixell, hi ha clarament una relació lineal pronunciada.
Tot seguit es calcula segons el mètode de mínims quadrats una recta de regressió. La següent taula mostra les dades juntament amb els resultats intermedis.
Número | Longitud (m) | Amplada (m) | ti − t | yi − y | |||
---|---|---|---|---|---|---|---|
i | ti | yi | ti* | yi* | ti*yi* | ti*ti* | yi*yi* |
1 | 208 | 21,6 | 40,2 | 3,19 | 128,238 | 1616,04 | 10,1761 |
2 | 152 | 15,5 | −15,8 | −2,91 | 45,978 | 249,64 | 8,4681 |
3 | 113 | 10,4 | −54,8 | −8,01 | 438,948 | 3003,04 | 64,1601 |
4 | 227 | 31,0 | 59,2 | 12,59 | 745,328 | 3504,64 | 158,5081 |
5 | 137 | 13,0 | −30,8 | −5,41 | 166,628 | 948,64 | 29,2681 |
6 | 238 | 32,4 | 70,2 | 13,99 | 982,098 | 4928,04 | 195,7201 |
7 | 178 | 19,0 | 10,2 | 0,59 | 6,018 | 104,04 | 0,3481 |
8 | 104 | 10,4 | −63,8 | −8,01 | 511,038 | 4070,44 | 64,1601 |
9 | 191 | 19,0 | 23,2 | 0,59 | 13,688 | 538,24 | 0,3481 |
10 | 130 | 11,8 | −37,8 | −6,61 | 249,858 | 1428,84 | 43,6921 |
Σ | 1678 | 184,1 | 0,0 | 0,00 | 3287,820 | 20391,60 | 574,8490 |
Es procedeix tal com s'ha explicat a dalt
i també
Així es determina x1 com a
de manera que es podria dir que amb cada metre de longitud d'un vaixell de guerra, l'amplada creix de mitjana al voltant de 16 centímetres. El terme absolut x0 s'obté com a
L'ajust dels punts és bastant bona, amb l'ajuda de la característica longitud s'explica aproximadament un 92 per cent de la informació de l'amplada.
Un enfocament més general que el cas anterior és
que segueix sent lineal respecte dels paràmetres . Les funcions depenen només de i es poden escolli a voluntat per tal que s'adaptin al problema. De forma anàloga al cas anterior això dona un altre cop el problema
amb , i . Sovint es fan servir polinomis de regressió de la forma
Com a resultats de l'enquesta del cens de maig 2003 de l'Oficina Federal d'Estadística d'Alemanya, el pes mitjà dels homes es dona per grups d'edat.[6] Per a l'anàlisi se substitueixen els grups d'edat pel valor mitjà de la classe. L'objectiu és analitzar la dependència de la variable pes (y) de la variable edat (t).
El diagrama de dispersió indica una relació estreta gairebé parabòlica entre t i y, que sovint es pot aproximar molt bé per un polinomi. S'intenta un polinomi de regressió de la forma
Un ajust d'una funció amb l'ajuda del programa estadístic minitab dona la taula T1. El coeficient de determinació (R2) és del 99,8%, per la qual cosa es podria dir que el 99,8% de la informació de y queda explicada per les dades. Tanmateix les dades de estan altament correlacionades. Per això es va eliminar del model i el paràmetre . Els resultats sense es mostren a la taula T2. El coeficient de determinació s'ha reduït només a 98,6%, és a dir té una contribució addicional a l'explicació de y de només l'1,3%. El diagrama de dispersió amb els valors observats i els estimats mostra que l'ajust s'ha realitzat correctament.
En cas que la funció model en comptes d'una variable t tingui diverses variables , es té una funció lineal de la forma
que condueix al sistema lineal d'equacions
Representant els coeficients per la matriu , els paràmetres pel vector de paràmetres x i les observacions pel vector b, es pot representar el sistema d'equacions lineals en forma matricial.
Llavors, igual que abans el mètode dels mínims quadrats condueix a un problema de regressió lineal de la forma
El problema de minimització té sempre una solució. Si la matriu és invertible, llavors la solució és evident (fent les desviacions són totes zero). Calculant les derivades parcials respecte de i igualant-les a zero per tal de determinar el mínim porta a un sistema d'equacions lineals normal
que, donat que la matriu de l'esquerra és invertible té una solució clara. A més la matriu té la propietat de ser definida positiva per tant els seus valors propis són tots positius. Això junt amb la simetria de es pot aprofitar per fer servir procediments numèrics en la solució: per exemple la descomposició de Cholesky o el mètode de CG. Com que tots dos mètodes estan molt influïts pel condicionament de la matriu, això de vegades no és el més recomanable: Si A està mal condicionada, aleshores està mal condicionada al quadrat. Això comporta que els errors d'arrodoniment puguin ser tan grans com per fer el resultat inútil.
Una alternativa més estable a les equacions normals la proporciona el problema de minimització original, això juntament amb el valor petit del mínim proporciona una condició a la dimensió de la condició de A, els quadrats de la condició de A tenen valors grans. Es fa servir per calcular la solució de la descomposició QR, que es genera amb la transformació de Householder o amb la rotació de Givens. La idea és que les transformacions ortogonals no canvien la norma euclidiana d'un vector. Així
per a cada matriu ortogonal Q. Per resoldre el problema per tant es pot calcular una descomposició QR de A pel qual el costat dret es transforma directament. Això condueix a una forma
amb on és una matriu triangular superior dreta. La solució del problema és, per tant, la solució del sistema d'equacions
Llavors la norma del mínim s'obté de les components que resten a la banda dreta ja que les equacions corresponents no es poden complir mai a causa de les files corresponents de que valen zero.
També es pot analitzar el problema de minimització amb una descomposició en valors singulars. Això va motivar l'expressió de la pseudoinversa, una generalització de la inversa normal d'una matriu. Això proporciona una perspectiva sobre els sistemes d'equacions lineals no quadrats, que porta a un concepte de solució algebraica en comptes d'estocàstica.
En l'anàlisi de regressió estadística, es parla de diverses variables de regressió múltiple. L'enfocament es coneix també com OLS (ordinary least squares) (mínims quadrats ordinaris), en contrast amb GLS (generalised least squares) (mínims quadrats generalitzats), el model de regressió generalitzada en residus que es desvien de l'acceptació de la distribució com a no correlacionada ni homoscedàstica.
D'altra banda en la regressió multivariant, per a cada observació a r hi ha molts valors y de manera que en comptes d'un vector és una matriu de . Els models de regressió lineals s'han investigat intensivament en teoria d'estadística i de probabilitat. Especialment en econometria, per exemple, s'analitzen equacions d'estructura lineal definides recursivament per modelar sistemes econòmics complexos.
Sovint s'admeten restriccions addicionals als paràmetres que es formulen en forma d'equacions o inequacions. Per exemple, apareixen equacions si s'han d'interpolar punts de dades determinats. Les desigualtats apareixen amb més freqüència, generalment en forma d'intervals per als diferents paràmetres. En l'exemple de la introducció, s'esmentava la constant d'una molla, aquesta és sempre més gran que zero.
En el cas que les restriccions s'expressin en forma d'equacions es poden fer servir questes amb un problema donat per transformar el problema de minimització original en un altre de dimensió més baixa la solució del qual compleix automàticament les condicions.
En cas que s'expressin en forma d'inequacions és més difícil. Aquí es planteja el cas on les inequacions són lineals:
on les desigualtats estan indicades component a component. Aquest problema és unívocament resoluble com a problema d'optimització convex i es pot abordar, per exemple, amb els mètodes per a la solució d'aquest tipus de problemes.
Les inequacions quadrades sorgeixen, per exemple, al fer servir una Regularització de Tychonow a la solució d'equacions integrals. La resolubilitat aquí no està garantida sempre. La solució numèrica es pot obtenir, per exemple, amb la descomposició QR especial.
Amb el l'adveniment d'ordinadors de gran potència la regressió no lineal ha guanyat importància. En aquest cas els paràmetres entren a la funció no linealment. El modelatge no lineal permet, en principi, l'ajust de les dades a qualsevol equació de la forma . Atès que aquestes equacions defineixen corbes, els termes de regressió no lineal i d'ajust de corbes normalment es fan servir com a sinònims.
Alguns problemes no lineals, amb una substitució adequada es poden convertir en lineals, resoldre'ls amb les eines explicades i llavors desfer el canvi de variable. Un model multiplicatiu de la forma
que també varien amb t els residus e, per exemple, pot ser transformat prenent logaritmes en un sistema d'additius. Llavors els seus paràmetres es poden calcular. Aquest enfocament s'usa entre altres coses en la teoria de creixement.
En general l'ajust de funcions no lineals dona lloc a un problema de la forma
amb una funció no lineal . Llavors calculant dels derivades parcials s'obté un sistema d'equacions normals que no sempre es pot resoldre analíticament. Es pot obtenir una solució numèrica iterativament amb l'algorisme de Gauss-Newton. Això tanmateix té el problema que la convergència no està assegurada.
Els programes actuals funcionen freqüentment amb una variant, l'algorisme de Levenberg-Marquardt. Amb aquest algorisme en realitat la convergència tampoc està assegurada, però una regularització (matemàtiques) garanteix la monotonia de l'aproximació. A més aquest procediment és més tolerant a desviacions més grans dels valors estimats que el mètode original. Els dos procediments estan emparentats amb el mètode de Newton i normalment convergeixen de manera quadràtica, en cada pas es duplica doncs el nombre xifres decimals correctes.
Si el càlcul de les derivades parcials és computacionalment massa costós a causa de la complexitat de la funció objectiu, hi ha una sèrie de procediments disponibles com a alternativa que no necessiten derivades.
Un exemple de model de regressió que és completament no lineal és la cinètica enzimàtica. Aquí només y (Velocitat de reacció) i no x (Concentració de substrat) està subjecte a error i es pot utilitzar com a variable x. La relació de Lineweaver-Burk és de fet una transformació algebraicament correcta de l'equació de Michaelis-Menten v = (Vmax × [S]) / (Km + [S]), la seva aplicació tanmateix només proporciona resultats correctes si les mesures són correctes. Això porta a fer servir una relació de Michaelis-Menten ampliada
amb com a paràmetres d'error. Aquesta equació ja no es pot linealitzar més, per tant s'ha de solucionar de forma iterativa.
L'acceptació de la distribució normal per la variable dependent y no és absolutament necessària. Només cal que no hi hagi multicolinealitat de les mesures, ja que distorsionen els resultats de l'estimació. A més és desfavorable la correlació entre els paràmetres, ja que això causa problemes numèrics. D'altra banda els valors de les variables que són lluny dels altres també poden influir fortament en els resultats de l'estimació.
La multicolinealitat apareix si les mesures de dues variables donades ti i tj estan altament correlacionades, són doncs gairebé linealment dependents. En el cas lineal això significa, que el determinant de la matriu de l'equació normal és molt petit i la norma de la inversa és molt gran, per tant la matriu està fortament mal condicionada. Llavors les equacions normals són difícils de resoldre numèricament. Els valors de la solució es poden fer inversemblantment grans i petites modificacions en les observacions causen grans modificacions en els valors estimats.
Es defineix com valors atípics (Ausreißer en alemany; outliers en anglès) els valors de les dades que no encaixen en una sèrie de mesures. Aquests valors tenen una forta influencia en el càlcul dels paràmetres i distorsionen el resultat. Per evitar això, les dades s'han d'examinar cercant observacions defectuoses. Els valors atípics descoberts per exemple poden ser eliminats de la sèrie de mesures o s'han d'utilitzar procediments alternatius de càlcul tolerants a valors atípics com la regressió ponderada o el procediment de tres grups.
En el primer cas, després d'un primer càlcul dels valors estimats per tests estadístics, es comprova si hi ha valors atípics en la sèrie de mesures. S'eliminen aquests valors atípics i es torna a calcular els valors estimats. Aquest procediment es convenient només si hi ha pocs valors atípics.
Amb la regressió ponderada es ponderen les variables dependents y en funció dels seus residus. Els valors atípics, és a dir observacions amb residus grans, reben un pes baix que pot estar graduat segons mida del residu. Amb l'algoritme a Mosteller i Tukey (de 1977) es ponderen valors poc problemàtics amb 1 i se suprimeixen els atípics ponderant-los amb 0. Amb la regressió ponderada per regla general són necessàries diverses passes d'iteració fins que ja no canvia la quantitat de valors atípics detectats.
Si es relaxen les fortes exigències que el procediment imposa als errors d'observació, s'obtenen els anomenats mètodes generalitzats dels mínims quadrats. Llavors els casos especials importants tenen altre cop propis noms, per exemple els mínims quadrats ponderats, en que se suposa que els errors estan correlacionats però no amb la mateixa variància. Això condueix a un problema de la forma
On D és una matriu diagonal. Si les variàncies varien molt, llavors les equacions normals corresponents tenen una condició molt gran per la qual cosa el problema s'ha de resoldre directament.
Si se suposa a més que els errors en les mesures s'haurien de tenir en compte en la funció del model, s'obté els "mínims quadrats totals" en la forma
on és l'error en el model i l'error en les dades.
Finalment hi ha encara la possibilitat de no basar-se en cap distribució normal. Això correspon per exemple a la 1-norma en comptes de a la norma euclidiana.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.