Aproximación

Disponiendo de parejas de datos de dos variables $x$ e $y$, de la observación de los datos o por motivos teóricos, se supone que existe entre ambas un cierto tipo de relación funcional. Siendo la variable independiente $x$ y la variable dependiente $y$, los datos de esta última, de forma aleatoria, se ven afectados tanto por errores como por otras variables. Por este motivo no tiene sentido usar la interpolación, pero sí es posible aproximar.

1. Regresión lineal simple:

Datos:

$(x_1,y_1), \dotsc, (x_n,y_n)$

Se quiere hallar la recta $y = a+bx$ que mejor se ajuste a los datos, donde $a$ es la ordenada en el origen ("intercept") y $b$ la pendiente ("slope").

La diferencia entre un $y_i$ y el valor que daría la recta:

$e_i = y_i - a - bx_i\,,$   residuo.

Hay tantos residuos como puntos. Cuando la suma de sus cuadrados sea la mínima se produce el mejor ajuste:

$S(a,b) = \displaystyle \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - a - bx_i)^2$

$S(a,b)$ mínimo $\Rightarrow$ Mejor aproximación.

Esto, en lo que se conoce como el método de los mínimos cuadrados, determina $a$ y $b$. En el mínimo las derivadas respecto de $a$ y $b$ son cero:

$ \begin{alignedat}{2} & \vphantom{\sum_{i=1}^n -2(y_i - a - bx_i) = 0} \dfrac{\partial S(a,b)}{\partial a} = 0 &&\Rightarrow \\[1ex] \vphantom{\sum_{i=1}^n 2(y_i - a - bx_i)(-x_i) = 0} &\dfrac{\partial S(a,b)}{\partial b} = 0 &&\Rightarrow \end{alignedat} \underbrace{ \boxed{ \! \begin{aligned} &\sum_{i=1}^n -2(y_i - a - bx_i) = 0 \\[1ex] &\sum_{i=1}^n 2(y_i - a - bx_i)(-x_i) = 0 \end{aligned} } }_{ \text{ecuaciones normales} } \quad \enspace \begin{aligned} & \vphantom{\sum_{i=1}^n -2(y_i - a - bx_i) = 0} \cssId{1}{\enclose{circle}{\mspace{1mu}1\mspace{1mu}}} \\[1ex] \vphantom{\sum_{i=1}^n 2(y_i - a - bx_i)(-x_i) = 0} &\cssId{2}{\enclose{circle}{\mspace{1mu}2\mspace{1mu}}} \end{aligned} $

$\enclose{circle}{\mspace{1mu}1\mspace{1mu}}$

$ \begin{array}{c} \displaystyle \sum_{i=1}^n \!\cancel{-2}\!(y_i - a - bx_i) = 0 \\[1ex] \displaystyle \sum_{i=1}^n y_i = \sum_{i=1}^n (a + bx_i) = na + b \sum_{i=1}^n x_i \\[1ex] \dfrac{1}{n} \displaystyle \sum_{i=1}^n y_i = a + \dfrac{b}{n} \sum_{i=1}^n x_i \\[1ex] \overline{y} = a + b \overline{x} \Rightarrow a = \overline{y} - b \overline{x} \end{array} $

Donde $\overline{x}$ e $\overline{y}$ son, respectivamente, las medias de las variables $x$ e $y$. Esto es:

$\overline{x} = \dfrac{\sum\limits_{i=1}^n x_i}{n}\,, \enspace \overline{y} = \dfrac{\sum\limits_{i=1}^n y_i}{n}$

Por tanto, por el punto medio $(\overline{x},\overline{y})$ siempre pasará la recta.

$\enclose{circle}{\mspace{1mu}2\mspace{1mu}}$

$ \begin{array}{c} \displaystyle \sum_{i=1}^n \!\cancel{2}\!(y_i - a - bx_i) (\!\cancel{-}\!x_i) = 0 \\[1ex] \displaystyle \sum_{i=1}^n (y_i - \overline{y} + b\overline{x} - bx_i) x_i = 0 \\[1ex] \displaystyle \sum_{i=1}^n (y_i - \overline{y}) x_i = b \sum_{i=1}^n (x_i - \overline{x}) x_i \\[1ex] \displaystyle \sum_{i=1}^n y_i x_i - \overline{y} \sum_{i=1}^n x_i = b \left[ \sum_{i=1}^n x_i^2 - \overline{x} \sum_{i=1}^n x_i \right] \\[1ex] \displaystyle \sum_{i=1}^n y_i x_i - 2 \overline{y} \sum_{i=1}^n x_i + \overline{y} \sum_{i=1}^{n} x_i = b \left[ \sum_{i=1}^n x_i^2 - 2 \overline{x} \sum_{i=1}^n x_i + \overline{x} \sum_{i=1}^n x_i \right] \\[1ex] \displaystyle \sum_{i=1}^n y_i x_i - \dfrac{1}{n} \sum_{i=1}^n y_i \sum_{i=1}^n x_i - \dfrac{1}{n} \sum_{i=1}^n x_i \sum_{i=1}^n y_i + n \overline{y} \mspace{1mu} \overline{x} = b \left[ \sum_{i=1}^n x_i^2 - 2 \overline{x} \sum_{i=1}^n x_i + n \overline{x}^2 \right] \\[1ex] \displaystyle \sum_{i=1}^n y_i x_i - \overline{y} \sum_{i=1}^n x_i - \overline{x} \sum_{i=1}^n y_i + \sum_{i=1}^n \overline{y} \mspace{1mu} \overline{x} = b \left[ \sum_{i=1}^n x_i^2 - 2 \overline{x} \sum_{i=1}^n x_i + \sum_{i=1}^n \overline{x}^2 \right] \\[1ex] \displaystyle \sum_{i=1}^n (y_i x_i - \overline{y} x_i - y_i \overline{x} + \overline{y} \mspace{1mu} \overline{x}) = b \sum_{i=1}^n (x_i^2 - 2 \overline{x} x_i + \overline{x}^2) \\[1ex] \displaystyle \sum_{i=1}^n (x_i - \overline{x})(y_i - \overline{y}) = b \sum_{i=1}^n (x_i - \overline{x})^2 \\[1ex] b = \dfrac{ \sum\limits_{i=1}^n (x_i - \overline{x})(y_i - \overline{y}) }{ \sum\limits_{i=1}^n (x_i - \overline{x})^2 } = \dfrac{S_{xy}}{S_{xx}} \end{array} $

Donde $S_{xx}$ es la suma de los cuadrados de las desviaciones respecto a la media de los valores de $x$, mientras que $S_{xy}$ es la suma de los productos cruzados de las desviaciones respecto a las medias de los valores de $x$ e $y$. Esto es:

$ \begin{array}{l} S_{xx} = \displaystyle \sum_{i=1}^n (x_i - \overline{x})^2 \\[1ex] S_{yy} = \displaystyle \sum_{i=1}^n (y_i - \overline{y})^2 \\[1ex] S_{xy} = \displaystyle \sum_{i=1}^n (x_i - \overline{x})(y_i - \overline{y}) \end{array} $

También, con la recta obtenida se cumple que:

$\displaystyle \sum_{i=1}^n e_i = \sum_{i=1}^n (y_i - a - bx_i) \underset{\href{#1}{\enclose{circle}{\mspace{1mu}1\mspace{1mu}}}}{=} 0$

Se define la correlación como:

$ \rho, R \text{ ó } r = \dfrac{ \displaystyle \sum_{i=1}^n (x_i - \overline{x}) (y_i - \overline{y}) }{ \displaystyle \left( \sum_{i=1}^n (x_i - \overline{x})^2 \sum_{i=1}^n (y_i - \overline{y})^2 \right)^{\! 1/2} } = \dfrac{S_{xy}}{(S_{xx} S_{yy})^{1/2}} \overset{ \begin{subarray}{c} \llap{S_{xy} \,} = \rlap{\, bS_{xx}} \\ \big\downarrow \end{subarray} }{=} b \left( \dfrac{S_{xx}}{S_{yy}} \right)^{\! 1/2} $

Tiene el signo de la pendiente. Entonces, siendo:

$ \begin{array}{c} y_i = a + bx_i + e_i \\[1ex] y_i = \overline{y} - b\overline{x} + bx_i + e_i \\[1ex] y_i - \overline{y} = b (x_i - \overline{x}) + e_i \\[1ex] \displaystyle \sum_{i=1}^n (y_i - \overline{y})^2 = \sum_{i=1}^n (b(x_i - \overline{x}) + e_i)^2 \\[1ex] \displaystyle \sum_{i=1}^n (y_i - \overline{y})^2 = b^2 \sum_{i=1}^n (x_i - \overline{x})^2 + 2b \sum_{i=1}^n (x_i - \overline{x})e_i + \sum_{i=1}^n e_i^2 \\[1ex] \displaystyle \sum_{i=1}^n (y_i - \overline{y})^2 = b^2 \sum_{i=1}^n (x_i - \overline{x})^2 + 2b \Biggl[ \underbrace{ \sum_{i=1}^n x_i e_i }_{ \begin{subarray}{c} 0 \\ \href{#2}{{\enclose{circle}{\mspace{1mu}2\mspace{1mu}}}} \end{subarray} } - \overline{x} \underbrace{\sum_{i=1}^n e_i}_0 \Biggr] + \sum_{i=1}^n e_i^2 \\[1ex] \displaystyle \sum_{i=1}^n (y_i - \overline{y})^2 = b^2 \sum_{i=1}^n (x_i - \overline{x})^2 + \sum_{i=1}^n e_i^2 \end{array} $

Por consiguiente:

$S_{yy} = b^2 S_{xx} + \displaystyle \sum_{i=1}^n e_i^2 \geq b^2 S_{xx}$

Ya que $\sum\limits_{i=1}^n e_i^2$ es positivo, salvo si todos los puntos estuvieran sobre la recta, que entonces sería cero.

Así que:

$r^2 = b^2 \dfrac{S_{xx}}{S_{yy}} \leq b^2 \dfrac{S_{xx}}{b^2 S_{xx}} = 1$

Por lo que siempre:

$ \begin{array}{c} 0 \leq r^2 \leq 1 \\[1ex] 0 \leq |r| \leq 1 \end{array} $

Cuanto más cercano a 1 mejor el ajuste de los puntos a la recta. Aunque $0$ ó $1$ son imposibles en la realidad, no se dan en la práctica.


Ejemplo:

$i$ $x_i$ $y_i$
1 0,10 14,175
2 0,15 21,368
3 0,25 35,186

$x =$ concentración $y =$ cromatógrafo

Siendo:

$ \begin{align} S_{xx} &= \sum_{i=1}^n (x_i - \overline{x})^2 = \\[1ex] &= \sum_{i=1}^n (x_i^2 - 2x_i \overline{x} + \overline{x}^2) = \\[1ex] &= \sum_{i=1}^n x_i^2 - 2 \overline{x} \sum_{x=1}^n x_i + \overline{x}^2 \sum_{i=1}^n 1 = \\[1ex] &= \sum_{i=1}^n x_i^2 - \dfrac{2}{n} \left( \sum_{1=1}^n x_i \right)^{\! 2} + \dfrac{n}{n^2} \left( \sum_{i=1}^n x_i \right)^{\! 2} = \\[1ex] &= \sum_{i=1}^n x_i^2 - \dfrac{1}{n} \left( \sum_{i=1}^n x_i \right)^{\! 2} \end{align} $ $S_{yy} = \displaystyle \sum_{i=1}^n (y_i - \overline{y})^2 = \dotsb = \sum_{i=1}^n y_i^2 - \dfrac{1}{n} \left( \sum_{i=1}^n y_i \right)^{\! 2}$ $ \begin{align} S_{xy} &= \sum_{i=1}^n (x_i - \overline{x}) (y_i - \overline{y}) = \\[1ex] &= \sum_{i=1}^n x_i y_i - \overline{y} \sum_{i=1}^n x_i - \overline{x} \sum_{i=1}^n y_i + \overline{x} \overline{y} \sum_{i=1}^n 1 = \\[1ex] &= \sum_{i=1}^n x_i y_i - \dfrac{2}{n} \sum_{i=1}^n x_i \sum_{i=1}^n y_i + \dfrac{n}{n^2} \sum_{i=1}^n x_i \sum_{i=1}^n y_i = \\[1ex] &= \sum_{i=1}^n x_i y_i - \dfrac{1}{n} \sum_{i=1}^n x_i \sum_{i=1}^n y_i \end{align} $

Realización de los cálculos:

$ \begin{array}{llll} n = 3 &\quad \displaystyle \sum_{i=1}^n x_i = 0{,}5 &\quad \overline{x} = 0{,}166667 & \\[1ex] &\quad \displaystyle \sum_{i=1}^n y_i = 70{,}729 &\quad \overline{y} = 23,5763 & \\[1ex] &\quad \displaystyle \sum_{i=1}^n x_i^2 = 0{,}095 &\quad \displaystyle \sum_{i=1}^n y_i^2 = 1895{,}5766 &\quad \displaystyle \sum_{i=1}^n x_i y_i = 13{,}4192 \end{array} $

$ \begin{array}{l} S_{xx} = 0{,}095 - \dfrac{(0{,}5)^2}{3} = 0{,}0116667 \\[1ex] S_{yy} = 1895{,}5766 - \dfrac{(70{,}729)^2}{3} = 228{,}0461 \\[1ex] S_{xy} = 13{,}4192 - \dfrac{(0{,}5)(70{,}729)}{3} = 1{,}63103 \end{array} $

$ \begin{array}{l} b = \dfrac{1{,}63103}{0{,}0116667} = 139{,}802 \\[1ex] a = 23{,}5763 - (139{,}802)(0{,}166667) = 0{,}276 \\[1ex] r = \dfrac{1{,}63103}{((0{,}0116667)(228{,}0461))^{1/2}} = 1{,}000 \end{array} $

Siempre valores de $r$ muy próximos a uno, ya que la regresión va a tener un uso predictivo. Siendo entonces:

$y = 0{,}276 + 139{,}802x$

También:

$i$ $e_i$
1 -0,081
2 0,122
3 -0,041
$ \begin{array}{c} e_i = y_i - a - bx_i \\[1ex] \displaystyle \sum_{i=1}^n e_i = 0 \end{array} $

Se pretende una regresión lineal simple sin término independiente, para la cual se disponen de los datos:

$(x_1,y_1), \dotsc, (x_n,y_n)$

El problema que se plantea es hallar $y = bx$ tal que el ajuste a los datos sea el mejor posible. Para ello:

$S(b) = \displaystyle \sum_{i=1}^n (y_i - bx_i)^2\,,$ mínimo.

Donde en el mismo (en el mínimo):

$S'(b) = 0$

Por tanto, esto es:

$ \begin{array}{c} \displaystyle \sum_{i=1}^n \! \cancel{2}\!(y_i - bx_i) (\!\cancel{-}\!x_i) = 0 \\[1ex] \displaystyle \sum_{i=1}^n x_i y_i - b \sum_{i=1}^n x_i^2 = 0 \\[1ex] b = \dfrac{\sum\limits_{i=1}^n x_i y_i}{\sum\limits_{i=1}^n x_i^2} \end{array} $


Ejemplo:

En procesos adiabáticos de gases:

$PV^\gamma = C$

Donde $C$ es constante a lo largo del proceso.

Experimentalmente, en un proceso adiabático de un gas:

$P$ (atm) $V$ (litros)
1,62 0,5
1,00 1,0
0,75 1,5
0,62 2,0
0,52 2,5
0,46 3,0

Siendo pues:

$ \begin{array}{c} PV^\gamma = C \\[1ex] \ln P + \gamma \ln V = \ln C \\[1ex] \ln V = \dfrac{\ln C}{\gamma} - \dfrac{1}{\gamma} \ln P \end{array} $

Si $y = a + bx$, entonces:

$ \begin{array}{ll} y = \ln V\,, &x = \ln P \\[1ex] a = \dfrac{\ln C}{\gamma}\,, & b = -\dfrac{1}{\gamma} \end{array} $

Así que:

$\ln P$ $\ln V$
0,4824 −0,6931
0 0
−0,2877 0,4055
−0,4780 0,6931
−0,6539 0,9163
−0,7765 1,0986

Haciendo el cálculo de la regresión:

$ \begin{array}{l} b = -\dfrac{1}{\gamma} = -1{,}422 \Rightarrow \gamma = 0{,}703 \\[1ex] a = \dfrac{\ln C}{\gamma} = -0{,}002829 \Rightarrow C = 0{,}998 \\[1ex] r = -1{,}000 \end{array} $

También, alternativamente:

$\ln P = \ln C - \gamma \ln V$

De nuevo, si $y = a + bx$, aquí:

$ \begin{array}{ll} y = \ln P\,, &x = \ln V \\[1ex] a = \ln C\,, & b = -\gamma \end{array} $

El cálculo de la regresión da:

$ \begin{array}{l} b = -\gamma = -0{,}703 \Rightarrow \gamma = 0{,}703 \\[1ex] a = \ln C = -0{,}002042 \Rightarrow C = 0{,}998 \\[1ex] r = -1{,}000 \end{array} $


Dos maneras de plantear la regresión:

$ \begin{array}{l} y = a + bx \Rightarrow \displaystyle \sum_{i=1}^n (y_i - a - bx_i)^2 \,, \text{ mínimo.} \\[1ex] x = \alpha + \beta y \Rightarrow \displaystyle \sum_{i=1}^n (x_i - \alpha - \beta y_i)^2 \,, \text{ mínimo.} \end{array} $

Para el segundo planteamiento, intercambiando $x$ e $y$ en las ecuaciones obtenidas anteriormente:

$ \begin{array}{l} \alpha = \overline{x} - \beta \overline{y} \\[1ex] \beta = \dfrac{S_{xy}}{S_{yy}} \end{array} $

Ambas rectas se cruzan en el punto medio $(\overline{x},\overline{y})$.

Además:

$b \beta = \dfrac{S_{xy}^2}{S_{xx} S_{yy}} = r^2$

Así que:

$r^2 \to 1 \Rightarrow \beta \simeq \dfrac{1}{b}$

Siendo que, en tal caso, las dos rectas de regresión se solaparían. De suceder:

$\alpha \simeq \overline{x} - \dfrac{1}{b} \overline{y} = \dfrac{-a}{b}$

2. Regresión no lineal:

Por ejemplo, si:

$y = ax^b$

Disponiendo de los datos:

$(x_1,y_1), \dotsc, (x_n,y_n)$

Hay que hallar $a$ y $b$ de modo que:

$S(a,b) = \displaystyle \sum_{i=1}^n (y_i - ax_i^b)^2 \,,$ mínimo.

Esto es:

$ \left. \begin{array}{l} \dfrac{\partial S(a,b)}{\partial a} = \displaystyle \sum_{i=1}^n 2(y_i - ax_i^b) (-x_i^b) = 0 \\[1ex] \dfrac{\partial S(a,b)}{\partial b} = \displaystyle \sum_{i=1}^n 2(y_i - ax_i^b) (-ax_i^b \ln x_i) = 0 \end{array} \right\} $

Es un sistema de ecuaciones no lineales. Requiere de métodos iterativos para resolver.

Para hacerlo más sencillo, tomando logaritmos:

$\ln y = \ln a + b \ln x$

Con lo que el problema ahora consiste en encontrar $a$ y $b$ tal que:

$\displaystyle \sum_{i=1}^n (\ln y_i - \ln a - b \ln x_i)^2 \,,$ mínimo.

Si:

$ \begin{array}{ll} Y = \ln y \,, & X = \ln x \\[1ex] A = \ln a \,, & B = b \end{array} $

Entonces:

$\displaystyle \sum_{i=1}^n (Y_i - A - B X_i)^2 \,,$ mínimo.

Que se resuelve como una regresión lineal. Calculándose del resultado de la misma, deshaciendo el cambio, $a$ y $b$.

Otros casos, de lo que se conoce como linealización:

$ \begin{array}{ll} y = ae^{bx} &{} \Rightarrow \quad \ln y = \ln a + bx \\[1ex] y = \dfrac{1}{a + bx} &{} \Rightarrow \quad \dfrac{1}{y} = a + bx \\[1ex] y = \dfrac{x}{a + bx} &{} \Rightarrow \quad \dfrac{1}{y} = b + a \dfrac{1}{x} \end{array} $