La inferencia estadística consiste en realizar generalizaciones sobre un conjunto, llegar a conclusiones sobre sus características, a partir de la información obtenida de una muestra, i.e. porción o subconjunto, aleatoria del mismo.
Ejemplo:
Analizar los siguientes resultados para 50 registros, en escala de pH, de lluvia ácida:
3,58 | 4,05 | 4,27 | 4,35 | 4,45 | 4,51 | 4,58 | 4,62 | 4,70 | 5,07 |
3,80 | 4,12 | 4,28 | 4,35 | 4,50 | 4,52 | 4,60 | 4,65 | 4,72 | 5,20 |
4,01 | 4,18 | 4,30 | 4,41 | 4,50 | 4,52 | 4,61 | 4,70 | 4,78 | 5,26 |
4,01 | 4,20 | 4,32 | 4,42 | 4,50 | 4,52 | 4,61 | 4,70 | 4,78 | 5,41 |
4,05 | 4,21 | 4,33 | 4,45 | 4,50 | 4,57 | 4,62 | 4,70 | 4,80 | 5,48 |
Aquí, en comparación, el tratamiento es el siguiente:
Modelos Valores experimentales Variable aleatoria continua: $X\,.$ Serie datos: $x_1, x_2, \dotsc, x_n\,.$ Función de densidad: $f(x)\,.$ Histograma: Media: $\mu = \displaystyle \int_{-\infty}^{+\infty} x \, f(x) \, dx\,.$ Media: $\overline{x} = \dfrac{x_1 + \dotsb + x_n}{n}\,.$ Desviación típica: Desviación típica: $\small{\sigma = \left( \displaystyle \int_{-\infty}^{+\infty} (x-\mu)^2 f(x) \, dx \right)^{\! 1/2}}$ $s = \left( \dfrac{ (x_1 - \overline{x})^2 + \dotsb + (x_n - \overline{x})^2 }{n-1} \right)^{\! 1/2}$
Introduciendo los datos en la calculadora, o en una hoja de cálculo, se obtiene:
$ \begin{array}{l} \overline{x} = 4{,}507 \\[1ex] s = 0{,}368 \end{array} $
Representando el histograma, se tiene una distribución acampanada:
Así pues, se interpreta admitiendo una distribución normal.
Sabiendo que:
$\mu - 2 \sigma < X < \mu + 2 \sigma \enspace \sim \pu{95 \%}$
Entonces:
$\overline{x} \pm 2s$ aproximación de $\mu \pm 2 \sigma$
Haciendo el cálculo:
$\overline{x} \pm 2s = 4{,}507 \pm 2 \times 0{,}368 = 4{,}507 \pm 0{,}736$
Por tanto:
$3{,}771 < {\rm pH} < 5{,}243 \enspace \sim \pu{95 \%}$
Distribución de la media:
Propiedades:
- $\mu_{X+Y} = \mu_X + \mu_Y$
Análogamente a lo visto para una única variable $X$, para una variable aleatoria continua $(X,Y)$ existe una función de densidad (de probabilidad) $f(x,y)$ tal que:
- ${\rm Prob}\mspace{1mu}(x_1 < X < x_2, y_1 < Y < y_2) = \displaystyle \int_{y_1}^{y_2} \! \int_{x_1}^{x_2} f(x,y) \, dx \,dy$
- $f(x,y) \geq 0$
- $\displaystyle \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} f(x,y) \, dx \, dy = 1$
Esto es, $f(x,y)$ es una superficie sobre el plano $xy$, nunca por debajo de él, en la que el volumen comprendido entre ambos, superficie y plano, es 1. Siendo, en particular, la probabilidad de que $X$ e $Y$ tomen unos valores de un área determinada del plano $xy$, el volumen situado entre esta área y la superficie $f(x,y)$.
La función de distribución:
$F(x,y) = {\rm Prob}\mspace{1mu}(X < x, Y < y) = \displaystyle \int_{-\infty}^{y} \int_{-\infty}^x f(u,v) \, du \, dv$
Así entonces pues:
$ \begin{align} \mu_{X+Y} &= \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} (x + y) \, f(x,y) \, dx \, dy = \\[1ex] &= \underbrace{ \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} x \, f(x,y) \, dx \, dy }_{\mu_X} + \underbrace{ \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} y \, f(x,y) \, dx \, dy }_{\mu_Y} = \\[1ex] &= \mu_X + \mu_Y \end{align} $
Cuando $X$ e $Y$ son independientes:
$f(x,y) = f_X(x) \, f_Y(y)$
Donde $f_X(x)$ y $f_Y(y)$ son, respectivamente, las densidades de probabilidad de $X$ e $Y$. Entonces, para el producto de $XY$:
$\mu_{XY} = \mu_X \mu_Y,$ $X$ e $Y$ independientes.
Esto es así ya que:
$ \begin{align} \mu_{XY} &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy \, f(x,y) \, dx \, dy \underset{ \begin{subarray}{c} \uparrow \\ \llap{\text{si}}\ \rlap{X, Y} \\ \llap{\text{indepe}}\rlap{\text{ndientes,}} \\[.5ex] \llap{f(x,y) \, =} \rlap{\, f_X(x) \, f_Y(y)} \end{subarray} }{=} \\[1ex] &= \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} xy \, f_X(x) \, f_Y(y) \, dx \, dy = \\[1ex] &= \underbrace{\int_{-\infty}^{+\infty} x \, f_X(x) \, dx}_{\mu_X} \underbrace{\int_{-\infty}^{+\infty} y \, f_Y(y) \, dy}_{\mu_Y} = \\[1ex] &= \mu_X \mu_Y \end{align} $
También, para $X,Y$ independientes:
$\sigma_{X+Y}^2 = \sigma_X^2 + \sigma_Y^2\,$, $X,Y$ independientes.
Esto es así porque:
$ \begin{align} \sigma_{X+Y}^2 &= \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty}(x + y - \mu_{X+Y})^2 f(x,y) \, dx \, dy = \\[1ex] &= \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} (x-\mu_X + y-\mu_Y)^2 f(x,y) \, dx \, dy = \\[1ex] &= \underbrace{ \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} (x - \mu_X)^2 f(x,y) \, dx \, dy }_{\sigma_X^2} + {} \\[1ex] &\hphantom{={}} + 2 \underbrace{ \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} (x-\mu_X)(y-\mu_Y) \, f(x,y) \, dx \, dy }_{\mu_{\rlap{\normalsize(X-\mu_X)(Y-\mu_Y)}}} + {} \\[1ex] &\hphantom{={}} + \underbrace{ \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} (y - \mu_Y)^2 f(x,y) \, dx \, dy }_{\sigma_Y^2} = \\[1ex] &= \sigma_X^2 + \sigma_Y^2 + 2 \mu_{(X-\mu_X)(Y-\mu_Y)} \underset{ \begin{subarray}{c} \uparrow \\ \llap{\text{Si}}\ \rlap{X,Y} \\ \llap{\text{indepe}}\rlap{\text{ndientes.}} \end{subarray} }{=} \sigma_X^2 + \sigma_Y^2 + 2 \underbrace{\mu_{X-\mu_X}}_0 \underbrace{\mu_{Y-\mu_Y}}_0 = \\[1ex] &= \sigma_X^2 + \sigma_Y^2 \end{align} $
Donde se ha tenido en cuenta que:
$ \begin{align} \mu_{X - \mu_X} &= \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} (x - \mu_{X}) \, f(x,y) \, dx \, dy = \\[1ex] &= \underbrace{ \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} x \, f(x,y) \, dx \, dy }_{\mu_X} - \mu_X \underbrace{ \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} f(x,y) \, dx \, dy}_1 = \\[1ex] &= \mu_X - \mu_X = 0 \end{align} $
Igual para $Y$.
Estos resultados pueden extenderse a un número mayor de variables. Esto es:
$ \begin{array}{l} \mu_{X_1 + \, \dotsb \, + \, X_n} = \mu_{X_1} \! + \dotsb + \mu_{X_n} \\[1ex] \left. \begin{array}{l} \mu_{X_1 \dotsm X_n} = \mu_{X_1} \! \dotsm \mu_{X_n} \\[1ex] \sigma_{X_1 + \, \dotsb \, + \, X_n}^2 = \sigma_{X_1}^2 + \dotsb + \sigma_{X_n}^2 \end{array} \right\} X_1, \dotsc X_n \text{ independientes} \end{array} $
- Para:
$ \left. \begin{array}{l} X,Y \smash{\text{ independientes}\,,} \\[1ex] X \sim N(\mu_X, \sigma_X)\,, \\[1ex] Y \sim N(\mu_Y, \sigma_Y) \end{array} \right\} \Rightarrow X+Y \sim N(\mu_X + \mu_Y,(\sigma_X^2 + \sigma_Y^2)^{1/2}) $
Con la intención de demostrar esto, la función generadora de momentos para una variable aleatoria continua $X$ se define como:
$M_X(t) = \displaystyle \int_{-\infty}^{+\infty} e^{tx} f(x) \, dx\,, \enspace t \in \mathbb{R}$
Donde $f(x)$ es la función de densidad de probabilidad de $X$. Es pues $M_X(t)$ el cálculo de la media de $e^{tX}$.
Si $X \sim N(\mu,\sigma)$, entonces:
$ \begin{align} M_X(t) &= \int_{-\infty}^{+\infty} e^{tx} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \left( -\dfrac{(x-\mu)^2}{2\sigma^2} \right) \, dx = \\[1ex] &= \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \left( - \dfrac{(x-\mu)^2 - 2\sigma^2 tx}{2\sigma^2} \right) \, dx = \\[1ex] &= \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \left( - \dfrac{x^2 - 2x\mu + \mu^2 - 2\sigma^2 tx}{2\sigma^2} \right) \, dx = \\[1ex] &= \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \left( - \dfrac{x^2 - 2x(\mu + \sigma^2 t) + \mu^2}{2\sigma^2} \right) \, dx = \\[1ex] &= \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \biggl( - \dfrac{ x^2 - 2x(\mu + \sigma^2 t) + (\mu + \sigma^2 t)^2 }{2\sigma^2} + {} \\[1ex] &\hphantom{= \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \biggl(} + \dfrac{(\mu + \sigma^2 t)^2 - \mu^2}{2\sigma^2} \biggr) \, dx = \\[1ex] &= \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \biggl( - \dfrac{(x-(\mu+\sigma^2 t))^2}{2\sigma^2} + \\[1ex] &\hphantom{= \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \biggl(} + {} \dfrac{\mu^2 + 2\mu \sigma^2 t + \sigma^4 t^2 - \mu^2}{2\sigma^2} \biggr) \, dx = \\[1ex] &= \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}\sigma} \exp \left( - \dfrac{(x-(\mu+\sigma^2 t))^2}{2\sigma^2} + \mu t + \dfrac{\sigma^2 t^2}{2} \right) \, dx = \\[1ex] &= \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right) \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi} \sigma} \exp \left( - \dfrac{(x-(\mu + \sigma^2 t))^2}{2\sigma^2} \right) \, dx = \\[1ex] & \underset{ \begin{subarray}{c} \big\uparrow \\ \llap{u \,} = \rlap{\, \tfrac{x\,-\,(\mu+\sigma^2 t)}{\sigma}} \\[.5ex] \llap{du \,} = \rlap{\, \tfrac{dx}{\sigma}} \end{subarray} }{=} \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right) \underbrace{ \int_{-\infty}^{+\infty} \dfrac{1}{\sqrt{2\pi}} \exp \left( - \dfrac{u^2}{2} \right) \, du }_{ \begin{subarray}{c} 1 \\[.5ex] \sim \, N(0,1) \end{subarray} } = \\[1ex] &= \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right) \end{align} $
Para la suma, $X + Y$, de dos variables aleatorias continuas independientes:
$ \begin{align} M_{X+Y}(t) &= \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} e^{t(x+y)} f(x,y) \, dx \, dy \underset{ \begin{subarray}{c} \uparrow \\[.5ex] \llap{X},\rlap{Y} \\ \llap{\text{indepe}}\rlap{\text{ndientes.}} \\[.5ex] \llap{(f(x,y) \, =} \rlap{\, f_X(x) \, f_Y(y))} \end{subarray} }{=} \\[1ex] &= \int_{-\infty}^{+\infty} \! \int_{-\infty}^{+\infty} e^{tx} e^{ty} f(x) \, f(y) \, dx \, dy = \\[1ex] &= \int_{-\infty}^{+\infty} e^{ty} f(y) \left[ \int_{-\infty}^{+\infty} e^{tx} f(x) \, dx \right] dy = \\[1ex] &= \underbrace{\int_{-\infty}^{+\infty} e^{tx} f(x) \, dx}_{M_X(t)} \underbrace{\int_{-\infty}^{+\infty} e^{ty} f(y) \, dy}_{M_Y(t)} = \\[1ex] &= M_X(t) M_Y(t) \end{align} $
Si $X$ e $Y$ son dos variables aleatorias continuas independientes con, además, distribución normal:
$ \begin{align} M_{X+Y}(t) &= M_X(t) M_Y(t) = \\[1ex] &= \exp \left( \mu_X t + \dfrac{\sigma_X^2 t^2}{2} \right) \exp \left( \mu_Y t + \dfrac{\sigma_Y^2 t^2}{2} \right) = \\[1ex] &= \exp \left( (\mu_X + \mu_Y)t + \dfrac{(\sigma_X^2 + \sigma_Y^2)t^2}{2} \right) \end{align} $
Que es la función generadora de momentos de una distribución normal con media $\mu_X + \mu_Y$ y varianza $\sigma_X^2 + \sigma_Y^2$. Así que, ya que sólo cuando la distribución de probabilidad es la misma se tienen funciones generadoras de momentos iguales, por tanto:
$ \begin{array}{c} X + Y \sim N(\mu_X + \mu_Y, (\sigma_X^2 + \sigma_Y^2)^{1/2}) \,, \\[1ex] \left\{ \begin{array}{l} X,Y \text{ independientes}\,, \\[1ex] X \sim N(\mu_X,\sigma_X)\,, \\[1ex] Y \sim N(\mu_Y,\sigma_Y)\,. \end{array} \right. \end{array} $
En general:
$\displaystyle \sum_{i=1}^n X_i \sim N\left(\sum_{i=1}^n \mu_i, \sqrt{\sum_{i=1}^n \sigma_i^2} \right)$
Donde $X_1, \dotsc, X_n$ son variables aleatorias independientes que presentan distribución normal, con media $\mu_i$ y desviación típica $\sigma_i$ respectivamente.
- Para $X_1, X_2, \dotsc, X_n$ variables aleatorias independientes
con distribución, cada una de ellas, $N \sim (\mu,\sigma)\,,$ como
por ejemplo los resultados de repetir $n$ veces un mismo experimento,
se tiene:
$\overline{X} = \dfrac{X_1 + X_2 + \dotsb + X_n}{n} \sim N \left( \mu, \dfrac{\sigma}{\sqrt{n}} \right)$
Esto es, si, a partir de estas variables independientes normales $X_1, \dotsc, X_n$, se define:
$Y_i = \dfrac{X_i}{n} \,, \enspace i = 1, 2, \dotsc, n$
Entonces:
$Y_i \sim N \left( \dfrac{\mu}{n}, \dfrac{\sigma}{n} \right)$
Por tanto:
$ \begin{align} \overline{X} = \sum_{i=1}^n \dfrac{X_i}{n} = \sum_{i=1}^n Y_i &\sim N \left( \sum_{i=1}^n \dfrac{\mu}{n}, \sqrt{\sum_{i=1}^n \left( \dfrac{\sigma}{n} \right)^2} \right) = \\[1ex] &= N \left( n \dfrac{\mu}{n}, \sqrt{n \dfrac{\sigma^2}{n^2}} \right) = \\[1ex] &= N \left( \mu, \dfrac{\sigma}{\sqrt{n}} \right) \end{align} $
- Aunque $X_1, X_2, \dotsc, X_n$ no tengan distribución normal, si $n$ es grande ($\geq 30$) la distribución de $\overline{X}$ se puede aproximar por la normal. (Teorema central del límite).
Ejemplo:
Se tiene un kilogramo patrón que se pesa miles de veces con, respectivamente, media y desviación típica:
$ \begin{array}{l} \mu = \pu{1 kg} + \pu{512 \mu g} \\[1ex] \sigma = \pu{50 \mu g} \end{array} $
Son $\mu$ y $\sigma$, se consideran así, porque las mediciones son miles.
Entonces, para cada pesada, se define la variable:
$X =$ resultado de pesar el patrón ${} - \pu{1 kg}$
Para la que se asume una distribución normal:
$X \sim N(\underbrace{512}_{\mu_0 \rlap{\, = \, \mu \, - \, 1}}, \overbrace{50}^\sigma)$
Se hace limpieza del patrón y, tras la misma, se pesa 100 veces obteniéndose una media de $\pu{508 \mu g}$ por encima del kilogramo. Esto es:
Experimento: $ \left. \begin{array}{l} n = 100 \\[1ex] \overline{x} = 508 \end{array} \right\} \Rightarrow $ Ahora, tras limpieza, $¿\mu_0 \neq 512?$
Para la media:
$\overline{X} \sim N \left( \mu_0, \dfrac{\sigma}{\sqrt{n}} \right)$
Por tanto, intervalo de confianza para $\mu_0$:
$\overline{X} = \mu_0 \pm 2 \dfrac{\sigma}{\sqrt{n}} \Rightarrow \mu_0 = \overline{X} \mp 2 \dfrac{\sigma}{\sqrt{n}}$ ($\sim \pu{95 \%}$ confianza)
Esto es:
$\mu_0 = 508 \pm 2 \dfrac{50}{\sqrt{100}} = \pu{508 \pm 10 \mu g}$
No puede afirmarse, con un $\pu 95 \%$ de confianza, que patrón sea más ligero.
Aplicaciones:
Si en un método analítico se sustituye la determinación individual por la media de $n$ resultados, independientes, la imprecisión se reduce en un factor $\sqrt{n}$.
Ejemplo:
Para calibrar un viscosímetro Brookfield se realizan 10 mediciones sobre un aceite patrón con valor de referencia $\pu{50 mps}$ (milipoise), obteniéndose los siguientes resultados:
Medida | Resultado |
---|---|
1 | 51,3 |
2 | 50,3 |
3 | 51,7 |
4 | 51,5 |
5 | 50,9 |
Medida | Resultado |
---|---|
6 | 50,9 |
7 | 51,8 |
8 | 50,7 |
9 | 50,9 |
10 | 51,1 |
Admitiendo que los datos tienen una distribución Gaussiana:
El error aleatorio está relacionado con la precisión. Entonces:
Valor observado
= Valor patrón +
error =
= Valor patrón +
error sistemático
+
error aleatorio
$\uparrow$
$\uparrow$
distinto de un
equipo a otro,
y que cambia en
el tiempo
fluctuaciones
alrededor de
la media
A partir de los datos experimentales, se obtiene una estimación de $\mu$ y $\sigma$. El problema en sí:
$X$: variable aleatoria con distribución $N (\mu, \sigma)$.
$\overline{X}$: media de $n$ observaciones independientes de $X$, variable aleatoria con distribución $N \left( \mu, \dfrac{\sigma}{\sqrt{n}} \right)$.
Entonces:
$ \begin{array}{c} \mu + \overbrace{1{,}96}^{\sim 2} \dfrac{\sigma}{\sqrt{n}} > \overline{x} > \mu - 1{,}96 \dfrac{\sigma}{\sqrt{n}} \rlap{\quad \pu{95 \%}} \\[1ex] \big\downarrow \rlap{\, \times \ (-1)} \\[1ex] -\mu - 1{,}96 \dfrac{\sigma}{\sqrt{n}} < -\overline{x} < -\mu + 1{,}96 \dfrac{\sigma}{\sqrt{n}} \rlap{\quad \pu{95 \%}} \\[1ex] \big\downarrow \rlap{\, + \ (\mu + \overline{x})} \\[1ex] \overline{x} - 1{,}96 \dfrac{\sigma}{\sqrt{n}} < \mu < \overline{x} + 1{,}96 \dfrac{\sigma}{\sqrt{n}} \rlap{\quad \pu{95 \%}} \end{array} $
Si se hace la aproximación $\sigma \simeq s$:
$\mu \simeq \overline{x} \pm 1{,}96 \dfrac{s}{\sqrt{n}} \quad \pu{95 \%}$
Haciendo el cálculo:
$ \begin{array}{l} \overline{x} = 51{,}11 \\[1ex] s = 0{,}47 \end{array} $
Por tanto:
$\mu \simeq 51{,}11 \pm 1{,}96 \dfrac{0{,}47}{\sqrt{10}} = 51{,}11 \pm 0{,}29$
Siendo:
$\mu =$ valor patrón $+$ error sistemático $\Downarrow$ error sistemático = $\mu$ $-$ valor patrón
Entonces:
error sistemático $= \mu - 50 \simeq 1{,}11 \pm 0{,}29 \quad \pu{95 \%}$
Por consiguiente:
$0{,}82 <$ error sistemático $< 1{,}40 \quad \pu{95 \%}$
Esto es, con los resultados obtenidos, existe un error sistemático comprendido entre $0{,}82$ y $1{,}40$ con un $\pu{95 \%}$ de confianza.
En realidad, no se ha tenido $\sigma$ sino $s$, que es una buena aproximación de $\sigma$ cuando $n$ es grande, pero, en caso de no ser así ($n < 30$), hay que corregir con un factor llamado $t$.
Distribución $t$ de Student:
Su función de densidad es:
$f(t) = \text{cte.} \times \left( 1 + \dfrac{t^2}{\nu} \right)^{-\tfrac{\nu+1}{2}}$
La cte. depende de $\nu$:
cte. $= \left\{ \begin{array}{l} \dfrac{(\nu - 1)!}{\sqrt{\nu} 2^{\nu-1} [(\nu{∕}2 - 1)!]^2}, \enspace \text{si $\nu$ par} \\[1ex] \dfrac{2^{\nu-1} [(\nu{∕}2-1{∕}2)!]^2}{\sqrt{\nu} \pi (\nu - 1)!}, \enspace \text{si $\nu$ impar} \end{array} \right. $
Siendo $\nu$ el número de grados de libertad:
$\nu = n - 1$
Donde $n$ es el tamaño de la muestra.
Cuando $\nu \to \infty$ la distribución $t$ de Student tiende a coincidir con la distribución $N(0,1)$. Se abrevia como $t(\nu)$.
Cuando $n < 30$ se usa la distribución de $t$ para hallar los intervalos de confianza, tomándose el valor de $t$ en vez de $z$. Esto es:
$\dfrac{\overline{x} - \mu}{s{∕}\!\sqrt{n}} \sim t(n-1)$
Los valores de $t$ más frecuentemente usados están tabulados, p. ej. según el área bajo la distribución de $t$ que queda a su izquierda, para los distintos grados de libertad.
Ejemplo:
Volviendo al ejemplo anterior, como hay 10 datos se tienen 9 grados de libertad, siendo:
$\boldsymbol{\nu}$ | $\boldsymbol{t_{0{,}995}}$ | $\boldsymbol{t_{0{,}99}}$ | $\boldsymbol{t_{0{,}975}}$ | $\boldsymbol{t_{0{,}95}}$ | $\boldsymbol{t_{0{,}90}}$ | $\boldsymbol{t_{0{,}80}}$ | $\boldsymbol{t_{0{,}75}}$ | $\boldsymbol{t_{0{,}70}}$ | $\boldsymbol{t_{0{,}60}}$ | $\boldsymbol{t_{0{,}55}}$ |
---|---|---|---|---|---|---|---|---|---|---|
9 | 3,25 | 2,82 | 2,26 | 1,83 | 1,38 | 0,883 | 0,703 | 0,543 | 0,261 | 0,129 |
Donde:
${\rm Prob} \mspace{1mu} (t < t_p) = p$
Siendo:
Nivel de confianza (probabilidad de ser así): $1-\alpha$ $100(1-\alpha) \ \%$ Nivel de significación (probabilidad de no ser así): $\alpha$ $100\alpha \ \%$
Como la distribución de $t$ es simétrica:
$1 - \alpha = {\rm Prob} \! \left( t_{\tfrac{\alpha}{2}} < t < t_{1-\tfrac{\alpha}{2}} \right) = {\rm Prob} \! \left( -t_{1-\tfrac{\alpha}{2}} < t < t_{1-\tfrac{\alpha}{2}} \right)$
Entonces:
$ \begin{array}{c} \hphantom{-}2{,}26 > t > -2{,}26 \rlap{\quad \pu{95 \%}} \\[1ex] \Bigg\downarrow \rlap{\, t = \dfrac{\overline{x}-\mu}{s{∕}\!\sqrt{n}}} \\[1ex] \hphantom{-}2{,}26 > \dfrac{\overline{x}-\mu}{s{∕}\!\sqrt{n}} > -2{,}26 \rlap{\quad \pu{95 \%}} \\[1ex] \big\downarrow \rlap{\, \times \ s{∕}\!\sqrt{n}} \\[1ex] \hphantom{-}2{,}26 \dfrac{s}{\sqrt{n}} > \overline{x} - \mu > -2{,}26 \dfrac{s}{\sqrt{n}} \rlap{\quad \pu{95 \%}} \\[1ex] \big\downarrow \rlap{\, - \ \overline{x}} \\[1ex] -\overline{x} + 2{,}26 \dfrac{s}{\sqrt{n}} > -\mu > -\overline{x} - 2{,}26 \dfrac{s}{\sqrt{n}} \rlap{\quad \pu{95 \%}} \\[1ex] \big\downarrow \rlap{\, \times \ (-1)} \\[1ex] \overline{x} - 2{,}26 \dfrac{s}{\sqrt{n}} < \mu < \overline{x} + 2{,}26 \dfrac{s}{\sqrt{n}} \rlap{\quad \pu{95 \%}} \end{array} $
Por tanto, para un $\pu{95 \%}$ de confianza se tiene:
$\mu = \overline{x} \pm 2{,}26 \dfrac{s}{\sqrt{n}}$
Siendo aquí, en este ejemplo, el intervalo de confianza del $\pu{95 \%}$ para la media:
$\mu = 51{,}11 \pm 2{,}26 \dfrac{0{,}47}{\sqrt{10}} = 51{,}11 \pm 0{,}34$
Como el valor patrón no cae dentro del intervalo de $\mu$, existe un error sistemático.
Ejemplo:
Determinación complexométrica de contenido de $\ce{Zn}$ de una muestra, en la que se obtienen los siguientes datos:
$\pu{9,97 \%}, \pu{10,02 \%}, \pu{10,00 \%}, \pu{10,04 \%}, \pu{9,98 \%}, \pu{10,08 \%}$
¿Contenido $> \pu{10 \%}$?
Si se admite que para los datos:
$X \sim N(\mu, \sigma)$
Por tanto:
$\overline{X} \sim N \left(\mu,\dfrac{\sigma}{\sqrt{n}} \right)$
Haciendo los cálculos:
$ \left. \begin{array}{l} \overline{x} = 10{,}015 \\[1ex] s = 0{,}041 \\[1ex] n = 6 \end{array} \right\} \overset{\displaystyle ?}{\Longrightarrow} \mu > 10 $
En lo que se conoce como test $t$, la hipótesis, en este caso $\mu > \mu_0$, no se acepta si:
$t = \dfrac{\overline{x} - \mu_0}{s{∕}\sqrt{n}} < t_{1-\alpha}(n-1)$
El valor de $t$ tabulado para $\alpha = \pu{5 \%}$ y 5 grados de libertad:
$t_{0{,}95}(5) = 2{,}02$
Aquí $\mu_0 = 10$, así que sustituyendo:
$t = \dfrac{10{,}015 - 10}{0{,}041{∕}\sqrt{6}} = 0{,}896 < 2{,}02 = t_{0{,}95}(5)$
Por tanto, el valor de $t$ no es significativo respecto al de la tabla con $\alpha = 0{,}05$. No es suficientemente grande para sacar conclusiones, i.e. para poder decir que la media ($\mu$) es superior a 10.
Otros test $t$ posibles:
• $\mu \nless \mu_0$ si $t = \dfrac{\overline{x} - \mu_0}{s{∕}\sqrt{n}} > t_{\alpha}(n-1) = -t_{1-\alpha}(n-1)$
• $\mu = \mu_0$ si $t_{\tfrac{\alpha}{2}}(n-1) < \dfrac{\overline{x}-\mu_0}{s{∕}\sqrt{n}} < t_{1 - \tfrac{\alpha}{2}}(n-1)$
Siendo la varianza (de la muestra):
$s^2 = \dfrac{(X_1 - \overline{X})^2 + \dotsb + (X_n - \overline{X})^2}{n-1}$
Si $X_1, \dotsc, X_n$ son variables aleatorias independientes de idéntica distribución con media $\mu$ y varianza $\sigma^2$, entonces $s^2$ es también una variable aleatoria con $\mu_{s^2} = \sigma^2$, como se verá, y desviación típica cero cuando $n \to \infty$, ya que $\sigma_{s^2}^2 = [\mu_{(X-\mu)^4} \mspace{2mu} {-}\mspace{1mu}$ $\sigma^4(n-3){∕}(n-1)]{∕}n$.
Resulta que:
$ \begin{align} S = \sum_{i=1}^n (X_i - \overline{X})^2 &= \sum_{i=1}^n ((X_i - \mu) - (\overline{X} - \mu))^2 = \\[1ex] &= \sum_{i=1}^n (X_i - \mu)^2 - \sum_{i=1}^n 2 (X_i - \mu)(\overline{X} - \mu) + \sum_{i=1}^n (\overline{X} - \mu)^2 = \\[1ex] &= \sum_{i=1}^n (X_i - \mu)^2 - 2(\overline{X} - \mu) \left( \sum_{i=1}^n X_i - \sum_{i=1}^n \mu \right) + n (\overline{X} - \mu)^2 = \\[1ex] &= \sum_{i=1}^n (X_i - \mu)^2 - 2(\overline{X} - \mu) (n \overline{X} - n \mu) + n(\overline{X} - \mu)^2 = \\[1ex] &= \sum_{i=1}^n (X_i - \mu)^2 - 2n(\overline{X} - \mu)^2 + n (\overline{X} - \mu)^2 = \\[1ex] &= \sum_{i=1}^n (X_i - \mu)^2 - n(\overline{X} - \mu)^2 \end{align} $
Entonces, tratando cada diferencia al cuadrado de ésta como si fuera una variable aleatoria:
$ \begin{align} \mu_S &= \sum_{i=1}^n \! \underbrace{ \mu_{(X_i - \mu)^2} }_{ \sigma_{X_i}^2 \rlap{\mspace{2mu} = \, \sigma^2} } - n \! \underbrace{ \mu_{(\overline{X} - \mu)^2} }_{ \sigma_{\overline{X}}^2 \rlap{\, = \, \sigma^2\mspace{-2mu}{∕}n} } = \\[1ex] &= \sum_{i=1}^n \sigma^2 - n \dfrac{\sigma^2}{n} = n \sigma^2 - \sigma^2 = \\[1ex] &= \sigma^2 (n-1) \end{align} $
Por consiguiente:
$\mu_{s^2} = \mu_{S{∕}(n-1)} = \dfrac{1}{n-1} \mu_S = \dfrac{1}{n-1} \sigma^2 (n-1) = \sigma^2$
Para comparar desviaciones típicas se divide:
$F = \dfrac{s_1^2}{s_2^2}$ (ó $F_{\rm ratio}$)
Este cociente es también una variable aleatoria, cuya distribución de probabilidad, siendo $\sigma_1^2 = \sigma_2^2$, es la que se conoce como distribución $F$, que depende del número de observaciones de numerador ($n_1$) y denominador ($n_2$) respectivamente.
Se trata de contrastar si la discrepancia de $F$ calculada respecto de 1, que es el valor que cabría esperar si $\sigma_1^2 = \sigma_2^2$, es demasiado grande como para atribuirse a causas aleatorias.
Para ello, se compara el valor de $F$ calculado con el valor de $F$ recogido en tablas, según el área que queda a su derecha, para los respectivos grados de libertad de numerador ($\nu_1$) y denominador ($\nu_2$).
El cálculo de $F$ se ha de realizar de tal manera que $F > 1$. Esto es, situando en el numerador la varianza (muestral) mayor de las dos obtenidas. Si $s_1^2 > s_2^2$, entonces:
$F = \dfrac{s_1^2}{s_2^2} < \underbrace{ F_{\alpha{∕}2} (\nu_1,\nu_2) }_{ \begin{subarray}{c} \text{tablas,} \\ \text{(subíndice área} \\ \text{a su derecha)} \end{subarray} } \Rightarrow {}$ No se puede decir que las precisiones de 1 y 2 son diferentes con una confianza de $100(1-\alpha) \ \%$. Se divide $\alpha$ entre los dos extremos de la distribución.
Si se intercambian numerador y denominador, el cociente pasaría a ser menor de 1, puede observarse que:
$ \begin{array}{l} {\rm Prob} \! \left( \dfrac{s_1^2}{s_2^2} > F_{\alpha{∕}2} (\nu_1, \nu_2) \right) = \dfrac{\alpha}{2} \\[1ex] {\rm Prob} \! \left( \left(\dfrac{s_1^2}{s_2^2}\right)^{\! -1} < (F_{\alpha{∕}2} (\nu_1,\nu_2))^{-1} \right) = \dfrac{\alpha}{2} \\[1ex] {\rm Prob} \! \left( \dfrac{s_2^2}{s_1^2} < \dfrac{1}{F_{\alpha{∕}2} (\nu_1,\nu_2)} \right) = \dfrac{\alpha}{2} \end{array} $
Como también:
${\rm Prob} \! \left( \dfrac{s_2^2}{s_1^2} < F_{1-\tfrac{\alpha}{2}} (\nu_2,\nu_1) \right) = \dfrac{\alpha}{2}$
Entonces:
$F_{1-\tfrac{\alpha}{2}} (\nu_2,\nu_1) = \dfrac{1}{F_{\alpha{∕}2} (\nu_1,\nu_2)}$
Además, en lo que se refiere al cociente de las varianzas halladas, también:
$\dfrac{s_1^2}{s_2^2} > F_{\alpha{∕}2} (\nu_1,\nu_2) \Leftrightarrow \dfrac{s_2^2}{s_1^2} < \dfrac{1}{F_{\alpha{∕}2} (\nu_1,\nu_2)} = F_{1-\tfrac{\alpha}{2}} (\nu_2,\nu_1)$
Por tanto con comparar una de las dos es suficiente, por convenio la primera.
Ejemplo:
Se valora una disolución de $\ce{KMnO4}$ mediante dos procedimientos distintos, usando, como patrones primarios, en uno $\ce{KI}$ y en el otro $\ce{As2O3}$, obteniéndose los siguientes valores de molaridad:
con $\ce{KI}$ | con $\ce{As2O3}$ |
---|---|
0,44109 | 0,44118 |
0,44125 | 0,44124 |
0,44107 | 0,44127 |
0,44119 | 0,44127 |
0,44112 | 0,44122 |
0,44128 |
Entonces, tomando las dos últimas cifras, que son las que cambian:
1.er método: $\overline{x}_1 = 16{,}67$ $s_1^2 = 75{,}47$ $n_1 = 6$ 2.º método: $\overline{x}_2 = 23{,}60$ $s_2^2 = 14{,}30$ $n_2 = 5$
¿$\sigma_1 \neq \sigma_2$?
$F = \dfrac{s_1^2}{s_2^2} = \dfrac{75{,}47}{14{,}30} = 5{,}28$
Tabla para $\alpha{∕}2 = 0{,}05$:
1 | 2 | 3 | 4 | 5 | 6 | |
---|---|---|---|---|---|---|
4 | 7,71 | 6,94 | 6,59 | 6,39 | 6,26 | 6,16 |
Por tanto:
$F = 5{,}28 < 6{,}26 = F_{0{,}05}(5,4)$
Concluyéndose que no se puede afirmar, con el $\pu{90 \%}$ de confianza, que las precisiones de ambos métodos son distintas.
Para comparar exactitudes se resta:
$\overline{X}_1 - \overline{X}_2$
Asumiendo distribuciones normales, y en disposición de considerar $\sigma_1 = \sigma_2 = \sigma$, algo necesario cuando las muestras son pequeñas (cuando son grandes pueden aproximarse directamente $\sigma_1$ y $\sigma_2$ con $s_1$ y $s_2$ respectivamente), entonces:
$ \begin{array}{l} X_1 \sim N(\mu,\sigma) \enspace \Rightarrow \enspace \overline{X}_1 \sim N \left( \mu,\dfrac{\sigma}{\sqrt{n_1}} \right) \\[1ex] X_2 \sim N(\mu,\sigma) \enspace \Rightarrow \enspace \overline{X}_2 \sim N \left( \mu,\dfrac{\sigma}{\sqrt{n_2}} \right) \end{array} $
De manera análoga a como se demostró para la suma:
$ \overline{X}_1 - \overline{X}_2 \sim N \Biggl( \mu_1 - \mu_2, \underbrace{ \sqrt{\dfrac{\sigma^2}{n_1} + \dfrac{\sigma^2}{n_2}} }_{ \sigma \sqrt{\tfrac{1}{n_1} + \tfrac{1}{n_2}} } \Biggr) $
Que puede transformarse a una distribución normal reducida:
$ \dfrac{ \overline{X}_1 - \overline{X}_2 - (\mu_1 - \mu_2) }{ \sigma \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}} } \sim N(0,1) \enspace \Rightarrow \enspace \underset{ \displaystyle \text{(test $t$)} }{ \dfrac{ \overline{X}_1 - \overline{X}_2 - (\mu_1 - \mu_2) }{ s \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}} } \sim t ( \underbrace{ n_1 + n_2 - 2 }_{ \begin{subarray}{c} \text{grados} \\ \text{de libertad} \end{subarray} } ) } $
Donde $s^2$, con la que se estima $\sigma^2$, es la media ponderada de $s_1^2$ y $s_2^2$:
$s^2 = \dfrac{n_1 - 1}{n_1 + n_2 - 2} s_1^2 + \dfrac{n_2 - 1}{n_1 + n_2 - 2} s_2^2$
Ejemplo:
Continuando con el ejemplo anterior, como se vio no se tiene evidencia de que sean distintas las desviaciones típicas, por lo que se puede tomar, lo que facilita las cosas, un mismo valor para ambas.
¿$\mu_1 \neq \mu_2$?
$s^2 = \dfrac{5}{9} 75{,}47 + \dfrac{4}{9} 14{,}30 = 48{,}28 \Rightarrow s = 6{,}95$
Si $\mu_1 - \mu_2 = 0$, no hay diferencia, que es lo que se quiere comprobar:
$ t = \dfrac{ |\overline{x}_1 - \overline{x}_2| }{ s \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}} } = \dfrac{23{,}60 - 16{,}67}{6{,}95 \sqrt{\dfrac{1}{6} + \dfrac{1}{5}}} = 1{,}65 < 2{,}26 = t_{0{,}975}(9) $
Consultando la tabla de la distribución $t$, no se puede afirmar, con un $\pu{95 \%}$ de confianza, que sean distintas medias.
Así pues, ni se puede decir que ambos métodos tengan precisión distinta, ni que los valores de molaridad obtenidos, comparten media, para la disolución de $\ce{KMnO4}$ sean significativamente distintos.
Ejemplo:
Se calibra a 20 grados un termómetro, especificándose que el sesgo (error medio) debe ser inferior a medio grado. La calibración se lleva a cabo sumergiendo en un baño termostático el termométro a calibrar y otro patrón. Se mide la temperatura 5 veces, esperando cinco minutos entre lecturas. Los resultados que se obtienen:
Termómetro | Lectura 1 | Lectura 2 | Lectura 3 | Lectura 4 | Lectura 5 |
---|---|---|---|---|---|
Patrón | 19,9 | 20,0 | 19,8 | 19,9 | 19,9 |
Calibrado | 20,5 | 20,2 | 20,3 | 20,2 | 20,3 |
No se pueden considerar que las mediciones realizadas en ambos termómetros para cada lectura sean independientes, se hacen a la vez bajo las mismas condiciones, pero sí entre las diferentes lecturas, a intervalos de cinco minutos, en condiciones independientes. Por tanto, es como si se tuvieran 5 experimentos independientes.
Se va a considerar, pues, una variable $D = T_{\rm C} - T_{\rm P}$, diferencia entre ambos termómetros, teniéndose 5 observaciones independientes.
Datos:
0,6 0,2 0,5 0,3 0,4
Cálculos:
$ \begin{array}{l} \overline{D} = 0{,}40 \\[1ex] s_D = 0{,}16 \\[1ex] n = 5 \end{array} $
Si la diferencia media, error medio, es inferior a medio grado se puede dar la conformidad al termómetro. Esto es:
$|\mu_D| > 0{,}5$ No conforme. $|\mu_D| < 0{,}5$ Conforme.
El intervalo de confianza:
$\mu_D = \overline{D} \pm t_{1-\tfrac{\alpha}{2}} \dfrac{s_D}{\sqrt{n}} \quad (1-\alpha)100 \ \%$
Siendo:
$\boldsymbol{\nu}$ | $\boldsymbol{t_{0{,}995}}$ | $\boldsymbol{t_{0{,}99}}$ | $\boldsymbol{t_{0{,}975}}$ | $\boldsymbol{t_{0{,}95}}$ | $\boldsymbol{t_{0{,}90}}$ | $\boldsymbol{t_{0{,}80}}$ | $\boldsymbol{t_{0{,}75}}$ | $\boldsymbol{t_{0{,}70}}$ | $\boldsymbol{t_{0{,}60}}$ | $\boldsymbol{t_{0{,}55}}$ |
---|---|---|---|---|---|---|---|---|---|---|
4 | 4,60 | 3,75 | 2,78 | 2,13 | 1,53 | 0,941 | 0,741 | 0,569 | 0,271 | 0,134 |
Entonces:
$\mu_D = 0{,}40 \pm 2{,}78 \dfrac{0{,}16}{\sqrt{5}} = 0{,}40 \pm 0{,}20 \quad \pu{95 \%}$
Intervalo que contiene el 0,5.
Así pues, con un $\pu{95 \%}$ de confianza, no se puede dar conformidad, i.e. $|\mu_D| < 0{,}5$, ni tampoco no conformidad, i.e. $|\mu_D| > 0{,}5$, al termómetro.
Ejemplo:
Se mide el contenido de plastificante de las muestras de un material antes y después de ser sometidas a calentamiento dentro de una estufa. Siendo entonces:
$X_1 =$ contenido de plastificante antes de calentar, $N(\mu_1,\sigma_1)$.
$X_2 =$ contenido de plastificante después de calentar, $N(\mu_2,\sigma_2)$.
Los resultados obtenidos en la medición, para cinco muestras que no han pasado por la estufa y otras cinco que sí lo han hecho, son:
Antes | Después |
---|---|
17,5 | 17,2 |
17,8 | 17,0 |
17,4 | 17,4 |
17,5 | 17,0 |
17,7 | 17,3 |
Se proponen dos planteamientos:
a) Tal como expone el enunciado, las muestras de antes y después son distintas.
b) Suponer que las muestras de antes y las utilizadas después son las mismas (en el mismo orden).
Esto es:
a) 10 observaciones (5 de $X_1$ y 5 de $X_2$) independientes.
b) 5 pares independientes (las dos observaciones de un mismo par no son independientes, lo que sale antes modifica las expectativas de después).
Los procedimientos serán:
a) $ \left. \begin{array}{l} \text{1.º Test $F$} \\ \text{2.º Test $t$} \end{array} \, \right\} $, se trabaja con los 10 datos.
b) Test $t\,,$ sólo con las diferencias.
Así pues, ya poniéndose en ello:
a) ¿Puede deducirse que $\mu_1 \neq \mu_2$?
Datos, tras introducir los resultados en la calculadora:
$ \begin{array}{ll} \overline{x}_1 = 17{,}58 &\quad \overline{x}_2 = 17{,}18 \\[1ex] s_1^2 = 0{,}027 &\quad s_2^2 = 0{,}032 \\[1ex] n_1 = 5 &\quad n_2 = 5 \end{array} $
1.er paso. Test $F$, la varianza más grande dividida por la más pequeña:
$F = \dfrac{s_2^2}{s_1^2} = \dfrac{0{,}032}{0{,}027} = 1{,}185$
Ahora hay que compararlo con el valor de la tabla:
$F_{0{,}05}(4,4) = 6{,}39$
Por tanto, valor calculado de $F$ no significativo. Se puede suponer $\sigma_1 = \sigma_2$.
2.º paso. Test $t$.
Porque $X_1$ y $X_2$ son independientes con misma varianza $\sigma^2$, ésta se estima mediante la media ponderada, $s^2$, de $s_1^2$ y $s_2^2$:
$ \begin{align} s^2 &= \dfrac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{(n_1-1) + (n_2-1)} = \dfrac{4s_1^2 + 4s_2^2}{8} = \dfrac{s_1^2 + s_2^2}{2} = \\[1ex] &= \dfrac{0{,}027 + 0{,}032}{2} = 0{,}0295 \end{align} $
Así que:
$s = \sqrt{0{,}0295} = 0,172$
Si $\mu_1 - \mu_2 = 0$, entonces:
$ t = \dfrac{ \overline{x}_1 - \overline{x}_2 }{ s \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}} } = \dfrac{17{,}58 - 17{,}18}{0{,}172 \sqrt{\dfrac{2}{5}}} = 3{,}677 $
Se compara con:
$ t_{ \underset{ \begin{subarray}{c} \uparrow \\[.25ex] \llap{1 \,} - \rlap{\, \tfrac{\alpha}{2}} \end{subarray} }{0{,}975} } \overset{ \begin{subarray}{c} \llap{n_1 \, + \,} n_2 \rlap{\, - \, 2} \\[.25ex] \downarrow \end{subarray} }{\strut (8)} = 2{,}31 $
Por tanto, el valor de la $t$ calculada es significativo (es mayor que el recogido en la tabla). Esto es, la diferencia entre las dos medias, $\mu_1$ y $\mu_2$, es significativa.
b) Se considera una variable:
$d = {}$ diferencia, i.e. contenido antes $-$ contenido después (sobre la misma muestra).
Se considera que:
$d \sim N(\mu_d, \sigma_d)$
¿Puede deducirse que $\mu_d \neq 0$?
Datos de $d$:
0,3 0,8 0,0 0,5 0,4
$\overline{d} = 0{,}4 \quad s_d = 0{,}292 \quad n = 5$
Test $t$:
$ t = \dfrac{ \overset{ \llap{\text{lo que }} \rlap{\text{se quiere comparar}} }{ \overset{\downarrow}{\overline{d}} - \overset{\downarrow}{0 \vphantom{\overline{d}}} } }{s_d {∕} \sqrt{n}} = \dfrac{0{,}4}{0{,}292{∕}\sqrt{5}} = 3{,}063 $
Siendo (se consulta una tabla de $t$, con $\alpha = 0{,}05$ y 4 grados de libertad):
$t_{0{,}975}(4) = 2{,}78$
Por tanto, el valor de $t$ calculado es signficativo, es mayor que el recogido en la tabla, y sí puede deducirse que $\mu_d \neq 0$, siendo el contenido de plastificante distinto.
Regresión lineal:
Si se disponen de las siguientes parejas de datos:
$ \begin{array}{cc} \boldsymbol{x} & \boldsymbol{y} \\[1ex] \hline x_1 & y_1 \\[1ex] x_2 & y_2 \\[1ex] x_3 & y_3 \\[1ex] \vdots & \vdots \\[1ex] x_n & y_n \end{array} $
Siendo:
$x =$ variable control, $y =$ respuesta.
Se asume como modelo:
$y = a + bx + e$
Donde $e =$ error aleatorio, tal que:
$e \sim N(0,\sigma)$
Entonces:
- Valores estimados de $a$, $b$ y $\sigma$, mediante las fórmulas:
Pendiente (slope):
$\hat{b} = \dfrac{S_{xy}}{S_{xx}}$
Término constante (intercept):
$\hat{a} = \overline{y} - \hat{b} \overline{x}$
El "sombrerito" $\hat{\phantom{a}}$ indica que son estimaciones. La notación es:
$ \begin{array}{c} \overline{x} = \dfrac{x_1 + \dotsb + x_n}{n} \\[1ex] \overline{y} = \dfrac{y_1 + \dotsb + y_n}{n} \\[1ex] S_{xx} = (x_1 - \overline{x})^2 + \dotsb + (x_n - \overline{x})^2 = \sum x_i^2 - \dfrac{(\sum x_i)^2}{n} \\[1ex] S_{xy} = (x_1 - \overline{x})(y_1 - \overline{y}) + \dotsb + (x_n - \overline{x})(y_n - \overline{y}) = \sum x_i y_i - \dfrac{(\sum x_i) (\sum y_i)}{n} \end{array} $
Varianza residual:
$s^2 = \dfrac{(y_1 - \hat{a} - \hat{b}x_1)^2 + \dotsb + (y_n - \hat{a} - \hat{b}x_n)^2}{n-2},$ ($n-2$ grados de libertad).
Podría simbolizarse alternativamente como $\hat{\sigma}{}^2$. Su cálculo es también:
$ \begin{align} s^2 &= \dfrac{ (y_1 - (\overline{y} - \hat{b}\overline{x}) - \hat{b}x_1)^2 + \dotsb + (y_n - (\overline{y} - \hat{b}\overline{x}) - \hat{b}x_n)^2 }{n-2} = \\[1ex] &= \dfrac{ ((y_1 - \overline{y}) - \hat{b}(x_1 - \overline{x}))^2 + \dotsb + ((y_n - \overline{y}) - \hat{b}(x_n - \overline{x}))^2 }{n-2} = \\[1ex] &= \dfrac{ \overbrace{ (y_1 - \overline{y})^2 + \dotsb + (y_n - \overline{y})^2 }^{S_{yy}} }{n-2} - {} \\[1ex] &\hphantom{= {}} - 2 \hat{b} \dfrac{ \overbrace{ (x_1-\overline{x})(y_1 - \overline{y}) + \dotsb + (x_n - \overline{x})(y_n - \overline{y}) }^{S_{xy}} }{n-2} + {} \\[1ex] &\hphantom{={}} + \hat{b}{}^2 \dfrac{ \overbrace{ (x_1 - \overline{x})^2 + \dotsb + (x_n - \overline{x})^2 }^{S_{xx}} }{n - 2} = \\[1ex] &= \dfrac{S_{yy} - 2\hat{b}S_{xy} + \hat{b}{}^2 S_{xx}}{n-2} \underset{ \begin{subarray}{c} \uparrow \\ \llap{\hat{b} \,} = \rlap{\tfrac{S_{xy}}{S_{xx}}} \end{subarray} }{=} \dfrac{S_{yy}-2S_{xy}^2{∕}S_{xx} + S_{xy}^2{∕}S_{xx}}{n-2} = \\[1ex] &= \dfrac{S_{yy} - S_{xy}^2{∕}S_{xx}}{n-2} \hphantom{=} \left( = \dfrac{S_{yy} - \hat{b} S_{xy}}{n-2} = \dfrac{S_{yy} - \hat{b}{}^2 S_{xx}}{n-2} \right) \end{align} $
- Intervalos de confianza para los coeficientes $a$ y $b$, usando la
distribución $t$ de Student, con las fórmulas:
Varianza del término constante:
$s_{\hat{a}}^2 = s^2 \left( \dfrac{1}{n} + \dfrac{\overline{x}^2}{S_{xx}} \right)$
Varianza de la pendiente:
$s_{\hat{b}}^2 = \dfrac{s^2}{S_{xx}}$
- Estimación del error del método:
Varianza de la predicción de $x$, i.e. $\hat{x}$, a partir de $y$:
- una lectura:
$s_{\hat{x}}^2 = \dfrac{s^2}{\hat{b}{}^2} \left( 1 + \dfrac{1}{n} + \dfrac{(y-\overline{y})^2}{\hat{b}{}^2 S_{xx}} \right)$
Alternativamente:
$ \begin{align} s_{\hat{x}}^2 &= \dfrac{s^2}{\hat{b}{}^2} \left( 1 + \dfrac{1}{n} + \dfrac{(y-\overline{y})^2}{\hat{b}{}^2 S_{xx}} \right) \underset{ \begin{subarray}{c} \uparrow \\ \llap{\overline{y} \,} = \rlap{\, \hat{a} \, + \, \hat{b} \overline{x}} \end{subarray} }{=} \\[1ex] &= \dfrac{s^2}{\hat{b}{}^2} \left( 1 + \dfrac{1}{n} + \dfrac{ (y - \hat{a} - \hat{b} \overline{x})^2 }{\hat{b}{}^2 S_{xx}} \right) = \\[1ex] &= \dfrac{s^2}{\hat{b}{}^2} \Biggl( 1 + \dfrac{1}{n} + \dfrac{1}{S_{xx}} \biggl( \dfrac{y - \hat{a} - \hat{b} \overline{x}}{\hat{b}} \biggr)^{\! 2} \Biggr) = \\[1ex] &= \dfrac{s^2}{\hat{b}{}^2} \Biggl( 1 + \dfrac{1}{n} + \dfrac{1}{S_{xx}} \biggl( \underbrace{\dfrac{y-\hat{a}}{\hat{b}}}_{\hat{x}} - \overline{x} \biggr)^{\! 2} \Biggr) = \\[1ex] &= \dfrac{s^2}{\hat{b}{}^2} \left( 1 + \dfrac{1}{n} + \dfrac{(\hat{x} - \overline{x})^2}{S_{xx}} \right) \end{align} $
- $m$ lecturas, i.e. una por cada una de $m$ preparaciones:
$s_{\hat{x}}^2 = \dfrac{s^2}{\hat{b}{}^2} \left( \dfrac{1}{m} + \dfrac{1}{n} + \dfrac{(y-\overline{y})^2}{\hat{b}{}^2S_{xx}} \right)$
Donde aquí $y$ es la media de las $m$ lecturas.
Alternativamente:
$s_{\hat{x}}^2 = \dfrac{s^2}{\hat{b}{}^2} \left( \dfrac{1}{m} + \dfrac{1}{n} + \dfrac{(\hat{x}-\overline{x})^2}{S_{xx}} \right)$
- una lectura:
Ejemplo:
Para la determinación espetrofotométrica de glucosa en sangre, se preparan muestras de suero con distintas concentraciones conocidas de glucosa, obteniéndose la siguiente tabla de absorbancias:
Concentración (mg/dl) |
Absorbancia |
---|---|
0 | 0,050 |
50 | 0,189 |
100 | 0,326 |
150 | 0,467 |
200 | 0,605 |
400 | 1,156 |
600 | 1,704 |
Para hacer la calibración, a partir de unas concentraciones conocidas (disoluciones o muestras patrón) se obtendrá una recta (de calibración), según el método de los mínimos cuadrados. Introduciendo los datos de la tabla en la calculadora científica:
Constante: 0,05163 (0,051626631) Pendiente: 0,00276 (0,002757075) Correlación: 0,999996
Para una misma concentración, debido al error aleatorio, cada repitición de la medición tendría respuestas distintas. Esto es, si se repitiera de nuevo el experimento de calibración entero podrían tenerse rectas diferentes. Por lo que hay que tener en cuenta las imprecisiones, discrepancias, que se pueden tener entre estas diversas rectas, a la hora de hallar una concentración desconocida. Si esto fuera demasiado grande, sería un método de experimentación no válido.
Entonces, la ecuación es:
$y_i = a + b x_i + e_i \qquad i = 1, 2, \dotsc, n$
Donde $a$ y $b$ son constantes (desconocidas), y $e_i$ representa el error aleatorio. Se considera:
$e_i \sim N(0,\sigma)\,,$ independientes.
Como la media del error es cero, la media de las lecturas cae sobre la recta. La desviación típica es la misma, $\sigma$, para todas las concentraciones (aproximación). Esto es, se asume que los errores entre lecturas son independientes y con idéntica distribución $N(0,\sigma)$.
Los residuos son los errores de ajuste a la recta de regresión (que es una estimación):
Residuo $= y_i - \hat{a} - \hat{b} x_i$
En formato tabla:
Concentración (mg/dl) |
Absorbancia | Residuo |
---|---|---|
0 | 0,050 | -0,00163 |
50 | 0,189 | -0,00048 |
100 | 0,326 | -0,00133 |
150 | 0,467 | 0,00181 |
200 | 0,605 | 0,00196 |
400 | 1,156 | 0,00154 |
600 | 1,704 | -0,00187 |
Según el método de los mínimos cuadrados, por el que se obtienen las fórmulas para calcular $\hat{a}$ y $\hat{b}$ escritas más arriba, los residuos han de sumar todos cero, siendo la suma de sus cuadrados la mínima.
La estimación de $\sigma$ se obtiene a partir de (varianza residual):
$ \begin{align} s^2 &= \dfrac{\sum\limits_{i=1}^n (y_i - \hat{a} - \hat{b} x_i)^2}{n-2} = \\[1ex] &= \dfrac{ (-0{,}00163)^2 + (-0{,}00048)^2 + (-0{,}00133)^2 + (0{,}00181)^2 }{5} + {} \\[1ex] &\hphantom{= {}} + \dfrac{(0{,}00196)^2 + (0{,}00154)^2 + (-0{,}00187)^2}{5} = \pu{3,53e-6} \end{align} $
Para poder calcular la varianza de los estimadores de $a$ y $b$ se necesita conocer el valor de $S_{xx}$. Para ello, es otra manera de hacerlo, puede usarse el valor de la desviación típica para los datos de $x$ que da la calculadora (p. ej. en el modelo CASIO fx-3900Pv la tecla $x\sigma_{n-1}$). Esto es:
$ \begin{array}{c} s_x = \left( \dfrac{S_{xx}}{n-1} \right)^{1/2} \\[1ex] S_{xx} = s_x^2 (n-1) = (213{,}5304)^2 (6) = 273571 \end{array} $
También hará falta el valor de $\overline{x}$, que lo da directamente la propia calculadora:
$\overline{x} = 214{,}2857$
La varianza de los estimadores de $a$ y $b$:
$ \begin{array}{l} s_{\hat{a}}^2 = \dfrac{s^2}{n} \left( 1 + \dfrac{n \overline{x}^2}{S_{xx}} \right) = \dfrac{\pu{3,53e-6}}{7} \left( 1 + \dfrac{7 (214{,}2857)^2}{273571} \right) = \pu{1,10e-6} \\[1ex] s_{\hat{b}}^2 = \dfrac{s^2}{S_{xx}} = \dfrac{\pu{3,53e-6}}{273571} = \pu{1,29e-11} \end{array} $
Entonces lo más correcto es dar los valores experimentales de $a$ y $b$, su estimación, más un intervalo de confianza. Esto se hace con la distribución $t$ de Student. Esto es:
$ \begin{array}{c} \hphantom{-}t_{1-\tfrac{\alpha}{2}}(n-2) > \dfrac{\hat{a} - a}{s_{\hat{a}}} > -t_{1-\tfrac{\alpha}{2}}(n-2) \\[1ex] \Downarrow \\[1ex] \hat{a} - t_{1-\tfrac{\alpha}{2}}(n-2) s_{\hat{a}} < a < \hat{a} + t_{1-\tfrac{\alpha}{2}}(n-2) s_{\hat{a}} \end{array} $
Donde $(n-2)$ son el número de grados de libertad de la suma de los cuadrados de los residuos en el cálculo de la varianza residual.
Para cinco grados de libertad:
$\boldsymbol{\nu}$ | $\boldsymbol{t_{0{,}995}}$ | $\boldsymbol{t_{0{,}99}}$ | $\boldsymbol{t_{0{,}975}}$ | $\boldsymbol{t_{0{,}95}}$ | $\boldsymbol{t_{0{,}90}}$ | $\boldsymbol{t_{0{,}80}}$ | $\boldsymbol{t_{0{,}75}}$ | $\boldsymbol{t_{0{,}70}}$ | $\boldsymbol{t_{0{,}60}}$ | $\boldsymbol{t_{0{,}55}}$ |
---|---|---|---|---|---|---|---|---|---|---|
5 | 4,03 | 3,36 | 2,57 | 2,02 | 1,48 | 0,920 | 0,727 | 0,559 | 0,267 | 0,132 |
Entonces, para un nivel de confianza del $\pu{95 \%}$:
$ \begin{array}{c} 0{,}05163 - 2{,}57 (\pu{1,10e-6})^{1/2} < a < 0{,}05163 + 2{,}57 (\pu{1,10e-6})^{1/2} \\[1ex] 0{,}05163 - 0{,}00270 < a < 0{,}05163 + 0{,}00270 \end{array} $
Se escribe:
$a = 0{,}05163 \pm 0{,}00270$
Intervalo que no contiene el cero, por lo cual se puede decir que $a$ es distinto de cero. Esto se suele resumir diciendo que $a$ es significativo (en caso contrario se diría que no es signficativo).
Análogamente:
$b = 0{,}00276 \pm 2{,}57 (\pu{1,29e-11})^{1/2} = 0{,}00276 \pm \pu{9,23e-6}$
Teniendo ya hecha la calibración:
$y = \hat{a} + \hat{b}x$
Entonces, de la lectura de absorbancia de una disolución de concentración desconocida:
$ \overset{ \begin{subarray}{c} \llap{\text{absor}}\text{b}\rlap{\text{ancia}} \\ \downarrow \end{subarray} }{\mathstrut y} \longrightarrow \underset{ \begin{subarray}{c} \uparrow \\ \llap{\text{concen}}\rlap{\text{tración}} \end{subarray} }{\hat{x}} = \dfrac{y-\hat{a}}{\hat{b}} $
Esto se conoce como regresión inversa (o predicción inversa). Por ejemplo:
Absorbancia $= 0{,}147 \ \Rightarrow \ $ Concentración $= \dfrac{0{,}147 - 0{,}05163}{0{,}00276} = 34{,}55$
Este valor es una estimación, con una cierta incertidumbre. Por ello, aunque siendo aproximada, se usa la siguiente fórmula:
$ \begin{align} s_{\hat{x}}^2 &= \dfrac{s^2}{\hat{b}{}^2} \left( 1 + \dfrac{1}{n} + \dfrac{(\hat{x}-\overline{x})^2}{S_{xx}} \right) = \\[1ex] &= \dfrac{\pu{3,53e-6}}{(0{,}00276)^2} \left( 1 + \dfrac{1}{7} + \dfrac{(34{,}55 - 214{,}2857)^2}{273571} \right) = \\[1ex] &= 0{,}584 \end{align} $
Entonces:
$\hat{x} \pm 2{,}57 s_{\hat{x}} = 34{,}55 \pm 2{,}57 (0{,}584)^{1/2} = \pu{34,55 \pm 1,96 mg/dl}$
Siendo éste un intervalo de confianza aproximado.
Se define el coeficiente de varianza, o coeficiente de variación, ($CV$) como la desviación típica expresada en % del valor medido. Esto es:
$CV = \dfrac{s_{\hat{x}}}{\hat{x}} 100$
Por consiguiente:
$CV = \dfrac{\sqrt{0{,}584}}{34{,}55} 100 = \pu{2,21 \%}$
Ejemplo:
Se lleva a cabo un experimento de calibración de un método HPLC de análisis de benzodiazepinas. Se obtiene la recta de calibración para el diazepam inyectando 5 disoluciones, que van desde 8 a $\pu{12 mg/ml}$, repitiendo el análisis de cada una 3 veces. Los resultados se presentan en la siguiente tabla:
Concentración | Áreas | ||
---|---|---|---|
12 | 90101 | 89975 | 90213 |
11 | 82606 | 82351 | 82518 |
10 | 75074 | 74870 | 75201 |
9 | 67199 | 67221 | 67305 |
8 | 60793 | 60541 | 60237 |
Se introducen las 15 parejas de datos en la calculadora, obteniéndose $\hat{a}$, $\hat{b}$ y la correlación:
$ \begin{array}{l} \hat{a} = 685 \\[1ex] \hat{b} = 7439{,}53(3333) \\[1ex] r = 0{,}9997 \end{array} $
Para hallar los límites de confianza de $a$ se necesita la varianza residual:
$s^2 = \dfrac{S_{yy} - \hat{b}{}^2 S_{xx}}{n-2}$
La calculadora CASIO fx-3900Pv da los valores de las desviaciones típicas de $x$ e $y$, respectivamente teclas $x\sigma_{n-1}$ e $y\sigma_{n-1}$, siendo entonces:
$ \begin{array}{l} S_{xx} = s_x^2 (n-1) = (1{,}463850109)^2 (14) = 30 \\[1ex] S_{yy} = s_y^2 (n-1) = (10894{,}06817)^2 (14) = 1661530098 \end{array} $
Entonces:
$s^2 = \dfrac{1661530098 - (7439{,}533333)^2 (30)}{13}=86954{,}74615$
También hace falta:
$\overline{x} = 10$
Así pues:
$s_{\hat{a}}^2 = s^2 \left( \dfrac{1}{n} + \dfrac{\overline{x}^2}{S_{xx}} \right) = 86954{,}74615 \left( \dfrac{1}{15} + \dfrac{(10)^2}{30} \right) = 295646{,}1369$
Siendo para 13 grados de libertad:
$\boldsymbol{\nu}$ | $\boldsymbol{t_{0{,}995}}$ | $\boldsymbol{t_{0{,}99}}$ | $\boldsymbol{t_{0{,}975}}$ | $\boldsymbol{t_{0{,}95}}$ | $\boldsymbol{t_{0{,}90}}$ | $\boldsymbol{t_{0{,}80}}$ | $\boldsymbol{t_{0{,}75}}$ | $\boldsymbol{t_{0{,}70}}$ | $\boldsymbol{t_{0{,}60}}$ | $\boldsymbol{t_{0{,}55}}$ |
---|---|---|---|---|---|---|---|---|---|---|
13 | 3,01 | 2,65 | 2,16 | 1,77 | 1,35 | 0,870 | 0,694 | 0,538 | 0,259 | 0,128 |
Por tanto:
$a = \hat{a} \pm t_{0{,}975}(13) s_{\hat{a}} = 685 \pm 2{,}16 (295646{,}1369)^{1/2} = 685 \pm 1174,5$
No se puede decir que sea, con un $\pu{95 \%}$ de confianza, distinto de cero. Por consiguiente, el término constante no es significativo.
Es pues razonable plantear como modelo una recta que pase por el origen. Esto es:
$y = bx$
Siendo, en este caso, la estimación de $b$ por el método de mínimos cuadrados:
$\hat{b} = \dfrac{\sum x_i y_i}{\sum x_i^2}$
Valores de numerador y denominador los da la calculadora directamente, por lo que sustituyendo:
$\hat{b} = \dfrac{11485236}{1530} = 7506{,}69(0196)$
Aquí la fórmula de la varianza residual:
$s^2 = \dfrac{(y_1 - \hat{b}x_1)^2 + \dotsb + (y_n - \hat{b}x_n)^2}{n-1},$ ($n-1$ grados de libertad).
Para su cálculo también:
$ \begin{align} s^2 &= \dfrac{(y_1 - \hat{b}x_1)^2 + \dotsb + (y_n - \hat{b}x_n)^2}{n-1} = \\[1ex] &= \dfrac{ \overbrace{(y_1^2 + \dotsb + y_n^2)}^{\sum y_i^2} - 2\hat{b} \overbrace{(x_1 y_1 + \dotsb + x_n y_n)}^{\sum x_i y_i} + \hat{b}{}^2 \overbrace{(x_1^2 + \dotsb + x_n^2)}^{\sum x_i^2} }{n-1} = \\[1ex] &= \! \dfrac{ \sum y_i^2 - 2 \hat{b} \sum x_i y_i + \hat{b}{}^2 \sum x_i^2 }{n-1} \underset{ \begin{subarray}{c} \uparrow \\ \llap{\hat{b} \,} = \rlap{\, \tfrac{\sum x_i y_i}{\sum x_i^2}} \end{subarray} }{=} \dfrac{ \sum y_i^2 - 2 ( \sum x_i y_i)^2 {∕} \sum x_i^2 + ( \sum x_i y_i)^2 {∕} \sum x_i^2 }{n-1} \! = \\[1ex] &= \dfrac{\sum y_i^2 - (\sum x_i y_i)^2 {∕} \sum x_i^2}{n-1} \hphantom{=} \left( = \dfrac{\sum y_i^2 - \hat{b} \sum x_i y_i}{n-1} = \dfrac{\sum y_i^2 - \hat{b}{}^2 \sum x_i^2}{n-1} \right) \end{align} $
Usando la calculadora:
$s^2 = \dfrac{8{,}62173769 \cdot 10^{10} - (11485236)^2{∕}1530}{14} = 90601{,}64286$
Para calcular la varianza de la predicción de $x$, i.e. $\hat{x}$, a partir de una $y$ dada, cuando la recta se hace pasar por el origen, se utiliza:
$s_{\hat{x}}^2 = \dfrac{s^2}{\hat{b}{}^2} \left( 1 + \dfrac{(y{∕}\hat{b})^2}{\sum x_i^2} \right) = \dfrac{s^2}{\hat{b}{}^2} \left( 1 + \dfrac{\hat{x}{}^2}{\sum x_i^2} \right)$
En este ejemplo, para la predicción de una concentración cercana a $\pu{10 mg/ml}$ su varianza es aproximadamente:
$s_{\pu{10 mg/ml}}^2 = \dfrac{90601{,}64286}{(7506{,}690196)^2} \left( 1 + \dfrac{10^2}{1530} \right) = 1{,}7129 \cdot 10^{-3}$
Por consiguiente, el coeficiente de variación:
$CV = \dfrac{s_{\pu{10 mg/ml}}}{\pu{10 mg/ml}} 100 = \pu{0,414 \%}$
También puede establecerse un intervalo de confianza. Para establecer sus límites hace falta:
$\boldsymbol{\nu}$ | $\boldsymbol{t_{0{,}995}}$ | $\boldsymbol{t_{0{,}99}}$ | $\boldsymbol{t_{0{,}975}}$ | $\boldsymbol{t_{0{,}95}}$ | $\boldsymbol{t_{0{,}90}}$ | $\boldsymbol{t_{0{,}80}}$ | $\boldsymbol{t_{0{,}75}}$ | $\boldsymbol{t_{0{,}70}}$ | $\boldsymbol{t_{0{,}60}}$ | $\boldsymbol{t_{0{,}55}}$ |
---|---|---|---|---|---|---|---|---|---|---|
14 | 2,98 | 2,62 | 2,14 | 1,76 | 1,34 | 0,868 | 0,692 | 0,537 | 0,258 | 0,128 |
Entonces, con un $\pu{95 \%}$ de confianza:
$10 \pm t_{0{,}975}(14) s_{\pu{10 mg/ml}} = 10 \pm 2{,}14 (1{,}7129 \cdot 10^{-3})^{1/2} = \pu{10 \pm 0,0886 mg/ml}$
En comparación, para el modelo con término constante:
$ \begin{array}{l} \begin{align} s_{\hat{x}}^2 &= \dfrac{s^2}{\hat{b}{}^2} \left( 1 + \dfrac{1}{n} + \dfrac{(\hat{x} - \overline{x})^2}{S_{xx}} \right) \underset{ \begin{subarray}{c} \uparrow \\ \llap{\hat{x} \,} = \rlap{\, \pu{10 mg/ml}} \end{subarray} }{=} \\[1ex] &= \dfrac{86954{,}74615}{(7439{,}533333)^2} \left( 1 + \dfrac{1}{15} + \dfrac{(10 - 10)^2}{30} \right) = \\[1ex] &= 1{,}6758 \cdot 10^{-3} \end{align} \\[1em] CV = (1{,}6758 \cdot 10^{-3})^{1/2} (10) = \pu{0,409 \%} \\[1em] x = 10 \pm 2{,}16 (1{,}6758 \cdot 10^{-3})^{1/2} = \pu{10 \pm 0,0884 mg/ml} \end{array} $
Ejemplo:
En la calibración de un método HPLC para mediciones de ácido naftiónico se usan tres concentraciones distintas, obteniéndose:
Concentración ($x$) | Área ($y$) |
---|---|
0,10 | 14,175 |
0,15 | 21,368 |
0,25 | 35,186 |
Ácido naftiónico.
Con la calculadora, recta de calibración:
$ \begin{array}{l} \hat{a} = 0{,}275857(148) \\[1ex] \hat{b} = 139{,}803 \ (139{,}8028572) \end{array} $
La adecuación de la recta se observa con la correlación, cuanto más cercano a 1 sea su valor mejor:
$r = 0{,}999949$
Puede sustituirse el modelo $y = a + bx$ por uno más sencillo como $y = bx$. En principio, aquí, $\hat{a}$ es un valor muy pequeño para las áreas que se tienen en la tabla.
Incorporando el cálculo de los residuos a la tabla:
Concentración ($x$) | Área ($y$) | Residuos |
---|---|---|
0,10 | 14,175 | -0,081143 |
0,15 | 21,368 | 0,121714 |
0,25 | 35,186 | -0,040571 |
La varianza residual (un único grado de libertad):
$s^2 = (-0{,}081143)^2 + (0{,}121714)^2 + (-0{,}040571)^2 = 0{,}023044$
Con la que puede calcularse la varianza del término constante, cuya fórmula es:
$s_{\hat{a}}^2 = s^2 \left( \dfrac{1}{n} + \dfrac{\overline{x}{}^2}{S_{xx}} \right)$
Se necesitan conocer también (mediante la calculadora):
$ \begin{array}{l} \overline{x} = 0{,}166667 \\[1ex] S_{xx} = s_{x}^2 (n-1) = (0{,}076376)^2 (2) = 0{,}011667 \end{array} $
Por tanto:
$s_{\hat{a}}^2 = 0{,}023044 \left( \dfrac{1}{3} + \dfrac{(0{,}166667)^2}{0{,}011667} \right) = 0{,}062547$
Así pues, intervalo de confianza de $a$:
$\hat{a} \pm t_{0{,}975}(1) s_{\hat{a}}$
Ya que 1 son los grados de libertad de la varianza residual. Si:
$\boldsymbol{\nu}$ | $\boldsymbol{t_{0{,}995}}$ | $\boldsymbol{t_{0{,}99}}$ | $\boldsymbol{t_{0{,}975}}$ | $\boldsymbol{t_{0{,}95}}$ | $\boldsymbol{t_{0{,}90}}$ | $\boldsymbol{t_{0{,}80}}$ | $\boldsymbol{t_{0{,}75}}$ | $\boldsymbol{t_{0{,}70}}$ | $\boldsymbol{t_{0{,}60}}$ | $\boldsymbol{t_{0{,}55}}$ |
---|---|---|---|---|---|---|---|---|---|---|
1 | 63,66 | 31,82 | 12,71 | 6,31 | 3,08 | 1,376 | 1,000 | 0,727 | 0,325 | 0,158 |
Entonces:
$a = 0{,}275857 \pm 12{,}71 (0{,}062547)^{1/2} = 0{,}275857 \pm 3{,}178695$
En conclusión, ya que el intervalo contiene el cero, valor de $a$ no significativo. Así que, sin término constante, para el modelo $y = bx$ se tiene que:
$\hat{b} = \dfrac{\sum x_i y_i}{\sum x_i^2} = \dfrac{13{,}4192}{0{,}095} = 141{,}254737$
El cálculo de los residuos:
Concentración ($x$) | Área ($y$) | Residuos |
---|---|---|
0,10 | 14,175 | 0,049526 |
0,15 | 21,368 | 0,179789 |
0,25 | 35,186 | -0,127684 |
La varianza residual (aquí con dos grados de libertad):
$s^2 = \dfrac{(0{,}049526)^2 + (0{,}179789)^2 + (-0{,}127684)^2}{2} = 0{,}025540$
La variabilidad de la respuesta del equipo se debe al error aleatorio $e$. Esto es, para el primer modelo:
$y = a + bx + e$
Donde se considera que:
$e \sim N(0,\sigma)$
La estimación de $\sigma$ es:
$s^2 = 0{,}023044 \Rightarrow s = 0{,}151803$
De manera análoga, para el modelo en el que la recta pasa por el origen:
$ \begin{array}{l} y = bx + e\,, \\[1ex] e \sim N(0,\sigma)\,, \\[1ex] s^2 = 0{,}025540 \Rightarrow s = 0{,}159812\,. \end{array} $