¿Cuál es la diferencia entre términos de error y residuales en econometría (o en modelos de regresión)?


Respuesta 1:

En el sentido más general, supongamos que tiene un conjunto de datos.

x1,x2,...,xnx_1,x_2,...,x_n

y un parámetro

θi\theta_i

le gustaría estimar para cada

xix_i

. (

θi\theta_i

podría ser el mismo para todos sus datos, si, por ejemplo, es solo la media de la población, pero en el caso general asumiremos que puede variar).

En el contexto de regresión,

θi\theta_i

es la expectativa condicional de alguna variable de resultado:

E(yxi)E(y|x_i)

. Es decir, una vez que arreglas

xx

, es el valor esperado en la población de

yy

. Específicamente, bajo regresión lineal, asumimos que

E(yxi)=β0+β1x1i++βpxpiE(y|x_i)=\beta_0+\beta_1x_{1i}+\ldots+\beta_px_{pi}

.

Pero, por supuesto, es extremadamente improbable que

yi=E(yxi)y_i=E(y|x_i)

. Después de todo,

yy

es una variable aleatoria con alguna distribución de probabilidad, por lo que verá desviaciones de la expectativa condicional. Además, en realidad nunca observamos

E(yxi)E(y|x_i)

; solo observamos

yiy_i

. Entonces incluimos un término de error, que denotamos

ε\varepsilon

,whenactuallyestimatingthemodel:yi=β0+β1x1i++βpxpi+εi.Thisallowsfordeviationsfromtheconditionalexpectation,whichiswhattheerrortermis., when actually estimating the model: y_i=\beta_0+\beta_1x_{1i}+\ldots+\beta_px_{pi}+\varepsilon_i. This allows for deviations from the conditional expectation, which is what the error term is.

Pero en realidad nunca sabemos qué

E(yxi)E(y|x_i)

es decir, nosotros? De la misma manera que solo observamos la media muestral para estimar la media poblacional, solo obtenemos una estimación de la expectativa condicional al ajustar el modelo de regresión, denotado

y^i\hat{y}_i

. Bajo los supuestos (¿famosos?) De Gauss-Markov,

y^i\hat{y}_i

es un estimador imparcial de

E(yxi)E(y|x_i)

, pero tal como espera desviaciones de lo observado

yiy_i

fromtheconditionalexpectationE(yxi),youalsoobservedeviationsoftheobserved[math]yi[/math]fromtheestimateoftheconditionalexpectation[math]y^i[/math].Anditsthesethatwedenote[math]ε^i[/math]andcallresiduals. from the conditional expectation E(y|x_i), you also observe deviations of the observed [math]y_i[/math] from the estimate of the conditional expectation [math]\hat{y}_i[/math]. And it’s these that we denote [math]\hat{\varepsilon}_i[/math] and call residuals.

El hecho de que su notación sea la misma que la del error, excepto con un sombrero puesto, por cierto, no es un accidente. Porque

y^i\hat{y}_i

es nuestra estimación de

E(yxi)E(y|x_i)

,

ε^i\hat{\varepsilon}_i

puede considerarse como una estimación de

εi\varepsilon_i

, y de hecho se puede demostrar que

Var(ε^)\text{Var}(\hat{\varepsilon})

isanunbiasedestimatorofVar(ε). is an unbiased estimator of \text{Var}(\varepsilon).


Respuesta 2:

Digamos que el desempeño laboral "P" está realmente relacionado con la satisfacción laboral de una manera lineal de tal manera que:

P = b * S + e,

donde "b" es la verdadera correlación entre "P" y "S" y "e" es el término de error. Estas entidades son las verdaderas e inherentemente inobservables. Es decir, existen, pero necesitamos obtener medidas de ellos para estimar las relaciones entre ellos.

Ahora, digamos que recopilamos medidas “P1” y “S1” de desempeño laboral y satisfacción laboral haciendo preguntas a varias personas, donde las preguntas pueden ser las siguientes y respondidas en escalas tipo Likert (1 = totalmente en desacuerdo ... 7 = muy de acuerdo): "Mi desempeño laboral es excelente" y "Estoy satisfecho con mi trabajo".

Si usamos estas medidas para obtener una estimación de "b1", la correlación muestral entre "P1" y "S1", entonces el "e1" residual puede obtenerse como:

e1 = P1 - b1 * S1.

En este sentido, el "e1" residual puede verse como una estimación del término de error "e".