1

Regresión Lineal

MACHINE LEARNING
Machine Learning

1.5 - El gradiente de la función de pérdida

Contamos con un modelo de predicción y una métrica para evaluar esas predicciones ¿Pero como las optimizamos? ¿Cómo elegimos los valores de los parámetros que minimicen el error? Aquí es donde entra el gradiente de la función de pérdida.

Para cada punto de dicha función podemos calcular su gradiente, es decir, su tendencia a incrementarse o reducirse. Este gradiente es una generalización de lo que en matemáticas se conoce como derivada: el ritmo de cambio de la función respecto a una variable. La derivada nos indica la tendencia de la función, es decir si su valor se incrementa o disminuye al aumentar un parámetro. El ejemplo más intuitivo es la velocidad, que no es otra cosa que la derivada de la función distancia respecto al tiempo.

En el caso de nuestro ejemplo la función de pérdida L depende de dos parámetros θ_{0}  y θ_{1}. Su derivada la denotamos como 

\frac{∂L}{∂θ_{j}}

para el parámetro j. Esta derivada se calcula para cada parámetro tomando el otro como constante. La resolución de la derivada se sale de los objetivos de este taller. Simplemente diremos que, usando el Error Cuadrático Medio tal y como vimos en el apartado anterior, la derivada de L es

\displaystyle\frac{∂L}{∂θ_{j}} = \frac{1}{n}\sum_{i=1}^{n} -2x_{i}(y_{i}  –  \hat{y_{i}})

respecto a cada parámetro θ_{j}.

L

L =

\frac{∂L}{∂θ_{1}} =

θ_{1}

Esta gráfica muestra la misma función de pérdida L de los apartados anteriores, esta vez respecto al parámetro θ_{1}, manteniendo fijo el otro parámetro θ_{0} en 110. Para cada valor del parámetro vemos no solo cuanto vale L (en rosa), sino el gradiente de la función de pérdida en forma de pendiente o derivada \frac{∂L}{∂θ_{j}} (en morado). Podemos comprobar como el punto que nos interesa alcanzar, en el que L es mínima, es aquel en el el valor de la derivada sea cercano a 0, cuando la función ya no tienda ni subir ni a bajar. Es evidente que si la derivada es positiva, debemos reducir el valor del parámetro para alcanzar ese mínimo. Si la derivada es negativa, es necesario aumentarlo.

Los elementos interactivos solo se encuentran disponibles en versión escritorio o tablet