1

Regresión Lineal

MACHINE LEARNING

Machine Learning

1.6 - La tasa de aprendizaje

Nuestro objetivo es modificar los parámetros de manera que la función de pérdida sea lo mínima posible. Por el cálculo del gradiente del apartado anterior sabemos que el valor del parámetro que buscamos es aquel en el que la derivada parcial de la función de pérdida respecto a dicho valor sea lo más cercano posible a 0. Tan solo tenemos que dejarnos guiar por dicho gradiente hasta encontrar ese punto.

Ahora bien, en Machine Learning este proceso es realizado por un algoritmo que se inicializa en un valor aleatorio del parámetro. Calcula la derivada de la función de pérdida en ese punto y determina si es necesario aumentar o reducir el valor del parámetro. Así, definimos el nuevo valor del parámetro θ_{j}^{‘} como el valor previo θ_{j} menos una cierta cantidad determinada por α y el gradiente de la función de pérdida.

θ_{j}^{‘} = θ_{j}  –  α\frac{∂L}{∂θ_{j}}

Comprobamos que si la derivada es negativa, entonces el nuevo valor es ligeramente mayor que el anterior, tal y como indicamos en la sección anterior.

Este paso se realiza una y otra vez, con todos los parámetros, hasta que finalmente logramos localizar el valor que minimiza la función de pérdida.

El valor α es un metaparámetro conocido como tasa de aprendizaje y determina simplemente el tamaño de la actualización del parámetro en cada paso. Este metaparámetro es muy importante porque influye directamente en el número de pasos necesarios hasta alcanzar el mínimo error.

θ_{1}
α 0.0001

θ_{0}

Pulsa en cualquier punto de la gráfica y el algoritmo irá actualizando los valores de ambos parámetros hasta alcanzar el punto mínimo de error. Podéis ver la ruta que sigue la iteración, un proceso denominado descenso del gradiente. También es posible modificar la tasa de aprendizaje α del parámetro θ_{1}. Si α es demasiado baja, serán necesarios muchos más pasos hasta alcanzar el mínimo (en la gráfica el número de pasos está limitado a 200). Si por el contrario es demasiado alta, puede que nunca llegue a converger del todo en el mínimo. α es por tanto un meta-parámetro que es necesario seleccionar a priori «manualmente».

Los elementos interactivos solo se encuentran disponibles en versión escritorio o tablet