En un cambio de rasante sin visibilidad ¿se permite realizar un cambio de sentido de la marcha?

descenso estocástico del gradiente

En un punto determinado, indica la dirección en la que la función cambia con mayor rapidez. Si piensas en la función como una altura, entonces te da la dirección en la que el terreno es más empinado.

Tus líneas negras no son en absoluto líneas de gradiente. El gradiente debería ser perpendicular a las curvas de nivel en cada punto. Incluso en un valle elipsoidal, el gradiente no apuntará al punto más bajo, sino que apuntará mucho más cerca de él de lo que indica tu imagen.

Un minimizador de funciones que sigue el gradiente local tiene que dar un paso de tamaño finito en la dirección del gradiente, y luego encontrar el gradiente en la nueva ubicación para dar el siguiente paso. A menudo la evaluación del gradiente es muy costosa y se quiere hacer el menor número de veces posible. Un enfoque es entonces seguir el gradiente desde su punto actual hasta que la función deje de disminuir, entonces detenerse, evaluar el gradiente local, y partir en esa dirección. Si esa es su estrategia, cada nueva dirección será un ángulo recto con respecto a la dirección anterior. Si el nuevo gradiente no fuera perpendicular a la antigua dirección de viaje, podrías disminuir la función moviéndote más lejos o no tan lejos en la antigua dirección de viaje. Sólo se cambia de dirección cuando se está en un mínimo local en la dirección en la que se va.

descenso gradual

El aprendizaje profundo, en gran medida, consiste realmente en resolver problemas de optimización masivos y desagradables. Una red neuronal no es más que una función muy complicada, compuesta por millones de parámetros, que representa una solución matemática a un problema. Consideremos la tarea de clasificación de imágenes. AlexNet es una función matemática que toma una matriz que representa los valores RGB de una imagen, y produce la salida como un montón de puntuaciones de clase.

Al entrenar redes neuronales, lo que queremos decir es que estamos minimizando una función de pérdida. El valor de esta función de pérdida nos da una medida de lo lejos que está el rendimiento de nuestra red en un conjunto de datos determinado.

Para simplificar, supongamos que nuestra red sólo tiene dos parámetros. En la práctica, este número sería de unos mil millones, pero seguiremos con el ejemplo de los dos parámetros a lo largo del post para no volvernos locos al intentar visualizar las cosas. Ahora bien, el recuento de una función de pérdida muy bonita puede tener este aspecto.

¿Por qué digo una función de pérdida muy bonita? Porque una función de pérdida que tenga un contorno como el de arriba es como Papá Noel, no existe. Sin embargo, todavía sirve como una herramienta pedagógica decente para obtener algunas de las ideas más importantes sobre el descenso de gradiente a través del tablero. Así que, ¡vamos a ello!

descenso gradual python

Tienes toda la razón, la pequeña pantalla no te da suficientes detalles sobre la longitud de la colina o si ese pequeño punto plano es realmente plano o cuesta abajo. Incluso en las subidas largas sólo sabes cuál es el grado actual y no cuál será el próximo.

Me gustaría que el marcador de posición actual incluyera información sobre la dirección. Sólo hay que cambiar el punto por un punto a la izquierda o a la derecha. Cada vez que entro en un segmento diferente, el mapa de la pendiente del recorrido cambia y estaría bien poder saber de un vistazo en qué dirección se dirige mi avatar.

¿Quizás hacerlo un poco más prominente para que podamos verlo a 190 bpm? ¿Quizás mover el triángulo a la izquierda o a la derecha en el exterior del círculo (algo así como el punto en la parte inferior del marcador de posición)? ¿O simplemente poner una flecha debajo del marcador de posición en la parte inferior de la ventana del gradiente? –>

La sugerencia de las líneas de carrera es una gran idea, ya que es difícil ver los próximos cambios de gradiente y prejuzgar la mejor selección de marcha. Incluir el gradiente en cada cheurón también sería una gran ayuda, también significaría que pasarías más tiempo mirando el curso por delante en lugar de la minúscula caja en la esquina superior derecha de la pantalla

dmrb cd123

* Lo que sigue es parte de un primer borrador de la segunda edición de Machine Learning Refined. El texto publicado (con material revisado) ya está disponible en Amazon, así como en otros importantes minoristas de libros. Los instructores pueden solicitar una copia de examen a Cambridge University Press.

Como vimos en la sección anterior, el descenso de gradiente es un esquema de optimización local que emplea el gradiente negativo en cada paso. El hecho de que el cálculo nos proporcione una verdadera dirección de descenso en la forma de la dirección del gradiente negativo, combinado con el hecho de que los gradientes son a menudo baratos de calcular (tanto si se utiliza un diferenciador automático como si no), significa que no necesitamos buscar una dirección de descenso razonable en cada paso del método como necesitábamos hacer con los métodos de orden cero detallados en el capítulo anterior. Esto es extremadamente ventajoso.

Sin embargo, el gradiente negativo no está exento de debilidades como dirección de descenso, y en esta sección describimos dos problemas importantes que pueden surgir en la práctica. Como cualquier vector, el gradiente negativo siempre consta fundamentalmente de una dirección y una magnitud. Dependiendo de la función que se esté minimizando, uno de estos atributos -o ambos- puede presentar problemas al utilizar el gradiente negativo como dirección de descenso.

Por admin

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad