¿Cuál es la diferencia entre el aprendizaje de imitación y el aprendizaje de refuerzo?


Respuesta 1:

Lo común:

Ligeramente generalizador, ambos son métodos de aprendizaje para tareas secuenciales, en las que el alumno trata de elaborar una "política" (qué acción tomar en un estado dado), para lograr el mejor rendimiento.

La diferencia:

En el aprendizaje de imitación, el alumno observa primero las acciones de un experto (a menudo humano), durante la fase de capacitación. Luego, el alumno utiliza este conjunto de capacitación para aprender una política que intenta imitar las acciones demostradas por el experto, a fin de lograr el mejor rendimiento.

En Reinforcement Learning, por otro lado, no existe tal experto. En cambio, el agente tiene una función de "recompensa" y utiliza estrategias codiciosas / explotadoras para explorar efectivamente el estado y el espacio de acción, y presentarse por sí mismo (usando prueba y error) con una política óptima.

Ejemplo ilustrativo

Consideremos un agente autónomo. El espacio de estado puede ser lo que el agente ve en cualquier momento: la carretera, las señales, otros automóviles, los peatones. Las acciones pueden ser dirección, aceleración, ruptura.

Un agente de aprendizaje de imitación observaría a un conductor experto humano y registrará sus acciones en los distintos estados. Basado en eso, creará una política de qué acciones tomar en un estado dado en función de lo que hizo el experto. En el tiempo de ejecución, hará todo lo posible para aproximar la acción correcta basada en la política, ya que los estados no serán exactamente similares y se introducirá un elemento probabilístico.

Un agente de Reinforcement Learning recibirá una función de recompensa; por ejemplo, cada segundo que pasa se cuenta como un punto positivo, y si choca o golpea a un peatón u otro automóvil, la tarea termina con cero recompensas. Luego, el agente comenzará con acciones aleatorias y, mediante prueba y error, aprenderá qué acciones maximizan las recompensas y qué acciones resultan en cero. Después de un tiempo, cuando la política es lo suficientemente buena (según las métricas de rendimiento), el agente utilizará la política para conducir.

Entonces, ambos métodos conducen a la misma estrategia de tiempo de ejecución. La forma en que se aprende la política es diferente. Como se puede imaginar, hay diferentes ventajas y desventajas de cuándo usar qué método. La prueba y el error pueden ser muy costosos o ineficientes para algunas tareas, mientras que la imitación puede ser muy compleja, imposible o limitante para otras.


Respuesta 2:

El aprendizaje de refuerzo es cuando un agente intenta maximizar sus recompensas en un entorno.

Básicamente, el objetivo del Agente es tratar de encontrar una política óptima.

Mecanismo TWO-E: -

Personalmente lo llamo mecanismo TWO-E en mis trabajos de investigación o comunicaciones. Básicamente, la forma en que el agente encuentra "qué es lo mejor que puede hacer" es mezclar una estrategia de exploración y explotación mientras consulta una función de recompensa. obtener una señal / retornos del entorno, el agente intenta maximizar esa señal / recompensa.

Por otro lado, el aprendizaje por imitación consiste en generalizar directamente la estrategia experta, observada en las demostraciones, a estados no visitados (y, por lo tanto, está cerca de la clasificación, cuando hay un conjunto finito de posibles decisiones). es decir, un agente intenta seguir a un "agente docente" a través de recompensas y lo hace bajo el supuesto de que el agente docente está maximizando sus recompensas. Se supone que esta política es óptima y puede ser otorgada por otro agente, o tal vez un experto humano. , para averiguar cuál es la función de recompensa. Lo que uno está tratando de lograr en el aprendizaje de imitación es recuperar la función de recompensa.

En la práctica, el "agente docente" a menudo puede ser otra acción algorítmica que queremos que el agente siga (como los agentes RL que intentan aprender SGD)

Apoyo para el aprendizaje de imitación

por qué se usa IL en robótica.

No siempre se conoce la recompensa que se obtiene al realizar una tarea, sin embargo, se puede saber "qué es lo que hay que hacer (política óptima)".

Un escenario práctico de ejemplo de esto es cuando uno quiere crear modelos computacionales de comportamiento animal o humano.

De manera intuitiva al concepto:

Se puede comparar el aprendizaje por refuerzo y el aprendizaje por refuerzo inverso como: -

El aprendizaje de refuerzo es aprender cosas por PROPIO, es decir, AUTOAprendizaje, mientras que el aprendizaje por imitación es un EXPERTO que te guía sobre qué hacer. Por eso también se le llama aprendizaje de aprendizaje.

Seguro