Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido (1998)
- Authors:
- Autor USP: AUGUSTO, SERGIO RIBEIRO - EP
- Unidade: EP
- Sigla do Departamento: PEE
- Assunto: ENGENHARIA ELÉTRICA
- Language: Português
- Abstract: Este trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada
- Imprenta:
- Data da defesa: 02.04.1998
-
ABNT
AUGUSTO, Sergio Ribeiro. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 1998. . Acesso em: 10 maio 2024. -
APA
Augusto, S. R. (1998). Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. -
NLM
Augusto SR. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998 ;[citado 2024 maio 10 ] -
Vancouver
Augusto SR. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998 ;[citado 2024 maio 10 ]
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas