Exportar registro bibliográfico

Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido (1998)

  • Authors:
  • Autor USP: AUGUSTO, SERGIO RIBEIRO - EP
  • Unidade: EP
  • Sigla do Departamento: PEE
  • Assunto: ENGENHARIA ELÉTRICA
  • Language: Português
  • Abstract: Este trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada
  • Imprenta:
  • Data da defesa: 02.04.1998

  • How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      AUGUSTO, Sergio Ribeiro. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 1998. . Acesso em: 10 maio 2024.
    • APA

      Augusto, S. R. (1998). Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido (Dissertação (Mestrado). Universidade de São Paulo, São Paulo.
    • NLM

      Augusto SR. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998 ;[citado 2024 maio 10 ]
    • Vancouver

      Augusto SR. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998 ;[citado 2024 maio 10 ]

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024