Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation (2021)
- Authors:
- Autor USP: BUENO, THIAGO PEREIRA - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/T.45.2021.tde-29102021-133418
- Subjects: INTELIGÊNCIA ARTIFICIAL; APRENDIZADO COMPUTACIONAL; REDES NEURAIS; MODELOS PARA PROCESSOS ESTOCÁSTICOS
- Keywords: Aprendizado profundo; Busca de política; Deep learning; Deep neural nets; Gradiente descendente estocástico; Grafo de computação estocástica; Information relaxation; Markov Decision Process; MDP; Otimização de trajetória; Planejamento probabilístico; Policy search; Probabilistic planning; Processo de Decisão Markoviano; Redes neurais profundas; Relaxação de informação; Stochastic computation graphs; Stochastic gradient descent; Trajectory optimization
- Agências de fomento:
- Language: Inglês
- Abstract: A área de Aprendizado Profundo tem obtido grande sucesso em tarefas complexas de percepção, jogos e outras aplicações práticas. Pode-se argumentar, de uma perspectiva geral, que a principal razão do desempenho surpreendente de redes neurais profundas está relacionada ao método do gradiente descendente, o qual por sua vez é baseado no reconhecido algoritmo de retropropagação de erros. Inspirado por aplicações recentes de aprendizado profundo, propõe-se investigar os desafios e oportunidades em adaptar a retropropagação de erros como uma técnica de planejamento em problemas de tomada de decisão sequencial em espaços contínuos. Observa-se, em particular, que se um modelo diferenciável da dinâmica do sistema sob controle estiver disponível, então é possível que um agente autônomo possa se aproveitar de otimizadores avançados baseados em gradientes desenvolvidos no contexto de algoritmos de aprendizado para resolução de problemas de planejamento de longo horizonte. Além de reformular a técnica recentemente proposta de planejamento via retropropagação como uma forma de otimização de trajetória baseada em gradiente, essa tese de doutorado propõe diversas extensões para o caso mais geral de problemas de decisão sequencial em espaços contínuos sob incerteza estocástica estudados em planejamento automatizado em inteligência artificial. Em particular, propõe-se um arcabouço de pré-treinamento de Políticas Reativas Profundas com foco na abordagem de tomada de decisão rápida baseado emgrafos de computação estocástica e na técnica de re-parametrização de distribuições. Além disso, investiga-se como a teoria da dualidade de relaxação de informação pode ser adaptada para o desenvolvimento de algoritmos de planejamento baseados em gradientes que intercalam otimização e execução. Resultados empíricos mostram a efetividade da abordagem proposta em problemas de tomada de decisão sequencial envolvendo dinâmica não-linear e eventos exógenos estocásticos, como por exemplo, planejamento de caminho, controle de recursos em multi-reservatórios e controle de sistemas físicos de aquecimento, ventilação e ar condicionado
- Imprenta:
- Data da defesa: 31.08.2021
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
BUENO, Thiago Pereira. Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation. 2021. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-29102021-133418/. Acesso em: 27 abr. 2024. -
APA
Bueno, T. P. (2021). Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-29102021-133418/ -
NLM
Bueno TP. Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation [Internet]. 2021 ;[citado 2024 abr. 27 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-29102021-133418/ -
Vancouver
Bueno TP. Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation [Internet]. 2021 ;[citado 2024 abr. 27 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-29102021-133418/ - Gradient estimation in model-based reinforcement learning: a study on linear quadratic environments
- Deep reactive policies for planning in stochastic nonlinear domains
- Analyzing the effect of stochastic transitions in policy gradients in deep reinforcement learning
- On the performance of planning through backpropagation
- Decision-aware model learning for actor-critic methods: when theory does not meet practice
Informações sobre o DOI: 10.11606/T.45.2021.tde-29102021-133418 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas