XXVII Mostra Unisinos de Iniciação Científica e Tecnológica

XXVII MOSTRA UNISINOS DE INICIAÇÃO CIENTÍFICA E TECNOLÓGICA De 19/10/2020 a 24/10/2020 Unisinos São Leopoldo e Porto Alegre 330 ximizar a vazão das intersecções. Esta pesquisa tem o objetivo de ve- rificar o desempenho de diferentes tipos de funções de recompensa (obtidas da literatura) sob diferentes níveis de saturação de trânsi- to. Com base nessa análise, pretende-se também propor uma função de recompensa adaptativa, que utilize diferentes indicadores de trá- fego dependendo das condições de saturação da rede. A verificação do desempenho das funções de recompensa e do método proposto será feito através de simulações executadas na ferramenta de simula- ção de trânsito SUMO, com diferentes níveis de tráfego. As simula- ções serão executadas até que os agentes de RL apresentem conver- gência a uma solução. Os resultados serão analisados pela média e evolução de indicadores como tempo total de viagem e tempo de es- pera dos veículos. Espera-se que a função de recompensa adaptativa proposta apresente desempenho melhor sob a operação com níveis variados de demanda do que as funções de recompensa aplicadas de forma isolada. Alguns resultados preliminares apontaram que a téc- nica de Q-Learning apresenta limitações no aprendizado de padrões com funções de recompensa mais complexas. Logo, mostra- se ne- cessário o uso de técnicas de aproximação de função, como o uso de redes neurais profundas para RL ( Deep Q-Learning ).

RkJQdWJsaXNoZXIy MjEzNzYz