Aprendizado por Reforço (1999)
| Venue: | JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN’99)- TUTORIAL TRACK ON LEARNING, COM O TÍTULO A TUTORIAL ON REINFORCEMENT LEARNING TECHNIQUES. |
BibTeX
@MISC{Ribeiro99aprendizadopor,
author = {Carlos Henrique Costa Ribeiro},
title = { Aprendizado por Reforço },
year = {1999}
}
OpenURL
Abstract
Aprendizado por Reforço (AR) é aprendizado via experimentação direta. Não assume aexistência de um professor provedor de exemplos a partir do qual o aprendizado se desenvolve. Em AR, a experiência éaúnica professora. Com raizes históricas no estudo de reflexos condicionados, AR logo atraiu o interesse de Engenheiros e Cientistas da Computação por sua relevância teórica e aplicações potenciais em campos tão diversos quanto Pesquisa Operacional e Robótica. Computacionalmente, AR opera em um ambiente de aprendizagem composto por dois elementos: o aprendiz e um processo dinâmico. A passos de tempo sucessivos, o aprendiz faz uma observação do estado de processo, seleciona uma ação e a aplica de volta ao processo. Sua meta é descobrir uma política de ações que controle o comportamento deste processo dinâmico, usando para isso sinais (reforços) indicativos de quão bem está sendo executada a tarefa em questão. Estes sinais normalmente são associados a alguma condição dramática — por exemplo, realização de uma subtarefa (recompensa) ou completo fracasso (castigo), e a meta do aprendiz é aperfeiçoar seu comportamento baseado em uma medida de desempenho (função dos reforços recebidos).







