[강화학습 정복하기] 11강: 게임을 넘어 현실로-인간과 소통하고 미래를 설계하는 지능
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 게임을 넘어 현실로-인간과 소통하고 미래를 설계하는 지능지금까지의 강화학습은 "점수(Reward)"를 얻기 위해 시행착오를 겪는 과정이었다. 게임에서 이기면 +1점, 지면 -1점. 이렇게 명확한 점수가 주어지는 세상에서 기계는 날아다녔다. 하지만 현실은 그렇게 친절하지 않다. 챗봇(Chatbot)이 뱉은 말이 "좋은 대답"인지 아닌지, 점수로 딱 잘라 말할 수 있는가? 바둑처럼 수많은 수가 얽히고설킨 복잡한 문제에서, 지금 이 한 수가 정말 최선인지 바로 알 수 있는가? 현대 강화학습은 바로 이 난제, "명확한 보상이 없거나, 너무 복잡해서 보상을 알기 어려운 문제"를 해결하기 위해 두 가지 방향으로 진..