[칼럼 - 이규철] AI교과서(26) : 강화학습(Reinforcement Learning)

기사 제공처 : 한국공공정책신문 / 등록기자: 김유리 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "김유리"기자에게 전송됩니다

이름

연락처

- -

이메일

▲이규철/한국공공정책신문 칼럼니스트 ⓒ한국공공정책신문

[한국공공정책신문=김유리 기자]

◇ 강화학습의 개념

강화학습(Reinforcement Learning)이란 인간에게도 말할 수 있지만, 매사에 처음부터 모든 정보를 가지고 있는 것은 아니고, 시간을 들여 학습을 실시하여 여러가지 정보를 습득해 간다. 컴퓨터에도 동일한 학습을 실시하여 스스로 정보를 취득한다고 하는 기계학습이지만, 현실적으로는 인간이 준 정보를 기초로 이상에 가까워지는 것이 많이 존재한다. 미지의 정보도 인간과 같이 자력으로 해결하는 방법으로써 에이전트(agent)가 행동을 선택하는 것으로 환경으로부터 보수를 얻는다고 하는 생각을 이용하여, 이 보수를 최대한으로 얻을 수 있는 방책을 학습하는 것을 강화학습이라고 부른다.

◇ 교사가 있는 학습과 크게 다른 점

교사가 있는 학습과 크게 다른 점은 교사가 있는 학습에서는 ‘교사 데이터’라고 하는 명확한 ‘답’이 제시되는 것에 비하여, 강화학습에서는 문제 해결 시 부여되는 ‘보상’이 선택 결과에 따라 변동된다는 것을 통해 더 나은 행동 선택을 찾고자 학습하는 데 있다. 강화학습에서 취급하는 대상은 ‘동적계획법’ 등의 배치 일괄처리하는 최적화법을 확정 시스템이라는 것에 반하여, 불확실성이 있다는 것을 전제로 하고 있기 때문에 확률 시스템이라고 불린다.

◇ 강화학습의 MDP

강화학습에서 다루는 대상은 ‘마르코프 결정과정(Markov decision process, MDP)’이라고 하며, 아래의 조건 속에서 학습해 나가는 방법이다. ① 환경은 상태를 가지며, 그것은 완전히 정확하게 관측 가능할 것, ② 에이전트가 행동을 하면 환경이 확률적으로 상태 전이가 되고 환경으로부터 확률적으로 보상이 얻어진다. 그 전이 확률과 보수를 얻을 수 있는 확률은 사전에는 주어지지 않고, 학습 과정에서 학습해 가는 것, ③ 보상의 지수 이동 평균을 최대화하도록 행동하는 것이다.

◇ 강화학습을 이용할 수 있는 장면

다양한 방법이 있는 가운데 강화학습이 교사가 있어 학습보다 뛰어나다는 것은 아니라는 점에 주의할 필요가 있다. 강화학습은 명확한 지시가 없는 상태에서 스스로 평가해 나갈 필요가 있어 시간이 많이 걸린다. 결국 컴퓨터가 빠르다고는 하지만 방대한 시간을 들여 답을 내놓는다고 해도 그 답이 정답이라는 보장은 없다.

또한 어떤 용도로 사용하기 위한 정보인지도 결국은 인간이 판단하게 된다. 인간이 가지고 있는 정보에 맞는 형태의 결과가 좋다면 교사 학습을 선택해야 할 것이고, 그런 모수(母數)가 많지 않은 정보에 대한 정리는 인간이 판단하는 것이 빠를 것이기 때문에 다루는 문제에 대해서는 고려해야 한다. 그러면 실제 강화학습은 어떤 것에 사용되고 있을까?

강화학습을 채용하고 있는 기업의 서비스 등은 아래와 같다. ① 자동 운전 : 자율주행 기술은 강화학습에서 좋은 행동을 AI에게 계속 배우게 하고 있다. ② 게임 : 강화학습을 사용한 게임이라면 AI가 주인공을 움직여 마음대로 게임을 진행해 주는 것이 많다. ③ 로봇 제어 : 예컨대, 음식 공장에서 분류를 로봇에게 부탁하여 출하할 수 있는 음식과 출하할 수 없는 음식을 외우게 한다. 그리고 출하할 수 없는 음식은 장소를 정해 거기에 두라고 지시하고, 강화학습으로 점점 그 성능을 높여간다.