google.com, pub-9005101102414487, DIRECT, f08c47fec0942fa0

[칼럼 - 이규철] AI교과서(26) : 강화학습(Reinforcement Learning)

▲이규철/한국공공정책신문 칼럼니스트 ⓒ한국공공정책신문

 [한국공공정책신문=김유리 기자] 


강화학습의 개념


강화학습(Reinforcement Learning)이란 인간에게도 말할 수 있지만, 매사에 처음부터 모든 정보를 가지고 있는 것은 아니고, 시간을 들여 학습을 실시하여 여러가지 정보를 습득해 간다. 컴퓨터에도 동일한 학습을 실시하여 스스로 정보를 취득한다고 하는 기계학습이지만, 현실적으로는 인간이 준 정보를 기초로 이상에 가까워지는 것이 많이 존재한다. 미지의 정보도 인간과 같이 자력으로 해결하는 방법으로써 에이전트(agent)가 행동을 선택하는 것으로 환경으로부터 보수를 얻는다고 하는 생각을 이용하여, 이 보수를 최대한으로 얻을 수 있는 방책을 학습하는 것을 강화학습이라고 부른다.

 

교사가 있는 학습과 크게 다른 점


교사가 있는 학습과 크게 다른 점은 교사가 있는 학습에서는 교사 데이터라고 하는 명확한 이 제시되는 것에 비하여, 강화학습에서는 문제 해결 시 부여되는 보상이 선택 결과에 따라 변동된다는 것을 통해 더 나은 행동 선택을 찾고자 학습하는 데 있다. 강화학습에서 취급하는 대상은 동적계획법등의 배치 일괄처리하는 최적화법을 확정 시스템이라는 것에 반하여, 불확실성이 있다는 것을 전제로 하고 있기 때문에 확률 시스템이라고 불린다.

 

강화학습의 MDP


강화학습에서 다루는 대상은 마르코프 결정과정(Markov decision process, MDP)’이라고 하며, 아래의 조건 속에서 학습해 나가는 방법이다. 환경은 상태를 가지며, 그것은 완전히 정확하게 관측 가능할 것, 에이전트가 행동을 하면 환경이 확률적으로 상태 전이가 되고 환경으로부터 확률적으로 보상이 얻어진다. 그 전이 확률과 보수를 얻을 수 있는 확률은 사전에는 주어지지 않고, 학습 과정에서 학습해 가는 것, 보상의 지수 이동 평균을 최대화하도록 행동하는 것이다.

 

강화학습을 이용할 수 있는 장면


다양한 방법이 있는 가운데 강화학습이 교사가 있어 학습보다 뛰어나다는 것은 아니라는 점에 주의할 필요가 있다. 강화학습은 명확한 지시가 없는 상태에서 스스로 평가해 나갈 필요가 있어 시간이 많이 걸린다. 결국 컴퓨터가 빠르다고는 하지만 방대한 시간을 들여 답을 내놓는다고 해도 그 답이 정답이라는 보장은 없다


또한 어떤 용도로 사용하기 위한 정보인지도 결국은 인간이 판단하게 된다. 인간이 가지고 있는 정보에 맞는 형태의 결과가 좋다면 교사 학습을 선택해야 할 것이고, 그런 모수(母數)가 많지 않은 정보에 대한 정리는 인간이 판단하는 것이 빠를 것이기 때문에 다루는 문제에 대해서는 고려해야 한다. 그러면 실제 강화학습은 어떤 것에 사용되고 있을까


강화학습을 채용하고 있는 기업의 서비스 등은 아래와 같다. 자동 운전 : 자율주행 기술은 강화학습에서 좋은 행동을 AI에게 계속 배우게 하고 있다. 게임 : 강화학습을 사용한 게임이라면 AI가 주인공을 움직여 마음대로 게임을 진행해 주는 것이 많다. 로봇 제어 : 예컨대, 음식 공장에서 분류를 로봇에게 부탁하여 출하할 수 있는 음식과 출하할 수 없는 음식을 외우게 한다. 그리고 출하할 수 없는 음식은 장소를 정해 거기에 두라고 지시하고, 강화학습으로 점점 그 성능을 높여간다.

 


이규철 / 법학박사(상법)

AI·GPT, SDGs&ESG 코치 및 강사

100세대학 크리에이터 및 칼럼니스트

생성AI와 챗GPT, SDGs·ESG경영전략,

글로벌 MBAtoCEO, 리더의 필승전략,

100세대학 행복디자인 매뉴얼 등 27

일본(와세다대),중국(복단대·화동정법대)

 

 

작성 2025.06.22 23:17 수정 2025.06.22 23:17

RSS피드 기사제공처 : 한국공공정책신문 / 등록기자: 김유리 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (/ 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
Shorts NEWS 더보기
정부 지원금 받고 내 집 마련까지? 아는 사람만 받아 간다는 역대급 꿀팁..
용인특례시 공공건축 공사현장 교차점검 실시… 안전사고 제로화 도전
목포 남악 KT메가스타 백년대로점
주작부터 현무까지? 남산 팔각정에 나타난 역대급 사방신의 정체!
[더코리츠힐] 서울 도심 속 완벽한 [남산 숲세권]! 버티고개역 [초역세..
이자가 안 나오는 금은 끝났다? 모르면 평생 후회하는 금값의 잔인한 진실..
2025년 3월 28일
드디어 애비뉴얼 명품관 입성!! K_Luxury 의 위엄~
"나이 들어서 그래" 노안인 줄 알고 방치했다가 한순간에 암흑 속으로…
이제 대형 건설사들 망하기 직전인가요? LH 공공주택에 목숨 거는 이유
베테랑 운전자도 예외 없는 여름철 차 안 3000ppm의 공포
HBM 필요한 건 나! 젠슨 황 방한에 요동치는 K증시, 역대급 수혜주 ..
112년 모아야 강남 입성?서울 아파트 초양극화, 주거 사다리 붕괴 쇼크..
조선시대에 롤러코스터가 있었다? 타자마자 기절하는 버스의 정체
Korean Calligraphy Performance in Tuscan..
서울시가 작정하고 만든 44kcal 미친 간식
매일 고개 숙인 당신, 어깨뼈가 실시간으로 갉아먹히는 중이다. 수술 피하..
금리 1.5%로 5억 대출? 삼성맨들이 쏘아올린 집값 폭등의 진실. 성과..
말 못 하는 아이의 마음, 인공지능이 1초 만에 읽어낸다고?.보호자 눈물..
타인의 삶을 바꾸고 내 수입도 바꾸는 기적의 융합 공식. 인체 8대 권역..
"너 망했잖아" 소리 듣던 48세 수석 디자이너의 소름 돋는 반전 근황
돈 없으면 광교에 집 사지 마라?" 역대급 반전 주택 등장!
숨 한 번 편하게 쉬고 싶다! 대도시 쓰레기 습격에 분노한 주민들
경기도 AI디지털배움터 가동…15만 도민을 위한 생성형 AI 및 키오스크..
카이스트가 알아낸 늙지 않는 세포 브레이크의 비밀
비만치료제 정체기 돌파할 뇌 신호 스위치, 마침내 풀렸다!
서울 한복판 지하에 40년 동안 숨겨진 역대급 비밀 공간의 정체
매매는 꽁꽁, 전세는 불타는 중! 지금 서울 부동산 시장에서 벌어지는 기..
유튜브 NEWS 더보기

일론 머스크의 경고, 2030년 당신의 책상은 사라진다

부의 이동심리, 타워팰리스가 던지는 경제적 신호

그대는 소중한 사람 #유활의학 #마음챙김 #휴식

나 홀로 뇌졸중, 생존 확률 99% 높이는 실전 매뉴얼

숨결처럼 다가온 희망. 치유.명상.수면.힐링

통증이 마법처럼 사라지다./유활도/유활의학/유활파워/류카츠대학/기치유

O자 다리 한국, 칼각 일본? 앉는 습관 하나가 평생 건강을 좌우한다

겨울마다 돌아오는 ‘급성 장폭풍’… 노로바이러스, 아이들 먼저 덮쳤다

아오모리 강진, 철도·항만·도심 모두 멈췄다… 충격 확산

경기도, 숨겨진 가상자산까지 추적했다… 50억 회수한 초정밀 징수혁신으로 대통령상 수상

간병 파산 막아라... 경기도 'SOS 프로젝트' 1천 가구 숨통 틔웠다 120만 원의 기적,...

100세 시대의 진짜 재앙은 '빈곤'이 아닌 '고독', 당신의 노후는 안전합니까...

브레이크 밟았는데 차가 '쭉'... 눈길 미끄러짐, 스노우 타이어만 믿다간 '낭패...

"AI도 설렘을 알까?"... 첫눈 오는 날 GPT에게 '감성'을 물었더니

응급실 뺑뺑이 없는 경기도, '적기·적소·적시' 치료의 새 기준을 세우다

GTX·별내선·교외선이 바꾼 경기도의 하루… 이동이 빨라지자 삶이 달라졌다

행복은 뇌에서 시작된다. 신경과학이 밝혀낸 10가지 습관

행복은 뇌에서 시작된다 신경과학이 밝혀낸 10가지 습관

자신을 칭찬할 수 있는 용기, 삶을 존중하는 가장 아름다운 습관

아이젠사이언스생명연, AI 신약 개발 초격차 확보 전략적 동행