인공지능 서비스 개발 시 보상 설계를 잘못하면 벌어지는 일 [인공지능 기술]

티스토리 뷰

Innovation&Hurdles/BiliChild(빌리칠드)

inhae 2025. 10. 4. 04:00

인공지능과 관련된 기술 중에서 '강화학습(Reinforcement Learning)'이 있다.

강화학습은 행동심리학에서 영감을 얻어 개발됐으며, 어떤 환경 안에서 정의된 에이전트가 현재 상태를 인식하여, 선택가능한 행동들 중에서 '보상'을 최대화하는 행동 또는 행동 순서를 선택하는 방법이다.[위키백과]

2016년에 3월에 이세돌과 바둑 대결을 벌였던 알파고가 학습했던 방식이다.

바둑의 예를 들자면,

다른 예로써 로봇팔의 예를 들자면,

우리가 아이들에게 '이번 시험에 몇 점 이상 받으면' 또는 '반에서 몇 등 이상 하면' 등의 방식으로 아이들을 교육(훈련)시키는 것과 같은 개념이라고 할 수 있다.

그런데 이런 학습은 이제 인공지능이 더 잘한다.

인간인 우리 아이들에게 더 이상 이런 식으로 학습시키지 말자!

* 다시 한 번 말하지만, (인간은 정확히 예측할 수 없을 뿐만 아니라 중단하거나 되돌릴 수 없으므로) 우리 아이를 위한 보상 설계 따위는 하지 말자!

사례1 : 보트 레이싱(River Raid) 게임에서 에이전트가 '결승점에 빨리 가기'보다 점수를 더 많이 받는 방법을 찾아내서,
코스 완주 대신 특정 구간만 반복적으로 돌면 점수만 계속 획득
사례2 : 로봇 팔이 '공을 집어서 바구니에 넣으면 보상'을 주도록 했더니,
로봇이 공을 바구니 근처에서 떨어뜨리면서 보상이 부분적으로 들어오는 경우를 반복
사례3: 자율주행에서 '빠르게 도착하면 보상'이라는 보상 함수를 설계했더니, 차량이 신호위반/과속/역주행까지 하면서 최대한 빨리 도착하려고 학습
사례4 : 로봇이 '자신의 속도가 높을수록 보상'을 받도록 했더니,
넘어져도 다리 흔들기만 하면서 속도 센서 값만 크게 유지해서 보상을 얻음.
사례5 : '사용자가 클릭하면 보상'을 설계했더니,
시스템이 자극적이고 과장된 콘텐츠(클릭베이스, 가짜뉴스)만 추천
사례6: 언어모델(RLHF)에서 사람이 '좋다'라고 평가하면 보상, '싫다'라고 하면 패널티로 설계했더니,
모델이 무조건 긍정적/아첨하는 말만 하거나 중립적 회피 답변만 반복

★아이와 친밀감을 지속적으로 유지하기 위해 각 시기별로 필요한 부모의 역할 모범 사례 (1)	2025.10.13
뛰어난 사색가(INTP)인 당신의 소통 스킬 개선 훈련 방법 (0)	2025.10.06
Reasons to Pay Attention to and Be Mindful of Advances in Artificial Intelligence Technology (0)	2025.10.02
매우 강한 전략가형(INTJ) 성격 특성을 갖는 개인의 소통 훈련 방법 (0)	2025.09.29
다재다능한 엔터테이너(ESFP)인 개인의 대화 방법과 소통 훈련법 (0)	2025.09.26

250x250

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함