티스토리 뷰
Innovation&Hurdles/BiliChild(빌리칠드)
인공지능 서비스 개발 시 보상 설계를 잘못하면 벌어지는 일 [인공지능 기술]
inhae 2025. 10. 4. 04:00[기초 개념]
인공지능과 관련된 기술 중에서 '강화학습(Reinforcement Learning)'이 있다.
강화학습은 행동심리학에서 영감을 얻어 개발됐으며, 어떤 환경 안에서 정의된 에이전트가 현재 상태를 인식하여, 선택가능한 행동들 중에서 '보상'을 최대화하는 행동 또는 행동 순서를 선택하는 방법이다.[위키백과]
2016년에 3월에 이세돌과 바둑 대결을 벌였던 알파고가 학습했던 방식이다.
바둑의 예를 들자면,
- 게임에서 점수를 획득하면 +점수를 보상하고, 게임에서 점수를 잃으면 -점수를 보상한다.
- 이 방식은 과거 기록(데이터)을 이용하여 학습한다.
다른 예로써 로봇팔의 예를 들자면,
- 목표물에 근접할수록 음의 오차를 감소시켜 보상하고,
- 목표물을 잡으면 큰 보상(+100)을 준다.
- 목표물과 충돌하면 패널티(-10)을 준다.
- 이 방식의 경우 테스트 현장에서 실질적으로 학습이 가능하다.
[개념 확장]
우리가 아이들에게 '이번 시험에 몇 점 이상 받으면' 또는 '반에서 몇 등 이상 하면' 등의 방식으로 아이들을 교육(훈련)시키는 것과 같은 개념이라고 할 수 있다.
그런데 이런 학습은 이제 인공지능이 더 잘한다.
인간인 우리 아이들에게 더 이상 이런 식으로 학습시키지 말자!
[잘못된 보상 설계로 인한 부작용]
* 다시 한 번 말하지만, (인간은 정확히 예측할 수 없을 뿐만 아니라 중단하거나 되돌릴 수 없으므로) 우리 아이를 위한 보상 설계 따위는 하지 말자!
- 사례1 : 보트 레이싱(River Raid) 게임에서 에이전트가 '결승점에 빨리 가기'보다 점수를 더 많이 받는 방법을 찾아내서,
코스 완주 대신 특정 구간만 반복적으로 돌면 점수만 계속 획득 - 사례2 : 로봇 팔이 '공을 집어서 바구니에 넣으면 보상'을 주도록 했더니,
로봇이 공을 바구니 근처에서 떨어뜨리면서 보상이 부분적으로 들어오는 경우를 반복 - 사례3: 자율주행에서 '빠르게 도착하면 보상'이라는 보상 함수를 설계했더니, 차량이 신호위반/과속/역주행까지 하면서 최대한 빨리 도착하려고 학습
- 사례4 : 로봇이 '자신의 속도가 높을수록 보상'을 받도록 했더니,
넘어져도 다리 흔들기만 하면서 속도 센서 값만 크게 유지해서 보상을 얻음. - 사례5 : '사용자가 클릭하면 보상'을 설계했더니,
시스템이 자극적이고 과장된 콘텐츠(클릭베이스, 가짜뉴스)만 추천 - 사례6: 언어모델(RLHF)에서 사람이 '좋다'라고 평가하면 보상, '싫다'라고 하면 패널티로 설계했더니,
모델이 무조건 긍정적/아첨하는 말만 하거나 중립적 회피 답변만 반복

[용어]
- 에이전트 : 인공지능이 학습할 수 있도록 도와주는 도구(소프트웨어)
- RLHF :인간의 피드백을 이용하는 강화학습(Reinforcement Learning from Human Feedback)
반응형
'Innovation&Hurdles > BiliChild(빌리칠드)' 카테고리의 다른 글
| ★아이와 친밀감을 지속적으로 유지하기 위해 각 시기별로 필요한 부모의 역할 모범 사례 (0) | 2025.10.13 |
|---|---|
| 뛰어난 사색가(INTP)인 당신의 소통 스킬 개선 훈련 방법 (0) | 2025.10.06 |
| Reasons to Pay Attention to and Be Mindful of Advances in Artificial Intelligence Technology (0) | 2025.10.02 |
| 매우 강한 전략가형(INTJ) 성격 특성을 갖는 개인의 소통 훈련 방법 (0) | 2025.09.29 |
| 다재다능한 엔터테이너(ESFP)인 개인의 대화 방법과 소통 훈련법 (0) | 2025.09.26 |
반응형
250x250
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 혁신
- Innovations&Hurdles
- BiliChild
- 전압
- ServantClock
- Video
- Decorator
- 아두이노
- 치매방지
- 배프
- 치매
- BSC
- arduino
- 심심풀이
- 전류
- 허들
- 절연형
- DYOV
- 둎
- 혁신과허들
- 오블완
- 빌리칠드
- 심심풀이치매방지기
- Innovation&Hurdles
- image
- 빌리언트
- Innovations
- 티스토리챌린지
- bilient
- Hurdles
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
글 보관함

