인공지능(특히 딥러닝)에서 데이터의 문제점 또는 한계

tothebeyond 2026. 5. 8. 05:30

항목	세부 내용	비고
데이터 편향	ü성별 편향(남성 이력서만 학습), 인종 편향(백인 위주 학습), 지역 편향(미국 도로 학습), 언어 편향(영어권 주로 학습) ü나머지 데이터에 대한 정확도 저하 또는 차별(면접 등)적인 의사결정 우려	•
데이터 부족	ü특정 도메인(예, 희귀 질병 의료 데이터) ü충분한 학습이 이뤄지지 않아 정화도 저하 또는 과적합 위험 증대	•
데이터 품질 문제	ü오류, 불일치, 누락, 중복, 부정확한 레이블링 등 ü오작동 또는 부정확한 결과	•
비표준 데이터	ü일관되지 않는 형식이나 단위, 구조를 가진 데이터 집합 ü동일한 내용이 다른 형식으로 제출된 경우 ü데이터 전처리에 시간/비용 과다, 오류 발생 가능성 증대	•
개인정보 및 보안	ü프라이버시 침해 : 개인식별정보가 포함된 데이터를 무단 사용 또는 유출 ü정보 유출 위험 : 학습된 모델 자체를 역분석하여 학습데이터에 포함된 민감 정보 추출 ü데이터 조작 : 악의적인 공격자가 학습 데이터를 고의로 오염	•
데이터 업데이트 및 유지보수	ü시간 또는 환경 변화에 따른 업데이트 및 유지보수 필요 ü즉, 지속적인 시간 및 비용 투입 필요	•
데이터의 해석(설명) 가능성 부족	ü데이터 자체가 복잡하거나 비정형적인 경우, AI 모델이 도달한 결론을 사람이 이해하기 어려운 경우가 발생함.	•