머신 러닝의 공정성
지금까지 이 과정에서는 머신 러닝이 기존 작업의 소중한 시간 절약에서 새로운 기회를 여는 데 이르기까지 어떻게 작업을 향상시킬 수 있는지 살펴보았습니다. 머신 러닝(ML)은 인간을 위해 많은 일들을 할 수 있지만 간과해서는 안 될 문제가 있습니다.
이 도전과제를 해결하기 위해 점점 더 많은 연구원들과 실무자들이 머신 러닝의 "공정성"이라는 주제에 중점을 두고 있습니다. 그 기본 원칙은 머신 러닝(ML)이 우리의 일상을 구성하고 영향을 주는 사회적 범주에 관계없이 누구나 똑 같이 혜택을 누려야 한다는 것입니다.
편향이란 무엇인가요?
머신 러닝을 사용함으로써 발생할 수 있는 부정적인 결과는 어떤 것이 있을까요? 짧게 답하자면 그것은 편향에 대해 살펴보겠습니다.
인간인 우리에게는 누구에게나 편향이 있습니다. 편향은 우리의 뇌가 매일 주어진 정보를 다룰 때 사용하는 수단입니다.
다음 예제를 살펴보겠습니다. 눈을 감고 신발을 머리에 떠올려 보십시오(close your eyes and picture a shoe). 대부분 운동화를 머리에 떠올리셨을 것입니다. 혹은 남성용 가죽 구두일 수도 있습니다. 굽 높은 여성 구두를 떠올렸을 가능성은 낮습니다. 그 이유는 알 수 없겠지만 우리 각자의 생각이 다른 사람들의 생각과 달리 하나의 신발로 편향되어 있습니다.
이제 컴퓨터에게 신발을 인식하도록 가르친다고 상상해 보십시오. 결국은 자신의 편향에 노출되는 선에서 끝날 수 있습니다. 그렇기 때문에 머신 러닝에서도 편향이 일어나는 것입니다. 아무리 의도가 좋아도 편향으로부터 자신을 분리하는 것은 불가능합니다.
편향의 세 가지 유형
우리 자신의 편향이 우리가 만든 기술의 일부가 될 위험이 있는 방법은 많습니다.
상호 작용적 편향
예를 들어, 대부분 운동화 사진이 포함된 데이터 세트를 가지고 신발을 인식하도록 모델을 훈련시킨다면 시스템은 하이힐을 신발로 인식하는 법을 배우지 못할 것입니다.
잠재적 편향
과거의 유명 과학자 사진을 사용하여 과학자가 어떻게 보이는지에 대해 ML 시스템을 훈련시킬 경우 알고리즘은 아마도 과학자를 남성으로만 연관시키는 법을 습득할 것입니다.
선택적 편향
모델에게 얼굴을 인식하는 훈련을 시킨다고 가정해 보겠습니다. 얼굴 인식을 훈련시키는 데 사용하는 데이터가 하나의 모집단을 지나치게 나타낼 경우 시스템은 다른 인종을 희생하는 것이 더 낫다고 판단하여 인종차별적 결과를 낼 수 있습니다.
그렇다면 이러한 편향을 피하려면 어떻게 해야 할까요?
편향을 피하는 올바른 질문 던지기
언론인으로서 편향을 막는 첫 번째 방어선은 우리의 손에 닿는 범위 내에 있습니다. 직업에서 매일 적용하는 바로 그 가치와 윤리적 원칙은 공구함에 추가된 모든 신기술의 공정성을 평가하는 데까지 확장되어야 합니다. 머신 러닝도 예외는 아닙니다.
또한, 모든 경우에 있어서 그 결과가 개인의 경제적 또는 다른 중요한 삶의 기회에 부정적인 영향을 끼칠 수 있는지 고려하는 것부터 시작해야 합니다. 이것은 사용하는 데이터에 실용적인 개인 정보가 포함된 경우에 특히 중요합니다.
불공정한 영향이 즉각적으로 명백히 드러나지는 않지만, 머신 러닝 시스템이 어떻게 편향을 일으킬 수 있는지에 대한 미묘한 사회적, 정치적, 윤리적 질문을 요구하는 경우가 종종 있습니다.
편향의 주요 원인 고려하기
훈련 데이터가 완벽하게 '비편향적'인 것은 아니지만 데이터의 잠재적 편향을 신중히 고려하고 이를 해결하기 위한 조치를 취할 경우 공정한 모델을 구축할 가능성을 대폭 높일 수 있습니다.
편향이 유입되는 가장 큰 이유는 훈련 데이터가 해당 모델이 예측하는 모집단을 정확히 나타내지 않기 때문입니다. 각 관련 그룹에 대해 충분한 데이터가 있어야 합니다.
일부 그룹이 훈련 데이터에서 다른 그룹보다 덜 긍정적으로 표현될 경우 다른 종류의 편향이 나타납니다. 알고리즘을 통해 습득 및 재생될 수 있는 편향이 수반되는지 확인하려면 모델을 훈련시키는 데이터를 사용하기 전에 해당 데이터를 검토하는 것이 좋습니다.
편향 예방: 인식의 시작
편향은 머신 러닝 시스템을 개발하는 과정에서 내려진 결정으로 인해 데이터 세트를 훈련시키고 머신 러닝(ML) 시스템이 실전에 배치되었을 때 발생하는 복잡한 피드백 루프를 통해 여러 가지 방법으로 나타날 수 있습니다.
잠재적 편향을 인식하기 위해 물어볼 수 있는 구체적인 질문은 다음과 같습니다.
- 데이터는 어떤 목적으로 수집되었는가?
- 데이터는 어떻게 수집되었는가?
- 이 데이터 세트와 이 특정 알고리즘을 사용하려는 목적은 무엇인가?
- 데이터 소스는 어떻게 평가되었는가?
- 데이터 분석 프로세스는 분석 전에 어떻게 정의되었는가?
바이어스는 복잡한 문제이며 묘책이 아닙니다. 해결책은 인식에서 비롯되기 때문에 우리 모두가 위험성을 염두에 두고 위험을 최소화하는 올바른 조치를 취해야 합니다.