데이터 준비
사용 사례 평가, 데이터 소싱 및 준비
훈련 데이터란?
Google Cloud 계정을 제대로 설정했으면 이제 연습을 해볼 준비가 된 것입니다. 이 단원에서는 훈련 데이터를 수집하는 동안 해야 할 질문과 AutoML Vision에서 사용할 수 있도록 이러한 데이터를 준비하는 방법을 알아봅니다.
여기서 훈련 데이터는 머신 러닝(ML) 모델이 인식하고 분류할 수 있기를 바라는 예를 뜻합니다. 이 경우에는 일련의 위성 이미지를 제공하고 호박 채굴 사례인 것과 아닌 것을 알고리즘에게 알려주는 것을 의미합니다.
사용 사례로 시작해 보기
데이터 세트를 모으는 동안, ML에게 해결을 요청하는 문제에서부터 항상 시작하십시오. 다음 질문을 고려해 봅니다.
- 달성하고자 하는 결과는 무엇입니까?
- 이러한 결과를 달성하려면 어떤 종류의 카테고리를 인식해야 할까요?
- 이러한 카테고리를 사람이 인식하는 것이 가능할까요? AutoML Vision은 사람이 처리하는 양보다 더 많은 이미지와 카테고리를 처리할 수 있지만, 사람이 특정 카테고리를 인식하지 못한다면 AutoML Vision역시 작업에 어려움을 겪습니다.
- 어떤 종류의 예가 시스템이 분류하는 데이터의 유형 및 범위를 가장 잘 반영할까요?
작업 중인 스토리에 대해 생각해 봅니다. 이러한 질문에 대한 답은 스토리 접근 방식과 머신 러닝의 필요성 유무를 어떻게 바꾸어 놓습니까?
사용 사례 평가
이 경우 답변은 다음과 같을 수 있습니다.
- 모델이 우리가 보여줄 위성 이미지에서 호박 채굴 사례를 인식 가능하도록 하고자 합니다.
- 필요한 것은 다음 두 가지 카테고리뿐입니다. “예: 이 이미지에는 일반적으로 호박 채굴 활동을 나타내는 패턴과 일치하는 요소가 포함되어 있습니다”와 “아니요: 이 이미지에는 호박 채굴을 암시하는 요소가 포함되어 있지 않습니다”입니다.
- 대부분은 “예”입니다. 호박 채굴의 경우는 위성 이미지에서 알아보기가 상당히 쉽습니다. 땅에 얽은 자국 같은 작은 구멍 패턴이 뚜렷하기 때문입니다. 그러나 그 작업이 생각만큼 쉽지 않을 수 있다는 사실을 테스트 단계에서 알게 될 것입니다.
- 배경도 다 다르고, 구멍 밀도도 다르고, 색상도 다릅니다. 데이터 세트의 예가 다양할수록 알고리즘은 더 잘 학습하게 됩니다.
데이터 소싱
필요한 데이터를 설정하고 나면 다음 단계는 이를 소싱할 방법을 찾는 것입니다. 이 경우, Texty에서 제공한 데이트 세트가 이미 있습니다. 그러나 본인의 사용 사례가 무엇이 될 것인지를 생각해 보십시오. 필요한 이미지를 어디에서 어떻게 찾을 수 있을까요?
소속 조직에서 수집한 내용이나 제3자가 제공한 내용으로부터 소싱할 수도 있습니다. 두 경우 모두 해당 지역 및 애플리케이션이 담당하게 될 위치에서 데이터 보호에 대한 규정을 반드시 검토해야 합니다.
훈련 데이터가 완벽하게 “비편향적”인 것은 아니지만, 데이터의 잠재적 편향을 신중히 고려하고 이를 해결하기 위한 조치를 취할 경우 “공정”한 ML 모델을 구축할 가능성을 높일 수 있습니다. 머신 러닝 개론을 검토하여 자세한 내용을 알아보세요.
데이터 준비
훈련 데이터를 모을 때는 다음과 같은 몇 가지 사항을 추가로 염두에 두어야 합니다.
레이블이 있는 예를 카테고리별로 충분히 포함합니다. AutoML Vision에 필요한 최소값은 레이블 당 예 100개입니다. 일반적으로, 레이블이 있는 이미지를 훈련 프로세스에 많이 가져올수록 모델은 더욱 좋아집니다.
각 카테고리에 포함된 훈련 예제의 분량이 엇비슷하도록 하는 것이 중요합니다. 한 레이블에 대한 데이터가 유난히 많다면, 카테고리별로 사용하는 예제의 양이 크게 차이 나지 않도록 일부만 사용합니다.
모델에게 분류를 요청하려는 것과 시각적으로 유사한 이미지를 찾습니다. 훈련 예제는 모델을 사용해 분류하려는 동일한 데이터 세트에서 가져온 실제 데이터인 것이 이상적입니다.