주요 콘텐츠로 이동
대시보드로 이동
어떻게 시작해야 할지 막막하세요? 짧은 퀴즈를 풀어보세요. 맞춤 추천이 제공됩니다.
강의 7개 중 4번째
데이터 준비
Hands-on Machine Learning
머신 러닝이란 무엇인가요?
머신 러닝을 사용한 스토리 조사
Google Cloud AutoML Vision
데이터 준비
머신 러닝 모델 훈련
평가 및 테스트
check_box_outline_blank Hands-on Machine Learning: Take the Quiz
코스
0% 완료됨
5분 완료를 위해

데이터 준비

image12_3.png
사용 사례 평가, 데이터 소싱 및 준비
image12_3.png

훈련 데이터란?

image12_3_zA6aI42.png

Google Cloud 계정을 제대로 설정했으면 이제 연습을 해볼 준비가 된 것입니다. 이 단원에서는 훈련 데이터를 수집하는 동안 해야 할 질문과 AutoML Vision에서 사용할 수 있도록 이러한 데이터를 준비하는 방법을 알아봅니다.



여기서 훈련 데이터는 머신 러닝(ML) 모델이 인식하고 분류할 수 있기를 바라는 예를 뜻합니다. 이 경우에는 일련의 위성 이미지를 제공하고 호박 채굴 사례인 것과 아닌 것을 알고리즘에게 알려주는 것을 의미합니다.


image12_3_zA6aI42.png

사용 사례로 시작해 보기

image40_2.png

데이터 세트를 모으는 동안, ML에게 해결을 요청하는 문제에서부터 항상 시작하십시오. 다음 질문을 고려해 봅니다.



  1. 달성하고자 하는 결과는 무엇입니까?
  2. 이러한 결과를 달성하려면 어떤 종류의 카테고리를 인식해야 할까요?
  3. 이러한 카테고리를 사람이 인식하는 것이 가능할까요? AutoML Vision은 사람이 처리하는 양보다 더 많은 이미지와 카테고리를 처리할 수 있지만, 사람이 특정 카테고리를 인식하지 못한다면 AutoML Vision역시 작업에 어려움을 겪습니다.
  4. 어떤 종류의 예가 시스템이 분류하는 데이터의 유형 및 범위를 가장 잘 반영할까요?



작업 중인 스토리에 대해 생각해 봅니다. 이러한 질문에 대한 답은 스토리 접근 방식과 머신 러닝의 필요성 유무를 어떻게 바꾸어 놓습니까?


image40_2.png

사용 사례 평가

image5_3.png

이 경우 답변은 다음과 같을 수 있습니다.



  1. 모델이 우리가 보여줄 위성 이미지에서 호박 채굴 사례를 인식 가능하도록 하고자 합니다.
  2. 필요한 것은 다음 두 가지 카테고리뿐입니다. “예: 이 이미지에는 일반적으로 호박 채굴 활동을 나타내는 패턴과 일치하는 요소가 포함되어 있습니다”와 “아니요: 이 이미지에는 호박 채굴을 암시하는 요소가 포함되어 있지 않습니다”입니다.
  3. 대부분은 “예”입니다. 호박 채굴의 경우는 위성 이미지에서 알아보기가 상당히 쉽습니다. 땅에 얽은 자국 같은 작은 구멍 패턴이 뚜렷하기 때문입니다. 그러나 그 작업이 생각만큼 쉽지 않을 수 있다는 사실을 테스트 단계에서 알게 될 것입니다.
  4. 배경도 다 다르고, 구멍 밀도도 다르고, 색상도 다릅니다. 데이터 세트의 예가 다양할수록 알고리즘은 더 잘 학습하게 됩니다.
image5_3.png

데이터 소싱

image17_3.png

필요한 데이터를 설정하고 나면 다음 단계는 이를 소싱할 방법을 찾는 것입니다. 이 경우, Texty에서 제공한 데이트 세트가 이미 있습니다. 그러나 본인의 사용 사례가 무엇이 될 것인지를 생각해 보십시오. 필요한 이미지를 어디에서 어떻게 찾을 수 있을까요?



소속 조직에서 수집한 내용이나 제3자가 제공한 내용으로부터 소싱할 수도 있습니다. 두 경우 모두 해당 지역 및 애플리케이션이 담당하게 될 위치에서 데이터 보호에 대한 규정을 반드시 검토해야 합니다.


훈련 데이터가 완벽하게 “비편향적”인 것은 아니지만, 데이터의 잠재적 편향을 신중히 고려하고 이를 해결하기 위한 조치를 취할 경우 “공정”한 ML 모델을 구축할 가능성을 높일 수 있습니다. 머신 러닝 개론을 검토하여 자세한 내용을 알아보세요.

image17_3.png

데이터 준비

image50_2.png

훈련 데이터를 모을 때는 다음과 같은 몇 가지 사항을 추가로 염두에 두어야 합니다.



레이블이 있는 예를 카테고리별로 충분히 포함합니다. AutoML Vision에 필요한 최소값은 레이블 당 예 100개입니다. 일반적으로, 레이블이 있는 이미지를 훈련 프로세스에 많이 가져올수록 모델은 더욱 좋아집니다.



각 카테고리에 포함된 훈련 예제의 분량이 엇비슷하도록 하는 것이 중요합니다. 한 레이블에 대한 데이터가 유난히 많다면, 카테고리별로 사용하는 예제의 양이 크게 차이 나지 않도록 일부만 사용합니다.



모델에게 분류를 요청하려는 것과 시각적으로 유사한 이미지를 찾습니다. 훈련 예제는 모델을 사용해 분류하려는 동일한 데이터 세트에서 가져온 실제 데이터인 것이 이상적입니다.


image50_2.png
축하합니다. 수강을 완료하셨습니다 데이터 준비 in progress
Recommended for you
이 강의가 얼마나 만족스러우셨나요?
의견을 보내주시면 Google 뉴스 이니셔티브 강의를 지속적으로 개선하는 데 도움이 됩니다.
Leave and lose progress?
By leaving this page you will lose all progress on your current lesson. Are you sure you want to continue and lose your progress?