머신 러닝을 사용한 스토리 조사
보도에 머신 러닝을 사용할 수 있는 방법
언론인을 위한 머신 러닝: 사례 연구
2010년에 세계 시장에서 호박 가격이 급등하기 시작했습니다. 높은 수요로 인해 호박이 풍부한 우크라이나 북서부 일부 지역이 다음 여러 해 동안 외국 및 현지의 관심을 끌었고, 불법 “호박 러시”, 새로운 “개척기의 거친 서부 풍경”의 장이 되었습니다.
수백 헥타르의 숲과 농지가 생명이 없는 달과 같은 풍경으로 바뀌었는데, 채굴 활동은 2014년과 2016년 사이에 가장 활발했으며 이후에도 여러 해에 걸쳐 지속되었습니다.
한센병을 앓는 땅, Texty 조사
2018년에 우크라이나 데이터 언론사인 Texty는 한센병을 앓는 땅을 게재했습니다. 머신 러닝 기술을 사용해 우크라이나 전역의 불법 호박 광산을 조사한 내용이었습니다.
먼저, 하나의 알고리즘이 위성 이미지의 섹션을 시각적으로 균등한 하위 섹션으로 분할했습니다. 따라서 어떤 이미지의 절반이 녹색의 숲이고 절반은 황무지라면, 그 이미지를 두 개의 하위 섹션으로 분할합니다.
또 다른 알고리즘은 어떤 하위 섹션이 기존의 호박 채굴 사례와 가장 유사한지를 찾아냈습니다. 기존의 호박 채굴 현장은 땅에 얽은 자국 같은 작은 구멍 패턴이 뚜렷합니다.
마지막으로, 언론인들은 알고리즘이 발견한 예를 조사하여 호박 채굴처럼 보이는 현장이 실제로는 삼림 벌채와 같은 다른 현장은 아닌지 확인했습니다.
불법 호박 채굴 사례 찾기
이 과정에서는 알고리즘을 훈련시켜 다른 알고리즘이 미리 하위 섹션으로 나누어 둔 방대한 양의 위성 이미지에서 불법 호박 채굴의 시각적 예를 인식하도록 Texty가 사용한 방법에 중점을 둡니다.
첫 번째 단원에서 언급했듯이, 이는 지도 학습 실험을 한다는 의미입니다. 알고리즘이 어떻게 레이블이 있는 예를 학습하여 이전에 본 적 없는 이미지에서도 동일한 패턴을 인식하는지 배우게 됩니다.
또한 필요한 예를 찾는 것부터 찾는 대상을 인식하도록 머신 러닝 모델을 훈련시키는 것, 그런 뒤에 모델을 테스트하고 평가하여 신뢰할 수 있는 결과를 산출하도록 확인하는 것에 이르기까지, 나만의 스토리를 위해 프로세스를 되풀이하는 법을 배웁니다.
머신 러닝(ML)은 이 문제에 적합한 도구일까요?
그런데 Texty가 찾으려는 정보를 찾는 데 머신 러닝이 적합한 도구였던 이유는 무엇일까요?
종래의 프로그래밍은 따라야 할 단계별 지침을 컴퓨터에게 구체적으로 지정해 주어야 합니다. 이러한 접근 방식은 다양한 문제를 해결하는 데 효과적이지만, 방대한 양의 위성 이미지에서 불법 호박 채굴의 예를 인식해 내는 작업에는 맞지 않습니다. 컴퓨터가 고려해야 할 시각적 요소가 너무 많기 때문에, 소프트웨어가 불법 호박 채굴의 실제 예와 그와 비슷해 보이는 예를 구분하도록 가르칠 단계별 규칙 세트를 만들기가 불가능합니다.
다행히 머신 러닝 시스템은 이 문제를 해결하기 유리한 위치에 있습니다.
프로세스에 초점 맞추기
이 과정에서 배우는 내용인 불법 호박 채굴 현장을 발견하는 방법은 단지 하나의 예에 불과합니다. 동일한 프로세스에 따라 머신 러닝은 여러 가지 언론 작업을 수행하는 데 사용할 수 있으며, 이미지뿐 아니라 다양한 유형의 콘텐츠를 분석하는 데도 적용할 수 있습니다. 과정 마지막에서 몇 가지 다른 사용 사례를 검토할 예정입니다. 연습을 진행하는 동안 특정 사례 연구보다 프로세스에 중점을 두어야 합니다.
실제 연습을 시작하기 전에, 몇 분의 시간을 할애하여 다음 단원에서 사용할 도구를 만나고 설정할 필요가 있습니다. Google Cloud AutoML Vision입니다.