머신 러닝이 도움이 될 수 있을 때 드는 느낌
머신 러닝이 무엇인지, 그리고 모델을 훈련시키는 다양한 접근법이 무엇인지 더 잘 이해하셨으니 머신 러닝이 일상 업무에서 어떻게 도움이 될지 궁금하실 것입니다. 이 단원은 바로 그 문제를 다룹니다.
이 대화를 Quartz AI Studio보다 더 효과적인 방식으로 잡은 곳은 없을 것입니다. 다음 단락에서는 머신 러닝이 도움이 될 수 있는 경우 여러분이 갖게 될 수 있는 상황과 느낌을 이해하는 데 도움을 드릴 모델을 (허락을 받고) 빌릴 것입니다.
이 모든 문서를 어떻게 읽을 수 있을까요?
언론 관련 영화는 기자들이 창문 없는 방에서 여러 상자 분량의 문서를 읽는 데 수 개월을 보내면서 부패에 대한 큰 사건을 밝히는 조사과정을 미화하려는 경향이 있습니다. 짧은 시간 내에 같은 결과를 얻을 수 있다면 어떨까요?
머신 러닝은 정확히 그렇게 하는 데 도움이 될 수 있기 때문에, 이러한 이유로 전 세계 수사부 기자들이 이미 사용하고 있습니다.
2019년, 국제탐사보도언론인협회(International Consortium of Investigative Journalists, ICIJ)는 루안다 리크스(Luanda Leaks)로 통칭되는 총 70만 건 이상의 유출 문서를 입수했습니다. 이 모든 파일들을 분석하기 위해 ICIJ는 조사 팀이 언론인들에게 유출 캐시에서 자신들이 기대하는 문서의 종류를 찾을 수 있게 하는 머신 러닝 모델을 구축한 Quartz와 협력관계(a id="a3">partnered)를 맺었습니다.
이 텍스트의 독특한 점을 어떻게 알 수 있을까요?
기자가 기사를 다룰 때 직면할 수 있는 또 다른 도전과제는 문서 세트를 유사한 성격의 자료와 비교할 수 있는 능력입니다. 예를 들어, 정치 기자는 한 대통령의 연합 국가 연설을 다른 대통령이 10년 후 발언한 모든 연설과 비교하고 싶어할 수 있습니다.
이것은 머신 러닝이 다루기 어려운 또 다른 도전과제이기 때문에 그럴 수 있습니다.
2017년에 ProPublica는 동시간대에 공표된 모든 의회 보도 자료와 비교하여 미국 의회의 개별 의원 보도 자료를 분석하는 컴퓨터 모델을 사용(used a computer model)했습니다. 이를 통해 기자들은 의회 의원들이 가장 관심을 기울이는 주제가 무엇인지 또는 자신들의 동료들보다 더 많이 대화 내용으로 삼은 주제들을 습득할 수 있었습니다.
매우 많은 이미지를 어떻게 분석할 수 있을까요?
우리가 사는 세상에서는 매일 수십억 장의 사진들이 찍힙니다. 그리고 이것은 기자들이 기사거리를 찾을 수 있는 다량의 영상으로 바뀝니다. 컴퓨터에게 시각 정보 데이터베이스에서 구체적이고 세밀한 부분을 찾으라고 가르치는 방법이 있었다면... 우리는 이 사진들을 어떻게 분류할지 잘 알 것입니다. 머신 러닝에게 맡기면 됩니다.
우크라이나 데이터 언론사인 Texty는 머신 러닝을 우크라이나 전역의 불법 호박 광산을 탐지하는 데 사용했습니다. 서로 다른 알고리즘을 결합한 이들은 위성 영상 세트에서 새로운 예제를 찾을 수 있도록 기존 호박 채굴 예제로 머신 러닝(ML) 시스템을 훈련시켰습니다.
그 결과 기사(resulting story)에는 시청자 누구나 전국의 호박 광산 사진을 확대할 수 있는 온라인 지도가 포함되었습니다.
이와 같은 기록을 더 찾으려면 어떻게 할 수 있을까요?
과거에는 단어와 영상이었지만 지금은 숫자입니다. 컴퓨터가 인간보다 더 잘할 수 있는 많은 것들 중에서, 숫자 데이터를 대량으로 처리하는 것이 있습니다. 분석할 수천여 건의 숫자 레코드가 있는데, 특히 패턴과 유사성을 찾으려고 한다면 머신 러닝이 도움을 줄 수 있는 또 다른 경우를 다루는 것입니다.
BuzzFeed News가 2017년에 은폐된 정찰기(hidden spy planes)를 다룬 기사가 그러한 경우인데, 이것은 보도를 위해 머신 러닝을 적용한 초기 언론 사례 중 하나로서 세간에 화제가 될 정도로 많은 사람들의 입에 오르내리곤 했습니다.
그들은 FBI와 국토 안보부(Department of Homeland Security)가 운영하는 것과 유사한 비행 패턴을 가진 항공기에 대해 "랜덤 포레스트(random forest)" 알고리즘을 컴퓨터에 넣어 정찰기를 찾도록 훈련시켰습니다.
머신 러닝으로 어떤 문제를 해결할 수 있을까요?
호박 광산, 부패 스캔들, 정찰기 및 연합 국가 연설 등입니다. 아시다시피, 머신 러닝은 데이터를 통해 중요한 내용을 찾고 말할 수 있는 능력을 강화함으로써 업무 지원에 상당히 유용할 수 있습니다.
하지만 머신 러닝은 마법이 아니라는 점도 분명히 해야 합니다. 만약 자기 밑에 수 천명의 인턴들이 있다면 인간이 할 수 없으면 머신 러닝도 할 수 없다고 말할 수 있을 것입니다.
머신 러닝이 보도하려는 기사에 도움을 주는 올바른 도구인지 판단하는 것은 여전히 전적으로 여러분의 몫입니다. 그러한 평가가 완료되면 머신 러닝을 통해 감당할 수 없는 양의 많은 정보를 탐색하고 그 결과물과 함께 언론에 힘을 실어줄 수 있습니다.