![4.6.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.6.original.jpg)
머신 러닝이 도움이 될 수 있을 때 드는 느낌
![4.1.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.1.original.jpg)
머신 러닝이 무엇인지, 그리고 모델을 훈련시키는 다양한 접근법이 무엇인지 더 잘 이해하셨으니 머신 러닝이 일상 업무에서 어떻게 도움이 될지 궁금하실 것입니다. 이 단원은 바로 그 문제를 다룹니다.
이 대화를 Quartz AI Studio보다 더 효과적인 방식으로 잡은 곳은 없을 것입니다. 다음 단락에서는 머신 러닝이 도움이 될 수 있는 경우 여러분이 갖게 될 수 있는 상황과 느낌을 이해하는 데 도움을 드릴 모델을 (허락을 받고) 빌릴 것입니다.
![4.1.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.1.original.jpg)
이 모든 문서를 어떻게 읽을 수 있을까요?
![4.2.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.2.original.jpg)
언론 관련 영화는 기자들이 창문 없는 방에서 여러 상자 분량의 문서를 읽는 데 수 개월을 보내면서 부패에 대한 큰 사건을 밝히는 조사과정을 미화하려는 경향이 있습니다. 짧은 시간 내에 같은 결과를 얻을 수 있다면 어떨까요?
머신 러닝은 정확히 그렇게 하는 데 도움이 될 수 있기 때문에, 이러한 이유로 전 세계 수사부 기자들이 이미 사용하고 있습니다.
2019년, 국제탐사보도언론인협회(International Consortium of Investigative Journalists, ICIJ)는 루안다 리크스(Luanda Leaks)로 통칭되는 총 70만 건 이상의 유출 문서를 입수했습니다. 이 모든 파일들을 분석하기 위해 ICIJ는 조사 팀이 언론인들에게 유출 캐시에서 자신들이 기대하는 문서의 종류를 찾을 수 있게 하는 머신 러닝 모델을 구축한 Quartz와 협력관계(a id="a3">partnered)를 맺었습니다.
![4.2.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.2.original.jpg)
이 텍스트의 독특한 점을 어떻게 알 수 있을까요?
![4.3.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.3.original.jpg)
기자가 기사를 다룰 때 직면할 수 있는 또 다른 도전과제는 문서 세트를 유사한 성격의 자료와 비교할 수 있는 능력입니다. 예를 들어, 정치 기자는 한 대통령의 연합 국가 연설을 다른 대통령이 10년 후 발언한 모든 연설과 비교하고 싶어할 수 있습니다.
이것은 머신 러닝이 다루기 어려운 또 다른 도전과제이기 때문에 그럴 수 있습니다.
2017년에 ProPublica는 동시간대에 공표된 모든 의회 보도 자료와 비교하여 미국 의회의 개별 의원 보도 자료를 분석하는 컴퓨터 모델을 사용(used a computer model)했습니다. 이를 통해 기자들은 의회 의원들이 가장 관심을 기울이는 주제가 무엇인지 또는 자신들의 동료들보다 더 많이 대화 내용으로 삼은 주제들을 습득할 수 있었습니다.
![4.3.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.3.original.jpg)
매우 많은 이미지를 어떻게 분석할 수 있을까요?
![4.4.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.4.original.jpg)
우리가 사는 세상에서는 매일 수십억 장의 사진들이 찍힙니다. 그리고 이것은 기자들이 기사거리를 찾을 수 있는 다량의 영상으로 바뀝니다. 컴퓨터에게 시각 정보 데이터베이스에서 구체적이고 세밀한 부분을 찾으라고 가르치는 방법이 있었다면... 우리는 이 사진들을 어떻게 분류할지 잘 알 것입니다. 머신 러닝에게 맡기면 됩니다.
우크라이나 데이터 언론사인 Texty는 머신 러닝을 우크라이나 전역의 불법 호박 광산을 탐지하는 데 사용했습니다. 서로 다른 알고리즘을 결합한 이들은 위성 영상 세트에서 새로운 예제를 찾을 수 있도록 기존 호박 채굴 예제로 머신 러닝(ML) 시스템을 훈련시켰습니다.
그 결과 기사(resulting story)에는 시청자 누구나 전국의 호박 광산 사진을 확대할 수 있는 온라인 지도가 포함되었습니다.
![4.4.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.4.original.jpg)
이와 같은 기록을 더 찾으려면 어떻게 할 수 있을까요?
![4.5.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.5.original.jpg)
과거에는 단어와 영상이었지만 지금은 숫자입니다. 컴퓨터가 인간보다 더 잘할 수 있는 많은 것들 중에서, 숫자 데이터를 대량으로 처리하는 것이 있습니다. 분석할 수천여 건의 숫자 레코드가 있는데, 특히 패턴과 유사성을 찾으려고 한다면 머신 러닝이 도움을 줄 수 있는 또 다른 경우를 다루는 것입니다.
BuzzFeed News가 2017년에 은폐된 정찰기(hidden spy planes)를 다룬 기사가 그러한 경우인데, 이것은 보도를 위해 머신 러닝을 적용한 초기 언론 사례 중 하나로서 세간에 화제가 될 정도로 많은 사람들의 입에 오르내리곤 했습니다.
그들은 FBI와 국토 안보부(Department of Homeland Security)가 운영하는 것과 유사한 비행 패턴을 가진 항공기에 대해 "랜덤 포레스트(random forest)" 알고리즘을 컴퓨터에 넣어 정찰기를 찾도록 훈련시켰습니다.
![4.5.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.5.original.jpg)
머신 러닝으로 어떤 문제를 해결할 수 있을까요?
![4.6_ZyBnwc2.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.6_ZyBnwc2.original.jpg)
호박 광산, 부패 스캔들, 정찰기 및 연합 국가 연설 등입니다. 아시다시피, 머신 러닝은 데이터를 통해 중요한 내용을 찾고 말할 수 있는 능력을 강화함으로써 업무 지원에 상당히 유용할 수 있습니다.
하지만 머신 러닝은 마법이 아니라는 점도 분명히 해야 합니다. 만약 자기 밑에 수 천명의 인턴들이 있다면 인간이 할 수 없으면 머신 러닝도 할 수 없다고 말할 수 있을 것입니다.
머신 러닝이 보도하려는 기사에 도움을 주는 올바른 도구인지 판단하는 것은 여전히 전적으로 여러분의 몫입니다. 그러한 평가가 완료되면 머신 러닝을 통해 감당할 수 없는 양의 많은 정보를 탐색하고 그 결과물과 함께 언론에 힘을 실어줄 수 있습니다.
![4.6_ZyBnwc2.jpg](https://storage.googleapis.com/media-newsinitiative/images/4.6_ZyBnwc2.original.jpg)