인공지능을 가르치는 '데이터 라벨링'

반응형

 데이터 라벨링을 검색하다 보면 '마우스 클릭 몇 번으로 천원이 들어온다' '대부분의 아르바이트보다 훨씬 쉽다' '컴퓨터나 스마트폰만 있으면 어느 장소에서나 가능하다' 등의 이야기를 보게 된다. 최근 '데이터 라벨링'이 새로운 부업으로 떠오르고 있다. 취업포털 기업을 대상으로 한 설문조사에 따르면 우리나라 직장인 10명 중 1명은 데이터 라벨링을 이용하여 돈을 벌어 본 경험이 있는 것으로 나타났다. 국내 최대 데이터 라벨링 플랫폼인 클라우드 웍스는 올해 3월 누적 데이터 라벨링 누적 등록자 수가 23만 명을 넘어섰고 지급한 누적 지급액은 45억 원이 넘는다고 밝혔다. 데이터 라벨링을 쉽게 표현하면 인공지능을 가르치는 작업이다. 인간이 인공지능을 가르치기 위한 학습교재를 만들어주는 과정으로 생각하면 쉽게 이해할 수 있다. 인공지능은 개발 과정에서 데이터 학습을 통해 정확도가 높아진다. 데이터 라벨링은 이러한 과정에서 인공지능이 학습할 수 있도록 데이터를 수집, 가공, 분류하는 작업이다. 인공지능에게 강아지가 나온 사진을 보여주며 '이것이 강아지야'라고 알려주고 유사한 사진들을 계속 보여주는 것이다. 이러한 작업들을 반복하면 인공지능이  '강아지'를 인식할 수 있게 된다.

 데이터 라벨링은 작업 방법에 따라 수집과 가공의 두 부분으로 나눌 수 있다. 수집은 말 그대로 소스 데이터를 확보하는 작업이다. 구체적인 사진과 동영상이나 음성을 녹음하여 기업에 제공한다. 업무의 특성상 사진 촬영과 녹화가 필수적이기 때문에 대부분의 작업은 스마트폰을 통해 이루어지며, 수집된 데이터를 보다 정확하게 다듬기 위한 절차가 가공이다. 가공은 데이터의 종류에 따라 이미지 바운딩, 스켈레톤 추출, 지문 문장 요약, 텍스트 태깅 으로 분류한다. 이미지 바운딩은 특정 대상을 상자 안에 그림을 그려 추출하는 작업이다. 추출된 사진 파일을 통해 사람 고유의 감정과 동물이나 사물의 모습을 인공지능에게 학습시키는 데이터가 된다. 스켈레톤 추출은 동영상에 나오는 사람의 형태에 따라 뼈의 모양을 그리는 작업이다. 인간의 행동 패턴을 분석하는 인공지능의 학습 자료로 활용된다. 지문 문장 요약은 음성 데이터를 정확한 문장으로 만드는 과정이다. 쓸데없는 표현을 줄여 단순한 문장으로 줄여가는 것이다. 정제된 음성 데이터는 인공지능의 정확도를 높이는 역할을 한다. 사용자의 말에 따라 행동하는 시리, 빅스비, 알렉사 등의 인공 지능에 적용된다. 텍스트 태깅은 주어진 두 문장을 읽을 때 의미가 같은지 구분하는 작업이다. 이 작업이 끝난 데이터는 채팅 봇이나 번역 엔진의 정확도를 높이기 위해 활용된다. 데이터 라벨링의 폭발적인 성장은 지난해 전 세계를 강타한 신종 코로나바이러스 감염증으로 재택근무 등을 통한 부업의 수요가 크게 늘어난 것이 주요 원인이다. 경제가 어려워지면서 전염병에 대한 우려가 커지자 안전하게 비대면으로 부업을 원하는 사람들이 늘었다. 그래서 다른 사람과 접촉하지 않고도 비대면 방식으로 작업할 수 있는 데이터 라벨링으로 사람들의 관심이 쏠리기 시작했다. 그 덕분에 수요뿐 아니라 일자리 공급도 대폭 증가했다. 신종 코로나바이러스 감염증으로 디지털 전환이 가속화되면서 자율주행, 비대면 의료, 패션, 데이터 등 다양한 산업에서 인공지능을 적용하는 속도가 빨라지기 시작했다. 이러한 상황 속에 시장이 커지면서 많은 기업들이 인공지능의 개발 속도를 올리고 있고, 이에 따라 데이터 가공을 요구하는 기업들도 많아지고 있다. 그로 인해 데이터 라벨링을 위한 일자리가 점차 늘어가고 있다.

 

 업계에서는 신종 코로나바이러스 감염증 유행이 끝난 뒤에도 당분간 데이터 라벨링 인기가 이어질 것으로 보고 있다. 출근을 하지 않아도 어디에서나 업무가 가능하고 인공지능 산업에서 데이터 라벨링은 그 비중이 75% 이상 차지하는 핵심이 되는 단계이기 때문이다. 언어에서는 새로운 단어나 줄임말들이 생겨나는 등 변화가 계속 일어나고 있다. 그것이 데이터 라벨링이 한번의 작업으로 끝나지 않는 이유이다. 그래서 주기적으로 새로운 데이터를 수집, 가공하여 인공지능을 학습 시켜야 한다. 따라서 인공지능 산업이 발달하는 동안에는 데이터 라벨링에 대한 수요는 꾸준히 유지될 것으로 전망하고 있다. 데이터 라벨링을 접해 보았던 사람들은 대부분 생각하는 것만큼 어렵지 않다고 말한다. 수집 업무에서는 예상치 못한 사진을 요구할 수도 있기 때문에 어떤 사진이든지 두려움이 없이 찍을 수 있다면 수집 업무가 잘 맞을것이다. 가공업무는 우리가 생각하는 것보다 훨씬 더 정확함을 요구하기 때문에 오히려 빈틈없고 꼼꼼한 사람들에게 잘 맞을 것이다.

반응형

댓글

Designed by JB FACTORY