본문 바로가기

인공지능/이론

지도학습 vs 비지도학습

머신러닝(기계학습)에는 지도학습과 비지도학습이 있는데 현재 연구결과나 산업에서 많이 활용되어지고 있는 학습은 지도학습이다. 비지도학습은 지도학습에 비해 마이너하긴하지만 산업적가치와 실현가능성 측면에서 잠재력이 매우 뛰어나 반드시 번창하게 될 분야이다.


[지도학습]

지도학습은 특징들과 정답이 있어야한다. 특징은 feature라고 부르며 정답은 label이라 부른다.
오토바이 사진을 보여주면 기계는 바퀴 수, 배기구 위치, 핸들 모양, 안장 모양 등의 특징(feature)들을 파악할텐데 여기에 그 사진이 오토바이라는 정답(label)을 함께 제공한다. 정답을 통하여 올바르게 예측할 수 있게끔 지도해간다는 뜻에서 지도학습이라 부르는데, 이렇게 여러번 반복하여 지도학습시켜주면 점점 올바르게 예측할 확률이 올라가게 된다. 그리고 언젠가는 자전거를 더이상 오토바이라 주장하지 않게되는 것이다.

그렇다고해서 무작정 많이 학습시키는 것만이 능사는 아니다. 기계를 학습시키는데 들어가는 자료는 한정적일텐데 그 자료의 양에 비해 학습량이 너무 과할 경우 기계는 온갖 편견들로 무장해버리게 된다. 예를 들어 일반적인 오토바이 사진들로만 구성되어있는 데이터셋을 엄청나게 학습해댄 기계에게 손잡이를 만세하듯 손을 뻗어 잡아야만하는 폭주족 오토바이 사진들을 보여주면 그건 오토바이가 아니라고 그 확고한 입장을 굽히지 않는다. 자기경험에만 과도하게 매몰되어 선입관이 너무 강해진 나머지 학습량이 적은 다른 기계들보다도 새로운 데이터셋에 대하여선 오히려 저조한 예측률을 보이게 된다. 분명 동일한 데이터에 동일한 방식으로... 더 많이! 훈련했음에도 말이다. 수 없이 학습하고 훈련해온 자신의 경험에서는 100점짜리 기준을 확립했을지언정 그것이 세상의 기준은 아님을 모르는 것이다. 이러한 현상을 전문용어로 과대적합이라 부른다.

반대로 학습량이 너무 적을 경우 트럭을 보고 오토바이라 주장하는 용납할 수 없을만한 수준의 엉뚱함을 굉장히 자주보이게 되는데 이것을 과소적합이라 부른다. 따라서 과대적합이나 과소적합이 일어나지 않게끔, 학습시키는 데이터의 양이나 다양성을 고려하여 적절히 학습시키는 것이 중요하다.


[비지도학습]

반면 비지도학습은 feature들만 필요하고 label은 필요없다. 기계에게 여러가지 탈것들에 대한 사진들을 주게되면 자신을 지도해줄만한 정답지가 따로 없더라도 비슷해보이는 것들끼리 그룹을 지어서 뭉쳐놓는 행위정도는 할 수 있을 것이다. 자신이 특징들을 학습하고 분류하여 모아가는 그것들이 무엇인지는 모르더라도 말이다. 학습이 충분히 무르익으면 새로운 데이터가 입력될 경우 모아놓은 그룹들 중 어느 그룹에 속할만한 데이터일지도 정확하게 판별할 수 있을 것이다. 역시나 그게 뭔지는 몰라도 말이다. 또한 후에 사람이 직접 눈으로 보고하든 어떤 자동화된 방식으로하든 기계가 모아놓은(혹은 모아가는) 그룹 중 하나에다 오토바이라는 이름표를 붙여줄 수도 있을 것이다. 그리고 누군가가 오토바이에 대한 이미지를 요구한다면 오토바이라 이름 붙여진 그룹의 사진들을 제공해 줄 수 있을 것이다.

'인공지능 > 이론' 카테고리의 다른 글

Gradient Descent 공식 유도  (0) 2020.02.10
인공지능, 머신러닝, 딥러닝  (0) 2020.02.10