TensorFlow API를 이용한 머신러닝 단기집중과정 - D. Sculley
본격적으로 시작하기 전에 잠시 시간을 내어 이 강의에서 이야기할 기본 프레임워크를 다시 떠올려 보겠습니다.
그리고 그 기본 프레임워크는 지도 머신러닝입니다.
지도 머신러닝(supervised machine learning)에서는
입력을 결합하여 모델을 만들고 이전에 보지 못한 데이터도 적절히 예측하는 방법을 배웁니다.
이제 해당 모델을 학습시킬 때 라벨(label)을 제공합니다.
예를 들어 이메일 스팸 필터링의 경우 그 라벨은 '스팸 또는 스팸 아님' 정도가 될 수 있겠죠.
이것이 우리가 예측하려는 타겟입니다.
특성(feature)은 데이터를 표현하는 방식입니다.
따라서 특성은 예를 들면 이메일에 포함된 단어, 발신 및 수신 주소, 다양한 라우팅 또는 헤더 정보와 같이 해당 이메일에서 추출할 수 있는 어떤 정보든 가져와서 머신러닝 시스템에 나타낼 수 있습니다.
예를 들면 데이터 한 개나 이메일 한 개가 될 수 있습니다.
그 이메일은 ① 특성정보와 + '스팸 또는 스팸 아님'과 같은 라벨값을 모두 가진 ② 라벨이 있는 예가 될 수 있습니다.
이는 사용자가 Google에 제공한 것일 수도 있죠.
하지만 특성 정보는 있지만 아직 스팸인지 아닌지 알 수 없는 이메일과 같이 라벨이 없는 예가 있을 수도 있습니다.
그러면 우리는 이를 분류해서 사용자의 받은편지함이나 스팸 폴더에 넣게 될 겁니다.
마지막으로 한 가지 모델이 있는데 바로 예측을 하는 모델입니다.
이 모델은 데이터를 통한 학습 과정에서 만들어 볼 겁니다.