Computer Vision — Lumo glossary

쉬운 설명

사람은 사진 한 장을 보고 0.1초 만에 '강아지가 잔디밭에서 공을 물고 있다'고 이해합니다. 컴퓨터에는 그 사진이 단지 가로 1024 × 세로 768개의 숫자 격자일 뿐입니다. 컴퓨터 비전은 그 숫자 격자에서 의미 있는 것을 끌어내는 기술입니다.

주요 작업은 크게 다섯 가지입니다. 분류(이 사진은 강아지인가 고양이인가), 검출(사진 어디에 어떤 물체가 있는가), 분할(픽셀 단위로 강아지 모양을 잘라 내기), 추적(영상에서 같은 사람을 프레임마다 따라가기), 인식(이 얼굴은 누구인가). 거의 모든 작업이 신경망 — 한동안은 CNN, 최근에는 비전 트랜스포머(ViT) — 위에서 돌아갑니다.

왜 갑자기 잘하게 됐나 하면 두 가지가 맞아떨어졌습니다. ① 학습 데이터가 풍부해진 것(스마트폰 사진·웹 이미지가 폭증). ② GPU와 딥러닝 알고리즘이 큰 모델을 감당할 만큼 강해진 것. 2012년 ImageNet 대회에서 딥러닝이 기존 방법을 압도한 사건이 컴퓨터 비전 폭발의 시작이었습니다.

실생활에선 카메라·휴대폰·자동차·공장 곳곳에 들어가 있습니다. 얼굴 잠금 해제, 자율주행의 차선·보행자 인식, 의료 영상의 보조 진단, 농업의 작물 상태 점검, 영수증·신분증의 글자 인식(OCR)이 모두 같은 우산 아래의 응용입니다. 최근에는 텍스트와 함께 다루는 멀티모달 모델이 등장해 '이미지를 보고 글로 답하기'가 가능해졌습니다.

약점도 분명합니다. 학습 데이터에 없는 상황(어두운 야간, 비 오는 도로, 비스듬한 각도, 새로운 인종·복장)에 약합니다. 또 사람 얼굴이나 행동을 다루는 경우 프라이버시·차별 같은 사회적 이슈가 따라옵니다. 잘 만든 컴퓨터 비전 시스템은 '카메라가 사람보다 잘하는 일'과 '못하는 일'을 구분해서 쓰고, 못하는 상황에서는 사람이 끼어들도록 설계해 둡니다.

컴퓨터 비전의 개념을 본문 안에서 다른 각도로 비춰 보는 편집형 일러스트. — FIG. 1컴퓨터 비전을 다른 각도에서 다시 봅니다.

비유로 보면

컴퓨터 비전은 갓 도착한 외국인 손님 같습니다. 같은 풍경을 보지만 익숙한 사물·문자·표정이 적어, 한참을 살펴봐야 비로소 '아 이건 ___이구나'라고 알아챕니다. 같은 풍경을 수없이 보고 나면 점점 빨라지고, 결국 사람보다 빠르게 라벨을 붙일 수도 있습니다 — 단 그 풍경의 종류 안에서만요.

어디에서 만나나

사용자에게 가까운 곳: 카메라 앱(얼굴·문서·QR), 자율주행, 보안 카메라, 의료 영상, 증강현실(AR). 보이지 않는 쪽: 제조·물류의 품질 검사, 위성 사진을 통한 농작물·교통 분석, 콘텐츠 플랫폼의 부적절 이미지 자동 차단. 거의 모든 산업이 어떤 형태로든 카메라 데이터를 활용하기 시작했습니다.

작은 예시

휴대폰 카메라가 셔터를 누르기 전부터 사람 얼굴을 찾아 노란 네모를 그리는 일, 자동차가 도로의 차선과 보행자를 인식해 경고하는 일, 농장의 카메라가 익은 과일만 골라 표시하는 일, 무인 편의점이 손에 집은 상품을 자동으로 인식해 결제하는 일 — 모두 컴퓨터 비전이 깔린 사례입니다.

자주 하는 오해

오해

대표 오해 두 가지. ① '사진을 보면 카메라는 사람처럼 이해한다'고 믿는 것 — 모델은 픽셀 패턴을 본 적이 있는 것과 비교할 뿐 의미를 알지 못합니다. 그래서 같은 사물도 각도·조명이 바뀌면 못 알아볼 수 있습니다. ② '학습 데이터가 모이면 자연히 좋아진다'고 믿는 것 — 데이터의 다양성과 라벨 품질이 양보다 더 중요한 경우가 많습니다.

한 줄 정리

컴퓨터 비전은 학습한 풍경 안에서만 똑똑합니다. 어떤 풍경을 보여 줄 것인지가 모델의 성능을 절반 이상 결정합니다.