Embedding — Lumo glossary

쉬운 설명

컴퓨터는 단어 자체로는 '왕'과 '여왕'이 비슷하다는 걸 모릅니다. 임베딩은 각 단어를 (예를 들어) 768개의 숫자로 바꿔서, 의미가 비슷한 단어들은 그 숫자 공간에서 가까이 모이도록 만든 것입니다. '왕 - 남자 + 여자 ≈ 여왕' 같은 벡터 산수가 가능해질 정도로 의미가 숫자에 녹아 듭니다.

왜 필요한가 하면, '의미가 가까운지'를 묻는 일을 컴퓨터가 잘하게 만들기 위해서입니다. 검색('이 문장과 의미가 가까운 문서 찾기'), 추천('이 사용자가 좋아할 만한 영상'), 분류('이 리뷰가 긍정인지 부정인지'), 그리고 최근에는 RAG에서 LLM이 외부 지식을 찾아오는 방법 — 모두 임베딩이 깔려 있습니다.

동작 흐름은 단순합니다. ① 입력(텍스트·이미지·사용자 행동 등)을 임베딩 모델에 통과시켜 벡터를 얻고, ② 그 벡터를 벡터 데이터베이스에 저장하고, ③ 새 입력이 들어오면 그것도 같은 모델로 임베딩한 뒤 가장 가까운 벡터들을 검색합니다. 거리는 보통 코사인 유사도나 유클리드 거리로 잽니다.

임베딩의 강점은 '같은 의미를 다른 말로 표현해도 가까운 벡터로 잡힌다'는 점입니다. '비밀번호를 잊어버렸어요'와 '로그인이 안 돼요'는 단어가 완전히 다르지만 임베딩 공간에서는 가깝게 모이도록 학습됩니다. 그래서 키워드 검색이 놓치는 의도까지 잡아낼 수 있습니다.

주의할 점은 '비슷함의 정의가 학습 데이터에 달려 있다'는 사실입니다. 의료 문헌으로 학습한 임베딩과 영화 리뷰로 학습한 임베딩에서는 같은 단어가 다르게 가까워질 수 있습니다. 또 임베딩이 사용자의 문장에서 민감한 정보를 그대로 담을 수 있어, 공개 모델로 임베딩을 만들 때 개인정보 처리 정책도 함께 봐야 합니다.

임베딩의 개념을 본문 안에서 다른 각도로 비춰 보는 편집형 일러스트. — FIG. 1임베딩을 다른 각도에서 다시 봅니다.

비유로 보면

임베딩은 사물을 한 지도 위에 점으로 옮겨 두는 일과 비슷합니다. '강아지'와 '고양이'는 가까운 자리에, '강아지'와 '비행기'는 먼 자리에 놓입니다. 지도가 잘 그려져 있으면 새 사물(예: '치와와')을 어디 둘지 모델이 빠르게 짐작할 수 있고, 우리는 '근처에 뭐가 있나'만 봐도 의미를 파악할 수 있습니다.

어디에서 만나나

검색(시멘틱 서치), 추천 시스템, 이상 탐지(평소 패턴과 거리 측정), 클러스터링(비슷한 고객 묶기), 그리고 LLM과 결합된 RAG가 대표 영역입니다. 이미지·오디오·동영상에도 같은 방식이 적용되어, 사진 한 장으로 비슷한 사진을 찾는 검색이 가능합니다.

작은 예시

쇼핑몰에서 '내가 본 상품과 비슷한 상품'을 추천할 때, 각 상품을 임베딩 벡터로 표현해 두고 '내 본 상품의 벡터와 가장 가까운 상품들'을 골라 보여 줍니다. 정확히 같은 키워드를 안 써도 의미가 비슷한 것끼리 연결됩니다.

자주 하는 오해

오해

가장 흔한 오해는 '임베딩은 한 가지 표준 표현'이라고 생각하는 것입니다. 실제로는 모델·학습 데이터·차원 수에 따라 다르고, 같은 단어라도 모델마다 다른 위치에 자리잡습니다. 또 '임베딩이 의미를 정확히 안다'고 받아들이는 것도 과장입니다 — 의미가 비슷한 것끼리 근처에 모이도록 학습됐을 뿐, 완벽한 의미 표현이 아닙니다.

한 줄 정리

임베딩은 '의미를 숫자로 옮긴 좌표'입니다. 한 번 좋은 좌표를 얻으면 검색·추천·분류가 한꺼번에 쉬워집니다.