NLP — Lumo glossary

쉬운 설명

사람 언어는 같은 의미를 수많은 방식으로 표현하고, 문맥에 따라 의미가 바뀌고, 빈정거림·생략·줄임말이 가득합니다. NLP는 이런 모호하고 풍부한 신호를 컴퓨터가 다룰 수 있는 형태로 바꾸는 일을 합니다. 컴퓨터 비전이 픽셀을 다룬다면, NLP는 단어와 문맥을 다룹니다.

주요 작업은 다섯 갈래입니다. ① 분류(이 리뷰가 긍정인가, 이 메일이 스팸인가), ② 추출(글에서 사람·장소·금액·날짜 뽑기), ③ 번역, ④ 요약, ⑤ 생성(질문에 답하기, 글을 새로 쓰기). LLM이 등장하기 전에는 작업마다 따로 모델을 만들었지만, 이제 한 모델이 대부분을 다 합니다.

기술적 도약은 두 번 있었습니다. 첫째, 워드 임베딩(word2vec, 2013)이 단어 의미를 벡터로 다루는 길을 열었습니다. 둘째, 트랜스포머(2017)와 그 위의 BERT·GPT 계열이 '한 번에 문장 전체를 본다'는 발상을 표준으로 만들었습니다. 그 결과 번역·요약·질의응답이 사람 수준에 가까워졌습니다.

오늘날 NLP는 보이지 않는 곳에 더 깊게 들어가 있습니다. 스팸 분류, 자동 자막 번역, 영수증·계약서에서 정보 추출, 챗봇 응대, 검색 의도 이해, 추천 시스템의 텍스트 입력 — 모두 같은 기술의 응용입니다. 한국어처럼 자료가 영어보다 적은 언어도, 다국어 모델 덕분에 격차가 빠르게 줄고 있습니다.

한계는 여전히 분명합니다. 사람 말을 '진짜 이해'하는 것과 '패턴으로 그럴듯하게 처리'하는 것은 다릅니다. 가벼운 농담·아이러니·문화 맥락에서는 모델이 자주 어긋납니다. 또 사실을 정확히 답해야 하는 일에서는 환각(hallucination) 문제가 따라옵니다. 그래서 결정에 직접 영향을 주는 일에는 사람 검토를 함께 둡니다.

NLP의 개념을 본문 안에서 다른 각도로 비춰 보는 편집형 일러스트. — FIG. 1NLP을 다른 각도에서 다시 봅니다.

비유로 보면

NLP는 다른 문화권에서 자란 통역사가 우리 말을 듣고 일하는 모습과 비슷합니다. 핵심 의미는 잘 잡지만 가끔 농담·생략·문화적 뉘앙스를 놓치곤 합니다. 같은 표현이 어디에 쓰였는지를 많이 보여 줄수록 점점 정확해집니다.

어디에서 만나나

검색·번역·요약 같은 사용자 가까이 보이는 영역, 그리고 보이지 않는 곳에서는 고객지원 자동 분류, 계약서·문서 검토, 광고 카피 분석, 콘텐츠 모더레이션, 시장 트렌드 모니터링에 폭넓게 쓰입니다. 최근에는 LLM의 등장으로 작은 팀도 NLP 응용을 한두 줄의 API 호출로 시작할 수 있게 됐습니다.

작은 예시

스팸 메일 분류, 자동 자막 번역, 영수증에서 금액·날짜 뽑아내기, 챗봇 응대 — 모두 NLP가 깔린 일상적인 응용입니다. 같은 'NLP' 우산 아래 있지만, 작업마다 데이터 형태와 평가 기준이 다릅니다.

자주 하는 오해

오해

흔한 오해는 'NLP는 곧 챗봇'이라고 받아들이는 것입니다. 분류·추출 같은 단순한 NLP가 회사 안에서 훨씬 자주 쓰입니다. 또 '한 번 잘 만든 모델이 영원히 잘 동작한다'고 보는 것도 위험합니다 — 사람의 말투·은어·트렌드가 바뀌면 모델 성능도 따라 떨어집니다.

한 줄 정리

NLP는 화려한 응용 위주로 다뤄지지만, 진짜 가치는 '글·말의 양을 사람이 감당할 수 없게 된 곳'에서 가장 크게 발휘됩니다.