LLM이 정보를 꾸며내는 이유: 앤트로픽의 최신 연구로 AI의 내부 메커니즘 살펴보기

AI가 "모르겠습니다"라고 말하는 대신 그럴듯한 거짓말을 지어내는 이유가 궁금하셨나요? 앤트로픽이 드디어 그 미스터리를 풀어냈습니다!

안녕하세요. 모두가 주인공입니다. 요즘 ChatGPT나 Claude 같은 AI 챗봇을 사용하다 보면 가끔 정확하지 않은 정보를 자신감 있게 말하는 경우를 경험하셨을 거에요. 저도 얼마 전에 역사 정보를 찾으려다가 AI가 완전히 지어낸 내용을 알려줘서 당황했던 경험이 있어요. 이런 현상을 AI 환각(hallucination)이라고 부르는데, 왜 이런 일이 발생하는지 많은 사람들이 궁금해했죠. 2025년 3월, 앤트로픽에서 이 문제의 원인을 밝히는 흥미로운 연구 결과를 발표했습니다. 오늘은 이 연구에 대해 함께 알아보고, AI가 왜 때때로 거짓말을 하는지 그 비밀을 파헤쳐 보겠습니다.

LLM 환각 현상: 왜 AI는 거짓말을 할까?

여러분, AI 챗봇을 사용하면서 가장 짜증나는 경험이 뭔가요? 제 경우엔 단연코 AI가 자신감 있게 틀린 정보를 말할 때예요. 특히 정확한 답변이 필요한 연구나 업무에 AI를 활용할 때, 이런 '환각(hallucination)' 현상은 정말 곤란하죠.

환각이란 쉽게 말해 AI가

사실이 아닌 정보를 그럴듯하게 지어내는 현상

을 말해요. 예를 들어, 존재하지 않는 논문을 인용하거나, 가상의 인물에 대한 상세 정보를 제공하는 경우죠. 이런 일이 발생하면 사용자는 당연히 혼란스러울 수밖에 없어요. "왜 그냥 '몰라요'라고 말하지 않는 거지?"라는 의문이 들죠.

사실 이 문제는 대형 언어 모델(LLM)의 기본적인 설계에서 비롯됩니다. LLM은 본질적으로 '다음에 올 텍스트를 예측하는 기계'에요. 그래서 어떤 질문이 주어지면, 답변을 거부하기보다 뭐라도 대답하려는 경향이 있죠. 앤트로픽의 연구원들이 표현했듯이, 이것은 그저 "화려한 자동 완성 기능"일 뿐일 수도 있어요. 하지만 내부적으로는 훨씬 복잡한 일이 벌어지고 있었던 거죠.

진짜와 가짜 스포츠 스타에 대한 프롬프트에서 다양한 기능과 회로가 어떻게 상호 작용하는지 보여주는 단순화된 그래프입니다. 크레딧: Anthropic

앤트로픽의 연구 발견: AI의 '뇌' 들여다보기

2025년 3월, 앤트로픽(Anthropic)은 자사의 AI 모델 '클로드(Claude)'의 내부 작동 방식에 관한 획기적인 연구 결과를 발표했어요. 이 연구는 AI가 어떤 질문에 답변을 시도할지, 아니면 거부할지를 결정하는 신경망 '회로'의 일부를 밝혀냈습니다. 솔직히 저도 처음 이 연구 내용을 접했을 때 꽤 놀랐어요. AI의 뇌 속을 직접 들여다볼 수 있다니, 정말 흥미롭지 않나요?

이 연구는 작년 5월에 발표된 이전 연구를 확장한 것으로, 희소 자동 인코더(sparse auto-encoders)라는 시스템을 사용해 인공 뉴런 그룹이 특정 개념을 만났을 때 활성화되는 패턴을 분석했어요. 앤트로픽은 이러한 뉴런 그룹을 '특징(features)'이라고 부르는데, 이번 연구에서는 이 특징들이 클로드의 응답 생성 과정에서 어떻게 다른 뉴런 그룹과 상호작용하는지 추적했습니다.

연구팀은 앤트로픽의 AI 모델 '클로드'를 대상으로 다양한 실험을 수행했는데, 그 결과를 아래 표로 정리해봤어요.

실험 유형	주요 발견	의미
알려진 개체 vs 낯선 이름	"마이클 조던"과 같은 알려진 인물은 "답변 가능" 회로 활성화	모델이 유명인에 대한 질문에 자신감을 가짐
인위적 가중치 조작	"알려진 개체" 특징의 가중치를 높이면 가상 인물에 대해서도 자신감 있게 대답	환각의 원인이 "알려진 개체" 특징의 오작동일 수 있음
논문 제목 생성	앤드레이 카파시(실존 인물)의 논문 제목을 지어냄	이름 인식과 구체적 정보 회상은 별개의 과정
특징 억제 실험	"알려진 답변" 뉴런을 억제하면 환각 감소	향후 환각 방지 메커니즘 개발에 활용 가능

인공 신경망 회로의 작동 방식

여기서 조금 더 기술적인 내용을 살펴볼까요? (음... 너무 어려울까봐 걱정되지만, 최대한 쉽게 설명해볼게요!) 앤트로픽 연구팀이 발견한 가장 흥미로운 점은 클로드의 내부에 "답변할 수 없음" 회로와 "알려진 개체" 특징이 서로 경쟁하는 구조가 있다는 것이었어요.

기본적으로 클로드와 같은 AI 어시스턴트 모델은 '답변을 거부하는' 상태가 기본값으로 설정되어 있습니다. 즉, 특별한 이유가 없으면 "죄송합니다만, 답변할 수 없습니다..."라고 대답하도록 학습되어 있죠. 그런데 모델이 "알려진 개체"를 인식하면, 이 "답변할 수 없음" 회로가 억제되고 답변을 시도하게 됩니다.

문제는 이 "알려진 개체" 인식 시스템이 가끔 오작동한다는 거예요. 실제로 모델이 충분한 정보를 가지고 있지 않은데도, 그 개체에 대해 알고 있다고 '착각'하는 경우가 있죠. 이런 오작동이 바로 많은 환각의 원인이 됩니다.

연구팀이 발견한 AI의 의사결정 과정을 단계별로 정리하면 다음과 같아요:

사용자의 질문을 받으면 먼저 "답변할 수 없음" 회로가 기본적으로 활성화됨
질문에 "알려진 개체"가 포함되어 있으면 관련 특징 뉴런 그룹이 활성화
"알려진 개체" 특징이 "답변할 수 없음" 회로를 억제
모델이 자신감을 가지고 답변 생성 시도
그러나 실제로 충분한 정보가 없는 경우, 그럴듯한 추측을 통해 환각 발생

이런 메커니즘을 이해하면 AI가 왜 때때로 "모른다"고 말하는 대신 틀린 정보를 자신감 있게 말하는지 그 이유를 조금이나마 파악할 수 있어요. 정말 신기하지 않나요? AI의 '두뇌' 속에서 정보 처리 방식을 직접 볼 수 있다니 말이죠!

클로드의 '알려진 답' 뉴런을 인위적으로 억제하면 AI 연구원 안드레이 카르파티가 만든 논문을 환각하는 것을 방지할 수 있습니다. 크레딧: Anthropic

'알고 있는 개체' vs '모르는 개체': 결정의 순간

앤트로픽의 연구에서 가장 흥미로운 사례 중 하나는 AI가 "마이클 조던"(유명 농구 선수)과 "마이클 배트킨"(가상의 인물)을 구분하는 방식이었어요. 연구진은 AI의 내부 신경망에서 이 두 이름이 어떻게 다르게 처리되는지 관찰했습니다.

클로드에게 "마이클 조던은 어떤 스포츠를 했나요?"라고 물으면, AI는 그의 이름을 "알려진 개체"로 인식하고 농구 선수라고 정확히 답변해요. 반면 "마이클 배트킨은 어떤 스포츠를 했나요?"라고 물으면, "낯선 이름" 특징이 활성화되고 "답변할 수 없음" 회로가 작동해 "죄송합니다만, 마이클 배트킨이라는 인물에 대한 정보가 없습니다..."와 같은 응답을 하게 됩니다.

그런데! 연구팀이 인위적으로 "알려진 개체" 특징의 가중치를 높이자, 클로드는 가상의 인물인 "마이클 배트킨"에 대해서도 마치 실존 인물인 것처럼 스포츠 종목을 지어내기 시작했어요. 이는 환각이 일어나는 메커니즘을 직접적으로 보여주는 증거였죠.

"우리는 클로드의 환각 중 적어도 일부가 '답변할 수 없음' 경로를 억제하는 회로의 '오작동'과 관련이 있다고 제안합니다. 즉, 실제로는 훈련 데이터에 충분히 표현되지 않은 토큰에 대해서도 '알려진 개체' 특징(또는 이와 유사한 특징)이 활성화되는 상황을 말합니다." - 앤트로픽 연구팀

또 다른 흥미로운 실험은 AI 연구자 앤드레이 카파시(Andrej Karpathy)와 앤트로픽의 수학자 조시 배트슨(Josh Batson)에 관한 것이었어요. 클로드에게 카파시가 쓴 논문을 물으면, AI는 "ImageNet Classification with Deep Convolutional Neural Networks"라는 그럴듯하지만 완전히 지어낸 논문 제목을 말했어요. 반면, 배트슨의 논문을 물으면 "확인 없이는 특정 논문을 자신 있게 언급할 수 없다"고 대답했습니다.

이 차이는 왜 발생했을까요? 연구진은 모델이 카파시의 이름을 인식하면서 '알려진 개체' 특징이 활성화되었지만, 그의 논문 제목에 대한 구체적인 정보는 없었기 때문이라고 추측합니다. 쉽게 말해, AI는 "이 사람은 알아! 그러니 질문에 답해야겠어!"라고 생각했지만, 실제로는, "어떤 논문을 썼는지는 모르겠네... 그래도 뭔가 그럴듯한 걸 말해야지!"라는 상황이 발생한 거죠.

국내 AI 연구진의 환각 현상 대응 방안

미국 앤트로픽의 연구가 화제가 되는 가운데, 국내 AI 연구 커뮤니티에서도 LLM의 환각 문제 해결을 위한 다양한 접근법이 시도되고 있어요. 특히 국내 연구는 한국어의 특성을 고려한 언어 모델 개선과 AI 신뢰성 확보에 초점을 맞추고 있습니다.

서울대, KAIST, 네이버 랩스 등 주요 연구 기관에서 진행 중인 LLM 환각 관련 연구와 대응 방안을 표로 정리해봤어요.

연구 기관	접근 방법	주요 특징
서울대 AI 연구소	자기 지식 평가 메커니즘	모델이 자신의 지식 범위를 스스로 평가하는 추가 레이어 개발
KAIST AI 센터	지식 그래프 통합	LLM과 외부 지식 그래프를 연결해 사실 검증 강화
네이버 랩스	한국어 특화 불확실성 표현 학습	한국어의 불확실성 표현을 인식하고 생성하는 능력 향상
ETRI	멀티모달 사실 검증 시스템	텍스트, 이미지, 그래프 등 다양한 정보 소스를 활용한 검증
카카오브레인	신경망 해석가능성 연구	앤트로픽과 유사하게 내부 회로를 분석하는 접근법

많은 연구소의 연구원들이 "앤트로픽의 연구 결과는 AI가 자신이 알고 있는 것과 모르는 것을 구분하는 메커니즘을 이해하는 데 큰 도움이 됩니다. 우리 연구팀도 이와 유사한 접근법을 시도하고 있으며, 특히 한국어 맥락에서 환각 현상을 줄이기 위한 방법을 연구 중입니다."라고 말했어요.

국내 연구의 특징은 한국어의 언어적 특성과 문화적 맥락을 고려한 접근법이라는 점이에요. 예를 들어, 한국어는 주어가 생략되는 경우가 많고, 존댓말과 반말의 구분이 있으며, 한자어와 고유어가 혼용되는 등의 특성이 있죠. 이런 특성들이 AI의 환각 현상에 어떤 영향을 미치는지 연구하는 것도 중요한 과제입니다.

연구의 의의와 미래 전망

앤트로픽의 이번 연구는 LLM의 환각 문제를 해결하기 위한 중요한 첫걸음이에요. 지금까지는 '블랙박스'로 여겨졌던 AI의 내부 작동 방식을 조금이나마 들여다볼 수 있게 되었으니까요. 하지만 연구팀도 인정했듯이, 이번 연구는 클로드가 수행하는 전체 계산의 "일부분만 포착"했을 뿐이고, 짧은 프롬프트를 분석하는 데도 "몇 시간의 인간 노력"이 필요했다고 해요.

그럼에도 불구하고, 이 연구는 미래 AI 개발에 다음과 같은 중요한 시사점을 제공합니다:

더 정확한 "알려진 개체" 인식 시스템 개발 가능성
모델이 자신의 지식 한계를 더 정확하게 인식하는 메커니즘 구현
환각을 감지하고 차단하는 새로운 안전장치 개발
AI의 추론 과정에 대한 더 깊은 이해와 해석 가능성 증진
사용자가 AI의 응답을 더 잘 신뢰할 수 있는 기준 제공

장기적으로는 이러한 연구가 쌓여 "AI가 왜 그렇게 대답했는지"를 정확히 설명할 수 있는 날이 올지도 모르겠어요. 물론 그 길은 아직 멀었지만, 앤트로픽의 이번 연구는 그 방향으로 가는 중요한 한 걸음인 것은 확실해요.

실용적인 조언: 현재로서는 AI의 응답을 무조건 신뢰하기보다, 중요한 정보는 항상 다른 출처로 확인하는 습관을 들이는 것이 좋습니다. 특히 구체적인 사실, 통계, 인용문 등은 반드시 검증하세요!

앤트로픽의 연구원들도 인정했듯이, AI의 환각 문제를 완전히 해결하기까지는 더 많은 연구가 필요해요. 하지만 이번 연구는 AI가 왜 때때로 그럴듯한 거짓말을 하는지에 대한 퍼즐의 중요한 조각을 제공했다는 점에서 큰 의미가 있습니다. 앞으로 AI가 더욱 정직하고 신뢰할 수 있는 파트너가 되기 위한 과정을 지켜보는 것도 흥미로울 것 같네요!

자주 묻는 질문 (FAQ)

AI의 환각(hallucination)이란 정확히 무엇인가요?

AI 환각이란 인공지능이 실제 학습 데이터에 존재하지 않거나 사실이 아닌 정보를 그럴듯하게 생성하는 현상을 말해요. 쉽게 말해 AI가 '지어내는' 행동이라고 볼 수 있죠. 예를 들어, 존재하지 않는 논문이나 책을 인용하거나, 가상의 인물에 대한 상세 정보를 제공하거나, 실제로는 일어나지 않은 사건에 대해 묘사하는 경우가 해당됩니다. LLM이 환각을 일으키는 근본적인 이유는 이 모델들이 본질적으로 '다음에 올 가능성이 높은 텍스트를 예측'하도록 설계되었기 때문이에요. 즉, 모델은 정확성보다 그럴듯함(plausibility)에 최적화되어 있다고 볼 수 있어요. 앤트로픽의 최신 연구가 보여주듯이, 환각은 AI가 자신이 알고 있는 것과 모르는 것을 구분하는 내부 메커니즘의 오작동과도 관련이 있답니다.

AI의 환각 현상을 어떻게 감지하고 방지할 수 있나요?

AI의 환각을 감지하고 방지하는 몇 가지 방법이 있어요. 첫째, 다중 소스 검증을 사용하세요. AI가 제공한 정보를 항상 다른 신뢰할 수 있는 출처와 교차 확인하는 습관을 들이는 게 좋아요. 둘째, AI에게 특정 정보의 출처나 확신도를 물어보세요. 셋째, 팩트 체킹 도구나 검색 엔진을 병행 사용하세요. 개발자 측면에서는 AI 모델에 불확실성 표현 방법을 더 잘 학습시키고, 응답에 참고 문헌을 포함하도록 훈련시키는 방법이 있습니다. 또한 앤트로픽의 연구처럼 모델의 내부 회로를 더 잘 이해하고 조정하여 환각을 줄이는 기술적 접근법도 연구 중이에요. 현재 가장 효과적인 방법은 RAG(Retrieval-Augmented Generation)와 같은 기술로, AI가 응답을 생성하기 전에 신뢰할 수 있는 외부 정보 소스를 참조하도록 하는 것입니다. 궁극적으로는 AI가 자신의 지식 한계를 더 정확하게 인식하고 표현할 수 있도록 모델을 개선하는 것이 목표겠죠.

이번 앤트로픽 연구의 실용적 응용은 무엇인가요?

앤트로픽의 연구는 다양한 실용적 응용 가능성을 제시해요. 우선, AI 시스템의 신뢰성을 높일 수 있는 새로운 메커니즘 개발에 활용될 수 있어요. 예를 들어, "알려진 개체" 특징과 "답변할 수 없음" 회로의 관계를 더 정밀하게 조율하여 환각을 줄이는 모델을 설계할 수 있죠. 또한 이 연구는 AI가 자신의 불확실성을 더 정확하게 전달할 수 있는 방법을 개발하는 데 도움이 됩니다. 의료, 법률, 금융과 같이 정확성이 중요한 분야에서 AI를 안전하게 활용하기 위한 기반 기술로도 활용될 수 있고요. 교육적 측면에서도 학생들에게 AI의 한계를 이해시키고 비판적 사고력을 기르는 데 도움이 될 수 있어요. 장기적으로는 이러한 연구가 '설명 가능한 AI'(XAI) 개발로 이어져, AI가 왜 특정 응답을 제공했는지 사용자가 이해할 수 있게 될 것으로 기대됩니다. 무엇보다 중요한 것은, 이 연구가 AI 시스템을 더 투명하고 신뢰할 수 있게 만드는 첫 걸음이라는 점이에요.

일반 사용자가 AI를 사용할 때 환각 현상에 어떻게 대처해야 할까요?

일반 사용자가 AI의 환각에 대처하는 몇 가지 실용적인 방법을 알려드릴게요. 첫째, 건강한 의심을 유지하세요. AI가 제공하는 모든 정보, 특히 매우 구체적인 사실, 통계, 인용문 등은 항상 의심하는 자세가 필요해요. 둘째, 중요한 정보는 반드시 다른 출처로 확인하세요. 구글 검색이나 위키백과 같은 도구를 병행 사용하는 것이 좋아요. 셋째, AI에게 불확실성을 표현하도록 유도하세요. "이 정보에 얼마나 확신하나요?" 또는 "이 정보의 출처는 무엇인가요?"와 같은 질문을 해보세요. 넷째, 한 번에 하나의 명확한 질문을 하고, 복잡한 질문은 작은 단위로 나누어 물어보세요. 다섯째, AI가 "모르겠습니다"라고 대답할 때는 그것을 부정적으로 보지 말고, 오히려 더 정직한 응답으로 받아들이세요. 여섯째, 가능하다면 최신 버전의 AI 모델을 사용하세요. 대체로 최신 모델일수록 환각 현상이 적은 경향이 있어요. 마지막으로, AI는 완벽하지 않다는 사실을 항상 명심하고, 특히 중요한 결정에는 AI의 조언만을 맹신하지 마세요.

보스턴 다이나믹스의 아틀라스 로봇, 이제는 춤과 체조까지 완벽하게 소화한다

마치며: AI의 정직함을 향한 여정

여러분, 오늘은 AI가 왜 때때로 정보를 지어내는지, 그 비밀에 대해 함께 알아봤어요. 앤트로픽의 연구가 보여주듯이, AI의 환각 현상은 단순한 오류가 아니라 복잡한 내부 메커니즘의 결과물이었습니다. "알려진 개체" 특징과 "답변할 수 없음" 회로 사이의 상호작용이 환각의 열쇠였던 거죠.

사실 저도 AI를 일상적으로 사용하면서 이런 환각 현상에 종종 당황했어요. 특히 중요한 정보를 찾을 때 AI가 자신감 넘치게 틀린 정보를 줄 때면 정말 답답했죠. 그래서 이번 연구 결과가 더 흥미롭게 다가왔던 것 같아요. 아! 그리고 연구를 읽으면서 문득 든 생각인데... 사람도 가끔 확실하지 않은 정보를 마치 사실인 것처럼 말할 때가 있잖아요? 그런 면에서 보면 AI의 이런 행동이 어쩌면 인간의 인지 과정과도 묘하게 닮아있는 건 아닐까 하는 생각도 들었어요.

앞으로 AI 기술이 발전하면서 환각 문제가 어떻게 해결될지 정말 기대가 돼요. 어쩌면 이번 연구가 AI가 더 정직하고 신뢰할 수 있는 조수가 되는 첫 걸음일지도 모르겠네요. 여러분은 AI의 환각 현상을 경험해 본 적이 있나요? 어떤 상황에서 발생했고, 어떻게 대처하셨는지 댓글로 공유해주세요! 다른 독자분들에게도 큰 도움이 될 것 같아요.

📝 유용한 팁

AI를 사용할 때는 항상 건강한 의심을 유지하되, 그 유용성을 최대한 활용하는 균형이 중요합니다. 중요한 결정을 내릴 때는 항상 다양한 출처를 통해 정보를 확인하는 습관을 들이세요!

다음 포스팅에서는 국내 AI 연구진들의 최신 연구 동향과 '설명 가능한 AI'(XAI)에 대해 더 자세히 알아볼 예정이니 많은 관심 부탁드려요. 그때까지 여러분의 디지털 여정이 환각 없이 즐겁고 유익하기를 바랍니다! 😊

참고 문헌

1. Anthropic (2025). "Understanding hallucination in large language models through neural circuit analysis". Anthropic Research Blog.

2. Kyle Orland (2025). "Why do LLMs make stuff up? New research peers under the hood". Ars Technica.

3. Anthropic (2024). "Sparse Autoencoders: A Method for Unsupervised Learning of Neural Features". Anthropic Research.

모두가 주인공

AI 기술과 디지털 트렌드를 쉽고 재미있게 전달하는 테크 블로거입니다. 복잡한 개념을 누구나 이해할 수 있게 풀어내는 것이 모토예요!

알코올 섭취가 콜레스테롤에 미치는 놀라운 효과: 하버드 대규모 연구 결과