사람들은 어떻게 ChatGPT를 쓰는가
우리가 어떤 기술을 이해한다고 말할 때, 우리는 사실 두 가지를 동시에 다룬다. 하나는 얼마나 널리, 어떻게 쓰이는가라는 일반론의 지도다. 다른 하나는 무엇을 어떻게 측정했고 그 측정이 무엇을 말해주는가라는 과학의 기둥이다. 그리고 마지막으로, 그 사실들이 인간의 사고와 판단에 어떤 모양을 남기는가라는 철학의 질문이 있다. 이 논문은 세 질문에 각각 대답한다. 대답의 어조는 조심스럽고 근거는 숫자에 있다. 2024년 7월에서 2025년 7월 사이, 하루 메시지 총량은 약 4억 5천 1백만에서 26억 2천 7백만으로 늘었다. 그러나 이 팽창은 단순히 더 많은 대화를 뜻하지 않는다. 무엇을 묻고, 무엇을 하며, 무엇을 표현하는가의 비율이 조용히 바뀌었다. 2025년 6월의 분포는 Asking 51.6%, Doing 34.6%, Expressing 13.8%다. '묻기'가 '하기'를 앞질렀다. 이것은 생성 모델의 시대가, 생산을 대신하는 손보다 판단을 보강하는 눈에 더 큰 역할을 맡기고 있음을 말한다.
일반적인 세계로 보면. 이 기술은 일의 바깥에서 더 빨리 늘었다. 비업무 대화의 비중은 2024년 6월 53%에서 2025년 6월 73%로 높아졌다. 일과 집, 학교와 취미, 이 모든 영역에서의 의사결정이 모델의 대화창으로 이동했다. 이 이동은 새 가입자 증가만으로 설명되지 않는다. 같은 사람이 시간을 두고 쓰임새를 바꾸었다는 점이 중요하다. 일주일에 7억 명이 180억 개의 메시지를 주고받는 2025년 7월의 세계에서, 이 변화는 개별 취향의 소음이 아니라 집단적 습관의 이동이다.
주제의 지도는 더 또렷하다. 대화의 약 77%는 Practical Guidance(실용 안내), Seeking Information(정보 탐색), Writing(글쓰기)라는 세 갈래로 모인다. 1년 사이 글쓰기의 비중은 36%에서 24%로 줄었고, 정보 탐색은 14%에서 24%로 늘었다. 멀티미디어는 2%에서 7%대로 올라섰는데, 2025년 4월 이미지 생성 기능 공개 직후의 급증이 가라앉은 뒤에도 이전보다 높은 수준을 유지했다. 업무 맥락으로 좁히면 글쓰기가 약 40%로 가장 크다. 이 글쓰기는 새로운 문장을 창작하기보다 기존 텍스트의 수정·평가·요약·번역이 3분의 2를 차지한다. 즉, 모델은 빈 종이에 무에서 유를 만드는 일보다 이미 있는 것을 더 나은 형태로 재구성하는 데 강하다.
그렇다면 '하기'는 무엇을 하고 있을까. 논문은 O*NET의 일반화된 업무 활동 분류에 사용자 메시지를 사상해, 모델이 맞닥뜨리는 인간 활동의 중심을 통계로 보여준다. 전체 메시지의 45.2%가 단 세 가지, 정보 획득 19.3%, 타인을 위한 의미 해석 13.1%, 기록 12.8%에 모인다. 업무로 한정하면 기록 13.2%, 의사결정과 문제 해결 10.6%, 창의적 사고 9.3%, 컴퓨터와의 작업 7.7%, 의미 해석 7.3%, 정보 획득 6.7%, 조언 제공 3.1%가 상위권을 이룬다. 이것은 모델이 일에서 수행하는 역할의 실체를 드러낸다. 정보를 모으고(획득), 이해하고(해석), 남겨두며(기록), 판단을 만든다(결정·해결·조언).
이제 과학적으로 본다면. 이 연구는 대규모 데이터를 다루지만 사람의 눈으로 원문을 읽지 않는다. 메시지는 먼저 개인정보 필터를 거쳐 식별자를 벗고, 그 뒤 LLM 분류기가 주제·의도·업무 연관성·O*NET 활동을 자동 라벨링한다. 분류에는 대화의 직전 문맥을 포함하며, 긴 문맥에 따른 변동성을 줄이기 위해 메시지 길이에 상한을 둔다. 고용·학력 같은 외부 정보와의 결합은 데이터 클린룸에서 오직 집계 기준(최소 100명)을 지키며 수행된다. 연구진은 분류된 결과만 보고 분석한다. 방법론은 명료하다. 읽지 않고 이해하는 분석의 설계다.
분류 체계 자체도 투명하게 제시된다. 의도 분류는 Asking–Doing–Expressing의 삼분법이다. Asking은 더 나은 결정을 위한 정보·조언의 탐색, Doing은 생산물의 위탁, Expressing은 요구나 질의가 없는 표현이다. 이 정의는 단순해 보이지만, 무엇을 위해 모델을 부르는가라는 행태적 진실을 짚는다. 모델이 만들어내는 가치는 출력물의 양이 아니라 판단의 질에서 올 수 있다는 점을 이 구조는 처음부터 전제한다.
측정의 또 다른 축은 상호작용 품질이다. 사용자의 다음 메시지에서 드러나는 만족·불만 신호를 자동 분류해 '좋음/나쁨/불명'으로 집계했다. 2024년 말엔 '좋음 대 나쁨'의 비가 약 3 대 1이었으나, 9개월 뒤엔 4 대 1을 넘어섰다. 주제별로는 자기표현이 가장 높고, 멀티미디어와 기술적 도움은 낮다. 의도별로는 Asking이 Doing보다 좋음 비율이 높다. 이 결과는 정답 하나를 빠르게 찍어내는 과제보다, 맥락 속에서 결정을 돕는 상호작용이 모델과 사용자 모두에게 비교적 안정적으로 좋은 경험을 준다는 사실을 뒷받침한다.
이러한 수치들은 인간의 사용 양식을 다시 그린다. Writing의 중심이 편집·요약·번역이라면, 모델은 저작권자의 빈 종이 위에 새 작품을 쓰는 대신, 사용자의 손끝에서 이미 태어난 것을 더 효율적으로 다듬는다. Seeking Information의 증가는 모델을 검색 엔진의 대체물이 아니라 맥락화된 정보 제작자로 만든다. '나는 무엇을 알아야 하는가'라는 질문은 '나에게 맞는 답은 무엇인가'로 자연스레 기울어진다. 이때 Practical Guidance는 그 경사면의 중간에 선 장르다. 운동 계획, 공부 전략, 식단 설계처럼, 일반적 지식을 개별적 상황에 맞춰 조립한다. 모델이 생산하는 것은 텍스트의 겉모습이 아니라 맥락의 구조다.
좀 더 깊게 질문해보면. 무엇이 이렇게 많은 사람을 묻는 존재로 만들었는가. 지난 세대의 정보 도구는 대체로 접근성의 철학에 기대었다. 더 빨리, 더 멀리, 더 많이 도달하는 것. 그러나 이 논문에서 보듯, 사용의 무게중심은 접근성에서 판단성으로 옮겨간다. Asking의 증가는, 결정이 산출보다 먼저라는 단순한 명제를 다시 확인시킨다. 인간은 늘 무언가를 만든다. 그러나 무엇을 만들지 정하는 일은 무엇을 만드는 행위보다 더 앞의 마음에서 일어난다. 모델은 바로 그 자리에서 기능한다. 의사결정의 빈틈, 즉 불확실성, 제한된 시간, 불완전한 맥락을 파고들어 가능한 세계의 후보들을 비교 가능한 어휘로 재구성한다. 그래서 O*NET의 상위 항목들이 정보·해석·기록·결정으로 묶여 있는 것은 우연이 아니다. 의미를 만들고, 흔적을 남기며, 다음 선택의 비용을 낮춘다.
이 철학은 도구의 공공성과도 이어진다. 논문은 사용의 확산이 고임금·고학력 노동에만 국한되지 않음을 보인다. 비업무 사용의 증가, 저·중소득 국가에서 빠른 채택, 젠더 격차의 해소 같은 지표는 이 기술이 한 직업계급의 특수 장비가 아니라 일상적 판단의 공공재로 작동하고 있음을 시사한다. 여기서 공공성은 소유의 문제가 아니라 효용의 위치다. 어디에서 가장 많은 가치가 생성되는가라는 질문에 대한 답이 사무실 바깥을 가리킨다는 사실. 집이라는 공장, 학습이라는 노동, 돌봄이라는 생산이 어제보다 더 뚜렷하게 데이터의 행간에 모습을 드러낸다.
다시 과학으로 돌아오면, 우리는 자동 분류의 장점과 한계를 동시에 본다. 장점은 규모와 속도, 그리고 프라이버시 보존이다. 사람의 눈이 한 줄의 텍스트도 읽지 않도록 한 설계, 즉 PII 제거 → 자동 분류 → 집계 표본 가중은 오늘의 데이터 윤리에서 사실상 기본 요건에 가깝다. 클린룸에서의 외부 데이터 결합과 최소 100명 임계치는 유혹을 구조적으로 제거한다. 한계는 정의의 불완전성에 있다. Asking/Doing/Expressing은 간명하지만, 인간의 의도는 때로 한 문장에 함께 묶여 있다. 그렇더라도 분류는 공개 자료에서의 인간 판단과 높은 일치를 보였고, 결과는 추정값으로 해석하라는 권고와 함께 제시된다. 과학은 언제나 불완전한 세계에서 더 나은 근사를 선택한다. 여기서의 근사는 충분히 설득력 있다.