ㅡ(최신해외선물디비해커◀)텔레DBzone24
GPT-4.5, 73% 성공률로 실제 인간 참가자보다 더 인간답게 평가받아캘리포니아 샌디에이고 대학(UC San Diego)의 연구팀이 최신 대규모 언어 모델(Large Language Model, LLM)인 GPT-4.5와 LLaMa-3.1-405B를 대상으로 튜링 테스트를 실시한 결과, 이들 모델이 인간과 구별되지 않을 정도로 인간답게 대화할 수 있음을 입증했다. 특히 GPT-4.5는 인간 참가자보다 더 인간적으로 보이는 놀라운 결과를 보였다.튜링 테스트는 영국의 수학자 앨런 튜링(Alan Turing)이 1950년에 제안한 것으로, 기계가 인간과 구별할 수 없을 정도로 지능적인지 평가하는 방법이다. 이 테스트에서는 질문자가 두 명의 대화 상대(한 명은 인간, 한 명은 AI)와 텍스트로만 대화를 나누고, 누가 인간인지 판단해야 한다. 질문자가 일관되게 인간과 기계를 구별하지 못한다면, 그 기계는 테스트를 통과한 것으로 간주된다.연구팀은 대학생 126명과 온라인 플랫폼 Prolific에서 모집한 158명의 참가자를 대상으로 실험을 진행했다. GPT-4.5, LLaMa-3.1-405B, GPT-4o, ELIZA 등 4개의 AI 시스템을 평가했으며, 특정 페르소나(persona)를 부여한 경우와 그렇지 않은 경우로 나누어 테스트했다.특정 성격 부여받은 AI, 성공률 73% 달성... 페르소나 없는 AI는 36~38%에 그쳐가장 주목할 만한 결과는 특정 페르소나를 부여받은 GPT-4.5(GPT-4.5-PERSONA)가 테스트에서 73%의 성공률을 보였다는 점이다. 이는 질문자들이 실제 인간 참가자보다 GPT-4.5를 더 자주 인간으로 판단했음을 의미한다. LLaMa-3.1 역시 동일한 페르소나 설정으로 56%의 성공률을 달성했다.반면, 페르소나가 부여되지 않은 GPT-4.5-NO-PERSONA와 LLaMa-NO-PERSONA는 각각 36%와 38%의 성공률을, 기준 모델인 GPT-4o-NO-PERSONA와 ELIZA는 21%와 23%의 낮은 성공률을 보였다. 이는 AI 모델이 특정 성격과 스타일을 가진 인간을 모방하도록 지시받았을 때 훨씬 인간답게 행동할 수 있음을 시사한다.연구에 사용된