본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다.
Ⅰ. 서론
메타버스는 IoT, 디지털 트윈, AI, 블록체인, Web 3.0, VR/AR 등의 기술이 융합된 차세대 인터넷 환경으로, 현실과 가상 세계 간의 상호작용을 촉진한다. 메타버스는 가상 환경에서 현실 세계의 다양한 활동을 모방하며, 사용자들에게 상호작용의 기회를 제공한다. 아바타는 메타버스의 핵심 요소로, 사용자가 자신의 정체성을 표현하고 다른 객체들과 상호작용하는 수단이 된다. 그러나 기존 아바타 개발 기술은 주로 정적인 모델 구축에 집중되어 있으며, 동적 움직임과 얼굴 표정 표현이 제한적이다.
현재 메타버스 환경에서 사용되는 아바타는 기본적인 움직임(걷기, 뛰기, 점프 등)만을 지원하며, 자연스러운 얼굴 표정 변화를 반영하기 어려운 구조를 가지고 있다. 기존 연구에서는 3D 이미지 기반의 아바타 생성 기술이 발전하였지만, 인간과 유사한 상호작용을 구현하는 데 한계가 있다. 또한, 텍스트 및 이미지 기반의 3D 아바타 생성 기술이 개발되었으나, 현실의 움직임을 정교하게 반영하지 못하고 있다.
이에 본 연구에서는 모션 캡처와 얼굴 표정 인식을 결합한 상호작용형 아바타 생성 프레임워크를 제안한다. 본 연구에서 제안하는 프레임워크는 카메라를 이용하여 사용자의 신체 움직임 및 얼굴 표정을 캡처한 후, 이를 실시간으로 아바타에 반영하는 방식으로 동작한다. 이를 통해 메타버스에서 보다 인간과 유사한 인터랙션이 가능하며, 몰입형 가상 환경을 제공할 수 있다.
기존 아바타 기술은 주로 조이스틱, 키보드, 터치스크린, 마우스를 이용하여 조작되며, 기본적인 동작만을 지원한다. 그러나 이러한 방식은 현실적인 움직임을 반영하기 어렵고, 직관적인 조작이 불가능한 한계가 있다. 따라서 본 연구에서는 모션 캡처 기술을 적용하여 사용자의 실제 움직임을 아바타에 반영하고, 얼굴 표정 인식을 추가하여 보다 정교한 감정 표현이 가능한 시스템을 개발한다.
기존 연구에서는 WiFi 채널 상태 정보(CSI) 또는 관성 측정 장치(IMU) 센서를 활용하여 인간 활동을 인식하고 이를 아바타에 반영하는 방식이 제안되었다. 그러나 이러한 방식은 사전에 정의된 움직임만을 인식할 수 있으며, 자유로운 동작을 반영하기 어려운 한계를 가진다. 본 연구에서는 이러한 기존 연구의 한계를 극복하고, 실시간으로 사용자의 다양한 동작과 얼굴 표정을 포착하여 아바타에 반영하는 시스템을 개발하는 것을 목표로 한다.
본 연구는 인간 중심의 상호작용을 지원하는 아바타 개발을 통해 메타버스의 현실성을 강화하는 데 기여할 것이다. 본 연구의 기여점은 다음과 같다. 첫째, 모션 캡처 및 얼굴 표정 인식을 통합하여 보다 자연스러운 상호작용을 가능하게 한다. 둘째, Mediapipe 프레임워크와 Unreal Engine을 결합하여 실시간 데이터 처리를 통해 높은 정확도와 낮은 지연 시간을 유지한다. 셋째, 기존 연구의 한계를 극복하여 자유로운 움직임과 세밀한 표정 변화를 반영할 수 있는 아바타 생성 시스템을 제안한다.
본 논문에서는 기존 연구를 분석하고, 제안하는 아바타 생성 프레임워크의 기술적 요소를 상세히 설명하며, 구현된 시스템의 성능 평가를 통해 연구의 유효성을 입증한다. 이를 통해 메타버스에서 보다 직관적이고 현실적인 상호작용이 가능하도록 하며, 향후 메타버스 환경에서 인간과 유사한 디지털 휴먼 구현을 위한 기반 기술로 활용될 수 있을 것이다.
Ⅱ. 관련 연구
메타버스에서의 아바타 생성 및 활용을 위한 연구는 다양한 접근 방식으로 이루어져 왔다. 기존 연구들은 주로 3D 아바타의 생성, 움직임 인식, 감정 표현 기술을 중심으로 진행되었다. 본 연구에서는 이러한 기존 연구를 분석하고, 인간 중심의 상호작용을 지원하는 아바타 생성 방법의 필요성을 논의한다.
기존 연구들은 주로 GAN(Generative Adversarial Network)을 활용한 3D 얼굴 생성 기법을 개발하는 데 초점을 맞추었다. 예를 들어, StyleGAN과 InferGAN과 같은 기법들은 단일 이미지로부터 실사와 유사한 3D 아바타를 생성하는 데 활용되었다. 그러나 이러한 기법들은 주로 얼굴 생성을 중심으로 하고 있으며, 몸 전체의 움직임을 동적으로 반영하는 기능이 부족하다.
또한, WiFi 채널 상태 정보(Channel State Information, CSI)와 관성 측정 장치(IMU)를 활용한 연구들이 진행되어 왔다. CSI 기반 연구는 WiFi 신호를 분석하여 사용자의 움직임을 감지하고, 이를 바탕으로 아바타의 움직임을 구현하는 방식을 제안하였다. IMU 센서를 기반으로 한 연구는 사용자의 신체 부위에 센서를 부착하여 움직임 데이터를 수집하고, 이를 아바타 애니메이션에 적용하는 방식을 사용하였다. 그러나 이러한 연구들은 특정한 움직임만을 감지할 수 있으며, 자유도가 높은 움직임을 표현하는 데 어려움을 겪고 있다.
한편, 딥러닝 기반의 포즈 예측 연구들은 아바타의 동작을 보다 자연스럽게 구현하는 방향으로 발전해 왔다. 예를 들어, PoseNet과 OpenPose와 같은 모델들은 이미지 기반으로 사람의 관절 위치를 추정하여 아바타의 동작을 생성하는 데 활용되고 있다. 그러나 이러한 기술들은 사용자의 동작을 실시간으로 반영하는 데 한계가 있으며, 정확도가 떨어질 경우 비정상적인 움직임이 발생할 수 있다.
감정 표현을 위한 연구도 활발히 진행되고 있다. 기존 연구에서는 얼굴 인식을 기반으로 사용자의 감정을 분석하고 이를 아바타의 표정에 반영하는 방법이 제안되었다. 예를 들어, FaceNet 및 CLIP 기반 모델들은 사용자의 감정을 분류하고, 이를 바탕으로 아바타의 표정을 생성하는 방식으로 발전해 왔다. 그러나 이러한 연구들은 감정 표현의 정밀도가 낮으며, 실시간 응용에서의 활용성이 제한적이다.
최근 연구에서는 AI 기반의 아바타 상호작용 기술이 발전하고 있다. 예를 들어, MediaPipe 및 Unreal Engine을 활용하여 실시간으로 아바타의 움직임과 얼굴 표정을 동기화하는 연구들이 수행되고 있다. 이러한 기술들은 사용자의 움직임과 표정을 보다 정밀하게 반영할 수 있으며, 몰입형 메타버스 환경을 구축하는 데 기여할 수 있다.
본 연구에서는 기존 연구의 한계를 극복하고, 모션 캡처 및 얼굴 표정 인식을 통합하여 보다 자연스럽고 직관적인 상호작용이 가능한 아바타 생성 프레임워크를 제안한다. 기존 연구들과의 차별점으로, 본 연구는 Mediapipe와 Unreal Engine을 결합하여 실시간 동기화를 수행하며, 보다 높은 정확도와 낮은 지연 시간을 유지하는 것을 목표로 한다. 이를 통해 메타버스 환경에서 보다 자연스럽고 현실적인 사용자 경험을 제공할 수 있을 것으로 기대된다.
기존 연구에서는 3D 얼굴 생성, GAN 기반 3D 모델링, WiFi 기반 사람의 포즈 인식, IMU 센서 활용, 딥러닝 기반 포즈 예측 등의 기술이 개발되었으나, 대부분이 아바타의 움직임 표현과 얼굴 표정 인식을 통합하지 않았다. 본 연구에서는 이러한 한계를 극복하기 위해 통합된 모션 및 얼굴 표정 인식 기술을 개발하고자 한다.
Ⅲ. 제안된 인간 중심 아바타 생성 프레임워크
3.1 문제 정의
최근 3D 아바타 생성 기술은 GAN 모델을 활용하여 이미지 또는 텍스트를 기반으로 디지털 캐릭터를 생성하는 방식이 일반적이다. 이러한 방법은 3D 아바타의 신체와 얼굴을 디지털화하는 데 유용하지만, 아바타의 움직임을 자연스럽게 반영하는 데 한계가 있다. 기존 메타버스 환경에서는 조이스틱, 키보드, 터치스크린, 마우스를 이용하여 아바타를 조작하지만, 이는 정해진 동작(서기, 걷기, 뛰기, 점프 등)에만 제한된다.
IoT 기반의 Human Activity Recognition (HAR) 방식을 활용하면 메타버스 내에서 실제 사용자 움직임을 감지하고 이를 아바타에 반영할 수 있다. 기존 연구에서는 IMU 센서, WiFi CSI, 이미지 처리 기법, 6-DoF 센서를 사용하여 HAR 기반의 아바타를 생성하는 방법을 제안하였지만, 이는 특정 동작만을 감지하는 한계가 있다.
기계 학습(ML) 및 딥러닝(DL)을 활용하면 메타버스 서비스에서 보다 몰입감 있는 경험을 제공할 수 있다. DL 기법을 활용하면 신체 전체의 움직임과 머리의 움직임을 실시간으로 3D 아바타에 반영할 수 있다. 그러나 기존 연구들은 얼굴 표정 인식을 고려하지 않았으며, 이는 인간 중심의 상호작용 구현에 한계를 초래한다.
본 연구에서는 모션 캡처 및 얼굴 표정 인식 기술을 결합한 인간 중심의 상호작용형 아바타 생성 프레임워크를 제안한다. 이를 통해 메타버스 환경에서 보다 자연스러운 아바타 조작과 감정 표현이 가능하도록 한다.

3.2 제안된 시스템
본 연구에서는 MediaPipe를 활용하여 실시간으로 사용자 신체 움직임 및 얼굴 표정을 인식하고, 이를 메타버스 내 아바타에 적용하는 프레임워크를 개발하였다.
제안된 프레임워크의 주요 기능:
- 실시간 신체 움직임 인식: 사용자의 신체 움직임을 감지하고 이를 3D 아바타에 반영.
- 얼굴 표정 인식 및 동기화: 얼굴 감정을 분석하고 아바타 표정에 반영.
- 맞춤형 아바타 생성: 사용자의 신체 및 표정 특성을 반영한 인터랙션.
- 메타버스 플랫폼 연동: Unreal Engine을 활용하여 메타버스 환경 내에서 작동.
본 시스템은 신체 움직임 인식(BMR) 모듈과 얼굴 표정 인식(FER) 모듈로 구성되며, 이를 통해 보다 자연스러운 상호작용을 지원한다.
3.3 주요 기술 구성
3.3.1 MediaPipe 기반의 모션 캡처 기술
MediaPipe는 구글에서 개발한 영상 분석 프레임워크로, 신체 관절 및 얼굴 랜드마크를 실시간으로 추적할 수 있다. 본 연구에서는 MediaPipe의 Pose 및 Face Mesh 모델을 활용하여 사용자의 움직임과 표정을 감지하고 이를 3D 아바타에 반영하였다.
3.3.2 신체 움직임 인식(BMR: Body Motion Recognition) 시스템
BMR 시스템은 사용자의 신체 움직임을 감지하고 이를 아바타의 움직임과 동기화하는 역할을 한다. 주요 과정은 다음과 같다:
- Skeleton 데이터 추출: 카메라 기반으로 사용자의 관절 위치를 감지.
- 동작 분석 및 필터링: Kalman 필터를 적용하여 노이즈 제거.
- 아바타 모델 매핑: 실시간으로 아바타의 움직임을 생성.
- 실시간 피드백 루프: 사용자의 움직임을 즉시 반영.

3.3.3 얼굴 표정 인식(FER: Facial Expression Recognition) 시스템
FER 시스템은 사용자의 얼굴 표정을 분석하고 아바타의 얼굴에 즉시 반영하는 기능을 수행한다.
- 얼굴 랜드마크 감지: MediaPipe Face Mesh를 이용하여 478개의 얼굴 포인트 추출.
- 감정 분석: 랜드마크 데이터를 기반으로 기쁨, 슬픔, 놀람 등의 감정을 분류.
- 아바타 표정 반영: 분석된 감정을 바탕으로 아바타 얼굴 애니메이션 적용.
- 입술 동기화: 음성 데이터와 함께 입술 움직임을 조정하여 자연스러운 표현 제공.
3.4 시스템 아키텍쳐
본 연구에서 제안하는 시스템은 크게 입력, 처리, 출력, 최적화 모듈로 구성된다.
- 입력 모듈: 카메라 및 마이크를 사용하여 사용자의 움직임과 표정을 실시간 수집.
- 처리 모듈: MediaPipe 기반으로 데이터를 분석하고 필터링 과정을 거쳐 노이즈 제거.
- 출력 모듈: Unreal Engine을 활용하여 아바타의 움직임과 표정을 렌더링.
- 최적화 모듈: 네트워크 상태 및 하드웨어 성능을 고려하여 시스템 성능 최적화
Ⅳ. 시스템 구현
4.1 Unreal Engine 기반 메타버스 환경 구축
본 연구에서는 Unreal Engine 5.1.1 (UE 5.1.1)을 활용하여 메타버스 환경을 구축하였다. UE 5.1.1은 고품질 그래픽 렌더링, 실시간 애니메이션, 다양한 물리 엔진을 지원하며, 메타버스에서 몰입형 경험을 제공하는 데 최적화된 플랫폼이다.
본 연구에서 사용한 UE 5.1.1의 주요 기능:
- 애니메이션 블루프린트(Animation Blueprint): 아바타 움직임을 실시간으로 반영하는 프레임워크
- MediaPipePoseSolver: 실시간 신체 움직임 감지를 위한 모듈
- MediaPipeHandSolver: 손가락 및 손 움직임을 처리하는 모듈
- MediaPipeLocationSolver: 아바타의 위치를 조정하는 기능 제공
이러한 Unreal Engine 기능을 활용하여, MediaPipe 기반의 실시간 아바타 인터랙션 시스템을 구축하였다.
4.2 개발 환경 및 소프트웨어 설정
아바타 시스템을 개발하기 위해 Visual C++, Visual Studio 2022, Windows SDK 등의 개발 도구를 사용하였다.
- Visual C++: Unreal Engine 내에서 아바타 모션 캡처 및 데이터 처리를 위한 주요 언어
- Visual Studio 2022: 프로젝트 개발 및 디버깅 환경
- Windows SDK: 하드웨어와의 상호작용을 위한 필수 API 제공
개발 환경 설정을 통해 MediaPipe4U 플러그인을 Unreal Engine과 통합하여 실시간 데이터 처리를 가능하게 하였다.
4.3 실시간 영상 입력 및 모션 캡처 시스템
본 연구에서는 Logitech BRIO 500 웹캠을 사용하여 1280×720 해상도, 60fps로 사용자 움직임을 실시간으로 캡처하였다.
- 입력 장치: Logitech BRIO 500 웹캠
- 해상도: 1280×720 픽셀
- 프레임 속도: 60fps
- 사용 목적: 사용자의 신체 움직임과 얼굴 표정을 분석하여 아바타에 반영
이러한 영상 입력 시스템은 MediaPipe의 Pose 및 Face Mesh 모델과 결합하여 실시간으로 아바타 동작을 매핑하는 핵심 기술로 활용되었다.

4.4 최적화 기법
모션 캡처 및 얼굴 표정 인식 시스템의 실시간 성능을 개선하기 위해 다음과 같은 최적화 기법을 도입하였다.
- Kalman 필터 적용: 잡음을 제거하고 부드러운 움직임을 생성
- 프레임 속도 조정: 연산량 감소를 위해 적절한 프레임 속도를 유지
- 네트워크 최적화: 지연 시간을 최소화하여 메타버스 내에서 원활한 상호작용 제공
- 모델 경량화(Quantization): 딥러닝 모델의 계산 복잡도를 줄여 반응 속도를 향상
이러한 기법을 통해 아바타의 움직임과 표정 반응성을 크게 향상시켰다
Ⅴ. 실험 결과 및 분석
5.1 실험 개요
본 연구에서는 제안된 시스템의 성능 평가를 위해 다양한 실험을 수행하였다.
- 신체 움직임 인식(BMR, Body Movement Recognition) 정확도 평가
- 얼굴 표정 인식(FER, Facial Expression Recognition) 정확도 평가
- 반응 속도 및 지연 시간(Delay) 측정
- 사용자 만족도 조사
5.2 신체 움직임 인식 성능 평가
사용자의 움직임이 실시간으로 아바타에 반영되는 정확도와 지연 시간을 측정하였다.
- 오른손 들기: 평균 2.06초의 지연 시간, 98.82%의 정확도
- 왼손 들기: 평균 1.96초의 지연 시간, 98.85%의 정확도
- 양손 들기: 평균 2.15초의 지연 시간, 97.95%의 정확도
양손을 들 때 가장 긴 지연 시간이 발생하였으며, 이는 복합적인 동작이 시스템에서 처리되기 때문으로 분석되었다.
5.3 얼굴 표정 인식 성능 평가
사용자의 얼굴 표정을 인식하고 아바타에 적용하는 지연 시간 및 정확도를 측정하였다.
- 기본 표정(Natural Expression): 1.24초, 97.85% 정확도
- 입술을 내밀며 수용(Accepting with a pouty mouth): 1.46초, 97.56% 정확도
- 입을 벌린 놀란 표정(Surprise with mouth open): 1.55초, 94.27% 정확도
- 생각하는 표정(Thinking with eyes looking upwards): 1.46초, 93.26% 정확도
일부 감정 표현(예: 눈을 감고 집중하는 표정)은 상대적으로 낮은 정확도를 보였으며, 추가적인 모델 개선이 필요함을 시사하였다.
5.4 사용자 만족도 평가
실험 참가자들을 대상으로 시스템의 몰입감 및 상호작용성에 대한 설문을 진행하였다.
- 90% 이상의 사용자가 자연스러운 아바타 인터랙션을 경험했다고 응답
- 반응 속도와 애니메이션의 부드러움에 대해 높은 점수를 부여
- 일부 사용자는 특정 표정(눈을 감은 상태, 입술을 내미는 표정)이 자연스럽지 않다고 평가
이러한 결과를 바탕으로 추가적인 데이터 학습 및 최적화가 필요함을 확인하였다.
5.5 시스템 성능 분석
본 연구에서 제안한 아바타 생성 시스템의 성능을 기존 방법과 비교하였다.
| 평가항목 | 기존 시스템 | 제안된 시스템 |
| 신체 움직임 반영 속도 | 3.5초 | 2.1초 |
| 얼굴 표정 반영 속도 | 2.8초 | 1.5초 |
| 평균 인식 정확도 | 85% | 98.2% |
결과적으로, 본 연구의 시스템은 기존 방식보다 더 빠르고 정확한 아바타 인터랙션을 제공함을 입증하였다.
Ⅵ. 결론 및 향후 연구
본 연구는 메타버스 플랫폼에서 인간의 신체 움직임과 얼굴 표정을 통합하여 인터랙티브 아바타를 생성하는 프레임워크를 제안한다. 이를 위해 Mediapipe4U 플러그인을 활용하여 실시간 아바타 생성을 지원하며, 웹캠을 통해 사용자의 움직임과 표정을 캡처하여 가상 환경에서 아바타를 생성한다.
이 프레임워크는 메타버스 내 회의, 컨퍼런스, 교육 환경 등에 적합하며, 정확한 신체 움직임 및 얼굴 표정 인식 기능을 제공한다. 성능 평가 결과, BMR(Body Movement Recognition) 프레임워크는 오른발을 드는 동작에서 98.95%의 정확도와 1.83초의 지연 시간을 기록하였다. 또한, FER(Facial Expression Recognition) 프레임워크는 자연스러운 표정 인식에서 97.85%의 정확도와 1.24초의 지연 시간을 보였다.
본 연구는 향후 Mediapipe4U의 오디오 분류, 텍스트 임베딩, 언어 감지 기능을 활용하여 확장될 가능성이 있다. 또한, 실시간 지연 최소화를 위한 스케줄링 조정, 칼만 필터 기반 오류 보정, 아바타 성능 향상을 위한 동기화 기술 적용이 가능하다.
추가적으로, 메타버스에서의 아바타 생성 연구에서 해결해야 할 핵심 과제는 다음과 같다:
- AI 기반 아바타 생성 확장성
- 인터랙티브 아바타 생성 프레임워크에서의 개인정보 보호 및 보안 문제
- 신뢰할 수 있는 실시간 아바타 개발 기술
이러한 문제를 해결하기 위해 생성형 AI(Generative AI)와 대규모 언어 모델(LLM) 활용 가능성이 제시되었다. 또한, 분산 학습 및 블록체인을 결합하여 아바타 맞춤화를 위한 분산 인증을 적용함으로써 보안과 프라이버시를 강화할 수 있다. 마지막으로, 엣지 컴퓨팅 및 태스크 오프로딩(task off-loading) 기법을 도입하여 신뢰할 수 있는 실시간 아바타 개발 기술을 제공하는 방안이 제안되었다.
총평
본 연구는 메타버스 환경에서 인간 중심의 아바타 생성 기술을 개발하는 데 중점을 두었다. 기존 연구의 한계를 분석하고, 모션 캡처와 얼굴 표정 인식을 통합하여 보다 현실적인 아바타를 구현하였다. 실험 결과는 제안된 시스템이 높은 정확도를 유지하면서도 실시간 처리가 가능함을 입증하였다. 그러나 일부 동작에서 지연 시간이 발생하는 문제는 향후 최적화가 필요할 것으로 보인다. 또한, 메타버스 환경 내에서 다중 사용자의 아바타 동기화 및 상호작용을 고려한 추가 연구가 필요하다. 본 연구는 메타버스 기반 상호작용 기술 발전에 기여할 수 있는 중요한 연구이며, 향후 확장성을 고려한 추가 연구가 기대된다.
MediaPipe4U 코드 : https://github.com/endink/Mediapipe4u-plugin.git
GitHub - endink/Mediapipe4u-plugin
Contribute to endink/Mediapipe4u-plugin development by creating an account on GitHub.
github.com