* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다.
1. Introduction
이 논문은 RGB 비디오에서 여러 인물의 3D 포즈를 추정하고 이를 애니메이션으로 생성하는 프레임워크인 AnimePose를 제안한다. 기존 연구들이 주로 단일 인물의 3D 포즈 추정에 중점을 두었던 반면, 다수 인물의 3D 포즈 추정은 상호작용과 폐색(occlusion) 문제로 인해 어려움이 있다. AnimePose는 2D 포즈 추정과 깊이 맵을 사용하여 각 인물의 상대적 위치를 유지한 채 3D 포즈를 추정하고, Unity 3D 환경에서 애니메이션을 구현하는 방법을 제시한다.

2. Proposed Methodology
AnimePose는 다음 세 가지 주요 단계로 구성된다.
2.1 Multi-person 2D Pose Estimation and Depth Map Generation
AnimePose는 HR-Net 기반의 Hybrid Task Cascade Network를 통해 인물을 탐지하고, AlphaPose를 사용하여 다수 인물의 2D 포즈를 추정한다. 깊이 맵 생성을 위해 Multi-Scale Local Planar Guidance (LPG) 방법을 적용하여 단일 RGB 이미지에서 깊이 정보를 추정하고, 이를 바탕으로 3D 포즈 재구성에 필요한 정보로 활용한다.

2.2 2D to 3D Multi-Person Pose Uplifting Approach
2D에서 3D로 변환할 때 각 인물의 2D 포즈와 경계 상자 정보를 활용하여 3D 포즈를 추정하고, 깊이 맵을 사용해 인물 간 상대적 위치를 유지할 수 있도록 하였다. 이를 통해 각 인물의 포즈를 Unity 3D 환경에서 보다 정확하게 표현할 수 있다.

2.3 Multi-Person Pose Tracking
Recurrent Spatio-Temporal Affinity Fields 방식을 통해 다수 인물의 포즈를 추적하며, 3D IOU(Intersection Over Union) 메트릭을 사용하여 추적 성능을 개선한다. 이 메트릭은 두 프레임 사이의 3D 경계 상자 간의 겹침 정도를 기반으로 계산된다:
$$
\text{IOU}_{3D} = \frac{V_{B1} \cap V_{B2}}{V_{B1} \cup V_{B2}}
$$
여기서 \( V_{B1} \)과 \( V_{B2} \)는 두 프레임의 3D 경계 상자 볼륨을 의미한다.

3. Experiments and Results
AnimePose의 성능을 평가하기 위해 MuCo-3DHP와 MuPoTS-3D 데이터셋을 사용하며, 평가 지표로는 3D PCKrel(정확한 키포인트 비율)과 MOTA(다중 객체 추적 정확도)를 적용하였다.
- Table 1: MuPoTS-3D 데이터셋에서의 시퀀스별 3DPCKrel 성능 비교 결과. AnimePose는 82.1%의 평균 3DPCKrel 성과를 기록하여 기존의 3D 포즈 추정 방법들보다 우수한 성능을 보였다.
$$
\begin{array}{|c|c|}
\hline
\text{모델} & \text{3DPCKrel (\%)} \\
\hline
\text{Rogez} & 53.8 \\
\text{Mehta} & 66.0 \\
\text{3D MPPE} & 81.8 \\
\textbf{AnimePose (Ours)} & \textbf{82.1} \\
\hline
\end{array}
$$
- Table 2: PoseTrack 2018 데이터셋에서의 MOTA 성능 비교. AnimePose는 60.1%의 MOTA를 기록하여 다중 객체 추적에서도 탁월한 성능을 보였다.
$$
\begin{array}{|c|c|}
\hline
\text{모델} & \text{MOTA (\%)} \\
\hline
\text{PoseTrack} & 48.4 \\
\text{BUTD} & 50.6 \\
\text{PoseFlow} & 51.0 \\
\text{Temporal Affinity Fields} & 53.8 \\
\textbf{AnimePose (Ours)} & \textbf{60.1} \\
\hline
\end{array}
$$
- Table 3: AnimePose가 각 관절별로 MuPoTS-3D 데이터셋에서 기록한 3DPCKrel 성능. AnimePose는 주요 관절에서 기존 방법들에 비해 높은 정확도를 보였다.
$$
\begin{array}{|c|c|c|c|c|c|c|c|c|c|}
\hline
\text{모델} & \text{Head} & \text{Neck} & \text{Shoulder} & \text{Elbow} & \text{Wrist} & \text{Hip} & \text{Knee} & \text{Ankle} & \text{Avg} \\
\hline
\text{Rogez} & 49.4 & 67.4 & 57.1 & 51.4 & 41.3 & 84.6 & 56.3 & 36.3 & 53.8 \\
\text{Mehta} & 62.1 & 81.2 & 77.9 & 57.7 & 47.2 & 97.3 & 66.3 & 47.6 & 66.0 \\
\text{3D MPPE} & 79.1 & 92.6 & 85.1 & 79.4 & 67.0 & 96.6 & 85.7 & 73.1 & 81.8 \\
\textbf{AnimePose (Ours)} & \textbf{79.3} & \textbf{92.8} & \textbf{84.9} & \textbf{79.3} & \textbf{66.8} & \textbf{97.4} & \textbf{86.1} & \textbf{73.3} & \textbf{82.1} \\
\hline
\end{array}
$$
4. Conclusion
AnimePose는 다수 인물의 3D 포즈 추정 및 애니메이션을 생성하는 포괄적인 솔루션으로, 깊이 맵과 경계 상자를 통해 인물 간의 상대적 위치를 유지함으로써 3D 포즈 추정의 정확도를 개선하였다. 실험 결과, MuPoTS-3D 및 PoseTrack 데이터셋에서 기존 방법보다 우수한 성과를 보여주었으며, 폐색 문제 해결에서도 유의미한 성과를 거두었다.
5. 해결 과제
AnimePose는 복잡한 환경에서도 높은 정확도를 보였으나, 실시간 처리 및 다양한 환경에 대한 일반화는 여전히 과제로 남아 있다. 폐색이 심한 장면이나 상호작용이 복잡한 환경에서의 성능 향상을 위한 추가 연구가 필요하다.