* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다.
ABSTRACT
이 논문에서는 RGB 이미지에서 신체, 손 및 얼굴 세부 정보를 포함하는 인간의 전체 신체 자세를 추정하는 기술인 Whole-body Pose Estimation에 대해 다룹니다. 기존의 연구들은 주로 단일 인물에 대한 메쉬 복원에 집중했지만, 실제 상황에서는 다수의 인물이 등장하는 경우가 많습니다. 그러나 기존의 단일 인물 중심 방법들은 다음 두 가지 이유로 다중 인물 문제에 적합하지 않습니다:
1. 모호한 바운딩 박스가 여러 인물을 포함할 수 있어, 단일 인물 방법이 목표 인물의 신체 메쉬 모델을 회귀하기 어렵습니다.
2. 단일 인물 자세 추정 방법은 인물 간의 가림 현상(person-person occlusion) 및 깊이 순서를 무시하여 겹치는 모델을 생성합니다.
1 INTRODUCTION
이 논문은 Multi-person Expressive POse (MEPO) 모델을 제안합니다. 이는 다수 인물의 3D 인간 모델 복원을 위한 최초의 모델로, 히트맵, 깊이 맵 및 깊이 순서 손실을 통해 강화됩니다. Heatmap Enhancement Net (HENet)을 통해 모델이 혼잡한 다중 인물 상황에서 목표 인물에 집중할 수 있도록 돕고, 깊이 맵은 이미지의 깊이 정보를 제공합니다. 또한, 깊이 순서 손실을 도입하여 겹치는 사람들의 신체 메쉬를 정확하게 복원합니다.
실험에서는 AGORA와 같은 여러 도전적인 데이터 세트를 사용하여 모델을 평가하였으며, 이 데이터 세트는 실제 상황과 유사한 복잡한 가림을 포함하고 있습니다. 이 방법은 기존의 최신 자세 추정 방법들에 비해 성능이 크게 향상되었습니다.
이 논문에서는 3D 인간 자세 추정의 최근 동향과 발전을 다루고 있으며, 다양한 응용 분야에서의 중요성을 강조합니다. 기존의 연구는 주로 단일 인물의 신체 자세 추정에 초점을 맞췄지만, 손, 손가락, 얼굴 움직임과 같은 복잡한 요소들을 포함한 전체 신체 자세 추정의 필요성이 대두되고 있습니다. 기존의 단일 인물 방법들은 여러 인물이 포함된 이미지를 처리하는 데 두 가지 주요 문제를 겪고 있습니다:
- 모호한 바운딩 박스: 단일 인물 방법이 여러 인물의 정보를 포함하는 모호한 바운딩 박스에서 자세를 추정하기 어려움.
- 깊이 순서 무시: 겹치는 인물 간의 깊이 관계를 무시하여 모델이 서로 겹치는 신체 메쉬를 생성하는 문제.
이에 대한 해결책으로 Multi-person Expressive POse (MEPO) 모델을 제안합니다. 이 모델은 두 단계로 구성되어 있습니다:
- 인스턴스 탐지: 원본 이미지에서 인스턴스를 탐지합니다.
- 인간 모델 복원: 각 탐지된 인스턴스에 대해 전체 신체 모델을 복원합니다.
특히, Heatmap Enhancement Net (HENet)을 도입하여 모호한 바운딩 박스 문제를 해결하고, 각 인스턴스의 존재 정보를 나타내는 히트맵을 생성하여 모델이 목표 인물에 집중할 수 있도록 지원합니다. 또한, 깊이 맵과 깊이 순서 손실을 통해 겹치는 인물 간의 깊이 관계를 처리합니다.모델은 AGORA와 같은 여러 도전적인 데이터 세트에서 평가되었으며, 기존의 최신 방법들에 비해 성능이 크게 향상되었습니다. 논문의 주요 기여는 다음과 같습니다:
- MEPO라는 새로운 다중 인물 자세 추정 방법 제안.
- 혼잡한 장면에서의 메쉬 복원 성능을 향상시키기 위한 HENet 도입.
- 여러 데이터 세트에서 평가하여 기존의 전체 신체 자세 추정 방법보다 뛰어난 성능을 입증.
2 RELATEDWORK
2.1 Human Modeling
이 섹션에서는 인간 모델링에 대한 다양한 접근 방식을 다루고 있습니다. 인간 자세를 표현하는 가장 간단한 방법은 2D 또는 3D 키포인트를 사용하는 것이지만, 이러한 방법은 인간 행동 분석에 필요한 충분한 정보를 제공하지 못합니다. 대신, 3D 파라메트릭 인간 모델은 인간의 움직임을 생동감 있고 정확하게 설명하는 데 사용됩니다. 이 모델은 3D 인간의 변형을 일련의 파라미터로 모델링하여, 키포인트만 사용하는 것보다 더 정확하게 인간 자세를 설명할 수 있습니다.
- SCAPE는 이 분야에서 처음으로 성공적인 접근 방식으로 제안되었으며, 가장 널리 사용되는 모델인 SMPL은 6890개의 정점과 23개의 관절을 포함한 스킨(vertex)기반 모델입니다.
또한, 손 변형 모델인 MANO와 얼굴 변형 모델인 3DMM, FLAME 등도 제안되었습니다. 최근 연구에서는 인간의 신체, 손, 얼굴을 함께 모델링하는 파라메트릭 인간 모델도 제안되었습니다. 예를 들어, SMPLH는 SMPL 모델과 MANO 손 모델을 결합하여 신체와 손의 움직임을 함께 캡처합니다. SMPL-X 모델은 SMPL 신체 모델을 MANO 손 모델 및 FLAME 머리 모델로 확장한 것으로, 10,475개의 정점과 54개의 관절을 포함하고 있습니다. 이 모델은 신체 표현을 위한 24개의 관절과 손과 얼굴(턱, 눈동자, 손가락 등)을 위한 관절로 구성됩니다. 본 연구에서는 최근의 전체 신체 자세 추정 작업을 따르며, SMPL-X 모델을 출력 형식으로 사용합니다.
2.2 Multi-Person Pose Estimation
단안 카메라를 이용한 다중 인물 자세 추정은 단일 RGB 이미지에서 모든 사람의 관절을 예측하거나 인간 메쉬 모델을 회귀하는 과정을 포함합니다. 이 과정에서 가림 현상 처리와 깊이 순서 결정은 중요한 요소입니다. 다중 인물 신체 메쉬 복원 방법은 설계 전략에 따라 두 가지 유형으로 분류됩니다:
- 두단계 방법: 이 방법은 먼저 이미지를 감지하고 인스턴스를 자른 후, 각 인스턴스에 대해 신체 모델 복원 방법을 적용합니다. 그러나 다중 인물의 경우 잘림(truncations), 가림(occlusions), 및 겹침(interpenetrations)으로 인해 목표 인물의 정확한 회귀가 어렵습니다. 따라서, 인물 간의 가림 및 깊이 순서를 처리하는 것이 중요합니다. 예를 들어, Jiang et al.는 충돌하는 모델을 방지하기 위해 interpenetration loss와 픽셀 수준의 깊이 순서 인식 손실을 도입하여 보다 정확한 인간 모델을 복원합니다. 3DCrowdNet은 오프라인 2D 자세 추정기를 기반으로 대상 인물의 2D 자세 히트맵을 생성하고, 이를 관절 기반의 신체 메쉬 회귀기에 전달합니다.
- 일단계 방법: 최근에는 일단계 솔루션을 찾기 위한 연구가 진행되고 있으며, 이 방법은 더 빠르게 실행되며 상단-하단 방법의 모호한 바운딩 박스 문제를 생략할 수 있습니다. 예를 들어, Sun et al.는 실시간으로 가림과 추론을 처리하는 ROMP를 제안하였고, Zhang et al.는 각 인스턴스의 깊이 수준을 나타내기 위해 FPN을 채택하고 가림 문제를 처리하기 위해 인스턴스 간 순서 관계 감독을 적용하는 일단계 해결책을 제안했습니다.
하지만 다양한 다중 인물 자세 추정 방법들이 성공을 거두었음에도 불구하고, 다중 인물 사례에서 전체 신체 자세 추정 가능성을 탐구한 연구는 거의 없습니다. 기존의 전체 신체 다중 인물 자세 예측 방법들과 달리, 본 모델은 3D 인간 메쉬를 복원합니다.
2.3 Whole-Body Pose Estimation
전체 신체 자세 추정은 인간의 신체 모델뿐만 아니라 손과 얼굴을 포함한 표현력 있는 모델을 복원하는 것을 목표로 합니다. 초기에는 전체 신체 자세 추정이 데이터셋 부족, 전체 신체 표현을 위한 인간 파라메트릭 모델의 부재, 다양한 데이터셋에서의 불일치하는 주석으로 인해 어려운 과제가 되었습니다. 이로 인해 연구자들은 각 모델의 부분을 서로 다른 데이터셋에서 별도로 훈련해야 했습니다. 최근 몇 년 동안, SMPL-X 형식 주석이 포함된 데이터셋이 발표되면서 전체 신체 자세 추정의 발전이 가속화되었습니다. EHF, THUman2.0, MultiHuman과 같은 소규모 데이터셋은 평가를 위해 수백 장의 이미지를 포함하고 있습니다. SMPL-X는 SMPL 모델에 MANO 손 모델과 FLAME 얼굴 모델을 추가하여 개발된 모델로, 최근 많은 주목을 받고 있습니다. 최근의 단일 인물 자세 추정 접근법에서는 SMPL-X 모델을 채택하고 있습니다. 예를 들어, ExPose는 손과 얼굴을 위한 고해상도 이미지 크롭을 추출하기 위해 신체 중심 주의를 도입하여 성능을 향상시킵니다. AGORA는 15,754장의 이미지와 함께 실제 SMPL-X 맞춤값이 포함된 대규모 합성 데이터셋입니다. 최적화 기반 접근법인 SMPLify-X는 감지된 2D 키포인트를 이용해 모델 매개변수를 최적화하여 모델을 복원하는 SMPLify와 유사한 절차를 따릅니다. 대부분의 회귀 기반 작업은 신체, 손 및 얼굴 부분을 각각 회귀한 후 모든 부분을 결합하여 전체 모델을 형성합니다. 예를 들어, Zhou et al.는 3DMM 얼굴 모델을 사용하여 얼굴을 복원하고 SMPLH-neutral을 신체-손 관절 모델로 채택합니다. FrankMocap은 얼굴, 신체 및 손 부분을 결합하여 전체 신체 표현을 생성하는 통합 모듈을 활용합니다. 그러나 현재까지 다중 인물 자세 추정을 위한 전체 신체 방법은 존재하지 않습니다.
3 METHODOLOGY
본 논문에서는 다중 인물 전체 신체 메쉬 복원을 위한 새로운 접근 방식을 소개합니다. 이 방법은 1장에서 언급한 여러 가지 도전 과제를 해결하는 데 중점을 두고 있습니다. 구체적으로, 우리의 모델은 모호한 바운딩 박스 문제를 해결하기 위해 Heatmap Enhancement Net (HENet)를 활용하여, 히트맵 정보를 효과적으로 이용해 바운딩 박스 내에서 목표 인스턴스를 로컬라이징합니다. 또한, 겹치는 인스턴스의 깊이 순서 결정의 복잡성을 해결하기 위해, 모델에 깊이 맵과 깊이 순서 손실 메커니즘을 통합하였습니다. 이 섹션에서는 모델 프레임워크에 대한 구조적 개요를 제시한 후, 모델의 필수 구성 요소에 대한 포괄적인 설명을 제공합니다.
3.1 Overall Framework
이 논문에서는 다중 인물 전체 신체 메쉬 복원을 위한 새로운 방법인 MEPO를 제안합니다. 이 방법은 모호한 바운딩 박스 문제를 해결하기 위해 Heatmap Enhancement Net (HENet)를 활용하고, 겹치는 인스턴스의 깊이 순서를 결정하기 위해 깊이 맵과 깊이 순서 손실 메커니즘을 통합합니다.
이 접근 방식은 두 단계의 자세 추정 방법으로 구성되어 있습니다. 첫 번째 단계에서는 이미지에서 인스턴스를 감지하고, 두 번째 단계에서는 감지된 인스턴스에 대해 인간 메쉬 모델을 복원합니다. 모델은 다음과 같은 구성 요소로 이루어져 있습니다:
- 인스턴스 감지: 2D 자세 추정 방법을 사용하여 이미지에서 인스턴스와 해당 2D 관절을 출력합니다.
- DepthNet: 이미지 깊이 맵을 출력합니다.
- FaceBranch, HandBranch, BodyBranch: 각각 얼굴, 손, 신체의 특징을 추출하여 결합합니다.
- HENet: 히트맵과 중간 이미지 특징을 입력으로 받아 히트맵 강화 이미지 특징을 생성합니다.
- PoseNet: 최종적으로 SMPL-X 메쉬 모델을 복원합니다.
수식은 다음과 같이 표현됩니다:
- 인스턴스의 2D 관절을 감지하는 과정:
$$
F_{p_0}, F_{p_1}, \ldots, F_{p_n} = f_{CNN}(f_{openpose}(I)) \tag{2}
$$
HENet을 통해 깊이 인식 최적화 이미지 특징을 생성하는 과정:
$$
F'_i = f_{HENet}(F_{p_i}, F_{h_i}) \oplus F_{d_i} \tag{3}
$$
여기서:
- \( F_{h_i} \)는 인스턴스 \( p_i \)의 히트맵 특징,
- \( F'_i \)는 깊이 인식 최적화 이미지 특징,
- \( F_{d_i} \)는 깊이 맵 \( F_D \)에서 \( p_i \)에 해당하는 깊이 맵입니다.
마지막으로, 최적화된 이미지 특징 \( F'_i \)를 PoseNet에 전달하여 신체 관절 특징 \( F_{J_{body}} \)를 얻고, 이를 손 관절 특징 \( F_{J_{hand}} \)와 결합하여 신체 자세 \( \theta_b \in \mathbb{R}^{63} \), 신체 형태 \( \beta \in \mathbb{R}^{10} \), 카메라 매개변수 \( K \in \mathbb{R}^{3} \)를 출력합니다.
3.2 HENet
이 절에서는 전체 신체 자세 추정 문제뿐만 아니라 다중 인물 자세 추정 문제를 해결하기 위한 접근 방식을 제안합니다. 특히 혼잡한 장면에서 인스턴스 감지 결과가 여러 인스턴스를 포함할 가능성이 높습니다. 기존의 전체 신체 인간 복원 모델은 이러한 모호한 감지 결과로 인해 성능이 저하됩니다. 따라서, 우리는 히트맵 정보를 활용하여 복원 모델이 모호한 바운딩 박스 내에서 목표 인물에 집중하도록 합니다.
우리의 방법은 히트맵 정보를 보다 효율적으로 활용합니다. HENet의 구조는 그림 3에 나타나 있으며, HENet 내부에서 히트맵의 스케일 특징과 편향 특징을 추출하여 중간 이미지 특징에 적용합니다.

각 인스턴스 \( p_i \)에 대해, 먼저 중심 관절 \( J_{p_i} \in R^{J_{num} \times 2} \)을 예측합니다. 여기서 \( J_{num} \)은 관절의 수를 나타냅니다. 예측된 관절 좌표를 바탕으로 각 선택된 관절에 2D 가우시안 분포를 적용합니다. 다음으로, 메쉬 복원 모델이 목표 인스턴스에 집중할 수 있도록 중간 이미지 특징과 해당하는 히트맵을 HENet에서 처리합니다.
HENet의 설계는 모델이 이미지 내의 목표 인물에 집중하도록 합니다. 이를 위해 우리는 공간 주의(spatial attention)의 개념을 채택하여 HENet의 스케일 특징 브랜치에서 스케일 가중치 특징을 생성합니다.
HENet의 구조는 그림 3에 나타나 있으며, 중간 이미지 특징 \( F_{p_i} \in R^{C \times W \times H} \)에 대해 히트맵에 합성곱층을 적용하여 히트맵 스케일 특징 \( F_h^s \in R^{C \times W \times H} \)와 편향 특징 \( F_h^b \in R^{C \times W \times H} \)를 독립적으로 얻습니다. 이러한 특징들은 HENet을 통해 이미지 특징 \( F_{p_i} \)와 함께 처리됩니다.
히트맵 스케일 특징 \( F_h^s \)에 대해 각 픽셀에 대해 채널을 따라 최대 풀링(max pooling)과 평균 풀링(average pooling)을 적용하여 각각 \( F_{max} \in R^{1 \times W \times H} \) 및 \( F_{avg} \in R^{1 \times W \times H} \)를 얻습니다. 그런 다음 \( F_{max} \)와 \( F_{avg} \)를 \( R^{1 \times (W \times H)} \)로 재형성하고, 시그모이드 함수를 적용한 후 다시 \( R^{1 \times W \times H} \)로 재형성합니다. 이 두 특징을 요소-wise로 더하여 스케일 가중치 \( F_w \in R^{1 \times W \times H} \)를 얻습니다. 스케일 가중치 \( F_w \)는 이미지 특징에 요소-wise로 곱해지고, 히트맵 편향 특징 \( F_h^b \)는 이미지 특징에 요소-wise로 더해집니다. 이 과정은 다음과 같이 수식으로 표현됩니다:
$$
F_h^e = F_{p_i} \odot F_w + F_h^b, \tag{4}
$$
여기서 \( F_h^e \)는 HENet에서 생성된 강화 이미지 특징입니다.
3.3 DepthNet and Depth Order Loss
모호한 바운딩 박스 외에도, 이미지 내 인스턴스 간의 깊이 순서 관계는 기존의 전체 신체 자세 추정 방법에서 해결되지 않은 문제입니다. 본 연구에서는 깊이 정보를 활용하여 인스턴스 간의 깊이 순서를 처리하는 방법을 제안합니다. 구체적으로, 우리는 DepthNet을 사용하여 이미지에서 깊이 정보를 캡처하고, 깊이 순서 손실을 통해 깊이 순서 관계를 처리합니다.
DepthNet
이미지에서 깊이 정보를 얻기 위해, 우리의 모델에 DepthNet을 구축하였습니다. DepthNet의 구조는 그림 4에 나타나 있습니다. 이미지 특징 \( F_I \in R^{C \times H \times W} \)를 주어진 경우, 우리는 두 개의 이미지 깊이 특징(IDF) 브랜치를 사용하여 깊이 특징 \( F_d \)와 강조된 깊이 특징 \( F_a \)를 각각 얻습니다. 각 IDF 브랜치 내에서, \( F_I \)에 1x1 합성곱을 적용하여 채널을 변경합니다. 이후 출력 특징 \( F'_I \)를 \( R^{(C \times H) \times W} \)로 재형성합니다.
재형성 후, 세 개의 1x1 합성곱 층을 적용하여 특징 크기를 \( R^{(C \times H) \times W} \)에서 \( R^{W \times H} \)로 변경합니다.

Depth Order Loss
단일 인물 자세 추정 방법은 이미지 내 겹치는 인스턴스의 깊이 순서를 인식하지 못하여 일관되지 않은 깊이 순서 및 메쉬 모델 간섭을 초래합니다. 따라서 우리는 각 인스턴스 \( p_i \)에 대해 깊이 순서 레벨 \( d_i \)를 사용하여 이미지 내 인물 간의 깊이 순서 관계를 나타냅니다. 다른 사람을 가리는 인물은 더 높은 깊이 순서 레벨을 갖습니다.
기존의 방법들은 픽셀 단위로 깊이 순서 손실을 제안했으나, 우리는 인스턴스 수준의 깊이 순서 손실이 더 안정적이라는 것을 발견했습니다. 아래와 같이 인스턴스 수준의 깊이 순서 손실을 정의합니다.
$$
L(p_i) =
\begin{cases}
\log(1 + \exp(|d_i - \hat{d}_i|)), & |d_i - \hat{d}_i| \leq T, \\
(d_i - \hat{d}_i)^2, & |d_i - \hat{d}_i| > T,
\end{cases} \tag{5}
$$
여기서 \( d_i \)는 실제 깊이 순서 레벨이고, \( T \)는 예측된 \( \hat{d}_i \)와 \( d_i \)가 동일한 깊이 순서 레벨인지 여부를 판단하기 위한 미리 정의된 임계값입니다. 전체 이미지에 대한 총 깊이 순서 손실 \( L_{depth} \)는 이미지 내 모든 인스턴스의 손실을 평균하여 계산됩니다:
$$
L_{depth} = \frac{1}{N} \sum_{p_i \in P} L(p_i), \tag{6}
$$
여기서 \( N \)은 이미지에서 감지된 인스턴스의 수를 나타내며, \( P \)는 모든 감지된 인스턴스를 의미합니다.
실험에서의 실제 깊이 순서 레벨은 알고리즘 1에 나타난 바와 같이 실제 마스크 주석에서 정의되고 추출됩니다. 이 알고리즘의 기본 아이디어는 인스턴스가 다른 인스턴스를 가릴 경우, 그 깊이 순서 레벨과 가리는 인스턴스의 깊이 순서 레벨을 업데이트하는 것입니다.
3.4 PoseNet

우리는 PoseNet을 사용하여 이미지 특징에서 SMPL-X 매개변수를 얻습니다. PoseNet의 구조는 그림 5에 나타나 있습니다. 입력 이미지 특징 \( F'_i \)가 주어지면, 1x1 합성곱 층을 적용하여 자세 맵 \( P_i \)를 출력합니다. 이후 soft-argmax를 사용하여 자세 맵 \( P_i \)에서 좌표를 계산합니다. 각 좌표에 대해, 입력 이미지 특징 \( F'_i \)에 bilinear interpolation을 적용하여 각 관절의 특징을 얻습니다. 그런 다음, 얻은 특징과 관절 좌표를 결합하여 관절 특징 \( F_{J_i} \)를 생성합니다. 관절 특징 \( F_{J_i} \)는 완전 연결층을 통과하여 자세 매개변수를 얻습니다.
우리 접근법의 손실 함수는 다음과 같이 정의됩니다:
$$
L = L_{pose} + L_{depth}, \tag{7}
$$
여기서 \( L_{depth} \)는 3.3절에서 소개한 깊이 순서 손실입니다. \( L_{pose} \)는 총 자세 추정 손실로, 다음과 같이 정의됩니다:
$$
L_{pose} = L_{mesh} + L_{joint} + L_{bbox}, \tag{8}
$$
여기서 \( L_{mesh} \)는 예측된 SMPL-X 매개변수와 실제 SMPL-X 적합 간의 \( L_1 \) 손실을 계산하고, \( L_{joint} \)는 예측된 관절 좌표와 실제 관절 좌표 간의 \( L_2 \) 손실을 계산하며, \( L_{bbox} \)는 얼굴과 손의 예측된 바운딩 박스 중심 및 크기와 실제 바운딩 박스 간의 \( L_2 \) 손실을 계산합니다.
4 EXPERIMENTS
4.1 Datasets and Evaluation Metrics
Datasets: 우리는 Human3.6M, MSCOCO, MPII, AGORA 훈련 데이터셋에서 모델을 훈련하고, AGORA 검증 데이터셋, 3DPW , EHF에서 모델을 평가합니다. AGORA는 3D 인간 자세 추정을 위한 합성 데이터셋으로, 14,000장의 고해상도(4K) 이미지를 포함하고 있으며, 각 이미지에는 5명에서 15명까지의 인물이 포함되어 있습니다. 3DPW는 인간의 자세와 동작을 포착한 첫 번째 다중 인물 데이터셋으로, 51,000 프레임의 비디오를 포함하고 있습니다. AGORA와 3DPW는 인물 간의 가림, 환경 가림, 카메라 프레임 가림을 포함하고 있어 도전적인 데이터셋으로 간주됩니다. EHF 데이터셋은 100장의 SMPL-X 주석이 포함된 단일 인물 전체 신체 데이터셋으로, 정점 간 오류(vertex-to-vertex error)를 사용합니다.
Evaluation Metrics: AGORA 데이터셋의 평가 지표는 AGORA 공식 벤치마크를 따르며, Normalized Mean Vertex Error (NMVE), Normalized Mean Joint Error (NMJE), Mean Vertex Error (MVE), Mean Per Joint Position Error (MPJPE)와 같은 지표를 포함하여 전체 신체, 신체, 왼손, 오른손, 얼굴에 대해 평가합니다. 3DPW 평가에서는 MPJPE, Mean Per Vertex Position Error (MPVPE), Procrustes Analysis MPJPE (PA-MPJPE)를 보고합니다. EHF 평가에서는 전체 신체, 손, 얼굴에 대한 PA-MPJPE 및 MPVPE를 보고합니다.
4.2 Implementation Details
우리는 Pytorch로 MEPO를 구현하였습니다. OpenPose 를 사용하여 인스턴스 감지 및 관절 히트맵 생성을 수행합니다.
| Method | MPJPE ↓ | PA-MPJPE ↓ | MPVPE ↓ |
|------------------------|---------|------------|---------|
| HMR | 130.0 | 76.7 | - |
| SPIN | 121.2 | 69.9 | 144.1 |
| ROMP | 91.3 | 54.9 | 108.3 |
| PIXIE | 91.0 | 61.3 | - |
| Hand4Whole | 86.6 | 54.4 | - |
| MEPO (Ours) | 79.1 | 52.4 | 96.8 |
*Table 3: 3DPW 데이터셋에 대한 SOTA 방법과의 정량적 비교. 우리는 실제 시나리오에서 방법의 효과를 보여주기 위해 기존 방법과 우리의 모델을 비교했습니다.*
ResNet-50을 사용하여 이미지 크롭을 처리합니다. 우리의 모델은 Human3.6M, MSCOCO, MPII 및 AGORA 데이터셋에서 훈련 및 미세 조정되었으며, AGORA, 3DPW 및 EHF 검증 데이터셋에서 평가됩니다. 실제 깊이 순서 레벨은 3.3절에 설명된 대로 실제 마스크에서 얻어집니다. 단일 인물 방법을 기준으로 OpenPose를 사용하여 이미지 내 인스턴스를 감지하고, 이후 자세 추정 방법으로 전달하여 공정한 비교를 수행합니다.
4.3 Comparison with State-of-the-Art Methods
AGORA Evaluation: 우리는 동일한 AGORA 평가 프로토콜에 따라 우리의 방법을 최첨단 방법과 비교합니다. 공정한 비교를 위해, 우리의 모델은 OpenPose 를 사용하여 이미지 내 인물들을 감지하며, 이는 AGORA에 보고된 최첨단 방법의 이미지 전처리 설정과 동일합니다. 결과는 표 1에 주어져 있습니다. 표에서 우리는 제안한 모델인 MEPO가 최첨단 전체 신체 자세 추정 방법보다 더 나은 성능을 보임을 확인할 수 있습니다.
3절에서 설명한 바와 같이, 우리의 모델은 이미지 내 인물 간의 가림을 인식하고 있으며, AGORA는 실제 장면을 시뮬레이션하기 위해 많은 가림을 포함하고 있습니다. 단일 인물 감지에 맞춰 구축된 다른 모델들은 복잡한 가림을 처리할 수 없습니다. 우리는 또한 우리의 방법을 최첨단 신체만 자세 추정 방법과 비교합니다. 이러한 비교의 목적은 우리의 모델이 현재 사용 가능한 다중 인물 자세 추정 방법보다 우수하다는 것을 입증하는 것입니다. 기존의 다중 인물 방법들은 신체만 모델을 생성하므로, 공정한 비교를 위해 신체만의 3D 인간 모델을 예측하기 위해 BodyBranch를 사용합니다.
신체만 설정에서 AGORA 벤치마크를 사용하여 \( \text{NMVE}, \text{NMJE}, \text{MVE}, \text{MPJPE} \)를 계산합니다. 기준 모델의 성능은 보고된 성능을 사용합니다. 표에 나타난 바와 같이, 제안된 MEP는 HMR, SPIN, PyMAF, EFT, ROMP, BEV, Hand4Whole(신체만)과 같은 다른 기준 방법들을 초월합니다. AGORA는 복잡한 가림을 포함하고 있어, 가림을 인식하지 못하는 방법인 HMR, SPIN 및 PyMAF는 전반적으로 성능이 좋지 않습니다. 반면, 가림 문제나 깊이 순서 문제를 고려하는 방법인 BEV와 우리의 모델은 비교적 좋은 성능을 보입니다. 이러한 실험 결과는 우리의 접근 방식이 복잡한 가림 상황에서도 효율적이며, 기존의 다중 인물 방법보다 우수함을 확인시켜 줍니다.
\[
\begin{array}{|l|c|c|c|c|c|c|}
\hline
\text{Methods} & \text{PA-MPVPE} \downarrow & \text{MPVPE} \downarrow \\
\hline
& \text{All} & \text{Hands} & \text{Face} & \text{All} & \text{Hands} & \text{Face} \\
\hline
\text{ExPose} & 54.5 & 12.8 & 5.8 & 77.1 & 51.6 & 35.0 \\
\text{Frankmocap} & 57.5 & 12.6 & - & 107.6 & 42.8 & - \\
\text{PIXIE} & 55.0 & 11.1 & 4.6 & 89.2 & 42.8 & 32.7 \\
\text{Hand4Whole} & 50.3 & 10.8 & 5.8 & 76.8 & 39.8 & 26.1 \\
\text{MEPO (Ours)} & 48.4 & 10.7 & 5.6 & 74.7 & 38.3 & 26.1 \\
\hline
\end{array}
\]
\text{*표1: EHF 데이터셋에 대한 SOTA 전체 신체 방법과의 정량적 비교.}
4.4 Ablation Study
우리는 AGORA 데이터셋에서 다양한 실험 설정 하에 방법의 필수적인 성능 향상과 방법의 다양한 효과를 비교하여 설명합니다.
HENet: 먼저 Heatmap Enhancement Net (HENet)가 성능에 미치는 영향을 평가합니다. 세 가지 구현 간의 비교 분석을 진행합니다: 첫 번째 구현은 히트맵 정보를 전혀 포함하지 않은 기본 모델; 두 번째 구현은 이미지 특징과 히트맵 특징을 직접 연결한 모델; 세 번째 구현은 우리의 모델의 HENet 설계를 통합한 모델입니다. 이 실험 설정의 주요 목표는 두 가지입니다. 첫째, 우리는 히트맵 정보가 우리의 방법론에서 중요한 역할을 한다는 것을 입증하고자 합니다. 둘째, 우리는 제안한 HENet이 이미지와 히트맵 특징을 단순히 연결하는 것 이상의 성능 향상을 가져온다는 것을 보여주고자 합니다. 이러한 모델을 AGORA 평가 벤치마크를 통해 평가합니다.
실험 결과는 표5에 나타나 있습니다. 두 실험 모두 히트맵을 사용하는 두 가지 전략이 더 나은 성능을 보였으며, 우리의 제안한 HENet 구조가 이미지와 히트맵 특징을 단순히 연결한 것보다 더 나은 성능을 보임을 확인할 수 있습니다. 이는 히트맵이 인간 자세 추정에 유익하다는 것을 보여줍니다. 또한, 우리의 제안한 HENet이 관절 히트맵에서 전달되는 정보를 효율적으로 활용한다는 것을 증명합니다.

Depth Order Loss: 깊이 순서 손실이 모델 성능에 긍정적인 영향을 미치는지 조사하기 위해 비교 실험을 설계했습니다. 우리는 깊이 순서 손실을 추가하기 전과 후의 모델을 비교했습니다. 결과는 표에 나와 있습니다. 표에서 볼 수 있듯이, 손실을 적용한 후, 우리의 모델은 기준선보다 \( \text{MPJPE}, \text{MVE}, \text{NMJE}, \text{NMVE} \)가 더 낮습니다.

5. Conclusion and Future Work
이 논문에서는 다중 인물의 표현력 있는 자세 추정 문제를 해결하기 위한 새로운 단안, 다중 인물 3D 전체 신체 인간 자세 복원 방법인 MEPO를 제안합니다. 우리는 HENet을 사용하여 히트맵 정보를 효율적으로 추출하는 방법을 제안합니다. 모델은 깊이 맵과 깊이 순서 손실을 도입하여 깊이 인식 기능을 갖추고 있습니다. 우리의 방법은 군중 장면이나 단일 인물 사례 모두에서 효율성을 입증하였습니다. 우리의 방법은 기존의 전체 신체 자세 추정 방법과 다중 인물 자세 추정 방법을 능가합니다. 앞으로 우리는 다중 인물 전체 신체 자세 추정을 위한 일단계 방법의 가능성을 탐색할 계획입니다.

DepthNet의 작동 원리
1. 입력 이미지 처리: DepthNet은 입력 이미지 \( F_I \in \mathbb{R}^{C \times H \times W} \)를 받아들입니다. 여기서 \( C \)는 채널 수, \( H \)는 이미지 높이, \( W \)는 이미지 너비입니다.
2. IDF 브랜치: DepthNet은 두 개의 이미지 깊이 특징(IDF) 브랜치를 사용하여 깊이 정보를 추출합니다.
- 1x1 합성곱: 각 IDF 브랜치에서, 입력 이미지 \( F_I \)에 대해 1x1 합성곱을 적용하여 채널 수를 변경합니다. 이 과정은 다음과 같이 표현됩니다:
$$
F' = f_{conv}(F_I) \quad \text{(1x1 convolution)}
$$
3. 재형성: 출력된 특징 \( F' \)는 \( R^{(C \times H) \times W} \) 형태로 재형성됩니다:
$$
F'_{reshaped} = \text{reshape}(F')
$$
4. 합성곱 층 적용: 재형성된 특징에 대해 세 개의 1x1 합성곱 층을 적용하여 깊이 정보를 표현하는 새로운 형태로 변환합니다:
$$
F_{depth} = f_{conv1}(F'_{reshaped}), \quad F_{accentuated} = f_{conv2}(F'_{reshaped}), \quad F_{final} = f_{conv3}(F'_{reshaped})
$$
5. 출력 깊이 특징: 최종적으로 두 개의 깊이 특징 \( F_d \)와 강조된 깊이 특징 \( F_a \)가 생성됩니다. 이 두 특징은 서로 결합되어 최종 깊이 맵 \( F_D \)를 형성합니다:
$$
F_D = F_d \oplus F_a
$$
6. 후처리: 깊이 맵은 추가적으로 다른 네트워크 구성 요소와 결합되어 이미지의 다른 특징들과 통합됩니다. 이 과정에서 최종 깊이 인식 기능이 강화됩니다.
DepthNet의 역할
- 인스턴스의 깊이 정보 제공: DepthNet은 다중 인물 자세 추정에서 각 인스턴스의 깊이를 이해하는 데 중요한 역할을 합니다. 깊이 정보를 통해 모델은 인스턴스 간의 관계를 더 잘 이해하고, 겹침과 가림 현상을 처리할 수 있습니다.
- 정확한 자세 추정: 깊이 정보를 활용하여 모델은 더 정교하고 정확한 자세 추정을 수행할 수 있습니다. 이는 특히 복잡한 장면에서 유용합니다.