AI in the Metaverse

바이비트(Bybit) 거래소 2조 원대 해킹 사건

2026.02.24·

케이스 스터디

본 포스팅은 참고용으로만 활용해 주시기 바랍니다. 작성된 내용을 바탕으로 행해진 모든 행동의 결과에 대해 필자는 어떠한 법적 책임도 지지 않으며, 모든 결정의 주체는 독자 자신에게 있음을 명시합니다 2025년 2월 21일, 글로벌 가상자산 거래소인 바이비트(Bybit)에서 발생한 약 2조 1,000억 원(15억 달러) 규모의 이더리움(ETH) 탈취 사건은 현대 금융 보안 체계에 심각한 경종을 울린 사건으로 기록되었다. 이번 사태는 단순한 거래소 내부 시스템의 취약점 노출을 넘어, 전 세계적으로 가장 신뢰받던 보안 솔루션 중 하나인 멀티시그(Multisignature) 플랫폼의 공급망이 오염되면서 발생했다는 점에서 그 충격의 깊이가 남다르다. 특히 북한의 국가 지원 해킹 조직인 라자루스(Lazarus Gr..

빗썸 비트코인 오지급 사태

2026.02.10·

케이스 스터디

빗썸 비트코인 오지급 사태의 구조적 결함과 가상자산 시장의 신뢰성 검증 2026년 2월 초 대한민국 가상자산 시장은 자산의 실질적 보유 여부와 상관없이 장부상 숫자로만 거래가 이루어지는 중앙화 거래소의 구조적 취약성을 극명하게 드러낸 초유의 사태를 목격하였다. 국내 2위 가상자산 거래소인 빗썸에서 발생한 비트코인 62만 개 오지급 사태는 단순한 운영상의 실수를 넘어 가상자산 이용자 보호법 체계 하에서의 내부 통제 수준과 오프체인 장부 관리의 위험성을 적나라하게 노출시켰다. 본 보고서는 60조 원 규모의 가공 자산이 생성된 경위를 상세히 분석하고, 투자자들이 제기한 세 가지 핵심 의문인 오프체인 관리의 한계, 거래소 파산 리스크, 비트코인 네트워크 무결성에 대한 사실 여부를 전문적 관점에서 검증하고자 한다..

[강화학습 정복하기] 11강: 게임을 넘어 현실로-인간과 소통하고 미래를 설계하는 지능

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 게임을 넘어 현실로-인간과 소통하고 미래를 설계하는 지능지금까지의 강화학습은 "점수(Reward)"를 얻기 위해 시행착오를 겪는 과정이었다. 게임에서 이기면 +1점, 지면 -1점. 이렇게 명확한 점수가 주어지는 세상에서 기계는 날아다녔다. 하지만 현실은 그렇게 친절하지 않다. 챗봇(Chatbot)이 뱉은 말이 "좋은 대답"인지 아닌지, 점수로 딱 잘라 말할 수 있는가? 바둑처럼 수많은 수가 얽히고설킨 복잡한 문제에서, 지금 이 한 수가 정말 최선인지 바로 알 수 있는가? 현대 강화학습은 바로 이 난제, "명확한 보상이 없거나, 너무 복잡해서 보상을 알기 어려운 문제"를 해결하기 위해 두 가지 방향으로 진..

[강화학습 정복하기] 10강: PPO 완벽 해부: 가장 강력하고 안정적인 표준 알고리즘

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. PPO 완벽 해부: 가장 강력하고 안정적인 표준 알고리즘 앞선 논의를 통해 우리는 정책과 가치를 결합하는 Actor-Critic 구조가 정책 그래디언트의 불안정성을 상당 부분 해결했음을 확인하였다. A2C와 A3C는 평론가(Critic)의 평가 신호를 안정화하여 배우(Actor)가 올바른 방향으로 나아가도록 도왔다. 그러나 여전히 정책 학습에는 해결되지 않은 근본적인 문제가 남아 있었다. 바로 정책 자체가 한 번의 업데이트로 너무 멀리 이동해 버리면 학습 전체가 다시 무너질 수 있다는 점이다. 학습률(Learning Rate)을 작게 잡으면 안정적이지만 속도가 느리고, 크게 잡으면 속도는 빠르지만 정책이..

[강화학습 정복하기] 9강: 배우와 평론가의 만남: Actor-Critic (A2C)과 GAE

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 배우와 평론가의 만남: Actor-Critic (A2C)과 GAE앞선 장에서 우리는 정책 그래디언트(Policy Gradient)가 이론적으로는 매우 아름답지만, 실제 현실 세계에서는 얼마나 위태로운 학습 방식인지를 확인했다. 기대값의 관점에서 보면 정책 그래디언트는 분명 정답을 향해 나아가는 올바른 나침반이다. 하지만 문제는 우리가 가진 샘플의 수가 유한하다는 데 있다. 샘플이 부족한 상황에서 계산된 그래디언트는 마치 고장 난 나침반처럼 심하게 흔들리며, 학습은 "조금 좋아졌다가 갑자기 망가지는" 롤러코스터를 반복하게 된다. Reward-to-go나 Baseline 같은 기법들을 응급 처치처럼 붙여보았..

[강화학습 정복하기] 8강: 가치에서 정책으로-REINFORCE 알고리즘과 정책 그래디언트

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 가치에서 정책으로-REINFORCE 알고리즘과 정책 그래디언트 바로 직전까지 우리는 DQN이 불안정한 학습을 견디기 위해 경험 재생, 타깃 네트워크 등 여러 공학적 장치들이 결합된 하나의 정교한 시스템임을 확인했다. 하지만 DQN을 이용한 CartPole의 막대가 아슬아슬하게 균형을 잡는 모습을 조금 더 깊이 바라보게 된다면, 자연스럽게 새로운 의문이 떠오른다. "우리는 왜 늘 같은 방식으로만 문제를 풀어왔을까?". DQN의 세계관은 명확하다. 언제나 각 행동의 가치인 $Q(s,a)$를 먼저 학습하고, 그중 예상 보상이 가장 큰 행동 하나를 선택하는 방식이다. 즉, 행동은 Q값이라는 점수판에서 파생된 결..

티스토리툴바