빗썸 비트코인 오지급 사태
·
케이스 스터디
빗썸 비트코인 오지급 사태의 구조적 결함과 가상자산 시장의 신뢰성 검증 2026년 2월 초 대한민국 가상자산 시장은 자산의 실질적 보유 여부와 상관없이 장부상 숫자로만 거래가 이루어지는 중앙화 거래소의 구조적 취약성을 극명하게 드러낸 초유의 사태를 목격하였다. 국내 2위 가상자산 거래소인 빗썸에서 발생한 비트코인 62만 개 오지급 사태는 단순한 운영상의 실수를 넘어 가상자산 이용자 보호법 체계 하에서의 내부 통제 수준과 오프체인 장부 관리의 위험성을 적나라하게 노출시켰다. 본 보고서는 60조 원 규모의 가공 자산이 생성된 경위를 상세히 분석하고, 투자자들이 제기한 세 가지 핵심 의문인 오프체인 관리의 한계, 거래소 파산 리스크, 비트코인 네트워크 무결성에 대한 사실 여부를 전문적 관점에서 검증하고자 한다..
[강화학습 정복하기] 11강: 게임을 넘어 현실로-인간과 소통하고 미래를 설계하는 지능
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 게임을 넘어 현실로-인간과 소통하고 미래를 설계하는 지능지금까지의 강화학습은 "점수(Reward)"를 얻기 위해 시행착오를 겪는 과정이었다. 게임에서 이기면 +1점, 지면 -1점. 이렇게 명확한 점수가 주어지는 세상에서 기계는 날아다녔다. 하지만 현실은 그렇게 친절하지 않다. 챗봇(Chatbot)이 뱉은 말이 "좋은 대답"인지 아닌지, 점수로 딱 잘라 말할 수 있는가? 바둑처럼 수많은 수가 얽히고설킨 복잡한 문제에서, 지금 이 한 수가 정말 최선인지 바로 알 수 있는가? 현대 강화학습은 바로 이 난제, "명확한 보상이 없거나, 너무 복잡해서 보상을 알기 어려운 문제"를 해결하기 위해 두 가지 방향으로 진..
[강화학습 정복하기] 10강: PPO 완벽 해부: 가장 강력하고 안정적인 표준 알고리즘
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. PPO 완벽 해부: 가장 강력하고 안정적인 표준 알고리즘 앞선 논의를 통해 우리는 정책과 가치를 결합하는 Actor-Critic 구조가 정책 그래디언트의 불안정성을 상당 부분 해결했음을 확인하였다. A2C와 A3C는 평론가(Critic)의 평가 신호를 안정화하여 배우(Actor)가 올바른 방향으로 나아가도록 도왔다. 그러나 여전히 정책 학습에는 해결되지 않은 근본적인 문제가 남아 있었다. 바로 정책 자체가 한 번의 업데이트로 너무 멀리 이동해 버리면 학습 전체가 다시 무너질 수 있다는 점이다. 학습률(Learning Rate)을 작게 잡으면 안정적이지만 속도가 느리고, 크게 잡으면 속도는 빠르지만 정책이..
[강화학습 정복하기] 9강: 배우와 평론가의 만남: Actor-Critic (A2C)과 GAE
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 배우와 평론가의 만남: Actor-Critic (A2C)과 GAE앞선 장에서 우리는 정책 그래디언트(Policy Gradient)가 이론적으로는 매우 아름답지만, 실제 현실 세계에서는 얼마나 위태로운 학습 방식인지를 확인했다. 기대값의 관점에서 보면 정책 그래디언트는 분명 정답을 향해 나아가는 올바른 나침반이다. 하지만 문제는 우리가 가진 샘플의 수가 유한하다는 데 있다. 샘플이 부족한 상황에서 계산된 그래디언트는 마치 고장 난 나침반처럼 심하게 흔들리며, 학습은 "조금 좋아졌다가 갑자기 망가지는" 롤러코스터를 반복하게 된다. Reward-to-go나 Baseline 같은 기법들을 응급 처치처럼 붙여보았..
[강화학습 정복하기] 8강: 가치에서 정책으로-REINFORCE 알고리즘과 정책 그래디언트
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 가치에서 정책으로-REINFORCE 알고리즘과 정책 그래디언트 바로 직전까지 우리는 DQN이 불안정한 학습을 견디기 위해 경험 재생, 타깃 네트워크 등 여러 공학적 장치들이 결합된 하나의 정교한 시스템임을 확인했다. 하지만 DQN을 이용한 CartPole의 막대가 아슬아슬하게 균형을 잡는 모습을 조금 더 깊이 바라보게 된다면, 자연스럽게 새로운 의문이 떠오른다. "우리는 왜 늘 같은 방식으로만 문제를 풀어왔을까?". DQN의 세계관은 명확하다. 언제나 각 행동의 가치인 $Q(s,a)$를 먼저 학습하고, 그중 예상 보상이 가장 큰 행동 하나를 선택하는 방식이다. 즉, 행동은 Q값이라는 점수판에서 파생된 결..
[강화학습 정복하기] 7강: DQN 성능 높이기-Dueling DQN 구조와 학습 안정화 팁
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. DQN 성능 높이기-Dueling DQN 구조와 학습 안정화 팁강화학습(Reinforcement Learning)이라는 용어를 처음 접할 때, 대다수의 사람들은 기계가 스스로 판단하고 학습한다는 표현에서 막연한 기대를 품는다. 마치 어린아이가 걸음마를 배우듯, 기계가 경험을 쌓아가며 점점 더 인간처럼 똑똑한 존재로 성장하는 모습을 상상하게 되는 것이다. 그러나 실제 연구 현장에서 강화학습을 다루다 보면, 연구자가 가장 먼저 마주하는 감정은 경이로움이 아니라 깊은 의심이다. 지금 눈앞의 모델이 정말로 환경을 이해하고 학습하고 있는 것인지, 아니면 단지 운 좋게 맞아떨어진 결과를 반복하고 있는 것인지 구별하..
VirtualJin
AI in the Metaverse